
Vertex AI RAG Engine: por fin una manera flexible y sencilla de hacer RAGs.

Description of Vertex AI RAG Engine: por fin una manera flexible y sencilla de hacer RAGs.
¿Te imaginas conectar todas tus aplicaciones empresariales de forma sencilla, rápida y sin complicaciones? En el mundo actual, con un ecosistema de aplicaciones cada vez más complejo, la integración se ha convertido en una pieza clave para el éxito de cualquier empresa. En este episodio de 'Cómo conocí a nuestro Cloud', exploramos el fascinante mundo de las plataformas de integración como servicio (iPaaS) y nos adentramos en una solución de Google que promete simplificar este proceso: Vertex AI RAG Engine.
This content is generated from the locution of the audio so it may contain errors.
A la hora de construir nuestros sistemas RAG, nos enfrentamos a una difícil decisión por la gran variedad de opciones que están saliendo.
Para agruparlas un poco, podemos optar por una solución SAS como Vertex AI Engine Builder.
Otra opción es hacerlo nosotros mismos con un framework como Lanchain o Jenkins.
En el tercer grupo, podríamos meter a los sistemas de No Code, No Code en el que hacemos nuestro RAG moviendo cajitas, como LAN Flow o N8n.
Pues bien, desde hace no mucho, tenemos disponible una opción intermedia que nos permite construir nuestro RAG usando código, pero facilitándonos al extremo todas las tareas.
A mi lado, como siempre, está el gran Óscar Ferrer. Hola, Óscar.
Hola, muy buenas, Tomás.
Parece que volvemos a la IA.
Volvemos, volvemos, que no nos queda otra.
Estás escuchando ¿Cómo conocí a nuestro cloud? Yo soy Tomás Calleja y en este episodio hablaremos de RAG Engine.
Dentro intro y empezamos.
Estás escuchando ¿Cómo conocí a nuestro cloud? Un podcast en el que hablaremos sobre Google Cloud y cómo sacarle el máximo partido a los servicios que ofrece de una manera imparcial y amena.
Bueno, hoy no es un intro de Óscar porque hoy Óscar es el invitado al que vamos a entrevistar para hablar de este tema.
Vamos a estar en modo íntimo o ASMR, Óscar, si quieres hablamos más bajito.
Hablamos ahorrando.
Y cambiamos un poco de género o ponemos de moda el ASMR sobre Google.
Sí, vamos a charlar un poquito sobre este servicio que lo hemos estado probando.
Y así, para el que no lo conozca bien y para el que lo conociera pero quiera probarlo, pues a ver si le sirve como una intro, como el hola mundo del servicio para que tenga un poco de idea de dónde van los tiros.
Genial, y si encontramos a alguien aún más despistado, tipo Capitán América, que ya ha estado durmiendo muchos años, ¿podríamos empezar rápidamente diciendo que es un RAG? Venga, va. Bueno, pues como ha dicho Tomás en la intro, hoy vamos a hablar de un servicio de Google que se llama Vertex AI RAG Engine y aquello de RAG, retrieva la Augmented Generation, que básicamente es aquello que realmente todos acceden a, realmente todos hacemos ya con nuestras herramientas de ella, que es tú le das un documento y sobre ese documento tú le puedes empezar a hacer preguntas.
Entonces básicamente la manera que tú tienes de que un LLM te responda sobre preguntas que no están dentro de su base de conocimiento es utilizar un sistema RAG en el cual tú le pasas esa documentación adicional sobre tu contexto y él es capaz de utilizarla para responder a preguntas y eso es un sistema RAG.
Además facilita mucho la obtención de fuentes, de dónde ha sacado el modelo, la información y limita un poco las alucinaciones o que te busque información de otro lado al ser tú el que le das la información.
Aquí básicamente es tú le pasas las fuentes y le pasas la base de conocimiento que quieres que utilice.
Entonces pues sí, efectivamente te da cosas como el grounding, el factual, el decirte de dónde ha sacado esa información, de qué documento de los que le has pasado, incluso cuál es el párrafo, la frase que he utilizado para responderte eso.
Pero esto tampoco es novedoso ¿no? Se podría considerar ya que es una utility.
Claro, yo creo que ahí estamos justo ¿no? Para mí esto ya es BAU, o sea tener un RAG es algo que es básico para cualquier sistema.
Entonces para mí es una utility y como tal yo creo que por eso esta explosión de servicios, modalidades, plataformas para hacer RAGs como churros porque realmente ya es algo básico con lo que deberías partir de base.
Sí, de hecho ahora con los modelos estos tan grandes que lidera Gemini, por hacer un poco de publicidad, que es el que tiene el contexto de 2 millones de tokens, hay una nueva variante de estos que es el tenerlo en caché ¿no? Tienes toda tu información, se la pasas siempre, pero al tenerlo cacheado pues te ahorras un dinero y te quitas eso.
Pero aún así hay casos que no los cubre.
Claro, es verdad que nosotros esto cuando lo empezamos pues ya hace un par de años a trabajar, claro las ventajas del contexto eran súper reducidas, ya hablábamos de 8.000, incluso un poco menos, 2.000-8.000 tokens,