RaMem - RAG as Memory

27 mar 2025

Potenciando modelos pequeños con RAG, llevando lo pequeño a lo grande

RaMem - Potenciando Modelos de Lenguaje Pequeños

RaMem es una apuesta por modelos pequeños pero altamente eficientes. Se trata de un Modelo de Lenguaje Pequeño (SLM, por sus siglas en inglés) que destaca por su capacidad mejorada gracias a la integración de RAG (Retrieval-Augmented Generation) como sistema de memoria.

Este enfoque aborda una de las principales limitaciones de los modelos de lenguaje: la restricción en la ventana de contexto. Al utilizar RAG, RaMem puede recuperar información relevante de manera dinámica y añadirla al contexto de la conversación, permitiendo respuestas más informadas sin necesidad de incrementar el tamaño del modelo base. Esto optimiza el uso de recursos computacionales y mejora la escalabilidad del sistema sin comprometer su rendimiento.

Limitaciones de los Modelos de Lenguaje Pequeños

Los SLM tienen muchas ventajas si hablamos de eficiencia y despliegue en entornos con recursos limitado. Sin embargo, si hablamos de sus capacidades al generar texto entre otros ámbitos presentan varias limitaciones:

Capacidad de comprensión limitada: Al tener un menor número de parámetros su capacidad para entender y generar respuestas coherentes y más detalladas es bastante reducido a comparación con modelos más grandes.
Menor generalización: A diferencia de modelos más grandes, los SLM dependen más de su entrenamiento para tareas específicas.
Lenguaje: Usualmente los SLM están entrenado en una cantidad limitada de idiomas, siendo el más común el ingles. Lo cual dificulta la interacción en otros lenguajes.

En comparación, modelos como LLaMA-70B, GPT-4 o Claude-3 cuentan con enormes ventanas de contexto y una capacidad de razonamiento más avanzada. No dependen tanto de RAG porque pueden almacenar y procesar una cantidad significativa de información en su memoria interna. Sin embargo, su entrenamiento, inferencia y mantenimiento requieren una gran cantidad de recursos computacionales, lo que los hace menos accesibles y costosos de operar.

Flujo de RaMem

RaMem sigue un flujo de trabajo para garantizar la mejor respuesta, primero se pasa por un Router que decide si se emplea una búsqueda web para obtener mayor información, de lo contrario pasa al flujo normal.

En caso se necesite hacer una búsqueda web, se activa su sistema RAG para hacer las queries, obtener los resultados relevantes y pasarle el contexto al modelo para generar la respuesta.

En caso contrario, si se ejecuta el flujo normal de trabajo, RaMem empleará sus sistema de memoria basado en RAG, consultará en su Store Index si hay contexto relevante con el prompt de entrada y en caso haya contexto se le pasa al modelo y se continúa con la generación. Ambos flujos finalizan guardando tanto el prompt inicial como respuesta del modelo en el store index para futuras consultas. El siguiente diagrama ejemplifica el proceso.

Percep3

Percep3

RaMem - Potenciando Modelos de Lenguaje Pequeños

Limitaciones de los Modelos de Lenguaje Pequeños

Flujo de RaMem