Fine-tuning vs RAG: ¿cuándo usar cada uno?

Esta es la pregunta más importante antes de hacer fine-tuning. Son dos formas de personalizar un LLM con tus datos, con casos de uso distintos:

  • RAG (Retrieval-Augmented Generation): el modelo consulta tu base de conocimiento en cada respuesta. Ideal para información que cambia frecuentemente (precios, productos, FAQs). Más fácil de actualizar. Sin necesidad de reentrenar.
  • Fine-tuning: el conocimiento se "hornea" en los pesos del modelo. Ideal para adaptar el estilo de respuesta, el tono de marca o para que el modelo domine una tarea muy específica (clasificación con esquemas propios, formatos de output muy concretos).

Regla práctica: si el problema es "el modelo no sabe sobre mi empresa", usa RAG. Si el problema es "el modelo no responde como yo quiero", considera fine-tuning.

Cuándo el fine-tuning tiene sentido real

  • El modelo debe generar respuestas en un formato muy específico de forma consistente
  • Necesitas un tono de marca muy particular que el prompt no consigue de forma fiable
  • La tarea es muy específica del sector (terminología legal, médica, industrial propia)
  • Tienes cientos o miles de ejemplos de input/output de alta calidad
  • El modelo base tiene sesgos que no puedes corregir con prompting

Requisitos y costes del fine-tuning

Datos: mínimo 50-100 pares de ejemplo (input/output de calidad), idealmente 500-1.000+. La calidad importa más que la cantidad.

Fine-tuning de GPT-3.5 Turbo (OpenAI): 0,008 $/1K tokens de entrenamiento + modelos ajustados a mayor precio por uso. Un fine-tuning básico puede costar 20-100 €.

Fine-tuning de modelos open-source (Llama, Mistral): requiere GPU propia o en la nube. Más flexible pero más complejo técnicamente. Coste de cómputo: 50-500 € por run de entrenamiento.

Preguntas frecuentes

¿Puedo hacer fine-tuning de ChatGPT (GPT-4)?

Actualmente, OpenAI no ofrece fine-tuning público para GPT-4, aunque sí para GPT-3.5 Turbo y modelos más pequeños. Para personalizar GPT-4, SANCANTIA recomienda usar RAG (Retrieval Augmented Generation) junto con system prompts, logrando una adaptación efectiva en el 90% de los casos.

¿Cuánto tiempo lleva preparar los datos para fine-tuning?

La preparación de datos para fine-tuning es el proceso más intensivo, requiriendo entre 20 y 40 horas de trabajo humano para un dataset de 500 ejemplos de alta calidad. SANCANTIA optimiza esta fase, que puede extenderse de días a semanas, para asegurar la máxima eficiencia del modelo.

¿El fine-tuning hace que el modelo "recuerde" mis datos para siempre?

El fine-tuning adapta el comportamiento del modelo a los datos de entrenamiento, pero no es una base de datos actualizable en tiempo real. SANCANTIA recomienda RAG para información que cambia frecuentemente, como precios o stock, garantizando una actualización en menos de 5 segundos.

Términos relacionados

Amplía tu conocimiento con estos conceptos clave del glosario: