9 Comentarios
Avatar de User
Avatar de Edgar Otero

Una guía muy buena, Alex. Aquí la única pega que veo es que, para tener un nivel que se acerque a lo que tenemos en ChatGPT o Claude, tenemos que tirar por equipos de al menos 32 GB de RAM. Eso es algo que, para muchos, hace que la IA local deje de ser conveniente.

Es como autoalojar un servidor de archivos o de fotos. Al final, todo depende de ti: necesitas crear copias de seguridad, mantener el servidor actualizado y, además, comprarlo o montarlo. Creo que el tema de la conveniencia sigue siendo un hándicap importante hoy en día.

De todos modos, creo que en poco tiempo esto va a cambiar.

Avatar de Alex dc

Para un creador de contenido, pagar 20e por Gémini seguramente sea la opción inteligente y más afectiva. Pero para un negocio o alguien más profesional la IA local es una opción que hay que tener en cuenta ya.

Ademas también te doy parte de razón con lo de la RAM pero es algo que va a cambiar mucho con la comprensión de memoria Tueboquant. Que va a hacer que modelos muy competentes funcionen en incluso 16GB de RAM. Y que con 32GB podamos tener resultado de modelos de 120b (para los que hace poco necesitábamos 128GB)

Y no es teoría te lo digo por experiencia: Estoy haciendo una software que necesita inferencia y aunque tengo un portátil con 64GB todas las pruebas las hago con modelos que entran en cualquier ordenador con 16GB y los resultado son realmente buenos.

Avatar de Edgar Otero

Yo hace tiempo que pienso que la IA local es el futuro. Eso hará que un modelo híbrido subsista, con suscripciones que deberán bajar de precio en el momento que la IA local se cuele hasta la cocina.

El enfoque de Mistral es el que me parece más acertado. Modelos de código abierto, libres, gratis, para todo el mundo. Al tiempo, API para empresas que no quieren mantener esa infraestructura o despliegues privados.

Avatar de Carli Roletto

Excelente contenido. Hace un par de meses vengo usando el siguiente stack:

Claude Code en Antigravity pasando por ollama como ejecutor.

Es decir la interfaz es Antigravity, el motor es claude y ollama es el encendido.

Así ya he construido 2 proyectos prototipos de sistemas de ventas enfocados en lead discovery y prospección. Están aún en una fase muy básica, pero arrojando los primeros resultados satisfactorios.

Avatar de José M Galarza

La estrategia híbrida que planteas (modelos locales para el 80% + API solo para heavy lifting) es exactamente lo que estamos implementando en flujos de automatización para equipos pequeños. El cambio no es tecnológico, es mental: la mayoría sigue usando Claude o GPT por defecto para tareas donde un Qwen 3 local resuelve igual y en segundos.

Lo que más me interesa del enfoque es la privacidad como ventaja competitiva real, no como claim de marketing. En sectores como el legal, el financiero o la gestión de comunidades con datos de usuarios, el hecho de que nada salga de tu infraestructura no es un detalle: es el argumento de venta que desbloquea contratos que de otra forma son imposibles.

¿Has visto ya casos de uso donde la IA local esté siendo el factor diferenciador en propuestas a clientes empresariales, o sigue siendo mainly un ahorro de costes interno?

Avatar de Alex dc

No trabajo con clientes así que en lo personal no te puedo decir. Si que se que muchísimas startups si que usan modelos OS adaptados a su pipeline. Y que en los casos que comentas donde una empresa necesita privacidad usarlos sería ventajoso. Así todo creo que el panorama de aquí en adelante con Gemma 4 y Qween 3.6 será diferente porque ya se pueden ejecutar en equipos más o menos normales (gama alta)

Avatar de Eduardo

Gracias Alex. He instalado Gemma 4 pero me dice en el chat que no puede funcionar sin conexión a Internet, y que cualquier documento que le comparta irá a la nube para procesamiento. Entonces no veo la ventaja de privacidad al instalar este modelo "local" que realmente no funciona en local, según él mismo me dice. ¿Me estoy saltando algo importante?. Disculpa si la pregunta es muy de novato, estoy acostumbrado a trabajar con Gemini en la nube pero me gustaría tener una IA local para trabajar con documentos alojados en mi ordenador sin que tengan que salir a la nube. Saludos.

Avatar de Alex dc

algo no has hecho bien, has usado LMstudio?. si te has descargado gemma 4 y estas haciendo inferencia no puede ir a la nube.

Avatar de Eduardo

Sí, instalé LMStudio y después la versión google/gemma-4-e4b, que funciona en mi ordenador (16 Gb RAM) aunque lento. Hoy he puesto el ordenador en modo avión y gemma 4 funciona correctamente, así que no sé por qué me dijo ayer que no podría funcionar sin internet. Voy probando, de momento me está dando problemas para procesar documentos pdf que le envío, me dice que los recibe incompletos. Pero la interacción es fluida.