GPT-5 primer análisis
¿Esto era GPT-5? 👎 La verda sin marketing del esperado modelo de IA de OpenAI
OpenAI acaba de lanzar GPT-5.
Y esto es una publicación rápida para comentaros primeras impresiones y pruebas.
En realidad no era algo planeado, simplemente he estado unas horas haciendo pruebas reales, revisasndo los primeros datos y benchmarks; y en vez de dejarlo como apuntes personales he pensado compartirlo con vosotros.
En todo caso aviso ;)
❌ NO es una publicación habitual de La Mafia IA.
⚡️ Es un post rápido a modo casi de apunte personal.
🎯 Y La Mafia IA seguirá siendo una publicación más orientada a la práctica que a la teoría o información. Como sabéis no somos una newsletter de noticias IA
Pero la verdad que después de 2 años de Salman dando la matraca con GPT-5:
Creo que es difícil pasar por alto el día del lanzamiento.
Y antes de que te subas al tren del hype, quería darte mi opinión sobre el nuevo y esperado modelo.
Porque no es lo que muchos esperaban. No es lo que OpenAI quiere que creas. Pero puede que sí sea lo que ahora mismo necesitaba, al menos OpenAI.
Veámoslo…
La Realidad → GPT-5 Es Solo Un Rebranding
Antes de entrar en materia os presento al diseñador del nuevo UI de GPT-5 👇
Y ahora si, vamos directo al grano.
GPT-5 no es un nuevo modelo revolucionario. Es esencialmente la unificación de los modelos O3 y O4 que ya existían, empaquetados bajo un nombre más comercial.
OpenAI simplemente se quitó de encima el yugo de "GPT-5 cuándo, GPT-5 cuándo" y ya está.
💡Los datos técnicos reales:
1M tokens de contexto (400K para la mayoría de usuarios)
Arquitectura unificada que decide automáticamente cuándo razonar
94.6% en matemáticas avanzadas (AIME 2025)
74.9% en debugging real (SWE-bench Verified)
45% menos alucinaciones que GPT-4
Suena impresionante, ¿verdad?
Pero aquí viene la parte que no te cuentan...
Los Benchmarks
Las cartas sobre la mesa: GPT-5 No es el modelo más potente, al menos no en todo.
GPT-5 vs Grok 4:
En las comparaciones con Grok a GPT-5 se le ven las costuras y la realidad es que el nuevo modelo está detrás en tareas críticas
Humanity's Last Exam (el benchmark que realmente importa):
Grok 4: 25.4% sin herramientas
GPT-5: 24.8% (razonamiento activado)
GPT-5 (sin razonamiento): 6.3%
¿Ves el problema? Sin su modo "thinking", GPT-5 es desastroso en tareas complejas.
Arc AGI 2 (razonamiento abstracto):
Grok 4: 16%
GPT-5: 9.9%
*Grok costando 3-4 veces más. Pero el salto en capacidades lo justifica.
GPT-5 vs Gemini 2.5 Pro
Gemini 2.5 Pro: Contexto de 1M tokens vs 400K de GPT-5
En razonamiento estadístico: Gemini supera a GPT-5 según algunos tests
En programación: GPT-5 ligeramente superior
Gemini parece responder con una mejor velocidad constante
GPT-5 vs Claude 4.1
Claude parece que mantiene una pequeña ventajas en el terreno del código y programación, aunque es algo que veremos mejor los próximos días según tengamos más pruebas:
Desarrolladores prefieren Claude para proyectos largos (link)
GPT-5 mejor para tareas puntuales y "vibe coding" (link)
Claude Code sigue siendo preferido para desarrollo empresarial
Primera conclusión:
GPT-5 es competitivo, no dominante.
La Experiencia Real de los Usuarios:
Expectativas vs Realidad
👍 LO BUENO (Que Sí Es Real)
1. Unificación del Caos
Por fin acabó la pesadilla del selector de modelos. Ahora todos los usuarios acceden automáticamente a capacidades de razonamiento sin tener que entender la diferencia entre O1, O3, 4.5, etc.
Esto es genuinamente valioso para los 700 millones de usuarios que no saben optimizar ChatGPT.
2. Precio Competitivo
Más barato que GPT-4.5 por un orden de magnitud
API: $1.25 por millón de tokens (input)
Finalmente OpenAI eligió ser útil en lugar de caro
3. Capacidades de Programación Sólidas
Los desarrolladores reportan mejoras reales:
Entiende bases de código grandes
Mejor debugging que versiones anteriores
Puede crear aplicaciones completas en un prompt
👎 LO MALO (Que OpenAI Oculta)
1. Velocidad Inconsistente
Cuando activa el modo "thinking", las respuestas pueden tardar varios minutos.
Usuarios reportan esperas frustrantes, especialmente en horas pico.
2. Los Límites Gratuitos Son Una Trampa
Te prometen GPT-5 gratis
Después de X usos → GPT-5 Mini automáticamente
Límites no revelados públicamente
3. Sigue Alucinando
Simple QA benchmark:
GPT-5: 0.40 ratio de alucinaciones
GPT-4o: 0.48 ratio
Mejora del 17%. Buena, pero no espectacular.
Los Casos de Uso Donde GPT-5 Realmente Brilla ✨
1. Análisis de Documentos Masivos
Puede procesar contratos de 200+ páginas y encontrar inconsistencias que requieren horas de trabajo humano.
Aquí sí hay valor real.
2. Desarrollo de Software Empresarial
Desarrolladores reportan capacidad para refactorizar código legacy y entender arquitecturas complejas.
3. Investigación Académica
Procesa literatura extensa y genera síntesis que aceleran revisiones bibliográficas.
Donde Sigue Siendo Mediocre 🤨
1. Razonamiento Temporal Complejo
Lucha con problemas que requieren seguimiento de múltiples líneas temporales.
2. Creatividad Verdaderamente Original
Recombina elementos existentes brillantemente, pero crear conceptos genuinamente nuevos... no tanto.
3. Contexto Cultural Específico
Respuestas técnicamente correctas pero culturalmente tontas.
La Verdad Sobre Los "45% Menos Alucinaciones"
Este número viene de prompts específicos con búsqueda web activada.
La realidad:
Las alucinaciones siguen siendo un problema
Especialmente en dominios altamente especializados
El modelo suena autoritativo pero sigue equivocándose
No es la solución mágica que prometen.
⭐️ Precios API devs -¿La mejor noticia?
Aunque es verdad que con los últimos modelos Open Source y la presión de precios de estos. No es de extrañar que OpenAI haya decidido darnos una alegría en este apartado:
GPT-5 Nano: Pensada para dispositivos edge y usos que requieren ultra-baja latencia o funcionamiento offline. Es la versión más rápida, ligera y barata.
$0.05 entrada/ $0.40 salida (por millón de tokens)
Precio variable según modalidad específica y caché, siempre muy bajo.
GPT-5 Mini: Rápido y económico, útil para tareas simples y bajo coste
$0.25 entrada / $2.00 salida (por millón de tokens)
GPT-5 (estándar): Balance ideal entre rendimiento y coste. Precio:
$1.25 entrada / $10.00 salida (por millón de tokens)
Este modelo es el recomendando para uso profesional estándar y tiene contexto extendido.
GPT-5 Pro: Orientado a tareas complejas, mayor memoria y precisión. Precio:
¿Vale la Pena GPT-5 Pro a $200/mes?
Para la mayoría: NO.
Para uso general, las mejoras no justifican el precio.
Lo Que Realmente Significa Este Lanzamiento
GPT-5 representa evolución, no revolución.
La estrategia de OpenAI es clara:
Simplificar el ecosistema caótico de modelos
Hacer que más usuarios accedan a razonamiento avanzado
Competir en precio con Google y Anthropic
¿Es un mal modelo? No. Es sólido.
¿Es el salto que esperábamos? Definitivamente no.
🔥 La polémica: Los Gráficos Trucados de OpenAI
En la presentación mostraron gráficos donde el 59.8% aparecía visualmente MÁS BAJO que el 54.3%. (entre otros fallos de bulto)
Conclusiones de las primeras 24 horas
Comparado con hace 8 meses: GPT-5 es impresionante.
Comparado con la semana pasada: Es una actualización progresiva.
Y aquí está el problema de expectativas. OpenAI prometió revolución y entregó evolución.
La competencia puede estar tranquila esta noche.
Google tiene espacio para lanzar Gemini 3 la próxima semana y superar fácilmente estos números. 👀
No hay salto abismal. Solo progreso incremental.
GPT-5 es un buen modelo que:
✅ Simplifica la experiencia de usuario
✅ Mejora capacidades de programación
✅ Reduce costes significativamente
✅ Democratiza acceso a razonamiento avanzado
❌ No es revolucionario
❌ Sigue por detrás de Grok 4 en tareas complejas
❌ Tiene problemas de velocidad
❌ Los límites gratuitos son engañosos
La realidad: Es otro escalón en la progresión de LLMs, no el salto al futuro que nos vendieron.
¿Deberías usarlo? Sí, es mejor que GPT-4.
¿Deberías hypearte? No. Mantén los pies en el suelo.
Porque como siempre, el futuro llega paso a paso, no de golpe.
PD: OpenAI hizo una presentación tan mala que hasta los fanboys están decepcionados. Eso debería decirte algo sobre las expectativas vs realidad.
👀 Build in Public: desde mis vacaciones en Santander
Aprovecho esta edición rápida para desearos un buen verano y mandaros un saludo desde Santander.
Y también compartir algunos datos de La Mafia IA con vosotros:
La última edición alcanzo el top 2 de publicaciones más leídas de susbtack en España.
Ya somos 56 miembros Miembro Super Fundador de la Mafia 🎩. Cómo se anunció cuando llegáramos a 50 subíamos el precio↑. Pero dado las fechas y para tomarlo con calma, vamos a aguantar el precio lo que queda de semana. Si estás interesado no lo dejes pasar más.
Pese a estar en mitad de vacaciones La Mafia crece como un 🚀:
886 nuevos 🧑🚀 miembros últimos 30 días
1.198$ de ganancias último mes. + 245€ de patrocinios.
👍 Recomendación de La Mafia
Esta es una reseña genuina y no pagada ;)
Hoy te traigo una recomendación que puede transformar cómo te comunicas con tus clientes. Se trata de Alba de 📧 Ekho Comunicación, una experta que salva a emprendedores del mar de la indiferencia.
¿Por qué te recomiendo esto? Porque Alba tiene el don de explicar estrategias de comunicación complejas de forma simple y divertida. Sin tecnicismos aburridos. Sin teoría hueca.
🎙️ El plus: Además cada semana incluye un podcast cortito respondiendo dudas específicas.
❤️ Gracias por leer La Mafia IA.
Si te ha gustado esta edición, házmelo saber, no te olvides de dar al ♡
¿Conoces a alguien a quien le pueda ayudar esta información? → compártelo.
* Este correo fue escrito totalmente por un humano. En concreto ☝️ Alex dc ;)











No crees que a los usuarios Plus se nos ha “bajado un escalón”? Buen verano!
Muy buenas. Quiero hacer un análisis de inversión para reformar vivienda (lo típico, cambiar ventanas, paneles solares, aerotermia. Quiero chequear la normativa local y las posibles ayudas. Qué modelo recomendarías para esto? Perplexity puede ser buena opción para la búsqueda y análisis de normativas y subvenciones? Gracias!