El infinito en un junco – Entendiendo el fenómeno DeepSeek

AlanTuring · 1 Febrero, 2025 11:24

Después de que según el color e interés del medio de comunicación al que nos hayamos visto expuesto hayan zarandeado el árbol de “DeepSeek” vs “OpenAI” de izquierda a derecha hasta dejarlo sin hojas me he decidido a hacer un pequeño artículo de un tema que me apasiona, tal como se puede percibir por mi nick. Va a ser cortito y al pie, como diría Luis Aragonés o “quick & dirty” como le gustaba a @Jvas en sus años mozos, porque hacerlo exhaustivo haría que no naciera y estoy intentando cambiar esa limitación.

De Egipto a Pérgamo

Como soy un pirata, me he apropiado del título de un estupendo libro que habla precisamente sobre la historia de los libros. En uno de sus capítulos se relata la historia de que tras la invención del papiro ( Papiro - Wikipedia, la enciclopedia libre ) en Egipto como soporte para la escritura y su tremendo éxito, se impusieron vetos de uso en otros lugares para preservar la hegemonía cultural, esto unido a que su producción de papiro era cara y laboriosa , impulsó una necesidad de innovación local en Europa que acabó culminando con la invención del pergamino o la vitela, más duraderos y económicos. Más allá de la precisión histórica de la anécdota ( que ya sabemos que siempre tiene muchos matices ) , nos sirve de introducción para presentar lo que ha ocurrido con EEUU al intentar vetar sus nuevas tarjetas H100 en países como China y que, derivase como si de una obra dramática se tratase en que precisamente al mismo tiempo que se anunció el proyecto Stargate, que ha sido comparado con el proyecto Manhattan por su importancia para la humanidad, se anunciase también DeepSeek R1, un modelo de IA procedente de una startup china, un proyecto liberado bajo términos opensource ( pesos libres aunque sin datos de entrenamiento libres, que implica que puede usarse por cualquiera en sus máquinas ) que igualaba en capacidad y mejoraba tremendamente en costes y necesidad de computación al mejor modelo público del momento, el o1 de OpenAI y que para su desarrollo teóricamente ( no sabemos si es cierto ) habían usado un hardware inferior sin veto, como las tarjetas H800.

De OpenAI a DeepSeek

Sam Altman y otros grandes personajes dentro del mundo de la IA llevan años comentando que lo importante en el futuro no será tanto el modelo, si no la capacidad de computación, por lo tanto quien tenga la capacidad de computación podrá seguir iterando los nuevos modelos y sirviendo a los usuarios que hagan uso de dichos modelos. Hay otras derivadas de esta necesidad, como es la necesidad de energía barata, centros de datos eficientes etc.
Los que seguimos este mundo sabemos que los modelos de IA tienen un valor muy limitado en el tiempo, cada mes tenemos iteraciones nuevas de modelos anteriores que evolucionan y no parece existir una “secret sauce” que haga que nadie tenga una ventaja determinante en este aspecto. De hecho, más allá de las iteraciones, técnicas que parecen el futuro de la IA, como el “test time computing” escalan precisamente con mayor capacidad de cómputo ( Scaling test-time compute - a Hugging Face Space by HuggingFaceH4 ) .

Ganadores y Perdedores

Pues básicamente todo el mundo gana. Lo describía muy bien el CEO de Microsoft en X explicando la paradoja de Jevon, explicando que a medida que se “commoditiza” una tecnología la usamos cada vez más.

Empresas que desarrollan modelos cerrados como OpenAI pueden verse perjudicadas a corto plazo, sin embargo, también se benefician de la innovación y el uso masivo a medio-largo plazo, por eso Altman se ha querido asegurar capacidad de cómputo como el proyecto Stargate.

Facebook se ve perjudicada a corto por que intenta liderar el desarrollo de modelos OpenSource, la verdad es que ha dejado a sus modelo Llama en entredicho, como sabe que no es un líder en la categoría ni quiere intentar serlo, parece que su estrategia desde el inicio ha sido la de intentar causar deflación en este tipo de tecnología e intentar ser un referente para beneficiarse de la comunidad, que suele ser más innovadora y ágil. En mi opinión la IA es la pieza que les faltaba para su metaverso/realidad aumentada, donde lo más difícil es la generación de contenido que ahora se podrá automatizar en gran medida tarde o temprano.

Y así cada big tech parece tener sus propios planes, empresas como NVIDIA hasta que otras empresas como AMD no comiencen a hacer la competencia real deberían incluso reforzarse si creemos en las tesis iniciales. Apple parece agazapada sin gastar en computación, Google lanzará en breve su proyecto Astra, etc.

Finalmente, lo que está claro es que los usuarios/clientes nos beneficiamos tremendamente en esta guerra tecnológica y geopolítica, de esta carrera constante por la innovación y la liberación de modelos, que estirando la metáfora, parecen esconder el infinito en el silicio.

P.D disculpen cualquier errata/error ortográfico porque el texto salió del tirón y sin repasar, c’est la vie.

MAA · 1 Febrero, 2025 11:41

Un placer leerle y aprender con usted de forma tan clara, conceptos y reflexiones que no son nada fáciles de entender para el común de los mortales.

Ya le agradezco su tiempo para con la comunidad.

vic32 · 1 Febrero, 2025 12:12

Interesantísima entrada, muchas garcias!

Parafraseando al maestro Yoda, “difícil de predecir el futuro es …” (incluso con IA)

Lo que sí que parece es que va a ser un camino más parecido a una montaña rusa que a otra cosa, donde creo que surgirán y desaparecerán ideas (empresas) con una rapidez no vista hasta ahora pero que al final, la ley de la Naturaleza se imppondrá, como lo ha hecho desde que eramos amebas, y el pez grande se come o beneficia de/al chico.

agenjordi · 2 Febrero, 2025 10:30

Magnífico artículo. Ya puede animarse con más frecuencia.

Con la proliferación de las herramientas de Inteligencia Artificial igual no hay que sobrevalorar ni la longitud de los artículos ni su corrección en según que términos sino la capacidad de hacer pensar o de buscar aquellos aspectos que pueden ser diferenciales de algo.

Aunque bueno eso ha sido toda la vida así. Hay lecturas que tienen como aspectos positivos unos aspectos y otros tienen otros. Quizás en las redes sociales de inversión ya nos hemos acostumbrado, los que llevamos algo de tiempo, en la diferencia entre repetir mantras y tenerlos interiorizados.

Un aspecto que precisamente no suele ser indiferente en este tipo de debates, y es hasta que punto dos cosas son parecidas pero en otros aspectos pueden diferir notablemente. A veces se peca de verlas demasiado iguales y a veces se peca de verlas demasiado distintas. Especialmente cuando el conocimiento de ese tema es bastante limitado.

Efectivamente es algo común al proceso tecnológico, económico y científico.

No obstante creo que es importante no olvidar otras vertientes de dicho proceso, es decir que nos beneficie claramente como usuario final no significa que el efecto no pueda ser significativamente distinto desde el aspecto inversor o desde el aspecto laboral.

A veces el descontento general sobre ciertos cambios no viene de que uno no se haya beneficiado como usuario/cliente sino que se ha visto perjudicado en otros aspectos.
O a veces lo que se vende como beneficioso olvida la posible incidencia en esos aspectos que terminará condicionando en gran medida la opinión de alguien sobre dicho proceso.

DEDS · 2 Febrero, 2025 10:55

Enhorabuena por condensar el conocimiento en unos pocos párrafos.
Ha conseguido que aprenda algo de la IA, a pesar de mi tozudez.
Gracias por su generosidad.

MarineroFugaz · 3 Febrero, 2025 16:23

Nada más leer esta referencia futbolera sabía que me iba a gustar su post, don @AlanTuring

Y dejando ahora bromas aparte, le felicito por su post, llevo viendo titulares toda esta semana sobre IA y Deepseek, diría que demasiados, y me parece que ha explicado la narrativa bastante bien.

Lo fascinante es como, ante el baneo de chips, ante el impedimento, la startup China haya logrado sacar un modelo comparable a los grandes con una reducción del 90% de los costes de entrenamiento. Es como si, al intentar bloquear la innovación, indirectamente la potencias porque fuerzas al resto del mundo a encontrar otros caminos que, en este caso, superan el existente. Sin embargo, hace 2 semanas esto se pensaba que era algo imposible de hacer.

Insisto en agradecerle la simplicidad y explicativa que ha hecho porque hay demasiada paja y ruido fuera de este foro sobre el tema Deepseek. Es más, ya que este es el único hilo sobre dicho tema, aprovecho para compartir los dos únicos artículos que, si me preguntan sobre cómo puedo entender este fenómeno, porqué ha causado tanto revuelo, y qué puedo aprender yo de ello, recomendaría estos 2 artículos que descubrí la semana pasada:

1.- Artículo de Samuel Gil, donde hace una buena labor de reportero explicando los hechos y comprendiendo la magnitud de ellos. Acompaña todo esto con una muy buena base de IA generativa, que son los protagonistas. Lo recomiendo para novatos en IA como yo que desean tener todo el conocimiento necesario bien encapsulado en una sola columna.

2.- Artículo de José Fortes, donde se limita a explicar lo básico de la narrativa para identificar y explicar los patrones y fundamentos que nos enseña esta historia de Deepseek, explicando por qué bloquear la innovación es un error, cómo los chinos hicieron algo que hace semanas se pensaba que era imposible y la ventaja injusta que tienen las startups sobre las empresas consolidadas.

Este segundo me ha gustado más que el primero porque no entra en detalles, simplemente te dice en dos párrafos lo que ha pasado y luego viene a saco a enseñar las enseñanzas que arroja el fenómeno de Deepseek.

Y sobre esto, queda claro que la libre competencia permite que al final, los mayores beneficiados seamos los clientes y usuarios, así como la humanidad completa, pues los participantes intentarán ganar esta nueva carrera de la IA realizando las mayores creaciones posibles y reduciendo costes cada vez más.

Cojan palomitas.

agenjordi · 7 Febrero, 2025 09:18

Aunque nunca hay que menospreciar el sesgo de coste hundido y otros sesgos, hay que ver el análisis que hacen desde las grandes tecnológicas, hacen de lo que ha pasado con DeepSeek.

@Fernando señalaba hoy este comentario:

Vamos que no parecen pensar que lo que hace DeepSeek a un coste supuestamente bajo sea equivalente a lo que hacen ellos a un coste significativamente superior.

Frostilicus · 8 Febrero, 2025 18:47

Disiento, no creo que Google esté disfrutando mucho de todo esto si me permite la observación.

AlanTuring · 8 Febrero, 2025 20:42

Al principio se pensaba que la gente abandonaría la búsqueda tradicional para preguntar directamente a los modelos. En la práctica se ha visto que se sigue prefiriendo la búsqueda ( por las razones que sean ). Por ejemplo Google retiró el 70-80% de las respuestas generadas por IA que sacaba en las búsquedas por que los usuarios las ignoraban y seguían haciendo scroll.

Más allá de este tema, Google tiene una cuota tremenda y no ha perdido ni un ápice de la misma desde que todo esto comenzó, hubo una fluctuación de un 10% con Bing y OpenAI al principio pero la volvió a recuperar.

Las big tech utilizan ingenieros y programadores de manera muy intensiva, Sam Altman ya ha comentado perlas como esta:

En ese aspecto Google creo que tiene bastante que ganar. Por otro lado creo que los mayores beneficiados de la IA serán los que tengan los productos dominantes y Google lo tiene, aunque se equivoque o se quede algo rezagado acabará implementando la opción ganadora.

oriolmunoz · 10 Febrero, 2025 23:31

Google: Lo que ha sido vs lo que será.

AlanTuring · 10 Febrero, 2025 23:39

Honestamente no sé si haría mucho caso a ese tipo de personaje que pulula por X, sus explicaciones incluyen tecnicismos innecesarios o inventados e intenta adivinar el futuro con una seguridad aplastante.

Ejemplos:

Las TPUs de Google es sabido que no están ni de lejos a la par con las unidades de NVIDIA. no tanto por el hardware que es bastante bueno e incluso mejor en algunos aspectos, si no por el ecosistema de software que utilizan. Me gustaría ver sus fuentes para decir que son menos dependientes que el resto.
Todos están creando datacenters y no es por ninguna estrategia especial, simplemente son necesarios para hacer funcionar los modelos.
La cuota de búsqueda de Google sigue siendo la mayoría de su beneficio y no veo que haya cambiado, de hecho sigue aumentando.

No sé, el contenido original siempre va a tener que existir, no podemos vivir de datos sintéticos manoseados una y otra vez por modelos, veremos como evoluciona todo esto, de momento yo lo que veo es que hay preguntas que los modelos son buenos respondiendo, ahorran tiempo etc pero que la búsqueda directa tiene muchas ventajas en otros aspectos.

camacho113 · 23 Junio, 2025 15:26

@arturop nos ha contado esta semana que parece que están moviendo ficha:

Buena pregunta, y muy actual. Te doy una visión clara basada en lo que se sabe hasta mediados de 2025:

NVIDIA: El líder actual

NVIDIA sigue dominando el mercado de aceleradores para IA (GPUs y ahora NPUs) con más del 80% de cuota en centros de datos. Sus ventajas:
• Ecosistema CUDA: Un entorno maduro que miles de empresas y desarrolladores ya usan.
• Software propietario (cuDNN, TensorRT, etc.) que optimiza el rendimiento de modelos IA.
• H100 y Blackwell (B100/B200) son actualmente los chips más potentes y demandados para IA generativa.

Su problema es precisamente su monopolio de facto, lo que genera cuellos de botella y precios inflados.

⸻

AMD: La gran aspirante

AMD está empujando fuerte con sus nuevas GPU MI300X, que son competitivas en potencia bruta y tienen una mejor relación coste/rendimiento que algunas NVIDIA. Sus fortalezas:
• Compatibilidad con ecosistemas abiertos como ROCm, que poco a poco gana tracción (aunque no está tan maduro como CUDA).
• Soporte de grandes como Microsoft, Meta o Oracle, que buscan una alternativa a NVIDIA.
• Economía de escala: AMD puede competir en precio, y eso importa mucho en centros de datos.

Pero aún tiene desventajas clave:
• ROCm sigue sin estar tan optimizado o extendido como CUDA.
• Poca presencia en el segmento de entrenamiento de modelos punteros (aunque sí en inferencia y fine-tuning).

⸻

¿Qué va a pasar?
• A corto plazo (2025-2026): NVIDIA seguirá liderando. Su dominio es muy fuerte, y la adopción de AMD, aunque en aumento, todavía es minoritaria.
• A medio plazo (2027+): Si AMD logra madurar su ecosistema y captar más socios, puede erosionar la cuota de NVIDIA, especialmente si las empresas buscan alternativas más baratas y abiertas.
• Terceros jugadores como Intel (Gaudi), startups como Groq o empresas chinas también pueden fragmentar el mercado.

⸻

Conclusión
• NVIDIA no va a perder el liderazgo pronto, pero su monopolio será cuestionado cada vez más.
• AMD no será el líder inmediato, pero tiene capacidad para ser un competidor serio, especialmente si mejora su software y sigue ganando apoyo de los grandes.

¿Te interesa esto desde el punto de vista de inversión, desarrollo tecnológico, geopolítica o todo a la vez? Puedo afinar según lo que te interese más.

¿Especulamos con AMD y la metemos?