Se filtran documentos de un empleado de Google, asegura que OpenAI les lleva la delantera

Publicado el 5 de mayo de 2023, 0:25

El portal semianalysis ha compartido un documento interno filtrado de Google afirma que la IA de código abierto superará a Google y OpenAI. Este texto fue compartido de manera anónima en un servidor de Discord y ha concedido permiso para que sea publicado.

Semianalysis se tomó su tiempo de verificar la autenticidad del documento y encontró que las únicas modificaciones que sufrió fueron de formato y eliminación de algunos enlaces internos.  Es importante dejar en claro que lo expresado a continuación es la opinión de un empleado de Google, no es el reflejo de toda la empresa.

Por otro lado, también queremos reportar que ninguno de los expertos que han analizado el documento parece estar totalmente de acuerdo con la información publicada. Sin embargo, creemos que es importante hacer pública esta información.

A continuación te presentamos una versión traducida del inglés de la información publicada.

Donde está la verdadera competencia

será el próximo movimiento? Pero la incómoda verdad es que no estamos en posición de ganar esta carrera armamentística y OpenAI tampoco. Mientras nosotros discutíamos, una tercera facción se ha estado comiendo nuestro almuerzo en silencio.

Me refiero, por supuesto, al código abierto. En pocas palabras, nos están ganando. Cosas que consideramos "grandes problemas abiertos" ya están resueltas y en manos de la gente. Por nombrar sólo algunos:

- LLMs en un teléfono: La gente está ejecutando modelos fundacionales en un Pixel 6 a 5 tokens / seg.

- Scalable Personal AI: Puedes afinar una IA personalizada en tu computadora portátil en una tarde.

- Liberación responsable: Este no está "resuelto" tanto como "obviado". Hay sitios web enteros llenos de modelos artísticos sin restricción alguna, y el texto no se queda atrás.

- Multimodalidad: El actual SOTA multimodal de ScienceQA se entrenó en una hora.

Aunque nuestros modelos siguen teniendo una ligera ventaja en términos de calidad, la brecha se está cerrando asombrosamente rápido. Los modelos de código abierto son más rápidos, más personalizables, más privados y, libra por libra, más capaces. Hacen cosas con 100 dólares y 13.000 millones de parámetros que a nosotros nos cuestan 10 millones y 540.000 millones. Y lo hacen en semanas, no en meses. Esto tiene profundas implicaciones para nosotros:

- No tenemos ninguna salsa secreta. Nuestra mejor esperanza es aprender y colaborar con lo que otros están haciendo fuera de Google. Debemos dar prioridad a las integraciones 3P.

- La gente no pagará por un modelo restringido cuando las alternativas gratuitas y sin restricciones son comparables en calidad. Deberíamos plantearnos dónde está realmente nuestro valor añadido.

- Los modelos gigantes nos frenan. A largo plazo, los mejores modelos son aquellos

los que se pueden iterar rápidamente. Ahora que sabemos lo que es posible en el régimen de parámetros <20B, las variantes pequeñas deberían ser algo más que una ocurrencia tardía.

La amenaza del código abierto

A principios de marzo, la comunidad de código abierto tuvo en sus manos su primer modelo de fundación realmente capaz, ya que el LLaMA de Meta se filtró al público. No tenía instrucciones ni ajuste de conversación, ni RLHF. Sin embargo, la comunidad comprendió inmediatamente la importancia de lo que se le había dado.

Siguió una tremenda avalancha de innovaciones, con apenas unos días entre acontecimientos importantes (véase la Cronología para un desglose completo). Aquí estamos, apenas un mes después, y hay variantes con ajuste de instrucciones, cuantificación, mejoras de calidad, evaluaciones humanas, multimodalidad, RLHF, etc. etc. muchas de las cuales se basan unas en otras.

 

Y lo que es más importante, han resuelto el problema del escalado hasta el punto de que cualquiera puede retocarlo. Muchas de las nuevas ideas proceden de gente corriente. La barrera de entrada para la formación y la experimentación se ha reducido de la producción total de una gran organización de investigación a una persona, una tarde y un portátil robusto.

Por qué podíamos haberlo visto venir

En muchos sentidos, esto no debería sorprender a nadie. El actual renacimiento de los LLM de código abierto viene pisándole los talones al renacimiento de la generación de imágenes. Las similitudes no pasan desapercibidas para la comunidad, y muchos llaman a esto el "momento de la difusión estable" de los LLM.

En ambos casos, la participación del público a bajo coste ha sido posible gracias a un mecanismo mucho más barato de ajuste fino llamado adaptación de bajo rango, o LoRA, combinado con un avance significativo en la escala (difusión latente para la síntesis de imágenes, Chinchilla para los LLM). En ambos casos, el acceso a un modelo de calidad suficiente desencadenó una oleada de ideas e iteraciones por parte de personas e instituciones de todo el mundo. En ambos casos, la actividad superó rápidamente a la de los grandes actores.

Estas contribuciones fueron fundamentales en el ámbito de la generación de imágenes, y situaron a Stable Diffusion en una senda diferente a la de Dall-E. Contar con un modelo abierto dio lugar a integraciones de productos, mercados, interfaces de usuario e innovaciones que no se produjeron en Dall-E. El efecto fue palpable.

El efecto fue palpable: un rápido dominio en términos de impacto cultural frente a la solución OpenAI, que se volvió cada vez más irrelevante. Queda por ver si ocurrirá lo mismo con los LLM, Lo que nos perdimos

Las innovaciones que han impulsado los recientes éxitos del código abierto resuelven directamente problemas con los que aún estamos luchando. Prestar más atención a su trabajo podría ayudarnos a evitar reinventar la rueda.

LoRA es una técnica increíblemente potente a la que probablemente deberíamos prestar más atención

LoRA funciona representando las actualizaciones del modelo como factorizaciones de bajo rango, lo que reduce el tamaño de las matrices de actualización en un factor de hasta varios miles. Esto permite ajustar el modelo a una fracción del coste y del tiempo. Ser capaz de personalizar un modelo lingüístico en unas pocas horas en hardware de consumo es algo muy importante, sobre todo para las aspiraciones que implican incorporar conocimientos nuevos y diversos casi en tiempo real. El hecho de que esta tecnología exista está infraexplotado dentro de Google, a pesar de que repercute directamente en algunos de nuestros proyectos más ambiciosos.pero los elementos estructurales generales son los mismos.

Reentrenar modelos desde cero es el camino difícil

Parte de la eficacia de LoRA radica en que, al igual que otras formas de ajuste, es apilable. Mejoras como el ajuste de las instrucciones pueden aplicarse y luego aprovecharse a medida que otros colaboradores añaden diálogo, razonamiento o uso de herramientas. Aunque los ajustes finos individuales son de bajo rango, su suma no tiene por qué serlo, lo que permite que las actualizaciones de rango completo del modelo se acumulen con el tiempo.

Esto significa que, a medida que se disponga de nuevos y mejores conjuntos de datos y tareas, el modelo podrá actualizarse a bajo coste, sin tener que pagar nunca el coste de una ejecución completa.

Por el contrario, entrenar modelos gigantes desde cero no sólo desecha el preentrenamiento, sino también cualquier mejora iterativa que se haya realizado sobre ellos. En el mundo del código abierto, no pasa mucho tiempo antes de que estas mejoras dominen, haciendo que un reentrenamiento completo sea extremadamente costoso.

Debemos reflexionar sobre si cada nueva aplicación o idea necesita realmente un modelo completamente nuevo. Si realmente tenemos mejoras arquitectónicas importantes que impiden la reutilización directa de los pesos del modelo, entonces deberíamos invertir en formas más agresivas de destilación que nos permitan conservar la mayor parte posible de las capacidades de la generación anterior.

Los modelos grandes no son más capaces a largo plazo si podemos iterar más rápido en modelos pequeños

Las actualizaciones de LoRA son muy baratas de producir (~100 dólares) para los tamaños de modelo más populares. Esto significa que casi cualquiera con una idea puede generar una y distribuirla. Los tiempos de entrenamiento inferiores a un día son la norma. A ese ritmo, el efecto acumulativo de todos estos ajustes no tarda mucho en superar la desventaja inicial de tamaño. De hecho, en términos de horas de ingeniería, el ritmo de mejora de estos modelos supera con creces lo que podemos hacer con nuestras variantes más grandes, y las mejores ya son prácticamente indistinguibles de ChatGPT. Centrarnos en mantener algunos de los modelos más grandes del planeta en realidad nos coloca en desventaja.

La calidad de los datos es mejor que su tamaño

Muchos de estos proyectos ahorran tiempo entrenándose con conjuntos de datos pequeños y muy seleccionados. Esto sugiere que existe cierta flexibilidad en las leyes de escalado de datos. La existencia de estos conjuntos de datos se desprende de la línea de pensamiento de Los datos no hacen lo que uno piensa, y se están convirtiendo rápidamente en la forma estándar de realizar el entrenamiento fuera de Google. Estos conjuntos de datos se construyen utilizando métodos sintéticos (por ejemplo, filtrando las mejores respuestas de un modelo existente) y rebuscando en otros proyectos, ninguno de los cuales es dominante en Google. Afortunadamente, estos conjuntos de datos de alta calidad son de código abierto, por lo que su uso es gratuito.

Competir directamente con el código abierto es una propuesta perdedora

Este reciente avance tiene implicaciones directas e inmediatas para nuestra estrategia empresarial. ¿Quién pagaría por un producto de Google con restricciones de uso si existe una alternativa gratuita y de alta calidad sin ellas?

Y no deberíamos esperar poder ponernos al día. La Internet moderna funciona con código abierto por una razón. El código abierto tiene algunas ventajas significativas que no podemos replicar.

Les necesitamos más que ellos a nosotros

Mantener nuestra tecnología en secreto siempre ha sido una propuesta endeble. Los investigadores de Google se marchan a otras empresas con regularidad, así que podemos suponer que saben todo lo que nosotros sabemos, y seguirán sabiéndolo mientras esa vía siga abierta.

Pero aferrarse a una ventaja competitiva en tecnología se hace aún más difícil ahora que la investigación puntera en LLM es asequible. Instituciones de investigación de todo el mundo se basan en el trabajo de otras, explorando el espacio de soluciones de una forma tan amplia que supera con creces nuestra propia capacidad. Podemos intentar aferrarnos a nuestros secretos mientras la innovación exterior diluye su valor, o podemos intentar aprender unos de otros.

Las licencias no limitan a los particulares en la misma medida que a las empresas.

Gran parte de esta innovación se está produciendo sobre los lastres del modelo filtrado de Meta. Aunque esto cambiará inevitablemente a medida que mejoren los modelos verdaderamente abiertos, la cuestión es que no tienen por qué esperar. La cobertura legal que ofrece el "uso personal" y la impracticabilidad de perseguir a los individuos significa que éstos están accediendo a estas tecnologías mientras están calientes.

Ser tu propio cliente significa que entiendes el caso de uso

Si echamos un vistazo a los modelos que se están creando en el ámbito de la generación de imágenes, vemos que hay un enorme caudal de creatividad, desde generadores de anime hasta paisajes HDR. Estos modelos son utilizados y creados por personas que están profundamente inmersas en su subgénero particular, lo que aporta una profundidad de conocimiento y empatía que no podemos esperar igualar.

Apropiarse del ecosistema: Dejar que el código abierto trabaje para nosotros

Paradójicamente, el único ganador claro en todo esto es Meta. Como el modelo filtrado era suyo, se han hecho con el trabajo gratuito de todo un planeta. Como la mayor parte de la innovación de código abierto se produce sobre su arquitectura, nada les impide incorporarla directamente a sus productos.

No se puede exagerar el valor de poseer el ecosistema. La propia Google ha utilizado con éxito este paradigma en sus ofertas de código abierto, como Chrome y Android. Al adueñarse de la plataforma en la que se produce la innovación, Google se consolida como líder de pensamiento y creador de directrices, ganándose la capacidad de dar forma a la narrativa sobre ideas que son más grandes que ella misma.

Cuanto más controlamos nuestros modelos, más atractivas resultan las alternativas abiertas. Tanto Google como OpenAI se han inclinado a la defensiva hacia modelos de publicación que les permiten mantener un estricto control sobre cómo se utilizan sus modelos. Pero este control es una ficción. Cualquiera que desee utilizar los LLM con fines no autorizados puede simplemente elegir entre los modelos disponibles gratuitamente.

Google debería erigirse en líder de la comunidad de código abierto, tomando la iniciativa y cooperando con la conversación más amplia, en lugar de ignorarla. Esto probablemente signifique dar algunos pasos incómodos, como publicar los pesos de los modelos para las pequeñas variantes de ULM. Esto significa necesariamente renunciar a cierto control sobre nuestros modelos. Pero este compromiso es inevitable. No podemos pretender a la vez impulsar la innovación y controlarla.

Fuente: Semianalysis


«   »

Añadir comentario

Comentarios

Todavía no hay comentarios