FUJITSU | Lanzamiento de «Fugaku-LLM»

Figura 1. El superordenador Fugaku de RIKEN ©RIKEN

Se desarrolló un gran modelo lingüístico con capacidad mejorada para el idioma japonés utilizando tecnología de supercomputación japonesa. Aprendizaje paralelo distribuido maximizando el rendimiento del superordenador «Fugaku». Se permite el uso comercial, lo que dará lugar a aplicaciones innovadoras de investigación y empresariales como la IA para la ciencia.

Resumen de la nota de prensa enviada por Fujitsu Limited el 10 de mayo de 2024:

https://www.fujitsu.com/global/about/resources/news/press-releases/2024/0510-01.html

Madrid, 14 de mayo de 2024 - Un equipo de investigadores de Japón ha presentado Fugaku-LLM, un gran modelo lingüístico (1) con capacidad mejorada para el idioma japonés, utilizando el superordenador Fugaku de RIKEN. El equipo está dirigido por el profesor Rio Yokota, del Instituto Tecnológico de Tokio, el profesor asociado Keisuke Sakaguchi, de la Universidad de Tohoku, Koichi Shirahata, de Fujitsu Limited, el jefe de equipo Mohamed Wahib, de RIKEN, el profesor asociado Koji Nishiguchi, de la Universidad de Nagoya, Shota Sasaki, de CyberAgent, Inc, y Noriyuki Kojima, de Kotoba Technologies Inc.

Para entrenar grandes modelos lingüísticos en Fugaku, los investigadores desarrollaron métodos de entrenamiento distribuido, incluida la portabilidad del marco de aprendizaje profundo Megatron-DeepSpeed a Fugaku con el fin de optimizar el rendimiento de Transformers en Fugaku. Aceleraron la biblioteca de multiplicación de matrices densas para Transformers y optimizaron el rendimiento de la comunicación para Fugaku combinando tres tipos de técnicas de paralelización y aceleraron la biblioteca de comunicación colectiva en la interconexión D de Tofu.

Fugaku-LLM tiene 13.000 millones de parámetros (2) y es mayor que los modelos de 7.000 millones de parámetros que se han desarrollado ampliamente en Japón. Fugaku-LLM tiene capacidades japonesas mejoradas, con una puntuación media de 5,5 en el MT-Bench japonés (3), el rendimiento más alto entre los modelos abiertos que se entrenan utilizando datos originales producidos en Japón. En concreto, el rendimiento de referencia para tareas de humanidades y ciencias sociales alcanzó una puntuación notablemente alta de 9,18.

Fugaku-LLM se entrenó con datos japoneses propios recopilados por CyberAgent, junto con datos ingleses y de otros países. El código fuente de Fugaku-LLM está disponible en GitHub (4) y el modelo en Hugging Face (5). Fugaku-LLM puede utilizarse con fines de investigación y comerciales siempre que los usuarios respeten la licencia.

En el futuro, a medida que más investigadores e ingenieros participen en la mejora de los modelos y sus aplicaciones, se mejorará la eficiencia del entrenamiento, lo que conducirá a aplicaciones empresariales y de investigación innovadoras de próxima generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA.

Antecedentes

En los últimos años, el desarrollo de grandes modelos lingüísticos (LLM) ha sido muy activo, especialmente en Estados Unidos. En particular, la rápida difusión de ChatGPT (6), desarrollado por OpenAI, ha tenido un profundo impacto en la investigación y el desarrollo, los sistemas económicos y la seguridad nacional. Otros países, además de Estados Unidos, también están invirtiendo enormes recursos humanos y computacionales para desarrollar LLM en sus propios países. Japón también necesita asegurarse recursos computacionales para la investigación de la IA y no quedarse atrás en esta carrera mundial. Hay grandes expectativas puestas en Fugaku, el sistema de supercomputación insignia de Japón, y es necesario mejorar el entorno computacional para el entrenamiento distribuido a gran escala en Fugaku para cumplir estas expectativas.

Por ello, el Instituto Tecnológico de Tokio, la Universidad de Tohoku, Fujitsu, RIKEN, la Universidad de Nagoya, CyberAgent y Kotoba Technologies han iniciado un proyecto conjunto de investigación sobre el desarrollo de grandes modelos lingüísticos.

Papel de cada institución/empresa

Instituto Tecnológico de Tokio: Supervisión general, paralelización y aceleración de la comunicación de grandes modelos lingüísticos (optimización del rendimiento de la comunicación combinando tres tipos de paralelización, aceleración de la comunicación colectiva en la interconexión D de Tofu).

Universidad de Tohoku: Recogida de datos de entrenamiento y selección de modelos

Fujitsu: Aceleración de la computación y la comunicación (aceleración de la comunicación colectiva en Tofu interconnect D, optimización del rendimiento de la paralelización de canalizaciones) e implementación del preentrenamiento y el ajuste fino tras el entrenamiento.

RIKEN: Paralelización distribuida y aceleración de la comunicación de modelos lingüísticos a gran escala (aceleración de la comunicación colectiva en Tofu interconnect D).

Universidad de Nagoya: Estudio sobre métodos de aplicación de Fugaku-LLM a la IA generativa 3D

CyberAgent: Suministro de datos de entrenamiento

Tecnologías Kotoba: Adaptación del marco de aprendizaje profundo a Fugaku

Resultados de la investigación

1. Mejora significativa del rendimiento computacional del entrenamiento de grandes modelos lingüísticos en el superordenador Fugaku.

Las GPU (7) son el hardware más utilizado para entrenar grandes modelos lingüísticos. Sin embargo, hay una escasez mundial de GPU debido a la gran inversión de muchos países para entrenar LLM. En estas circunstancias, es importante demostrar que se pueden entrenar grandes modelos lingüísticos con Fugaku, que utiliza CPU en lugar de GPU. Las CPU utilizadas en Fugaku son CPU japonesas fabricadas por Fujitsu, y desempeñan un papel importante en términos de revitalización de la tecnología japonesa de semiconductores.

Al extraer todo el potencial de Fugaku, este estudio logró aumentar la velocidad de cálculo de la multiplicación de matrices en un factor de 6, y la velocidad de comunicación en un factor de 3. Para maximizar el rendimiento del entrenamiento distribuido en Fugaku, el marco de aprendizaje profundo Megatron-DeepSpeed se portó a Fugaku, y la biblioteca de multiplicación de matrices densas se aceleró para Transformer. Para la aceleración de la comunicación, los investigadores optimizaron el rendimiento de la comunicación para Fugaku mediante la combinación de tres tipos de técnicas de paralelización y aceleraron la comunicación colectiva en la interconexión D de Tofu. El conocimiento adquirido a partir de estos esfuerzos se puede utilizar en el diseño de la infraestructura informática de próxima generación después de Fugaku y mejorará en gran medida la ventaja futura de Japón en el campo de la IA.

2. Un gran modelo lingüístico fácil de usar, abierto y seguro con 13.000 millones de parámetros

En 2023, las empresas japonesas han desarrollado muchos modelos lingüísticos de gran tamaño, pero la mayoría de ellos tienen menos de 7.000 millones de parámetros. Dado que el rendimiento de los modelos lingüísticos a gran escala suele mejorar a medida que aumenta el número de parámetros, es probable que el modelo de 13.000 millones de parámetros desarrollado por el equipo de investigación sea más potente que otros modelos japoneses. Aunque fuera de Japón se han desarrollado modelos de mayor tamaño, los grandes modelos lingüísticos también requieren grandes recursos computacionales, lo que dificulta el uso de modelos con demasiados parámetros. Fugaku-LLM es a la vez de alto rendimiento y equilibrado.

Además, la mayoría de los modelos desarrollados por empresas japonesas emplean el aprendizaje continuo (8), en el que los modelos abiertos desarrollados fuera de Japón se entrenan continuamente con datos japoneses. En cambio, Fugaku-LLM se entrena desde cero utilizando los propios datos del equipo, por lo que se puede entender todo el proceso de aprendizaje, lo que es superior en términos de transparencia y seguridad.

Fugaku-LLM se entrenó con 380.000 millones de tokens utilizando 13.824 nodos de Fugaku, y alrededor del 60% de los datos de entrenamiento eran japoneses, combinados con inglés, matemáticas y código. En comparación con los modelos que se entrenan continuamente en japonés, Fugaku-LLM aprendió gran parte de su información en japonés. Fugaku-LLM es el mejor modelo entre los modelos abiertos producidos en Japón y entrenados con datos originales. En concreto, se confirmó que el modelo muestra una alta puntuación de referencia de 9,18 en las tareas de humanidades y ciencias sociales. Se espera que el modelo sea capaz de realizar diálogos naturales basados en el keigo (habla honorífica) y otras características de la lengua japonesa.

Desarrollo futuro

Los resultados de esta investigación se están haciendo públicos a través de GitHub y Hugging Face para que otros investigadores e ingenieros puedan utilizarlos para seguir desarrollando grandes modelos lingüísticos. Fugaku-LLM puede utilizarse con fines comerciales y de investigación siempre que los usuarios respeten la licencia. Fugaku-LLM también se ofrecerá a los usuarios a través del Fujitsu Research Portal a partir del 10 de mayo de 2024.

En el futuro, a medida que más investigadores e ingenieros participen en la mejora de los modelos y sus aplicaciones, se mejorará la eficacia de la formación, lo que dará lugar a aplicaciones empresariales y de investigación innovadoras de nueva generación, como la vinculación de la simulación científica y la IA generativa, y la simulación social de comunidades virtuales con miles de IA.

Agradecimientos

Esta investigación ha contado con el apoyo de la propuesta «Desarrollo de entrenamiento paralelo distribuido para grandes modelos lingüísticos utilizando Fugaku» (número de propuesta: hp230254).

Notas

- [1] Modelo de lenguaje de gran tamaño : Modela la probabilidad con la que aparece un texto y puede predecir el texto (respuesta) que sigue a un contexto dado (consulta).

- [2] Parámetro : Medida del tamaño de una red neuronal. Cuantos más parámetros, mayor es el rendimiento del modelo, pero más datos se necesitan para el entrenamiento.

- [3] MT-Bench japonés : Prueba de referencia proporcionada por Stability AI.

- [4] GitHub : Plataforma utilizada para publicar software de código abierto

- [5] Hugging Face : Plataforma utilizada para publicar conjuntos de datos de IA

- [6] ChatGPT : Un gran modelo lingüístico desarrollado por OpenAI, que ha provocado un gran cambio social, superando los 100 millones de usuarios en unos dos meses tras su lanzamiento.

- [7] GPU : Originalmente producido como un acelerador para gráficos, pero recientemente se ha utilizado para acelerar el aprendizaje profundo.

- [8] Aprendizaje continuo : Método para realizar un entrenamiento adicional en un gran modelo lingüístico que ya ha sido entrenado. Se utiliza para entrenar modelos lingüísticos en diferentes idiomas o dominios.

Contactos de Prensa:

Fujitsu

José Manuel Rodríguez

e-mail: josemanuel.rodriguezgil@fujitsu.com

Maria José Álvarez. T: 630074039.

e-mail: mj@gpscom.com

Acerca de Fujitsu

El propósito de Fujitsu es contribuir a crear un mundo que sea más sostenible generando confianza en la sociedad a través de la innovación. Como socio de transformación digital elegido por clientes de más de 100 países, nuestros 124.000 empleados trabajan para resolver algunos de los mayores retos a los que se enfrenta la humanidad. Nuestra gama de servicios y soluciones se basa en cinco tecnologías clave: Computación, Redes, IA, Datos y Seguridad, y Tecnologías Convergentes, que unimos para ofrecer una transformación sostenible. Fujitsu Limited (TSE:6702) registró unos ingresos consolidados de 3,7 billones de yenes (28.000 millones de dólares) en el ejercicio fiscal finalizado el 31 de marzo de 2024 y sigue siendo la primera empresa de servicios digitales de Japón por cuota de mercado. Más información: https://www.fujitsu.com/

Compromiso de Fujitsu con los Objetivos de Desarrollo Sostenible (ODS)

Los Objetivos de Desarrollo Sostenible (ODS) adoptados por las Naciones Unidas en 2015 representan un conjunto de objetivos comunes que deben alcanzarse en todo el mundo en el 2030. El propósito de Fujitsu - "hacer que el mundo sea más sostenible fomentando la confianza en la sociedad a través de la innovación"- es una promesa de contribuir a la visión de un futuro mejor potenciada por los ODS.

Últimas noticias