Microsoft lanza Phi-3-mini: se ejecuta en iPhone y tiene un rendimiento comparable al ChaGPT 3.5

Microsoft presentó un pequeño modelo de lenguaje que podría darle una oportunidad a GPT 3.5 y funcionar en un iPhone. Se llama Phi-3-mini y su principal característica es tener un rendimiento considerable pero pequeñas dimensiones, lo que lo hace atractivo para instalaciones locales en dispositivos móviles como teléfonos inteligentes.

Phi-3-mini tiene 3.800 millones de parámetros pero fue entrenado con hasta 3.300 mil millones de tokens.

El parámetro de un LLM es un valor que el modelo aprende durante el entrenamiento y está regulado por un proceso llamado “backpropagation” que implica el cálculo del error entre las predicciones del modelo, la salida real y la propia regulación de los parámetros para minimizar este error.

Los parámetros, por tanto, sirven para identificar las relaciones entre las diferentes palabras y frases del idioma, permitiendo al modelo generar resultados similares a los humanos y realizar predicciones precisas. Sin estos parámetros, un modelo de lenguaje no sería capaz de realizar tareas de procesamiento del lenguaje natural con un alto nivel de precisión.

Por tanto, generalmente, cuanto mayor sea el número de parámetros (en los LLM hablamos de miles de millones) mayor será la capacidad del modelo para relacionar las diferentes palabras de la forma exacta, aumentando la agilidad predictiva de un LLM en la construcción de una frase.

Pero la bondad de un modelo también está vinculada a la cantidad (y calidad) de los datos utilizados para su entrenamiento, por ejemplo en el caso de Phi-3-mini estamos hablando de 3.300 mil millones de tokens, es decir, palabras o trozos de palabras. Un número considerable.

Probado con éxito en un iPhone 14

En el estudio publicado por Microsoft con el que se anunció Phi-3-mini, a través de sus investigadores la empresa escribe que “Gracias a su pequeño tamaño, Phi-3-mini se puede cuantificar a 4 bits, por lo que sólo ocupa unos 1,8 GB de memoria. Probamos el modelo cuantificado en el iPhone 14 con el chip A16 Bionic, ejecutándose de forma nativa en el dispositivo y completamente fuera de línea, logrando más de 12 tokens por segundo.”.

Abrir original

La cuantificación de un LLM se refiere a sus pesos. En un LLM, los pesos determinan la importancia de cada entrada en una red neuronal y también se aprenden durante el proceso de capacitación. Cuando la red neuronal genera tokens (es decir, en el caso de los LLM, palabras y luego texto), utiliza los pesos que aprendió durante el entrenamiento para determinar qué token es el que tiene más probabilidades de generarse a continuación.

Tener pesos cuantificados reduce la precisión de estos enlaces y en consecuencia la precisión del modelo, porque en efecto se reduce la cantidad de información que el modelo puede utilizar para hacer predicciones sobre el texto a generar.

Sin embargo, reducir los pesos tiene dos ventajas: permite utilizar menos RAM y acelera las operaciones matemáticas necesarias para la inferencia, es decir, el uso real de un LLM para hacer predicciones.

Según Microsoft Phi-3-mini, que tiene una ventana de contexto de 4096 tokens (es decir, la cantidad máxima de tokens que el modelo puede procesar al mismo tiempo), tiene un rendimiento general que rivaliza con el de modelos como Mixtral 8x7B y GPT-3.5. Este último es el modelo OpenAI que aún da vida a ChatGPT en una versión gratuita.

Abrir original

Para Microsoft, el poder y la innovación de Phi-3-mini es la consecuencia de ese conjunto de datos de entrenamiento de tokens de 3.300 mil millones.que es una versión escalada de la utilizada para Phi-2, compuesta de datos web significativamente filtrados y datos sintéticos (es decir, generados artificialmente mediante algoritmos).

Microsoft también está trabajando en el Phi-3-pequeño de 7 mil millones de parámetros y en el Phi-3-medio de 14 mil millones de parámetros. Además, ya ha conseguido ampliar la ventana de contexto del Phi-3-mini hasta 128K (es decir, 128.000 tokens) gracias al uso de un “extensor” llamado LongRoPE.

Probado con éxito en un iPhone 14

Related posts