Ryzen AI Max: ejecución local de modelos de IA de hasta 128B

Ryzen AI Max ya había marcado territorio en la frontera entre rendimiento portátil y cómputo de inteligencia artificial local. Pero con la llegada de una nueva actualización de software, esa línea se ha desplazado una vez más. Lo que antes parecía reservado a servidores especializados o estaciones de trabajo, ahora se ejecuta en un portátil ultraligero. No es un lanzamiento nuevo, sino una ampliación decisiva de lo que esa APU ya era capaz de hacer. Y, con ella, se redefine lo que cabe esperar de un sistema personal cuando se habla de inteligencia artificial generativa.

La mejora llega a través de una actualización de software. Con la última versión de AMD Software: Adrenalin Edition 25.8.1 WHQL, el Ryzen AI MAX+ 395 128GB, una APU ya disponible dentro de la familia Strix Halo, y que vimos hace unos meses en el ASUS ROG Flow Z13 2025, ha recibido soporte para ejecutar de forma local modelos de hasta 128.000 millones de parámetros. Este procesador combina una NPU XDNA 2 dedicada a tareas de inteligencia artificial, una CPU de hasta 16 núcleos Zen 5, y una GPU integrada Radeon 8060s con 40 unidades de cómputo RDNA 3.5, capaz de asignar hasta 96 GB de memoria gráfica variable para tareas de IA avanzada. Lo significativo no es el chip en sí, sino el salto funcional que ha supuesto esta actualización, que redefine el papel de esta APU en el ecosistema de cómputo local de inteligencia artificial.

Entre los modelos compatibles destacan nombres que, hasta ahora, solo podían ejecutarse de forma remota o en entornos especializados: Llama 4 Scout 109B (con 17B activos), Mistral Large 123B, Google Gemma 3 27B, Qwen3 30B/32B, DeepSeek R1 y derivados de Llama 3.3. Todos ellos pueden desplegarse en LM Studio, aprovechando las capacidades del nuevo procesador y el software AMD Adrenalin Edition 25.8.1 WHQL, ya disponible. Esta combinación permite llevar a cabo inferencias locales a una velocidad de hasta 15 tokens por segundo en algunos modelos, aunque se advierte de que las cifras son estimadas y dependen del contexto.

Uno de los elementos más destacados es la gestión de contexto ampliado. El Ryzen AI Max+ permite ejecutar modelos con longitudes de contexto de 32.000, 128.000 o incluso 256.000 tokens, aprovechando tecnologías como Flash Attention y KV Cache en cuantización Q8. Esto resulta especialmente relevante para casos de uso complejos, como agentes multiacción o entornos de automatización, donde las instrucciones y las respuestas deben mantenerse en memoria durante sesiones prolongadas. AMD estima que su sistema puede gestionar hasta 21 llamadas de herramientas en paralelo dentro de un único contexto, gracias al uso optimizado de memoria gráfica y la arquitectura escalable del procesador.

Todo esto se articula en torno a un ecosistema de herramientas en expansión. LM Studio actúa como interfaz principal para cargar, ajustar y ejecutar modelos, mientras que el entorno de desarrollo es compatible con implementaciones diversas a través de contenedores Docker. Llama.cpp actúa como base de inferencia, y la plataforma soporta múltiples niveles de cuantización y formatos adaptativos para la gestión de memoria. AMD insiste en que se requiere un buffer adicional de al menos 2 GB por encima del mínimo teórico para cada modelo, especialmente en los modos de precisión más altos.

Junto a las capacidades técnicas, AMD ha querido mostrar también un ecosistema práctico de agentes MCP (Multimodal Command Pipeline), preparados para funcionar con estos modelos. Entre ellos se encuentran integraciones oficiales con herramientas como Microsoft Playwright (navegación), SEC EDGAR y Arxiv (API), Shopify y GitHub (productividad), así como agentes diseñados para automatización, dashboards, seguridad y búsqueda. Algunos de estos agentes requieren contextos de hasta 200.000 tokens, lo que ilustra la necesidad de una plataforma local potente como la que se presenta con Ryzen AI Max+.

Más allá del despliegue técnico, hay una lectura de fondo que merece atención. La posibilidad de ejecutar IA avanzada de forma local no es solo una cuestión de eficiencia: es también una cuestión de soberanía tecnológica, de privacidad, de control sobre los datos y sobre las capacidades. Si esta tendencia se consolida, el papel del ordenador personal podría adquirir una dimensión nueva, menos dependiente de servidores remotos y más centrada en el poder de cómputo directo. Y eso, sin duda, reconfigura el mapa de lo que entendemos por inteligencia artificial en el día a día.

Más información

La entrada Ryzen AI Max: ejecución local de modelos de IA de hasta 128B se publicó primero en MuyComputer.

Deja un comentarioCancelar respuesta