Ollama ha desatado una revolución silenciosa en Apple Silicon: la integración de MLX promete una aceleración sin precedentes para la IA local, redefiniendo la eficiencia y la capacidad de respuesta en tareas críticas.
Desde Cupertino, la plataforma líder para ejecutar modelos de lenguaje grandes (LLM) en entornos locales, Ollama, ha anunciado su versión 0.19, una actualización que marca un antes y un después para los usuarios de Apple Silicon. Esta iteración crucial integra el framework de aprendizaje automático MLX de Apple, diseñado meticulosamente para explotar la arquitectura de memoria unificada de los chips de la compañía, desde el M5 hasta el M5 Max. El resultado es una aceleración dramática en macOS, especialmente palpable en asistentes personales y agentes de codificación, donde la inmediatez es clave.
El Corazón de Silicio Desencadenado: MLX y la Arquitectura Unificada
La esencia de esta mejora reside en la optimización profunda que MLX confiere. Al construir Ollama sobre este framework, la plataforma ahora puede aprovechar al máximo los nuevos aceleradores neuronales de la GPU presentes en los chips M5, M5 Pro y M5 Max. Esto se traduce directamente en un salto cualitativo en dos métricas críticas: el tiempo hasta el primer token (TTFT) y la velocidad de generación de tokens por segundo. Las pruebas, realizadas el 29 de marzo de 2026 con el modelo Qwen3.5-35B-A3B de Alibaba cuantizado a NVFP4, revelaron un rendimiento de prellenado de 1851 tokens/s y una velocidad de decodificación de 134 tokens/s con cuantización int4, cifras que pulverizan las implementaciones anteriores de Ollama y establecen un nuevo estándar de rendimiento.
Precisión Inquebrantable: La Era del NVFP4 y la Paridad de Producción
Más allá de la integración con MLX, Ollama 0.19 introduce el soporte para el formato NVFP4 de NVIDIA. Este avance es fundamental, ya que permite mantener la precisión del modelo mientras se reducen drásticamente los requisitos de ancho de banda de memoria y almacenamiento para las cargas de trabajo de inferencia. La adopción de NVFP4 no solo garantiza respuestas de mayor calidad, sino que también empodera a los usuarios de Ollama para obtener resultados idénticos a los de un entorno de producción escalado, abriendo la puerta a la compatibilidad con modelos optimizados por el Model Optimizer de NVIDIA. Esta estandarización es un paso estratégico hacia la paridad de producción en el ecosistema de IA local, democratizando el acceso a capacidades antes reservadas para grandes infraestructuras.
La Memoria Inteligente al Servicio de la Productividad
Las mejoras no se limitan al procesamiento puro. Ollama ha renovado su sistema de caché para hacer las tareas de codificación y agenticas más eficientes y fluidas. La nueva caché exhibe una menor utilización de memoria al reutilizarla entre conversaciones, lo que se traduce en más aciertos de caché, especialmente al trabajar con prompts de sistema compartidos en herramientas como Claude Code. Se han implementado puntos de control inteligentes que almacenan instantáneas de la caché en ubicaciones estratégicas del prompt, reduciendo el procesamiento y acelerando las respuestas. Finalmente, una política de desalojo más inteligente asegura que los prefijos compartidos persistan por más tiempo, incluso cuando se descartan ramas más antiguas de la conversación, optimizando la continuidad del flujo de trabajo.
Esta versión preliminar de Ollama 0.19, ya disponible para descarga, se recomienda encarecidamente para Macs con más de 32 GB de memoria unificada, un requisito que subraya la ambición de la plataforma. La actualización acelera notablemente el nuevo modelo Qwen3.5-35B-A3B, con parámetros de muestreo ajustados específicamente para tareas de codificación. Ollama, en una colaboración estratégica con equipos como MLX, NVIDIA, GGML/llama.cpp y Alibaba Qwen, continúa su incansable labor para soportar futuros modelos y facilitar la importación de modelos personalizados, consolidando su posición como una herramienta indispensable para desarrolladores y entusiastas de la IA en el ecosistema de Apple.