
¿Y si pudieras ejecutar modelos de IA de 70.000 millones de parámetros desde casa, sin pagar ni un céntimo a OpenAI, sin que tus datos salgan de tu red y con una velocidad de inferencia que te sorprendería? Los nuevos mini PCs con AMD Ryzen AI Max+ 395 lo hacen posible, y en esta guía te contamos cuáles comprar, cómo instalar Ollama y qué modelos puedes usar con 128 GB de RAM unificada.
¿Por qué IA local? Ventajas reales frente a la nube
Los servicios de IA en la nube como ChatGPT, Claude o Gemini son cómodos, pero tienen un coste que va mucho más allá de la suscripción mensual. Cada consulta que haces con datos de tu empresa, tus documentos personales o tu código propietario está viajando a servidores externos. Si trabajas con información sensible o simplemente valoras tu privacidad, eso es un problema difícil de ignorar.
La IA local cambia completamente el paradigma:
- Privacidad total: tus datos no salen de tu máquina, nunca.
- Sin costes recurrentes: pagas el hardware una vez y usas el modelo cuantas veces quieras.
- Sin límites de tokens ni rate limits: puedes enviar documentos enormes sin truncar.
- Personalización: puedes hacer fine-tuning, usar modelos especializados o combinar varios.
- Latencia baja: en una red local, la respuesta llega antes que desde un servidor remoto saturado.
- Funciona offline: sin internet, el modelo sigue funcionando igual.
El principal obstáculo siempre ha sido el hardware: para correr modelos grandes necesitas mucha VRAM, y las GPUs dedicadas con 24 GB o más cuestan una fortuna (o consumen decenas de vatios). El Ryzen AI Max+ 395 rompe ese esquema al integrar 40 CUs de GPU RDNA 3.5 con hasta 128 GB de memoria unificada LPDDR5X, accesible tanto por la CPU como por la iGPU a velocidades de 256 GB/s.
Si ya tienes un homelab con Proxmox, Docker o TrueNAS, este mini PC encaja perfectamente como nodo dedicado de IA. Si aún no tienes homelab, nuestra guía de Proxmox para principiantes es un buen punto de partida para empezar a entender el ecosistema.
AMD Ryzen AI Max+ 395: qué hace especial a este chip
El Ryzen AI Max+ 395 (nombre en clave Strix Halo) es el APU más potente que AMD ha lanzado para sistemas de escritorio/portátil. Sus especificaciones clave:
| Característica | Especificación |
|---|---|
| Arquitectura CPU | Zen 5, 16 núcleos / 32 hilos |
| Frecuencia CPU | Hasta 5,1 GHz (boost) |
| GPU integrada | Radeon 8060S — 40 CUs RDNA 3.5 |
| NPU (IA) | XDNA 2 — 50 TOPS |
| Rendimiento IA total | 126 TOPS combinados |
| Memoria unificada | Hasta 128 GB LPDDR5X 8000 MHz |
| Ancho de banda memoria | ~256 GB/s |
| TDP configurable | 45–120 W |
| Soporte LLM nativo | Hasta modelos 70B (int4/int8) |
Lo más relevante para IA local es el ancho de banda de memoria. Los LLMs son memory-bandwidth bound: la velocidad a la que mueves los pesos del modelo determina los tokens por segundo. Con 256 GB/s, el Ryzen AI Max+ 395 supera con creces a cualquier solución con DDR5 estándar y se acerca a las GPUs dedicadas de gama alta.
Comparativa: los mejores mini PCs con Ryzen AI Max+ 395
El mercado de mini PCs con este chip aún es relativamente nuevo (llegó a finales de 2025), pero ya hay varias opciones interesantes. Aquí tienes una comparativa con precios orientativos para España:
| Modelo | RAM | Precio aprox. | Canal | Enlace |
|---|---|---|---|---|
| GMKtec EVO-X2 | 128 GB LPDDR5X | ~1.969 € | AliExpress | Ver en AliExpress |
| GMKtec EVO-X2 | 128 GB LPDDR5X | ~1.975 € | Tienda alternativa | Ver en AliExpress |
| GMKtec EVO-X2 | 128 GB LPDDR5X | ~2.199 € | Amazon | Ver en Amazon |
| GMKtec EVO-X2 | 96 GB LPDDR5X | ~2.039 € | Amazon / AliExpress | Ver en Amazon |
| ACEMAGIC M1A PRO+ | 128 GB LPDDR5X | ~2.299 € | Web oficial / Amazon | Ver en Amazon |
| MINIX ER939-AI | 128 GB LPDDR5X | ~3.894 € | Web oficial / distribuidores | Ver en Amazon |
¿Cuál elegir?
GMKtec EVO-X2 (AliExpress, ~1.969 €): La opción más económica para los que no tienen problema con envíos internacionales y plazos algo más largos. GMKtec tiene buena reputación en el segmento mini PC y el EVO-X2 es su producto más avanzado hasta la fecha.
GMKtec EVO-X2 (Amazon, ~2.199 €): Si prefieres la comodidad del envío rápido y la garantía europea, la diferencia de ~230 € respecto a AliExpress puede ser razonable. Además tienes el respaldo de las políticas de devolución de Amazon.
GMKtec EVO-X2 96 GB (~2.039 €): Una opción curiosa: más cara que la versión AliExpress de 128 GB pero con menos RAM. Solo tiene sentido si el modelo específico que te interesa requiere 96 GB y quieres el envío rápido.
ACEMAGIC M1A PRO+: El TANK CENTRE M1A PRO+ de ACEMAGIC está diseñado específicamente para ingenieros de IA y profesionales. Tiene un diseño más robusto (chasis de aluminio premium), mejores opciones de refrigeración y viene con soporte técnico más completo. Si lo vas a usar en un entorno semiprofesional, el sobreprecio de ~330 € respecto al GMKtec puede estar justificado.
MINIX ER939-AI: La opción premium con diferencia. MINIX es conocido por su construcción excepcional y su fiabilidad a largo plazo. A ~3.894 € está en otro nivel de precio, pero si buscas un equipo para un servidor de IA en producción continua 24/7, la calidad del hardware lo respalda.
Instalación de Ollama paso a paso
Ollama es la forma más sencilla de ejecutar LLMs localmente. Gestiona la descarga de modelos, la inferencia y expone una API compatible con OpenAI. Aquí tienes el proceso completo para sistemas Linux (Ubuntu/Debian):
Paso 1: Instalar Ollama
# Instalación con script oficial (una línea)
curl -fsSL https://ollama.com/install.sh | sh
# Verificar la instalación
ollama --versionEl script detecta automáticamente la GPU disponible. En sistemas con ROCm (AMD), Ollama usará la iGPU del Ryzen AI Max+ 395 para la inferencia acelerada.
Paso 2: Instalar drivers ROCm para AMD
# Añadir repositorio AMD ROCm
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
echo "deb [arch=amd64] https://repo.radeon.com/rocm/apt/debian focal main" | \
sudo tee /etc/apt/sources.list.d/rocm.list
sudo apt update && sudo apt install rocm-hip-sdk -y
# Añadir usuario al grupo de GPU
sudo usermod -aG render,video $USER
# Verificar que la GPU es detectada
rocm-smiPaso 3: Descargar tu primer modelo
# Modelo ligero para empezar (3.8B, ~2.5 GB)
ollama pull llama3.2:3b
# Modelo equilibrado (8B, ~5 GB)
ollama pull llama3.1:8b
# El rey del 70B cuantizado (requiere 128GB)
ollama pull llama3.3:70b
# Modelo de código
ollama pull qwen2.5-coder:32bPaso 4: Ejecutar y probar
# Chat interactivo en terminal
ollama run llama3.1:8b
# Servidor API (compatible OpenAI, para Open WebUI, etc.)
ollama serve
# Consulta via API
curl http://localhost:11434/api/generate -d '{
"model": "llama3.1:8b",
"prompt": "¿Por qué el cielo es azul?",
"stream": false
}'Paso 5: Open WebUI (interfaz gráfica)
Para tener una interfaz tipo ChatGPT en tu red local, Open WebUI es la mejor opción. Puedes instalarlo con Docker en un solo comando:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:mainAccede a http://localhost:3000 (o la IP de tu mini PC en la red local) y tendrás una interfaz completa con historial de conversaciones, gestión de modelos y soporte multiusuario. Si ya usas Docker en tu homelab para otras aplicaciones, encaja perfectamente junto a tus contenedores actuales — puedes ver nuestro artículo sobre las mejores aplicaciones Docker para sacarle el máximo partido a tu configuración.
¿Qué modelos puedes usar con 128 GB de RAM?
Con 128 GB de memoria unificada tienes acceso a prácticamente cualquier modelo disponible en Ollama. La clave está en la cuantización: reducir la precisión numérica de los pesos para que quepan en memoria sin perder demasiada calidad.
Tamaños de modelo y memoria requerida
| Modelo | Parámetros | RAM (FP16) | RAM (Q8) | RAM (Q4) | Velocidad est. |
|---|---|---|---|---|---|
| Llama 3.2 | 3B | ~6 GB | ~3 GB | ~2 GB | 80-120 t/s |
| Llama 3.1 | 8B | ~16 GB | ~8 GB | ~5 GB | 60-80 t/s |
| Mistral | 12B | ~24 GB | ~12 GB | ~7 GB | 45-60 t/s |
| Qwen 2.5 Coder | 32B | ~64 GB | ~32 GB | ~19 GB | 25-35 t/s |
| Llama 3.3 / 3.1 | 70B | ~140 GB ❌ | ~70 GB | ~40 GB | 10-18 t/s |
| Qwen 2.5 | 72B | ~144 GB ❌ | ~72 GB | ~41 GB | 10-18 t/s |
Conclusión práctica: Con 128 GB en Q8 (cuantización de 8 bits), puedes correr modelos de hasta ~70B parámetros con buena calidad. Con Q4 puedes ir aún más lejos o ganar velocidad en los modelos medianos. La versión de 96 GB limita un poco: los 70B en Q8 no caben, pero Q4_K_M sí (unos 40-42 GB).
Modelos recomendados por caso de uso
- Chat general: Llama 3.3 70B Q4_K_M (mejor calidad disponible en local)
- Código: Qwen 2.5 Coder 32B Q8 o DeepSeek Coder V2
- Documentos largos: Mistral Large 2 32B (contexto de 128K tokens)
- Razonamiento: DeepSeek R1 70B Q4 (excepcional para matemáticas y lógica)
- Embeddings/RAG: nomic-embed-text (ligero, rápido)
- Multimodal (imagen+texto): LLaVA 34B, Llama 3.2 Vision
Casos de uso prácticos
1. Chatbot de empresa con datos privados (RAG)
¿Tienes documentación interna, manuales técnicos o bases de conocimiento que quieres consultar en lenguaje natural? Con Ollama + AnythingLLM o Open WebUI con RAG puedes indexar tus PDFs y hacer preguntas sobre ellos. Todo procesado localmente, sin que ningún dato salga de tu red.
# Instalar AnythingLLM via Docker
docker pull mintplexlabs/anythingllm
docker run -d -p 3001:3001 \
-v anythingllm-storage:/app/server/storage \
--name anythingllm \
mintplexlabs/anythingllm2. Asistente de código (tipo GitHub Copilot local)
Con Continue (extensión para VS Code) o Cursor conectado a Ollama, tienes un asistente de código completamente local. Qwen 2.5 Coder 32B en Q8 ofrece una calidad comparable a GPT-4o para muchas tareas de programación, sin enviar tu código a ningún servidor externo.
3. Análisis y resumen de documentos
Conecta el mini PC como servidor de IA en tu red local y úsalo desde cualquier dispositivo. Puedes automatizar el resumen de informes, la extracción de datos de facturas o la clasificación de correos electrónicos usando la API compatible con OpenAI que expone Ollama.
4. Transcripción y análisis de audio/video
Whisper (modelo de transcripción de OpenAI) corre perfectamente en este hardware. Puedes montar un servidor de transcripción local para reuniones, entrevistas o cualquier contenido audiovisual.
5. Homelab de IA para experimentación
Si ya tienes un homelab, este mini PC puede actuar como nodo dedicado de IA en tu clúster. Puedes integrarlo con Home Assistant para automatizaciones inteligentes, con Frigate para análisis de video en tiempo real, o simplemente como backend de IA para tus proyectos de desarrollo personal.
6. Servidor de IA para varios usuarios
Open WebUI soporta múltiples usuarios con cuentas separadas. Un solo GMKtec EVO-X2 puede servir como servidor de IA compartido para toda una familia o un equipo pequeño, con historial de conversaciones individual y modelos diferenciados por necesidad.
Rendimiento real: ¿qué velocidad de inferencia esperar?
Los benchmarks de ServeTheHome y Reddit muestran que el Ryzen AI Max+ 395 con 128 GB consigue aproximadamente:
- Llama 3.1 8B: 60-80 tokens/segundo (perfectamente fluido)
- Llama 3.3 70B Q4_K_M: 12-18 tokens/segundo (usable, similar a un modelo cloud bajo carga)
- Qwen 2.5 Coder 32B Q8: 25-35 tokens/segundo (muy buena para código)
- DeepSeek R1 70B Q4: 10-15 tokens/segundo (lento pero funcional para razonamiento)
Para comparación, si tuvieras una GPU dedicada RTX 4090 con 24 GB de VRAM, los modelos superiores a 24B tendrían que usar RAM del sistema (mucho más lenta), resultando en velocidades peores para los 70B. El punto fuerte del Ryzen AI Max+ 395 es precisamente que toda la memoria es rápida y está directamente accesible por la GPU.
Comparativa con otras opciones de IA local
| Opción | GPU/APU | VRAM/Memoria IA | Precio aprox. | Ventaja |
|---|---|---|---|---|
| GMKtec EVO-X2 | Ryzen AI Max+ 395 iGPU | 128 GB unificada | ~1.969 € | Compacto, silencioso, bajo consumo |
| PC con RTX 4090 | RTX 4090 | 24 GB VRAM | ~3.500+ € | Velocidad en modelos <24B |
| PC con RTX 3090 | RTX 3090 | 24 GB VRAM | ~800-1.500 € (usado) | Precio |
| Mac Studio M4 Ultra | Apple M4 Ultra | 192 GB unificada | ~5.000+ € | Más memoria, ecosistema Apple |
| Mac Mini M4 Pro | Apple M4 Pro | 64 GB unificada | ~2.200 € | Ecosistema Apple, eficiencia |
En el nicho de «máxima memoria unificada para IA local a precio razonable en Windows/Linux», el GMKtec EVO-X2 no tiene competencia real a este precio. El Mac Mini M4 Pro es más caro y tiene la mitad de RAM. El Mac Studio M4 Ultra tiene más memoria pero cuesta tres veces más.
Consumo energético y refrigeración
El Ryzen AI Max+ 395 tiene un TDP configurable entre 45 W y 120 W. Los mini PCs lo configuran típicamente en 65-80 W para equilibrar rendimiento y temperatura en chasis compactos. En uso IA intensivo espera consumos de 60-90 W en la pared, lo que es muy razonable para lo que ofrece.
Respecto al ruido: son equipos pensados para entornos de escritorio. Bajo carga de inferencia los ventiladores se escuchan, pero nada comparable a una estación de trabajo con GPU dedicada. El GMKtec EVO-X2 en particular tiene una refrigeración activa bien dimensionada para el chasis.
Conclusión: ¿merece la pena en 2026?
Si estás buscando la forma más eficiente de montar un servidor de IA local capaz de correr modelos de 70B parámetros, el GMKtec EVO-X2 con 128 GB de RAM por ~1.969 € en AliExpress es la mejor relación calidad-precio del mercado ahora mismo. No hay nada más barato que haga lo mismo.
Recomendaciones por perfil:
- Homelab entusiasta con presupuesto ajustado: GMKtec EVO-X2 desde AliExpress (~1.969 €). Paciencia con el envío, pero el ahorro es real.
- Profesional que quiere garantías europeas: GMKtec EVO-X2 en Amazon (~2.199 €). El extra por la tranquilidad del retorno fácil.
- Ingeniero de IA o entorno semiprofesional: ACEMAGIC M1A PRO+ (~2.299 €). Construcción más robusta, soporte técnico mejor.
- Uso 24/7 en producción o rack: MINIX ER939-AI (~3.894 €). La fiabilidad tiene un precio, pero es la opción correcta para entornos críticos.
Si ya tienes experiencia montando servidores en casa, este mini PC se integra sin problemas en tu infraestructura existente. Puedes ver cómo montamos nuestro servidor de IA con RTX 3090 para comparar el enfoque con GPU dedicada versus este APU.
Precios y especificaciones sujetos a cambio. Verificar en web oficial del fabricante antes de comprar. Este artículo contiene enlaces de afiliado — si compras a través de ellos, nos ayudas a mantener el blog sin coste adicional para ti.
Dejar una contestacion