El laboratorio fundado por la ex OpenAI, Mira Murati, presentó una arquitectura multimodal capaz de procesar audio, video y texto de forma simultánea. La apuesta apunta a una IA que interrumpe, responde y reacciona casi en tiempo real, acercándose más a una conversación humana que a un chatbot tradicional.
La carrera por construir asistentes de inteligencia artificial más naturales acaba de entrar en una nueva fase. Thinking Machines, la startup creada por la ex CTO de OpenAI, Mira Murati, presentó esta semana su primer gran avance tecnológico: los llamados “interaction models”, sistemas diseñados para interactuar con humanos sin las pausas artificiales que todavía dominan la mayoría de chatbots y asistentes conversacionales.
La idea central parece simple, pero implica una ruptura profunda con la arquitectura actual de los modelos generativos.
En vez de esperar a que una persona termine de hablar o escribir para responder, el sistema escucha, observa y procesa múltiples señales simultáneamente. Audio, video y texto conviven dentro del mismo flujo de inferencia.
El resultado es un modelo capaz de reaccionar en apenas 0,4 segundos y de participar en “microturnos”, una dinámica conversacional mucho más parecida a la comunicación humana cotidiana.
Ese detalle técnico cambia radicalmente la experiencia. Los modelos actuales operan como una especie de ping pong lingüístico: el usuario habla, el sistema espera, procesa y luego responde. Thinking Machines sostiene que ese esquema genera fricción y limita la sensación de naturalidad.
Sus nuevos modelos, en cambio, permanecen “presentes” durante toda la interacción. La IA puede detectar interrupciones, cambios de tono, señales visuales o contexto ambiental antes de que la interacción termine formalmente.
En términos estratégicos, el anuncio refleja hacia dónde se mueve toda la industria. Durante los últimos dos años, el foco estuvo puesto en aumentar el tamaño de los modelos y mejorar su capacidad de razonamiento. Ahora la batalla empieza a desplazarse hacia la interacción. La pregunta ya no es únicamente qué tan inteligente es un modelo, sino qué tan fluido se siente conversar con él.
La propia Thinking Machines ilustró posibles usos que parecen extraídos de la ciencia ficción cotidiana: traducción instantánea mientras alguien habla, alertas posturales cuando el usuario se encorva frente a la computadora, o asistentes capaces de seguir conversaciones complejas mientras observan el entorno visual del usuario.
El movimiento también intensifica la competencia en el terreno multimodal. Google, Meta y OpenAI ya trabajan en sistemas capaces de integrar voz, imagen y texto. Sin embargo, Thinking Machines intenta diferenciarse no tanto por la amplitud modal, sino por la latencia y la continuidad conversacional.
Esa obsesión por reducir el tiempo de respuesta no es menor. En interfaces humanas, diferencias de apenas cientos de milisegundos alteran la percepción psicológica de fluidez. Una demora de 0,4 segundos acerca el intercambio a los tiempos naturales del habla humana, donde las interrupciones y superposiciones son normales. El desafío técnico consiste en mantener precisión y coherencia mientras el modelo procesa señales simultáneas en tiempo real.
La presentación llega además en un momento delicado para el nuevo laboratorio de Murati. Desde su lanzamiento en febrero de 2025, la compañía ha estado rodeada de enorme expectativa y también de turbulencias internas, incluyendo salidas de talento hacia competidores como Meta y OpenAI.
En el fondo, Thinking Machines parece apostar a que el futuro de la IA no será textual, sino conversacional y ambiental. Menos cajas de chat y más sistemas capaces de coexistir con humanos de manera permanente, observando, escuchando y reaccionando en tiempo real.
