Interfaze

Beta

pricing

help

docs

blog

Get Started

Introduction

Examples

Vision

OCR (Image & Document)

Object Detection

GUI Detection

Web

Scraping

Audio

Speech-to-Text (STT)

Speaker Diarization

Translation

Code Sandboxing

Guardrails

Concepts

Precontext

Run Tasks

Structured Outputs

Reasoning

Streaming

Function Calling

Handling Files

Resources

Lowering costs & improving speed

Limits

Security

Supported Languages

FAQs

Projects

Interfaze as tools

Postgres LLM

Integrations

OpenAI SDK

Vercel AI SDK

Langchain SDK

n8n Integration

API Reference

Chat Completion API

Translation

copy markdown

Accurately translate any text, conversation or document to any language while maintaining the context, tone and locality.

View all 100+ supported languages
Context and tone preserving translation
Mixed language and RTL language

Basic text translation

OpenAI SDK

Vercel AI SDK

LangChain SDK

import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";

const TranslationSchema = z.object({
	translated_text: z.string(),
	translated_text_iso_code: z.string(),
	original_text_iso_code: z.string(),
});

const response = await interfaze.chat.completions.create({
	model: "interfaze-beta",
	messages: [
		{
			role: "user",
			content:
				"Translate the following text into French: 'The UK drinks about 100–160 million cups of tea every day, and 98% of tea drinkers add milk to their tea.'",
		},
	],
	response_format: zodResponseFormat(TranslationSchema, "translation_schema"),
});

console.log(response.choices[0].message.content);

//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("Translation Results:", precontext?.[0]?.result);

JSON output

{
  "object": {
    "translated_text": "Le Royaume-Uni boit environ 100–160 millions de tasses de thé chaque jour, et 98 % des buveurs de thé ajoutent du lait à leur thé.",
    "translated_text_iso_code": "fr",
    "original_text_iso_code": "en"
  },
  "response": {
    "id": "interfaze-1775180864844",
    "modelId": "interfaze-beta",
    "body": {
      "id": "interfaze-1775180864844",
      "object": "chat.completion",
      "model": "interfaze-beta",
      "usage": {
        "prompt_tokens": 2440,
        "completion_tokens": 182,
        "total_tokens": 2622
      },
      "vcache": false,
      "precontext": [
        {
          "name": "translate",
          "result": {
            "translated_text": "Le Royaume-Uni boit environ 100–160 millions de tasses de thé chaque jour, et 98 % des buveurs de thé ajoutent du lait à leur thé.",
            "source_language": "en",
            "target_language": "fr",
            "batch_size": 1
          }
        }
      ]
    }
  },
  "finishReason": "stop",
  "usage": {
    "inputTokens": 2440,
    "outputTokens": 182,
    "totalTokens": 2622
  }
}

Audio translation

OpenAI SDK

Vercel AI SDK

LangChain SDK

import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";

const STTSchema = z.object({
	translated_text: z.string().describe("translated text"),
	original_language_code: z.string(),
	translated_language_code: z.string(),
});

const response = await interfaze.chat.completions.create({
	model: "interfaze-beta",
	messages: [
		{
			role: "user",
			content: "Transcribe the audio file and translate it to chinese https://r2public.jigsawstack.com/interfaze/examples/stt_medical_short.mp4",
		},
	],
	response_format: zodResponseFormat(STTSchema, "stt_schema"),
});

console.log(response.choices[0].message.content);

//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("STT Results:", precontext?.[0]?.result);

JSON output

{
  "object": {
    "translated_text": "我刚开始服用一轮阿莫西林，想问一下把它和我目前的螺内酯处方一起服用是否安全。",
    "original_language_code": "en",
    "translated_language_code": "zh"
  },
  "response": {
    "id": "interfaze-1775088833045",
    "modelId": "interfaze-beta",
    "body": {
      "id": "interfaze-1775088833045",
      "object": "chat.completion",
      "model": "interfaze-beta",
      "usage": {
        "prompt_tokens": 2758,
        "completion_tokens": 800,
        "total_tokens": 3558
      },
      "precontext": [
        {
          "name": "stt",
          "result": {
            "text": "I just started a round of amoxicillin and I wanted to ask if it was safe to take that with my current spironolactone prescription.",
            "chunks": [
              {
                "timestamp": [0.28, 4],
                "text": "I just started a round of amoxicillin and I wanted to ask"
              },
              {
                "timestamp": [4, 7.72],
                "text": "if it was safe to take that with my current spironolactone prescription."
              }
            ]
          }
        },
        {
          "name": "translate",
          "result": {
            "translated_text": "我刚开始服用一轮阿莫西林，想问一下把它和我目前的螺内酯处方一起服用是否安全。",
            "source_language": "auto-detected",
            "target_language": "zh",
            "batch_size": 1
          }
        }
      ]
    }
  },
  "finishReason": "stop",
  "usage": {
    "inputTokens": 2758,
    "outputTokens": 800,
    "totalTokens": 3558
  }
}

You can reference the precontext to get the raw results from the model for both the STT and translation processes.

Document translation

OpenAI SDK

Vercel AI SDK

LangChain SDK

const response = await interfaze.chat.completions.create({
	model: "interfaze-beta",
	messages: [
		{
			role: "user",
			content: "Translate this document to spanish in markdown format: https://arxiv.org/pdf/2602.04101",
		},
	],
});

console.log(response.choices[0].message.content);

//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("Translation Results:", precontext?.[0]?.result);

Markdown output

# Interfaze: El futuro de la IA se construye con modelos pequeños específicos para tareas

**Resumen** — Presentamos Interfaze, un sistema que trata las aplicaciones modernas de LLM como un problema de construir y actuar sobre el contexto, no solo de elegir el modelo monolítico correcto. En lugar de un único transformador, combinamos (i) una pila de DNN heterogéneos emparejados con modelos de lenguaje pequeños como módulos de percepción para OCR que implican PDFs complejos, gráficos y diagramas, y ASR multilingüe con (ii) una capa de construcción de contexto que rastrea, indexa y analiza fuentes externas (páginas web, código, PDFs) en un estado estructurado compacto, y (iii) una capa de acción que puede navegar, recuperar, ejecutar código en una sandbox y controlar un navegador sin interfaz para páginas web dinámicas. Un controlador ligero se sitúa sobre esta pila y expone un único endpoint al estilo OpenAI: decide qué modelos pequeños y acciones ejecutar y siempre reenvía el contexto destilado a un LLM seleccionado por el usuario que produce la respuesta final.

En esta arquitectura, Interfaze-Beta alcanza 83.6% en MMLU-Pro, 91.4% en MMLU, 81.3% en GPQA-Diamond, 57.8% en LiveCodeBench v5 y 90.0% en AIME-2025, junto con sólidas puntuaciones multimodales en MMMU (val) (77.3%), AI2D (91.5%), ChartQA (90.9%) y Common Voice v16 (90.8%). Mostramos que la mayoría de las consultas son manejadas principalmente por los modelos pequeños y la pila de herramientas, con el LLM grande operando solo sobre el contexto destilado, lo que produce una precisión competitiva mientras desplaza la mayor parte del cómputo lejos de los modelos monolíticos más caros.

Trabajos recientes formalizan partes de este panorama. El enrutamiento híbrido y las cascadas estudian cuándo un modelo pequeño es “lo suficientemente bueno” y cuándo escalar a uno mayor, usando estimaciones aprendidas de dificultad y políticas conscientes del costo [1]-[4]. Los LLMs aumentados con herramientas muestran mejoras cuando el modelo puede llamar APIs, buscar y ejecutar código [5]-[8], [22]. En paralelo, los modelos de lenguaje pequeños se usan como especialistas plug-in para recuperación, reranking y razonamiento específico de dominio, y como modelos compactos para entornos edge [17]-[20], [23]. Sin embargo, la mayoría de estos sistemas se describen desde la perspectiva del modelo grande o del router. El diseño concreto de la pila de modelos pequeños, es decir, qué DNN manejan la percepción y la clasificación, cómo se filtran y combinan sus salidas y cómo se interconectan con scrapers e índices, suele ser abstraído tras llamadas genéricas a “herramientas”, lo que dificulta reproducirlos o ver qué partes impulsan realmente las mejoras en tareas multimodales y de contexto largo.

Adoptamos una perspectiva de sistemas. Tratamos el LLM moderno y la pila de herramientas como sistemas para construir y actuar sobre el contexto, y hacemos que los DNN pequeños y los SLM que construyen este contexto sean ciudadanos de primera clase. Interfaze es una arquitectura centrada en el contexto con tres partes:

I. INTRODUCCIÓN
Los LLMs de propósito general tienen una amplitud impresionante, pero los sistemas desplegados necesitan más que la predicción del siguiente token. Deben ver el mundo (OCR, detección de objetos, reconocimiento de voz, clasificación), construir y mantener un contexto externo (índices, cachés, código, herramientas) y luego razonar sobre ese contexto.
Ejecutar un único modelo de frontera sobre entradas en bruto: un PDF completo, un archivo de audio largo o un sitio web completo a menudo no es económico ni robusto [2], [3]. Los benchmarks que enfatizan el razonamiento y la comprensión multimodal en lugar de la memorización (MMLU-Pro, GPQA-Diamond, AIME-2025, MMMU, AI2D, ChartQA, Common Voice) explicitan esta brecha [10], [12]-[16], [26].

En la práctica, los sistemas de producción ya consisten en redes neuronales profundas y herramientas heterogéneas. Las backbones de visión manejan la detección y segmentación de objetos; los modelos de documentos impulsan el OCR y el análisis de diseño; las pilas de ASR y diarización transcriben y segmentan el audio; los sistemas de recuperación y los clasificadores ligeros controlan la búsqueda, la seguridad y el enrutamiento de dominios [24], [26]. Los modelos de lenguaje grandes suelen estar al final de esta cadena: se les pide que razonen sobre salidas estructuradas en lugar de píxeles u ondas. Contribuimos con lo siguiente:
Aceptado en IEEE Conference on Artificial Intelligence (CAI) 2026.

- una arquitectura de sistema centrada en el contexto que trata los DNN y SLM pequeños para la percepción y recuperación como componentes de primera clase en lugar de herramientas opacas, si es que se modelan.
- una instanciación concreta, Interfaze-Beta, que integra OCR, análisis de gráficos/diagramas, ASR/diarización, recuperación y una sandbox detrás de un único endpoint,
- un estudio empírico que muestra que esta pila logra resultados competitivos o de última generación en benchmarks desafiantes de razonamiento y multimodalidad, manteniendo la mayor parte del cómputo en modelos pequeños, y
- un análisis de las limitaciones de la estrategia actual del controlador y la construcción de contexto, destacando el retraso y la sobreconstrucción de contexto como objetivos principales para futuros trabajos.

II. REVISIÓN DE LA LITERATURA

A. El contexto es clave
Trabajos recientes sugieren que la forma en que se selecciona y organiza el contexto importa más que simplemente aumentar un modelo o su ventana. Un estudio de Databricks sobre preguntas y respuestas financieras y corporativas varía tanto el recuento de documentos recuperados como la longitud del prompt para modelos de contexto largo como GPT-4 Turbo y Claude 2, y observa ganancias solo mientras el texto recuperado permanece denso y relevante; una vez que dominan los pasajes poco relacionados, la calidad se degrada incluso cuando el contexto completo encaja [45]. En preguntas y respuestas legales, Hron informa un patrón similar: alimentar expedientes completos a veces supera a RAG ingenuo sobre pequeños fragmentos, pero el rendimiento aún disminuye en documentos muy largos con evidencia dispersa [46]. Xu et al. muestran que ventanas de contexto moderadas combinadas con recuperación pueden igualar o superar líneas base más grandes de contexto largo, como se muestra en la Tabla I, en benchmarks de conocimiento y razonamiento [47]. Juntos, estos resultados argumentan que el contexto debe ser filtrado, estructurado y presupuestado. Extendemos esta visión construyendo un estado estructurado compacto basado en esquemas a partir de modelos de percepción y recuperación antes de invocar cualquier LLM.

B. Dónde el enrutamiento se queda corto
El trabajo de enrutamiento híbrido pregunta qué LLM llamar y cuándo un modelo más pequeño es "suficientemente bueno". FrugalGPT propone cascadas conscientes del costo sobre modelos propietarios [2]; Hybrid LLM agrega un enrutador que predice la dificultad de la consulta y enruta entre un modelo pequeño local y un modelo en la nube más grande [3]; Universal Model Routing generaliza esta idea a pools de expertos cambiantes [4]; y las arquitecturas enrutadas muestran que muchos expertos pueden permanecer inactivos a menos que se activen explícitamente [1]. En casi todos los casos, los expertos son LLM solo de texto de diferentes tamaños y precios. La visión, el habla, el OCR y la recuperación se tratan como utilidades fijas, si es que se modelan. Esto deja abierta la cuestión de cómo enrutar una pila heterogénea de DNN, o cuánto de la calidad y el costo son impulsados por la percepción y la construcción del contexto en lugar de por el LLM final. Nos alejamos del enrutamiento hacia esta pila más amplia: el controlador elige cadenas de herramientas sobre OCR, ASR, análisis de diagramas, recuperación y código en sandbox, mientras que el LLM final es un respondedor fijo sobre el contexto construido.

C. Herramientas y composición de modelos
Una segunda línea de trabajo estudia los LLM que llaman a herramientas externas. Toolformer demuestra que un modelo grande puede etiquetar sus propios datos de entrenamiento con llamadas a API y aprender cuándo invocar calculadoras, búsqueda o sistemas de traducción [5]. HuggingGPT trata un modelo grande como un planificador sobre un registro de modelos especialistas alojados en Hugging Face [6]. Los patrones de prompting como ReAct intercalan pasos de razonamiento con llamadas explícitas a herramientas [7], y marcos como Chameleon tratan modelos y herramientas como módulos componibles organizados en pequeñas pipelines o árboles [8]. Las encuestas resumen los patrones de diseño emergentes y los modos de falla en dichos sistemas [22]. En la mayor parte de este trabajo, las herramientas se definen solo por firmas de función de alto nivel; las DNN subyacentes para OCR, análisis de gráficos y diagramas, ASR y recuperación se abstraen. Esto dificulta ver qué partes de la pila de percepción son importantes para benchmarks como AI2D, ChartQA, MMMU o Common Voice, donde la lectura confiable de diagramas, gráficos y voz es el desafío principal [14]-[16], [26]. Interfaze mantiene la interfaz de herramientas pero trata estos modelos de percepción y recuperación como componentes de primera clase, especificando cómo se conectan a los crawlers e índices y cómo se fusionan sus salidas en un esquema compartido.

D. Modelos de lenguaje pequeños y especialización
Una línea complementaria argumenta que los modelos de lenguaje pequeños (SLM) pueden ser especialistas efectivos. Schick y Schütze demuestran que los modelos pequeños pueden actuar como fuertes aprendices de pocas oportunidades en tareas estrechas con el prompting y la calibración adecuados [19], [41]. Trabajos posteriores utilizan modelos compactos como componentes plug-in para la recuperación y el ranking, mejorando sistemas más grandes en subtareas específicas incluso cuando los modelos pequeños no son competitivos como modelos de chat generales [20]. Flipping Knowledge Distillation utiliza pequeños expertos de dominio para transferir sus fortalezas a generalistas más grandes [21], y documentos de posición recientes argumentan que para muchos flujos de trabajo agentic o con muchas herramientas, los modelos pequeños son atractivos debido a la menor latencia y energía. MobileBERT hace el mismo argumento para el uso móvil y de borde [23]. El trabajo clásico de compresión como DistilBERT y despliegue [17], [18]. Menos explorado es cómo organizar sistemas en los que los SLM manejan la mayor parte del trabajo de percepción y construcción de contexto a través de modalidades, en lugar de solo clasificación o reranking. Interfaze aborda esta brecha: en Interfaze-Beta, los DNN y SLM compactos manejan OCR y diseño de documentos, análisis de gráficos y diagramas, reconocimiento y diarización de voz, y clasificación ligera, mientras que el LLM grande solo ve el contexto destilado producido por estos especialistas.

III. ARQUITECTURA DE INTERFAZE-BETA
Interfaze-Beta tiene cuatro componentes: una etapa de ingreso, una pila de modelos pequeños y percepción, una capa de construcción de contexto y una capa de acción con un controlador ligero.

A. Resumen del sistema
Una consulta de usuario entra como una solicitud x que puede contener texto, imágenes, audio o referencias como URLs o documentos. La etapa de ingreso normaliza la entrada, detecta modalidades y ejecuta comprobaciones rápidas de seguridad e intención. La pila de modelos pequeños procesa el contenido en bruto (OCR y diseño para documentos, detección y análisis para imágenes, ASR para audio y clasificadores para dominio, tema y riesgo). La capa de contexto fusiona estas salidas con índices de web, código y documentación en un estado estructurado c(x). Finalmente, la capa de acción selecciona una secuencia de llamadas a herramientas y pasa el estado destilado a un LLM configurado que devuelve la respuesta.

Los LLM grandes nunca ven píxeles en bruto, formas de onda o sitios web completos. Solo ven c(x) y una representación compacta de la consulta original, por lo que la mayor parte del cómputo se gasta en modelos pequeños y recuperación en lugar de en los modelos más grandes.

B. Pila de modelos pequeños y percepción
La pila de percepción es una colección de modelos pequeños y específicos para tareas en diferentes modalidades: los modelos de documentos/OCR extraen líneas de texto, diseño y cuadros delimitadores; los modelos de objetos y gráficos/diagramas recuperan regiones de interés, ejes, leyendas y series numéricas; un sistema ASR multilingüe transcribe segmentos de audio con marcas de tiempo; y clasificadores ligeros de texto e imagen predicen el dominio, el tipo de tarea y las etiquetas de seguridad.

Estos modelos son mucho más pequeños que los LLM finales, se ejecutan en pools de GPU separados con batching y caching, y son lo suficientemente baratos como para invocarlos antes de cualquier llamada a LLM. Cada uno está entrenado en una mezcla de datos públicos y propietarios; en este documento nos centramos en cómo alimentan la construcción del contexto.

C. Construcción y retroalimentación del contexto
La capa de contexto convierte el resumen de ingreso, las salidas de percepción y los resultados de recuperación en un estado estructurado compacto c(x) adaptado a la solicitud.

Dependiendo de la consulta, accedemos a uno o más índices: las preguntas con mucho código consultan un índice de código sobre repositorios de código abierto e internos; las preguntas sobre "cómo usar esta herramienta" consultan documentación; las preguntas generales de la web consultan un índice web más amplio. Para entradas de documentos o URL, un crawler y un parser recuperan y normalizan la página o el PDF, luego lo pasan por la pila de percepción para OCR, análisis de diseño y extracción de figuras y tablas.

Dado que estas fuentes son ruidosas y redundantes, un compilador de contexto (i) fusiona spans y entidades superpuestos de múltiples herramientas, (ii) filtra detecciones o texto de baja confianza, y (iii) puntúa spans y relaciones candidatas por su relevancia para la consulta. El esquema compartido resultante tiene cuatro campos:

- observaciones: declaraciones textuales cortas de documentos, código o resultados de búsqueda,
- entidades: spans tipados, cuadros delimitadores y nodos (por ejemplo, variables, regiones etiquetadas o celdas de tabla),
- relaciones: enlaces entre entidades, como ejes de gráficos, entradas de leyenda o referencias de texto-figura,
- procedencia: URLs, identificadores de documentos, hashes y marcas de tiempo.

Cada campo tiene un presupuesto de tokens fijo, y el compilador utiliza modelos de puntuación simples aprendidos más heurísticas para mantenerse dentro de ese presupuesto. En la práctica, este esquema es donde se originan la mayoría de las ganancias para AI2D, ChartQA, MMMU y Common Voice.

D. Descarga de trabajo de contexto grande
Las entradas largas motivan la arquitectura. Pasar un PDF completo de varias páginas, un sitio entero o horas de audio directamente a un LLM grande es costoso y frágil, por lo que Interfaze-Beta descarga tanto como sea posible a la pila de modelos pequeños y recuperación. Los LLM grandes nunca ven píxeles en bruto, formas de onda o sitios web completos. Solo ven c(x) y una representación compacta de la consulta original, por lo que la mayor parte del cómputo se gasta en modelos pequeños y recuperación en lugar de en los modelos más grandes.

Para documentos, un analizador segmenta el archivo en páginas y bloques; los modelos de OCR y diseño convierten cada página en tokens y líneas estructurados; un pequeño recuperador indexa estos segmentos; y las preguntas recuperan solo un puñado de segmentos relevantes, que el compilador destila en observaciones y entidades. Para sitios web, un navegador sin interfaz renderiza la página, un scraper elimina el boilerplate y un extractor consciente del DOM identifica secciones, bloques de código y figuras; las consultas acceden a este índice en lugar de ejecutar un pase completo de LLM por página. Para audio, un detector de actividad de voz segmenta el flujo en enunciados, el modelo ASR transcribe cada segmento y los componentes posteriores operan sobre transcripciones y marcas de tiempo en lugar de sobre formas de onda.

En todos los casos, el LLM grande solo ve un pequeño subconjunto del contenido total. El estado destilado c(x) se pasa a la capa de acción, que expone un pequeño conjunto de primitivas (consultar un índice, buscar y analizar una URL o documento, ejecutar un modelo de percepción, ejecutar código en una sandbox o llamar a un LLM generalista). El controlador ordena estas primitivas utilizando estimaciones simples de costo y latencia; en Interfaze-Beta, el LLM final se fija mediante la configuración de despliegue en lugar de elegirse por solicitud.

E. Capa de acción y cadena de modelos especializados
La capa de acción y la cadena de modelos especializados hacen que el sistema parezca un único modelo para los desarrolladores downstream. Un pequeño controlador se sitúa sobre estas primitivas. Dada la información de entrada y la entrada actual, predice un tipo de tarea grueso y decide qué índices consultar, si invocar pases de percepción adicionales y si ejecutar código en la sandbox. Cada decisión corresponde a elegir una cadena de herramientas, es decir, qué acciones invocar (solo recuperación, recuperación más código, pases de percepción adicionales) y qué modelos pequeños están activos a lo largo de esa cadena.

Cada cadena termina llamando a un LLM generalista sobre el contexto destilado, por lo que no hay una puerta de aprendizaje entre LLM pequeños y grandes, y no hay una ruta que omita el modelo final. El controlador se entrena con tuplas offline de solicitudes, cadenas de herramientas y etiquetas de aprobado/fallido, y en la inferencia prefiere las cadenas que satisfacen un umbral mínimo de calidad predicho, al tiempo que minimiza aproximadamente un proxy para el costo de los modelos pequeños y la latencia de la cola. Si una cadena elegida falla o expira, un mecanismo de fallback selecciona la siguiente cadena factible.

IV. ENCODERS PERCEPTUALES EN LA INTERFAZ VISIÓN-AUDIO

Tratamos el audio, las imágenes y los documentos en bruto como señales perceptuales de alta dimensión que deben codificarse antes de invocar cualquier modelo de lenguaje. Siguiendo el trabajo a gran escala en reconocimiento de voz, modelado de hablantes, OCR y anclaje visual, mapeamos las formas de onda a representaciones de tiempo-frecuencia que se asemejan a imágenes de baja resolución, y aplicamos codificadores convolucionales o de retardo de tiempo compactos a ellas [27], [28]. Codificadores similares operan en páginas rasterizadas y capturas de pantalla. Cabezales ligeros predicen tokens, idiomas, incrustaciones de hablantes y estructura geométrica, mientras que los detectores neuronales de actividad de voz segmentan flujos continuos en fragmentos manejables [30], [31]. El estado JSON resultante: texto de enunciado con marcas de tiempo y etiquetas de hablante, líneas de texto con cuadros delimitadores, y regiones de objetos o GUI, alimenta el compilador de contexto y la capa de acción en la Sección III.

En Interfaze-Beta, estos módulos perceptuales se implementan como modelos pequeños y específicos para tareas, entrenados internamente con una mezcla de datos públicos y propietarios. Los describimos a nivel de arquitectura y procesamiento de señales en lugar de curación de conjuntos de datos o pesos de modelos.

A. ASR con Diarización
Dada una forma de onda de entrada x(t) muestreada a 16 kHz, la rama de reconocimiento automático de voz (ASR) aplica una transformada de Fourier de corto tiempo o características mel-espectrales u1:7, y una red de segmentación Sab produce probabilidades fotograma a fotograma de cambio de hablante o actividad de voz. Umbralizar y fusionar los fotogramas activos produce segmentos candidatos.
Un banco de filtros mel M ∈ RFxK agrega magnitudes cuadradas en F bandas perceptuales, y calculamos características log-mel zf,T = log (M|X(T, .) (2)+ + ε), que forman una imagen de tiempo-frecuencia de baja resolución [27], [30]. Un codificador fe, implementado como una pila de bloques convolucionales y de auto-atención, mapea la secuencia z1:7 a estados ocultos h1:T = fθ(z1:7).
Un decodificador de secuencia a secuencia gθ con atención cruzada predice tokens de subpalabra. En el paso t,
pθ (Ut | y<t, h1:T) = softmax (Wθt + b),
donde ot es la salida del decodificador y (W,b) son parámetros aprendidos. Entrenamos con forzado de maestro y entropía cruzada sobre transcripciones, opcionalmente con un objetivo multilingüe, y usamos decodificación codiciosa o de baja dispersión para baja latencia. Para grabaciones largas, un detector de actividad de voz neuronal compacto opera en ventanas cortas de z1:7, produciendo probabilidades de voz por fotograma û ∈ [0, 1] que se umbralizan y fusionan en segmentos [30], [31]. Cada segmento se transcribe de forma independiente, delimitando la longitud de la secuencia y permitiendo la transmisión.

El condicionamiento del lenguaje se proporciona mediante una pequeña red de retardo de tiempo sobre características a nivel de fotograma. Agrega estadísticas a lo largo del tiempo y genera una posterior p(€ | z1:7) sobre los idiomas. Convertimos el idioma argmax en un token especial antepuesto a la entrada del decodificador. Esto mejora el reconocimiento multilingüe y estabiliza la comprensión de tareas downstream, manteniendo el detector de idioma lo suficientemente pequeño como para ejecutarse junto con VAD y ASR en la misma GPU.

Una rama de diarización infiere quién habló cuándo. El audio en bruto se convierte a mono a 16 kHz, se filtra paso banda y se normaliza la amplitud. A partir de esta señal, calculamos características cepstrales y una red de segmentación Sab produce probabilidades por fotograma de cambio de hablante o actividad de voz. Umbralizar y fusionar los fotogramas activos produce segmentos candidatos.
Para cada segmento k con un lapso de tiempo [tstart, tend], una red de incrustación de hablante ew mapea los fotogramas correspondientes a un vector de dimensión fija vk = ew(W[tstart, tend]), siguiendo el diseño de retardo de tiempo con atención de canal enfatizada estándar en la verificación y diarización de hablantes [28]. Las incrustaciones normalizadas L2 se agrupan (por ejemplo, con agrupamiento aglomerativo en el espacio del coseno y un criterio de parada aprendido), asignando una etiqueta de hablante discreta sk a cada segmento, en línea con las recientes pipelines de diarización de código abierto [29].

Un paso ligero de postprocesamiento alinea ASR y diarización en el tiempo. Para cada fragmento transcrito con marcas de tiempo [astart, aend] y texto y(i), encontramos el segmento de diarización k con la máxima superposición temporal y le adjuntamos su etiqueta Sk. Esto produce una lista ordenada de enunciados.
{(Sk,astart, aend, y(i))}
que serializamos en JSON y pasamos al compilador de contexto. En el esquema de Interfaze, cada enunciado se convierte en una observación con una entidad de hablante asociada, relaciones temporales y procedencia que apunta a la URL del audio y la configuración del modelo.

Crucialmente, los modelos de lenguaje grandes de Interfaze-Beta nunca operan sobre audio o espectrogramas en bruto. Solo ven esta transcripción estructurada y anotada por el hablante con marcas de tiempo y etiquetas de idioma. Los especialistas en resumen pequeños condensan transcripciones largas en observaciones compactas, y el LLM generalista configurado opera solo sobre este estado destilado.

B. Reconocimiento óptico de caracteres y análisis de documentos complejos
Nuestra pipeline de documentos se dirige a entradas heterogéneas y multilingües, como recibos, artículos científicos con ecuaciones y figuras, formularios y PDFs de varias páginas. En lugar de pasar píxeles en bruto a un modelo grande de visión-lenguaje, ejecutamos una secuencia de modelos ligeros de visión y secuencia que extraen texto a nivel de palabra con geometría, reconstruyen el orden de lectura y, opcionalmente, realizan una extracción guiada por esquemas, basándose en modelos recientes de OCR y diseño ultraligeros [32], [33], [36].

a) Rasterización y fan-out de páginas: Dada una entrada de documento x, determinamos si x es una imagen o un PDF. Para PDFs, un renderizador convierte cada página en una imagen RGB de alta resolución Ip ∈ IRHxWx3 con un factor de escala fijo para que las fuentes pequeñas permanezcan legibles después del submuestreo por parte del detector. Las páginas se procesan de forma independiente y en paralelo, y las imágenes muy pequeñas se escalan para garantizar una altura x efectiva mínima.

b) Cascada de detección-reconocimiento: Para cada imagen de página Ip, un detector de texto produce regiones cuadriláteras orientadas {(Qi, si)}i=1, Qi ∈ IR4x2, si ∈ [0, 1], donde Qi son coordenadas de esquina y si son confianzas de detección. El detector utiliza una backbone convolucional con una pirámide de características y un cabezal de estilo de segmentación que predice regiones de texto diferenciables; el postprocesamiento extrae componentes conectados y ajusta polígonos [32]. Esto admite texto orientado arbitrariamente con parámetros limitados. Cada región detectada se recorta y se pasa a un reconocedor que mapea una franja de ancho variable a una secuencia de caracteres. Un codificador convolucional 2D produce un mapa de características Fi ∈ RCxT, que se colapsa a lo largo de la altura y se alimenta a un modelo de secuencia ligero (transformador o convolución con puerta) para predecir yi = (yi,1, ... ,yi,T;) sobre un alfabeto multilingüe, entrenado con una pérdida de entropía cruzada o de estilo CTC y aumento consciente del lenguaje [32]. Esto produce triples (Qi, yi, Si) con texto, geometría y confianza para cada línea.

c) Agrupación de líneas y orden de lectura: Las salidas del detector por sí solas no definen un orden de lectura lógico en diseños de varias columnas con encabezados, pies de página y notas al margen. Construimos un grafo cuyos nodos son líneas detectadas y cuyas aristas conectan líneas geométricamente adyacentes. Los nodos llevan polígonos Qi y centroides ci; las aristas se puntúan utilizando superposición vertical, distancia horizontal y similitud de altura de fuente, aproximando características por pares de sistemas de orden de lectura basados en aprendizaje [34]-[36]. Un algoritmo codicioso de búsqueda de rutas recorre este grafo para formar cadenas correspondientes a secciones y párrafos.
Dentro de cada cadena, agregamos texto y definimos un cuadro delimitador alineado con los ejes Bi que encierra Qi. La confianza por línea es un promedio ponderado por longitud de las puntuaciones de las palabras, dando secuencias lj=(textj, Bj,S},{Wj,k}k),
donde cada palabra Wj,k tiene su propio cuadro delimitador y confianza, ya sea de un cabezal nativo de cuadro de caracteres o por interpolación a lo largo de la línea cuando solo se dispone de la geometría a nivel de línea.

d) Corrección de límites de grano fino y extracción estructurada: Los diseños complejos y las regiones de bajo contraste pueden causar espacios o palabras fusionadas. Por lo tanto, mantenemos un reconocedor secundario opcional con mayor resolución o con un sesgo inductivo diferente. Sus salidas se alinean con el detector principal utilizando la intersección sobre la unión en polígonos y la similitud de cadenas a nivel de token. Los cuadros faltantes se rellenan fusionando cuadros de caracteres en un cuadrilátero ajustado o particionando un cuadro de línea Bj según los desplazamientos de caracteres. Cuando la evidencia geométrica es inconsistente, un modelo de lenguaje pequeño recibe el texto de la página y las coordenadas vecinas y predice ajustes locales, restringidos a preservar el orden de lectura original.
Cuando las tareas downstream requieren campos estructurados (por ejemplo, facturas o formularios), invocamos opcionalmente un modelo de visión-lenguaje que opera sobre la imagen de la página y una descripción corta del esquema. Los transformadores sin OCR y conscientes del diseño demuestran que los codificadores multimodales pueden mapear una imagen de documento directamente a JSON [33], [37]. Adoptamos esto de forma restringida: el modelo de visión-lenguaje recibe la imagen de la página, un resumen compacto de la salida de OCR y un esquema expresado como una plantilla JSON, y se entrena para emitir una respuesta estructurada que respete el esquema. Para controlar el costo, esta etapa se activa solo cuando la confianza agregada del OCR cae por debajo de un umbral o cuando el usuario solicita explícitamente la extracción estructurada.

e) Integración con el contexto de Interfaze: La representación final de OCR para un documento x es un estado estructurado COCR(x) que se integra en el compilador de contexto de la Sección III-C. Las líneas y palabras pueblan entidades con spans de texto y cuadros delimitadores; las aristas de orden de lectura y las referencias de figuras forman relaciones; y los campos guiados por esquemas se convierten en observaciones de alta confianza con procedencia explícita (índices de página, ID de sección y hashes de imagen). Los LLM enrutados en Interfaze responden preguntas sobre documentos complejos y multilingües utilizando este contexto compacto y consciente de la geometría en lugar de píxeles en bruto.

C. Detección de objetos de vocabulario abierto y análisis de diseño de GUI
Para el anclaje visual y el razonamiento de la interfaz gráfica de usuario (GUI), combinamos (i) un detector de vocabulario abierto que localiza objetos a partir de prompts de lenguaje natural, (ii) un módulo de segmentación basado en Segment Anything Model 2 (SAM 2), y (iii) un analizador de diseño específico de GUI para regiones de texto, iconos y widgets interactivos [44].

a) Detección de vocabulario abierto como puntuación conjunta de imagen-texto: Sea x ∈ RHxWx3 una imagen RGB y p ∈ P un prompt de lenguaje natural (por ejemplo, "botón de enviar rojo" o "menú de navegación"). Usamos un codificador de visión-lenguaje compacto inspirado en el pre-entrenamiento de imagen-texto con pérdidas contrastivas basadas en sigmoides [38]. Un codificador de imagen Φv : RHxWx3 \_+ RDxK (1) produce una cuadrícula de K tokens visuales, y un codificador de texto Φt : P > RD (2) mapea el prompt a una incrustación D-dimensional. Calculamos un mapa de relevancia espacial de sk = σ (Φv (x)ΦT t (p))k, k= 1,. ,K, (3) donde σ es la función sigmoide y T una temperatura aprendida. Durante el pre-entrenamiento, Sk se supervisa para que sea alto cuando el token k se superpone a regiones de verdad para el prompt y bajo en caso contrario, utilizando una formulación logística de etiquetas múltiples [38]. En la inferencia, las regiones contiguas de alta puntuación en la cuadrícula espacial se agrupan y se mapean de nuevo a las coordenadas de la imagen, produciendo cuadros B(p,x)={bi =(xmin, ymin,xmax, ymax)} No. (4)
Dado que los prompts son texto de formato libre, el mismo codificador puede localizar conceptos arbitrarios, incluidas categorías no vistas y multilingües.

b) Segmentación de instancias condicionada por prompt con SAM 2: Refinamos cada cuadro bi en una máscara a nivel de píxel utilizando Segment Anything Model 2 (SAM 2), un Transformer de Visión jerárquico para la segmentación promptable [39]. Dados x y bi, SAM 2 produce mi = S(x, bi) = {0, 1}HxW, (5) donde S es la red de segmentación. SAM 2 construye una representación ViT de múltiples escalas y un decodificador de máscara ligero que se condiciona en tokens de prompt y características de codificador relevantes para predecir mi en un único pase hacia adelante [39]. Agrupamos todos los prompts de cuadros {bi} por imagen para amortizar el costo de la GPU. Cada objeto detectado se representa mediante (bi, mi) más el prompt p y la confianza de detección.

c) Detección de iconos y texto de GUI: Para las capturas de pantalla de GUI, activamos un analizador de diseño especializado con dos detectores. Un detector de texto basado en la conciencia de la región de caracteres identifica regiones de texto de alta densidad [40]. Regresa los mapas de activación Ychar y Yaff para los centros de caracteres y la afinidad por pares; umbralizar y agrupar componentes conectados en Ychar ∪ Yaff produce detecciones a nivel de palabra y un modelo ajustado de YOLO para iconos y elementos web [42], [43].

V. RESULTADOS Y DISCUSIÓN
Informamos la precisión en conocimiento y razonamiento (MMLU-Pro, MMLU), ciencia de posgrado (GPQA-Diamond), matemáticas de competición (AIME-2025), codificación (LiveCodeBench v5), percepción multimodal (MMMU división de validación, AI2D, ChartQA) y voz multilingüe (Common Voice v16) como se ve en la Tabla II [10], [12]-[16], [25], [26]. Todos los resultados de Interfaze-Beta utilizan la misma pila orquestada por herramientas con las herramientas de OCR/ASR, recuperación, gráficos/diagramas y sandbox habilitadas.

Interfaze-Beta lidera en AIME-2025 (90.0), MMLU (91.38) y AI2D (91.51). Está cerca de los informes públicos más sólidos en MMLU-Pro (83.6 frente a 86.2 para Gemini 2.5 Pro) y GPQA-Diamond (81.31 frente a 84.4), al tiempo que ofrece puntuaciones sólidas en MMMU (val) (77.33), LiveCodeBench v5 (57.77), ChartQA (90.88) y Common Voice v16 (90.8) [10], [12]-[16], [25], [26].

Frente a GPT-4.1 en tareas compartidas, observamos mejoras de +3.0 (MMLU-Pro), +1.18 (MMLU), +2.53 (MMMU), +55.3 (AIME-2025), +15.01 (GPQA-Diamond), +12.07 (LiveCodeBench) y +5.61 (AI2D): un promedio macro de +13.53 puntos (mediana +5.61). Las ganancias se concentran donde el contexto estructurado de la herramienta (análisis de OCR/diagramas/gráficos, recuperación, retroalimentación de sandbox) es más informativo; la codificación muestra margen si se permiten bucles agentic más largos. Esto respalda nuestra afirmación central de que la mayor parte de la mejora proviene de la pila de modelos pequeños y herramientas y la forma en que compila el contexto, en lugar de depender de un único modelo generalista más grande.

En nuestros experimentos con ablaciones, observamos: la eliminación de los analizadores de OCR/diagramas/gráficos reduce AI2D/ChartQA entre 4 y 7 puntos; la desactivación de la compilación de contexto cuesta ~2 puntos en GPQA-Diamond; la desactivación del cabezal opcional de razonamiento corto perjudica a AIME y MMLU-Pro en segmentos de alta dificultad. Juntos, la cadena de selección de modelos especializados + el contexto de la herramienta + el razonamiento limitado explican las mejoras observadas, manteniendo la mayor parte del tráfico en rutas SLM más baratas.

A. Notas por dominio
En cuanto a conocimiento y razonamiento general, superamos al grupo en MMLU en +1.18 sobre GPT-4.1 y +2.18 sobre Gemini 2.5 Pro. El MMLU-Pro más difícil nos agrupa con Sonnet 4 y su variante Thinking, a 2.6 puntos del mejor. En la práctica, la mayoría de los elementos se resuelven en rutas SLM+herramienta, y el controlador solo invoca cadenas de herramientas más agresivas cuando la dificultad y la incertidumbre predichas aumentan [10], [25].

En matemáticas de competición (AIME-2025), obtenemos 90.0, un amplio margen de +55.3 frente a GPT-4.1 y +16-17 frente a Sonnet 4 y Opus 4 (Thinking). El enrutador prefiere herramientas centradas en las matemáticas y habilita la auto-consistencia corta solo cuando las comprobaciones aritméticas no concuerdan, lo que frena los errores numéricos por poco.

Para la codificación (LiveCodeBench v5), 57.77 supera cómodamente a GPT-4.1 (+12.07), Sonnet 4 (+12.87) y Gemini 2.5 Flash (+8.27), pero se queda atrás de los sistemas especializados en código más agresivos, Sonnet 4 (Thinking) por 7.73 y Gemini 2.5 Pro por 18.13. Esto refleja una elección deliberada de favorecer las comprobaciones ligeras en sandbox sobre los bucles de depuración agentic más largos [13].

En percepción multimodal, MMMU (val) alcanza 77.33 (+2.53 sobre GPT-4.1), con los mayores márgenes en AI2D (91.51: +5.61 sobre GPT-4.1 y +2.01 sobre Gemini 2.5 Pro) y un sólido ChartQA (90.88). El texto OCR estructurado, los cuadros delimitadores, los ejes de los gráficos y las relaciones de objetos se fusionan en prompts compactos que reducen las alucinaciones y respaldan las comparaciones numéricas [14]-[16].

Para el habla, Common Voice v16 alcanza 90.8 utilizando un especialista ASR multilingüe entrenado en grandes conjuntos de datos de audio multilingües [26].

VI. LIMITACIONES Y TRABAJO FUTURO
Vemos dos puntos débiles prácticos: el retraso y la sobreconstrucción de contexto. El retraso se debe a la expansión del contexto desde los SLM (OCR/ASR, scraping, recuperación) y el bucle agentic acotado, además de los arranques en frío para modelos pequeños alojados en nuestra infraestructura de inferencia, lo que puede aumentar la latencia de la cola incluso cuando los costos promedio son bajos. La sobreconstrucción ocurre cuando el controlador invoca más herramientas o pases de recuperación de los necesarios para una consulta dada, inflando el costo sin claras ganancias de calidad [2], [3].

En futuros trabajos, trataremos el retraso y la sobreconstrucción como objetivos clave: haremos que la construcción agresiva del contexto sea opcional, agregaremos pequeñas penalizaciones por invocaciones adicionales de herramientas en el modelo de costos del controlador y rastrearemos las "expansiones de contexto evitables" (casos en los que una cadena de herramientas más barata habría superado el umbral de precisión) [2], [3].

AGRADECIMIENTOS
Agradecemos a los colegas y revisores que proporcionaron comentarios detallados sobre los borradores iniciales y ayudaron a mejorar la claridad, presentación y el marco técnico de nuestro trabajo. También agradecemos a todos los que ayudaron con la revisión interna, las discusiones sobre benchmarks y la edición del documento.

REFERENCIAS
[1] A. Clark, D. de las Casas, A. Guy, A. Mensch, M. Paganini, J. Hoffmann, B. Damoc, B. Hechtman, T. Cai, S. Borgeaud, et al. Unified Scaling Laws for Routed Language Models. In Proceedings of the 39th International Conference on Machine Learning (ICML), 2022. URL: https://proceedings.mlr.press/v162/clark22a.html.
[2] L. Chen, M. Zaharia, and J. Zou. FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance. arXiv:2305.05176, 2023. URL: https://arxiv.org/abs/2305.05176.
[3] D. Ding, A. Mallick, C. Wang, R. Sim, S. Mukherjee, V. Ruhle, L. V. S. Lakshmanan, and A. H. Awadallah. Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing. In International Conference on Learning Representations (ICLR), 2024. URL: https://openreview.net/forum?id=02f3mUtqnM.
[4] W. Jitkrittum, et al. Universal Model Routing for Efficient LLM Inference. arXiv:2502.08773, 2025. URL: https://arxiv.org/abs/2502.08773.
[5] T. Schick, J. Dwivedi-Yu, R. Dessì, R. Raileanu, M. Lomeli, L. Zettlemoyer, N. Cancedda, and T. Scialom. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761, 2023. URL: https://arxiv.org/abs/2302.04761.
[6] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. arXiv:2303.17580, 2023. URL: https://arxiv.org/abs/2303.17580.
[7] S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, and Y. Cao. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022. URL: https://arxiv.org/abs/2210.03629.
[8] P. Lu, B. Peng, H. Cheng, M. Galley, K.-W. Chang, Y. N. Wu, S.-C. Zhu, and J. Gao. Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models. arXiv:2304.09842, 2023. URL: https://arxiv.org/abs/2304.09842.
[9] X. Wang, J. Wei, D. Schuurmans, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. In International Conference on Learning Representations (ICLR), 2023. URL: https://arxiv.org/abs/2203.11171.
[10] Y. Wang, X. Ma, G. Zhang, Y. Ni, A. Chandra, S. Guo, W. Ren, A. Arulraj, X. He, Z. Jiang, et al. MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark. arXiv:2406.01574, 2024. URL: https://arxiv.org/abs/2406.01574.
[11] Art of Problem Solving (AoPS). AIME Problems and Solutions (1983-present). URL: https://artofproblemsolving.com/wiki/index.php/AIME_Problems_and_Solutions.
[12] D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, and S. R. Bowman. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, 2023. URL: https://arxiv.org/abs/2311.12022.
[13] N. Jain, K. Han, A. Gu, W.-D. Li, F. Yan, T. Zhang, S. Wang, A. Solar-Lezama, K. Sen, and I. Stoica. LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code. arXiv:2403.07974, 2024. URL: https://arxiv.org/abs/2403.07974.
[14] X. Yue, Y. Ni, K. Zhang, T. Zheng, R. Liu, G. Zhang, S. Stevens, D. Jiang, W. Ren, Y. Sun, C. Wei, B. Yu, R. Yuan, R. Sun, M. Yin, B. Zheng, Z. Yang, Y. Liu, W. Huang, H. Sun, Y. Su, and W. Chen. MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. URL: https://openaccess.thecvf.com/content/CVPR2024/papers/Yue_MMMU_A_Massive_Multi-discipline_Multimodal_Understanding_and_Reasoning_Benchmark_for_CVPR_2024_paper.pdf.
[15] A. Kembhavi, M. Salvato, E. Kolve, M. Seo, H. Hajishirzi, and A. Farhadi. A Diagram Is Worth A Dozen Images. arXiv:1603.07396, 2016. URL: https://arxiv.org/abs/1603.07396.
[16] A. Masry, D. X. Long, J. Q. Tan, S. Joty, and E. Hoque. ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. arXiv:2203.10244, 2022. URL: https://arxiv.org/abs/2203.10244.
[17] V. Sanh, L. Debut, J. Chaumond, and T. Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108, 2019. URL: https://arxiv.org/abs/1910.01108.
[18] Z. Sun, H. Yu, X. Song, R. Liu, Y. Yang, and D. Zhou. MobileBERT a Compact Task-Agnostic BERT for Resource-Limited Devices. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 2020. URL: https://arxiv.org/abs/2004.02984.
[19] T. Schick and H. Schütze. It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners. In Proceedings of the 16th Conference of the European Chapter of the ACL (EACL), 2021. URL: https://arxiv.org/abs/2009.07118.
[20] C. Xu, Y. Xu, S. Wang, Y. Liu, C. Zhu, and J. McAuley. Small Models are Valuable Plug-ins for Large Language Models. In Findings of the Association for Computational Linguistics, 2024. URL: https://aclanthology.org/2024.findings-acl.18/.
[21] M. Li, J. Xiang, Q. Zhang, K. Wan, and X. Chen. Flipping Knowledge Distillation: Leveraging Small Models’ Expertise to Enhance LLMs in Text Matching. In Proceedings of the 63rd Annual Meeting of the ACL (Long Papers), 2025. URL: https://aclanthology.org/2025.acl-long.1081/.
[22] Z. Shen. LLM With Tools: A Survey. arXiv:2409.18807, 2024. URL: https://arxiv.org/abs/2409.18807.
[23] P. Belcak, G. Heinrich, S. Diao, Y. Fu, X. Dong, S. Muralidharan, Y. C. Lin, and P. Molchanov. Small Language Models are the Future of Agentic AI. arXiv:2506.02153, 2025. URL: https://arxiv.org/abs/2506.02153.
[24] Meta AI. Llama Guard 4: Multimodal safety classifier 12B. 2025 URL: https://www.llama.com/docs/model-cards-and-prompt-formats/llama-guard-4/.
[25] D. Hendrycks, C. Burns, S. Basart, A. Zheng, M. Stepanek, E. Kuba, S. Ball, S. Tran, C. Tang, J. Song, J. Kornblith, A. Chen, and J. Steinhardt. Measuring Massive Multitask Language Understanding. In Proceedings of the International Conference on Learning Representations (ICLR), 2021. URL: https://arxiv.org/abs/2009.03300.
[26] R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F. Tyers, and G. Weber. Common Voice: A Massively-Multilingual Speech Corpus. In Proceedings of The 12th Language Resources and Evaluation Conference (LREC), 2020. URL: https://arxiv.org/abs/1912.06670.
[27] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever. Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356, 2022. URL: https://arxiv.org/abs/2212.04356.
[28] B. Desplanques, J. Thienpondt, and K. Demuynck. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN-Based Speaker Verification. In Proceedings of Interspeech, 2020. URL: https://www.isca-archive.org/interspeech_2020/desplanques20_interspeech.html.
[29] H. Bredin. pyannote.audio 2.1 Speaker Diarization Pipeline: Principle, Benchmark, and Recipe. In Proceedings of Interspeech, 2023. URL: https://www.isca-archive.org/interspeech_2023/bredin23_interspeech.html.
[30] M. Sharma et al. A Comprehensive Empirical Review of Modern Voice Activity Detection Approaches for Movies and TV Shows. Technical report, 2022.
[31] Silero AI. Silero VAD: Pre-trained Enterprise-Grade Voice Activity Detector. GitHub repository, accessed 2025. URL: https://github.com/snakers4/silero-vad.
[32] C. Li, W. Liu, R. Guo, X. Yin, K. Jiang, Y. Du, Y. Du, L. Zhu, B. Lai, X. Hu, D. Yu, and Y. Ma. PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System. arXiv:2206.03001, 2022. URL: https://arxiv.org/abs/2206.03001.
[33] Y. Huang, L. Bi, F. Fang, S. Liu, X. Fang, X. Sun, and J. Liu. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. arXiv:2204.08387, 2022. URL: https://arxiv.org/abs/2204.08387.
[34] S. Marinai, E. Marinai, and colleagues. Machine Learning for Reading Order Detection in Document Image Understanding. In Machine Learning in Document Analysis and Recognition, 2008.
[35] L. Qiao, C. Li, Z. Cheng, Y. Xu, Y. Niu, and X. Li, "Reading order detection in visually-rich documents with multi-modal layout-aware relation prediction," Pattern Recognition, vol. 150, art. 110314, 2024. doi: 10.1016/j.patcog.2024.110314.
[36] Z. Wang, et al. LayoutReader: Pre-training of Text and Layout for Reading Order Detection. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021. URL: https://aclanthology.org/2021.emnlp-main.389/.
[37] G. Kim, T. Kim, S. Park, S. Yun, C. D. Yoo, and N. I. Cho. OCR-free Document Understanding Transformer. In European Conference on Computer Vision (ECCV), 2022. URL: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136880493.pdf.
[38] X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer. Sigmoid Loss for Language Image Pre-Training. arXiv preprint arXiv:2303.15343, 2023. URL: https://arxiv.org/abs/2303.15343.
[39] N. Ravi, V. Gabeur, Y.-T. Hu, et al. SAM 2: Segment Anything in Images and Videos. arXiv preprint arXiv:2408.00714, 2024. URL: https://arxiv.org/abs/2408.00714.
[40] Baek, Lee, Han, Yun, and Lee. Character region awareness for text detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9365-9374, 2019.
[41] JaidedAI. EasyOCR: Ready-to-use OCR with 80+ supported languages. GitHub repository, 2020. https://github.com/JaidedAI/EasyOCR.
[42] G. Jocher, A. Chaurasia, and J. Qiu, Ultralytics YOLOv8: Real-time object detection, Technical report, Ultralytics, 2023. https://docs.ultralytics.com.
[43] Y. Lu, J. Yang, Y. Shen, and A. H. Awadallah. OmniParser for Pure Vision-Based GUI Agent. arXiv preprint arXiv:2408.00203, 2024. URL: https://arxiv.org/abs/2408.00203.
[44] B. Xiao, H. Wu, W. Xu, X. Dai, H. Hu, Y. Lu, M. Zeng, C. Liu, and L. Yuan. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. URL: https://openaccess.thecvf.com/content/CVPR2024/papers/Xiao_Florence-2_Advancing_a_Unified_Representation_for_a_Variety_of_Vision_CVPR_2024_paper.pdf.
[45] Q. Leng, J. Portes, S. Havens, M. Zaharia, and M. Carbin. Long Context RAG Performance of LLMs. Databricks Blog, 12 August 2024. Available at: https://www.databricks.com/blog/long-context-rag-performance-llms.
[46] J. Hron. Legal AI Benchmarking: Evaluating Long Context Performance for LLMs. Thomson Reuters Innovation Blog, 14 April 2025.
[47] P. Xu, W. Ping, X. Wu, L. McAfee, C. Zhu, Z. Liu, S. Subramanian, E. Bakhturina, M. Shoeybi, and B. Catanzaro. Retrieval Meets Long Context Large Language Models. arXiv preprint arXiv:2310.03025, 2023. Available at: https://arxiv.org/abs/2310.03025.```

JSON output

You can reference the precontext to get the raw results from the model for both the STT and translation processes.

The output is truncated for this example.

Website translation

OpenAI SDK

Vercel AI SDK

LangChain SDK

const response = await interfaze.chat.completions.create({
	model: "interfaze-beta",
	messages: [
		{
			role: "user",
			content: "Translate this website to hindi and return it in markdown format: https://interfaze.ai",
		},
	],
});

console.log(response.choices[0].message.content);

//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("Translation Results:", precontext?.[0]?.result);

Markdown output

# डिटरमिनिस्टिक डेवलपर कार्यों के लिए बनाया गया AI मॉडल

Interfaze एक AI मॉडल है जो एक नई आर्किटेक्चर पर आधारित है जो विशेषीकृत DNN/CNN मॉडलों को LLMs के साथ मिलाती है उन डेवलपर कार्यों के लिए जिनके लिए डिटरमिनिस्टिक आउटपुट और उच्च सुसंगतता की आवश्यकता होती है जैसे OCR, scraping, classification, web search और अधिक।

OCR, वेब स्क्रैपिंग, वेब खोज, वर्गीकरण और भी बहुत कुछ
OpenAI chat completion API अनुकूल
उच्च सटीकता वाला संरचित आउटपुट निरंतरता
इन-बिल्ट कोड निष्पादन और सैंडबॉक्सिंग
स्क्रैपिंग और वेब अनुसंधान क्षमताओं के लिए कस्टम वेब इंजन
आवश्यकतानुसार स्वचालित तर्कशीलता
नियंत्रण योग्य गार्डरेइल्स
पूरी तरह प्रबंधित और स्केलेबल
उच्च अपटाइम के साथ वैश्विक रूप से वितरित फॉलबैक सिस्टम

### बीटा लॉन्च वीडियो

### मॉडल तुलना

| बेंचमार्क        | interfaze-beta | GPT-4.1 | Claude Sonnet 4 | Gemini 2.5 Flash | Claude Sonnet 4 (Thinking) | Claude Opus 4 (Thinking) | GPT-5-Minimal | Gemini-2.5-Pro |
| :--------------- | :------------- | :------ | :-------------- | :--------------- | :------------------------- | :----------------------- | :------------ | :------------- |
| MMLU-Pro         | ८३.६           | ८०.६    | ८३.७            | ८०.९             | ८३.७                       | ८६                       | ८०.६          | ८६.२           |
| MMLU             | ९१.३८          | ९०.२    | -               | -                | ८८.८                       | ८९                       | -             | ८९.२           |
| MMMU             | ७७.३३          | ७४.८    | -               | ७९.७             | ७४.४                       | ७६.५                     | -             | ८२             |
| AIME-२०२५        | ९०             | ३४.७    | ३८              | ६०.३             | ७४.३                       | ७३.३                     | ३१.७          | ८७.७           |
| GPQA-Diamond     | ८१.३१          | ६६.३    | ६८.३            | ६८.३             | ७७.७                       | ७९.६                     | ६७.३          | ८४.४           |
| LiveCodeBench    | ५७.७७          | ४५.७    | ४४.९            | ४९.५             | ६५.५                       | ६३.६                     | ५५.८          | ७५.९           |
| ChartQA          | ९०.८८          | -       | -               | -                | -                          | -                        | -             | -              |
| AI2D             | ९१.५१          | ८५.९    | -               | -                | -                          | -                        | -             | ८९.५           |
| Common-Voice-v16 | ९०.८           | -       | -               | -                | -                          | -                        | -             | -              |

\*Non-Interfaze मॉडलों के परिणाम मॉडल प्रदाताओं, लीडरबोर्ड और मूल्यांकन प्रदाताओं जैसे Artificial Analysis से प्राप्त किए गए हैं।

### किसी अन्य LLM की तरह काम करता है

OpenAI API अनुकूल, आउट ऑफ़ द बॉक्स हर AI SDK के साथ काम करता है
OpenAI SDK
Vercel AI SDK
Langchain SDK
typescript
python

...

### OCR और डॉक्युमेंट एक्सट्रैक्शन

vision docs ->
...

### स्मार्ट वेब स्क्रैपिंग

web docs ->
...

### अनुवाद

translation docs ->
...
...

### स्पीच-टू-टेक्स्ट (STT) और डायराइज़ेशन

stt docs ->
...
...

### कॉन्फ़िगर करने योग्य गार्डरेल और NSFW चेक्स

guardrails docs ->
टेक्स्ट और इमेज के लिए पूरी तरह कॉन्फ़िगर करने योग्य गार्डरेल
...

### Architecture

पेपर पढ़ें ->
यह आर्किटेक्चर छोटे-छोटे विशेषीकृत मॉडलों का एक समूह संयोजित करता है जिन्हें कस्टम टूल्स और इन्फ्रास्ट्रक्चर द्वारा समर्थित किया गया है और स्वचालित रूप से उस सर्वश्रेष्ठ मॉडल के पास रूट करता है जो कार्य के लिए सटीकता और गति को प्राथमिकता देता है।

### विवरण

संदर्भ विंडो
1 मिलियन टोकन
अधिकतम आउटपुट टोकन
32 हज़ार टोकन
इनपुट मॉडलिटीज़
टेक्स्ट, इमेजेज़, ऑडियो, फ़ाइल, वीडियो
तर्कशक्ति
उपलब्ध

### मूल्य निर्धारण

मूल्य निर्धारण विवरण ->
इनपुट टोकन
$1.50 / MTok
आउटपुट टोकन
$3.50 / MTok
कैशिंग
शामिल
ऑब्ज़र्वेबिलिटी और लॉगिंग
शीघ्र आ रहा है

### FAQ

**मैं प्रति घंटे कितने अनुरोध कर सकता/सकती हूँ?**
आप प्रति सेकंड 50 अनुरोध कर सकते हैं। यदि आपको और आवश्यकता है, तो कृपया हमें support@interfaze.ai पर संपर्क करें।

**मैं अपनी उपयोग को कैसे ट्रैक करूँ?**
आप डैशबोर्ड पर अपनी उपयोग को ट्रैक कर सकते हैं। भविष्य में हम और अधिक विस्तृत मेट्रिक्स और एनालिटिक्स जोड़ेंगे।

**क्या मेरे संदेश/प्रॉम्प्ट संग्रहीत किए जाते हैं?**
हम डिफ़ॉल्ट रूप से किसी भी संदेश या प्रॉम्प्ट को संग्रहीत या लॉग नहीं करते। जब हम भविष्य में ऑब्ज़र्वेबिलिटी और लॉगिंग प्रदान करेंगे, तो आपको संग्रहन की अनुमति देने या न देने का विकल्प मिलेगा।

**बग कैसे रिपोर्ट करूँ?**
हम कई बग और समस्याओं की अपेक्षा करते हैं। कृपया इन्हें हमें support@interfaze.ai पर रिपोर्ट करें।

**अन्य पूछताछ के लिए टीम से कैसे संपर्क करूँ?**
कृपया हमें support@interfaze.ai पर ईमेल करें या X पर Yoeven से संपर्क करें: https://x.com/yoeven

### Todo (Prioritized)

- लेन-देन टोकन गणना कम करें
- विशिष्ट कार्यों के लिए अनुकूलित पहले से बने प्रॉम्प्ट/स्कीमाएँ
- एंबेडिंग मॉडल
- डैशबोर्ड पर अंतर्निर्मित ऑब्ज़र्वेबिलिटी और लॉगिंग
- पूर्ण मीट्रिक्स और एनालिटिक्स
- v1.1 Interfaze
- लेटेंसी घटाएँ और थ्रूपुट सुधारें
- AI SDK, Langchain आदि के साथ इंटरफेस के लिए कस्टम SDKs
- प्रोजेक्ट्स के लिए लीडरबोर्ड

यदि आपके पास फीचर अनुरोध या सिफारिशें हैं, तो कृपया संपर्क करें!

### अनुसंधान संदर्भ

- Interfaze: The Future of AI is built on Task-Specific Small Models
- Agentic Context Engineering
- Small Language Models are the Future of Agentic AI
- The Sparsely-Gated Mixture-of-Experts Layer
- DeepSeekMoE
- Confronting LLMs with Traditional ML

### हम कौन हैं?

हम एमएल, सॉफ़्टवेयर और इन्फ्रास्ट्रक्चर इंजीनियरों की एक छोटी टीम हैं जो इस तथ्य में डूबे हुए हैं कि एक छोटा मॉडल विशेषीकृत होने पर बहुत अधिक कर सकता है। हमें हर डेव (dev) वर्कफ़्लो में AI उपलब्ध कराने की अनुमति देता है।

JSON output

Blazing fast translation raw output

Running translation as a task with <task>translate</task> in the system message makes it faster and cheaper with a fixed structured output that's pre-defined.

Learn more about running a task.

OpenAI SDK

Vercel AI SDK

LangChain SDK

import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";

const response = await interfaze.chat.completions.create({
	model: "interfaze-beta",
	messages: [
		{ role: "system", content: "<task>translate</task>" },
		{
			role: "user",
			content:
				"Translate the following text into French: 'The UK drinks about 100–160 million cups of tea every day, and 98% of tea drinkers add milk to their tea.'",
		},
	],
	response_format: zodResponseFormat(z.any(), "translate_schema"),
});

console.log(response.choices[0].message.content);

JSON output

{
  "object": {
    "name": "translate",
    "result": {
      "translated_text": "Le Royaume-Uni boit environ 100–160 millions de tasses de thé chaque jour, et 98 % des buveurs de thé ajoutent du lait à leur thé.",
      "source_language": "en",
      "target_language": "fr"
    }
  },
  "response": {
    "id": "interfaze-1775188135404",
    "modelId": "interfaze-beta",
    "body": {
      "id": "interfaze-1775188135404",
      "object": "chat.completion",
      "model": "interfaze-beta",
      "usage": {
        "prompt_tokens": 1863,
        "completion_tokens": 66,
        "total_tokens": 1929
      }
    }
  },
  "finishReason": "stop",
  "usage": {
    "inputTokens": 1863,
    "outputTokens": 66,
    "totalTokens": 1929
  }
}

Speaker Diarization

Code Sandboxing