Get Started
Examples
Concepts
Resources
Projects
Integrations
copy markdown
Accurately translate any text, conversation or document to any language while maintaining the context, tone and locality.
OpenAI SDK
Vercel AI SDK
LangChain SDK
import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
const TranslationSchema = z.object({
translated_text: z.string(),
translated_text_iso_code: z.string(),
original_text_iso_code: z.string(),
});
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{
role: "user",
content:
"Translate the following text into French: 'The UK drinks about 100–160 million cups of tea every day, and 98% of tea drinkers add milk to their tea.'",
},
],
response_format: zodResponseFormat(TranslationSchema, "translation_schema"),
});
console.log(response.choices[0].message.content);
//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("Translation Results:", precontext?.[0]?.result);JSON output
{
"object": {
"translated_text": "Le Royaume-Uni boit environ 100–160 millions de tasses de thé chaque jour, et 98 % des buveurs de thé ajoutent du lait à leur thé.",
"translated_text_iso_code": "fr",
"original_text_iso_code": "en"
},
"response": {
"id": "interfaze-1775180864844",
"modelId": "interfaze-beta",
"body": {
"id": "interfaze-1775180864844",
"object": "chat.completion",
"model": "interfaze-beta",
"usage": {
"prompt_tokens": 2440,
"completion_tokens": 182,
"total_tokens": 2622
},
"vcache": false,
"precontext": [
{
"name": "translate",
"result": {
"translated_text": "Le Royaume-Uni boit environ 100–160 millions de tasses de thé chaque jour, et 98 % des buveurs de thé ajoutent du lait à leur thé.",
"source_language": "en",
"target_language": "fr",
"batch_size": 1
}
}
]
}
},
"finishReason": "stop",
"usage": {
"inputTokens": 2440,
"outputTokens": 182,
"totalTokens": 2622
}
}OpenAI SDK
Vercel AI SDK
LangChain SDK
import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
const STTSchema = z.object({
translated_text: z.string().describe("translated text"),
original_language_code: z.string(),
translated_language_code: z.string(),
});
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{
role: "user",
content: "Transcribe the audio file and translate it to chinese https://r2public.jigsawstack.com/interfaze/examples/stt_medical_short.mp4",
},
],
response_format: zodResponseFormat(STTSchema, "stt_schema"),
});
console.log(response.choices[0].message.content);
//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("STT Results:", precontext?.[0]?.result);JSON output
{
"object": {
"translated_text": "我刚开始服用一轮阿莫西林,想问一下把它和我目前的螺内酯处方一起服用是否安全。",
"original_language_code": "en",
"translated_language_code": "zh"
},
"response": {
"id": "interfaze-1775088833045",
"modelId": "interfaze-beta",
"body": {
"id": "interfaze-1775088833045",
"object": "chat.completion",
"model": "interfaze-beta",
"usage": {
"prompt_tokens": 2758,
"completion_tokens": 800,
"total_tokens": 3558
},
"precontext": [
{
"name": "stt",
"result": {
"text": "I just started a round of amoxicillin and I wanted to ask if it was safe to take that with my current spironolactone prescription.",
"chunks": [
{
"timestamp": [0.28, 4],
"text": "I just started a round of amoxicillin and I wanted to ask"
},
{
"timestamp": [4, 7.72],
"text": "if it was safe to take that with my current spironolactone prescription."
}
]
}
},
{
"name": "translate",
"result": {
"translated_text": "我刚开始服用一轮阿莫西林,想问一下把它和我目前的螺内酯处方一起服用是否安全。",
"source_language": "auto-detected",
"target_language": "zh",
"batch_size": 1
}
}
]
}
},
"finishReason": "stop",
"usage": {
"inputTokens": 2758,
"outputTokens": 800,
"totalTokens": 3558
}
}You can reference the precontext to get the raw results from the model for both the STT and translation processes.
OpenAI SDK
Vercel AI SDK
LangChain SDK
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{
role: "user",
content: "Translate this document to spanish in markdown format: https://arxiv.org/pdf/2602.04101",
},
],
});
console.log(response.choices[0].message.content);
//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("Translation Results:", precontext?.[0]?.result);Markdown output
# Interfaze: El futuro de la IA se construye con modelos pequeños específicos para tareas
**Resumen** — Presentamos Interfaze, un sistema que trata las aplicaciones modernas de LLM como un problema de construir y actuar sobre el contexto, no solo de elegir el modelo monolítico correcto. En lugar de un único transformador, combinamos (i) una pila de DNN heterogéneos emparejados con modelos de lenguaje pequeños como módulos de percepción para OCR que implican PDFs complejos, gráficos y diagramas, y ASR multilingüe con (ii) una capa de construcción de contexto que rastrea, indexa y analiza fuentes externas (páginas web, código, PDFs) en un estado estructurado compacto, y (iii) una capa de acción que puede navegar, recuperar, ejecutar código en una sandbox y controlar un navegador sin interfaz para páginas web dinámicas. Un controlador ligero se sitúa sobre esta pila y expone un único endpoint al estilo OpenAI: decide qué modelos pequeños y acciones ejecutar y siempre reenvía el contexto destilado a un LLM seleccionado por el usuario que produce la respuesta final.
En esta arquitectura, Interfaze-Beta alcanza 83.6% en MMLU-Pro, 91.4% en MMLU, 81.3% en GPQA-Diamond, 57.8% en LiveCodeBench v5 y 90.0% en AIME-2025, junto con sólidas puntuaciones multimodales en MMMU (val) (77.3%), AI2D (91.5%), ChartQA (90.9%) y Common Voice v16 (90.8%). Mostramos que la mayoría de las consultas son manejadas principalmente por los modelos pequeños y la pila de herramientas, con el LLM grande operando solo sobre el contexto destilado, lo que produce una precisión competitiva mientras desplaza la mayor parte del cómputo lejos de los modelos monolíticos más caros.
Trabajos recientes formalizan partes de este panorama. El enrutamiento híbrido y las cascadas estudian cuándo un modelo pequeño es “lo suficientemente bueno” y cuándo escalar a uno mayor, usando estimaciones aprendidas de dificultad y políticas conscientes del costo [1]-[4]. Los LLMs aumentados con herramientas muestran mejoras cuando el modelo puede llamar APIs, buscar y ejecutar código [5]-[8], [22]. En paralelo, los modelos de lenguaje pequeños se usan como especialistas plug-in para recuperación, reranking y razonamiento específico de dominio, y como modelos compactos para entornos edge [17]-[20], [23]. Sin embargo, la mayoría de estos sistemas se describen desde la perspectiva del modelo grande o del router. El diseño concreto de la pila de modelos pequeños, es decir, qué DNN manejan la percepción y la clasificación, cómo se filtran y combinan sus salidas y cómo se interconectan con scrapers e índices, suele ser abstraído tras llamadas genéricas a “herramientas”, lo que dificulta reproducirlos o ver qué partes impulsan realmente las mejoras en tareas multimodales y de contexto largo.
Adoptamos una perspectiva de sistemas. Tratamos el LLM moderno y la pila de herramientas como sistemas para construir y actuar sobre el contexto, y hacemos que los DNN pequeños y los SLM que construyen este contexto sean ciudadanos de primera clase. Interfaze es una arquitectura centrada en el contexto con tres partes:
I. INTRODUCCIÓN
Los LLMs de propósito general tienen una amplitud impresionante, pero los sistemas desplegados necesitan más que la predicción del siguiente token. Deben ver el mundo (OCR, detección de objetos, reconocimiento de voz, clasificación), construir y mantener un contexto externo (índices, cachés, código, herramientas) y luego razonar sobre ese contexto.
Ejecutar un único modelo de frontera sobre entradas en bruto: un PDF completo, un archivo de audio largo o un sitio web completo a menudo no es económico ni robusto [2], [3]. Los benchmarks que enfatizan el razonamiento y la comprensión multimodal en lugar de la memorización (MMLU-Pro, GPQA-Diamond, AIME-2025, MMMU, AI2D, ChartQA, Common Voice) explicitan esta brecha [10], [12]-[16], [26].
En la práctica, los sistemas de producción ya consisten en redes neuronales profundas y herramientas heterogéneas. Las backbones de visión manejan la detección y segmentación de objetos; los modelos de documentos impulsan el OCR y el análisis de diseño; las pilas de ASR y diarización transcriben y segmentan el audio; los sistemas de recuperación y los clasificadores ligeros controlan la búsqueda, la seguridad y el enrutamiento de dominios [24], [26]. Los modelos de lenguaje grandes suelen estar al final de esta cadena: se les pide que razonen sobre salidas estructuradas en lugar de píxeles u ondas. Contribuimos con lo siguiente:
Aceptado en IEEE Conference on Artificial Intelligence (CAI) 2026.
- una arquitectura de sistema centrada en el contexto que trata los DNN y SLM pequeños para la percepción y recuperación como componentes de primera clase en lugar de herramientas opacas, si es que se modelan.
- una instanciación concreta, Interfaze-Beta, que integra OCR, análisis de gráficos/diagramas, ASR/diarización, recuperación y una sandbox detrás de un único endpoint,
- un estudio empírico que muestra que esta pila logra resultados competitivos o de última generación en benchmarks desafiantes de razonamiento y multimodalidad, manteniendo la mayor parte del cómputo en modelos pequeños, y
- un análisis de las limitaciones de la estrategia actual del controlador y la construcción de contexto, destacando el retraso y la sobreconstrucción de contexto como objetivos principales para futuros trabajos.
II. REVISIÓN DE LA LITERATURA
A. El contexto es clave
Trabajos recientes sugieren que la forma en que se selecciona y organiza el contexto importa más que simplemente aumentar un modelo o su ventana. Un estudio de Databricks sobre preguntas y respuestas financieras y corporativas varía tanto el recuento de documentos recuperados como la longitud del prompt para modelos de contexto largo como GPT-4 Turbo y Claude 2, y observa ganancias solo mientras el texto recuperado permanece denso y relevante; una vez que dominan los pasajes poco relacionados, la calidad se degrada incluso cuando el contexto completo encaja [45]. En preguntas y respuestas legales, Hron informa un patrón similar: alimentar expedientes completos a veces supera a RAG ingenuo sobre pequeños fragmentos, pero el rendimiento aún disminuye en documentos muy largos con evidencia dispersa [46]. Xu et al. muestran que ventanas de contexto moderadas combinadas con recuperación pueden igualar o superar líneas base más grandes de contexto largo, como se muestra en la Tabla I, en benchmarks de conocimiento y razonamiento [47]. Juntos, estos resultados argumentan que el contexto debe ser filtrado, estructurado y presupuestado. Extendemos esta visión construyendo un estado estructurado compacto basado en esquemas a partir de modelos de percepción y recuperación antes de invocar cualquier LLM.
B. Dónde el enrutamiento se queda corto
El trabajo de enrutamiento híbrido pregunta qué LLM llamar y cuándo un modelo más pequeño es "suficientemente bueno". FrugalGPT propone cascadas conscientes del costo sobre modelos propietarios [2]; Hybrid LLM agrega un enrutador que predice la dificultad de la consulta y enruta entre un modelo pequeño local y un modelo en la nube más grande [3]; Universal Model Routing generaliza esta idea a pools de expertos cambiantes [4]; y las arquitecturas enrutadas muestran que muchos expertos pueden permanecer inactivos a menos que se activen explícitamente [1]. En casi todos los casos, los expertos son LLM solo de texto de diferentes tamaños y precios. La visión, el habla, el OCR y la recuperación se tratan como utilidades fijas, si es que se modelan. Esto deja abierta la cuestión de cómo enrutar una pila heterogénea de DNN, o cuánto de la calidad y el costo son impulsados por la percepción y la construcción del contexto en lugar de por el LLM final. Nos alejamos del enrutamiento hacia esta pila más amplia: el controlador elige cadenas de herramientas sobre OCR, ASR, análisis de diagramas, recuperación y código en sandbox, mientras que el LLM final es un respondedor fijo sobre el contexto construido.
C. Herramientas y composición de modelos
Una segunda línea de trabajo estudia los LLM que llaman a herramientas externas. Toolformer demuestra que un modelo grande puede etiquetar sus propios datos de entrenamiento con llamadas a API y aprender cuándo invocar calculadoras, búsqueda o sistemas de traducción [5]. HuggingGPT trata un modelo grande como un planificador sobre un registro de modelos especialistas alojados en Hugging Face [6]. Los patrones de prompting como ReAct intercalan pasos de razonamiento con llamadas explícitas a herramientas [7], y marcos como Chameleon tratan modelos y herramientas como módulos componibles organizados en pequeñas pipelines o árboles [8]. Las encuestas resumen los patrones de diseño emergentes y los modos de falla en dichos sistemas [22]. En la mayor parte de este trabajo, las herramientas se definen solo por firmas de función de alto nivel; las DNN subyacentes para OCR, análisis de gráficos y diagramas, ASR y recuperación se abstraen. Esto dificulta ver qué partes de la pila de percepción son importantes para benchmarks como AI2D, ChartQA, MMMU o Common Voice, donde la lectura confiable de diagramas, gráficos y voz es el desafío principal [14]-[16], [26]. Interfaze mantiene la interfaz de herramientas pero trata estos modelos de percepción y recuperación como componentes de primera clase, especificando cómo se conectan a los crawlers e índices y cómo se fusionan sus salidas en un esquema compartido.
D. Modelos de lenguaje pequeños y especialización
Una línea complementaria argumenta que los modelos de lenguaje pequeños (SLM) pueden ser especialistas efectivos. Schick y Schütze demuestran que los modelos pequeños pueden actuar como fuertes aprendices de pocas oportunidades en tareas estrechas con el prompting y la calibración adecuados [19], [41]. Trabajos posteriores utilizan modelos compactos como componentes plug-in para la recuperación y el ranking, mejorando sistemas más grandes en subtareas específicas incluso cuando los modelos pequeños no son competitivos como modelos de chat generales [20]. Flipping Knowledge Distillation utiliza pequeños expertos de dominio para transferir sus fortalezas a generalistas más grandes [21], y documentos de posición recientes argumentan que para muchos flujos de trabajo agentic o con muchas herramientas, los modelos pequeños son atractivos debido a la menor latencia y energía. MobileBERT hace el mismo argumento para el uso móvil y de borde [23]. El trabajo clásico de compresión como DistilBERT y despliegue [17], [18]. Menos explorado es cómo organizar sistemas en los que los SLM manejan la mayor parte del trabajo de percepción y construcción de contexto a través de modalidades, en lugar de solo clasificación o reranking. Interfaze aborda esta brecha: en Interfaze-Beta, los DNN y SLM compactos manejan OCR y diseño de documentos, análisis de gráficos y diagramas, reconocimiento y diarización de voz, y clasificación ligera, mientras que el LLM grande solo ve el contexto destilado producido por estos especialistas.
III. ARQUITECTURA DE INTERFAZE-BETA
Interfaze-Beta tiene cuatro componentes: una etapa de ingreso, una pila de modelos pequeños y percepción, una capa de construcción de contexto y una capa de acción con un controlador ligero.
A. Resumen del sistema
Una consulta de usuario entra como una solicitud x que puede contener texto, imágenes, audio o referencias como URLs o documentos. La etapa de ingreso normaliza la entrada, detecta modalidades y ejecuta comprobaciones rápidas de seguridad e intención. La pila de modelos pequeños procesa el contenido en bruto (OCR y diseño para documentos, detección y análisis para imágenes, ASR para audio y clasificadores para dominio, tema y riesgo). La capa de contexto fusiona estas salidas con índices de web, código y documentación en un estado estructurado c(x). Finalmente, la capa de acción selecciona una secuencia de llamadas a herramientas y pasa el estado destilado a un LLM configurado que devuelve la respuesta.
Los LLM grandes nunca ven píxeles en bruto, formas de onda o sitios web completos. Solo ven c(x) y una representación compacta de la consulta original, por lo que la mayor parte del cómputo se gasta en modelos pequeños y recuperación en lugar de en los modelos más grandes.
B. Pila de modelos pequeños y percepción
La pila de percepción es una colección de modelos pequeños y específicos para tareas en diferentes modalidades: los modelos de documentos/OCR extraen líneas de texto, diseño y cuadros delimitadores; los modelos de objetos y gráficos/diagramas recuperan regiones de interés, ejes, leyendas y series numéricas; un sistema ASR multilingüe transcribe segmentos de audio con marcas de tiempo; y clasificadores ligeros de texto e imagen predicen el dominio, el tipo de tarea y las etiquetas de seguridad.
Estos modelos son mucho más pequeños que los LLM finales, se ejecutan en pools de GPU separados con batching y caching, y son lo suficientemente baratos como para invocarlos antes de cualquier llamada a LLM. Cada uno está entrenado en una mezcla de datos públicos y propietarios; en este documento nos centramos en cómo alimentan la construcción del contexto.
C. Construcción y retroalimentación del contexto
La capa de contexto convierte el resumen de ingreso, las salidas de percepción y los resultados de recuperación en un estado estructurado compacto c(x) adaptado a la solicitud.
Dependiendo de la consulta, accedemos a uno o más índices: las preguntas con mucho código consultan un índice de código sobre repositorios de código abierto e internos; las preguntas sobre "cómo usar esta herramienta" consultan documentación; las preguntas generales de la web consultan un índice web más amplio. Para entradas de documentos o URL, un crawler y un parser recuperan y normalizan la página o el PDF, luego lo pasan por la pila de percepción para OCR, análisis de diseño y extracción de figuras y tablas.
Dado que estas fuentes son ruidosas y redundantes, un compilador de contexto (i) fusiona spans y entidades superpuestos de múltiples herramientas, (ii) filtra detecciones o texto de baja confianza, y (iii) puntúa spans y relaciones candidatas por su relevancia para la consulta. El esquema compartido resultante tiene cuatro campos:
- observaciones: declaraciones textuales cortas de documentos, código o resultados de búsqueda,
- entidades: spans tipados, cuadros delimitadores y nodos (por ejemplo, variables, regiones etiquetadas o celdas de tabla),
- relaciones: enlaces entre entidades, como ejes de gráficos, entradas de leyenda o referencias de texto-figura,
- procedencia: URLs, identificadores de documentos, hashes y marcas de tiempo.
Cada campo tiene un presupuesto de tokens fijo, y el compilador utiliza modelos de puntuación simples aprendidos más heurísticas para mantenerse dentro de ese presupuesto. En la práctica, este esquema es donde se originan la mayoría de las ganancias para AI2D, ChartQA, MMMU y Common Voice.
D. Descarga de trabajo de contexto grande
Las entradas largas motivan la arquitectura. Pasar un PDF completo de varias páginas, un sitio entero o horas de audio directamente a un LLM grande es costoso y frágil, por lo que Interfaze-Beta descarga tanto como sea posible a la pila de modelos pequeños y recuperación. Los LLM grandes nunca ven píxeles en bruto, formas de onda o sitios web completos. Solo ven c(x) y una representación compacta de la consulta original, por lo que la mayor parte del cómputo se gasta en modelos pequeños y recuperación en lugar de en los modelos más grandes.
Para documentos, un analizador segmenta el archivo en páginas y bloques; los modelos de OCR y diseño convierten cada página en tokens y líneas estructurados; un pequeño recuperador indexa estos segmentos; y las preguntas recuperan solo un puñado de segmentos relevantes, que el compilador destila en observaciones y entidades. Para sitios web, un navegador sin interfaz renderiza la página, un scraper elimina el boilerplate y un extractor consciente del DOM identifica secciones, bloques de código y figuras; las consultas acceden a este índice en lugar de ejecutar un pase completo de LLM por página. Para audio, un detector de actividad de voz segmenta el flujo en enunciados, el modelo ASR transcribe cada segmento y los componentes posteriores operan sobre transcripciones y marcas de tiempo en lugar de sobre formas de onda.
En todos los casos, el LLM grande solo ve un pequeño subconjunto del contenido total. El estado destilado c(x) se pasa a la capa de acción, que expone un pequeño conjunto de primitivas (consultar un índice, buscar y analizar una URL o documento, ejecutar un modelo de percepción, ejecutar código en una sandbox o llamar a un LLM generalista). El controlador ordena estas primitivas utilizando estimaciones simples de costo y latencia; en Interfaze-Beta, el LLM final se fija mediante la configuración de despliegue en lugar de elegirse por solicitud.
E. Capa de acción y cadena de modelos especializados
La capa de acción y la cadena de modelos especializados hacen que el sistema parezca un único modelo para los desarrolladores downstream. Un pequeño controlador se sitúa sobre estas primitivas. Dada la información de entrada y la entrada actual, predice un tipo de tarea grueso y decide qué índices consultar, si invocar pases de percepción adicionales y si ejecutar código en la sandbox. Cada decisión corresponde a elegir una cadena de herramientas, es decir, qué acciones invocar (solo recuperación, recuperación más código, pases de percepción adicionales) y qué modelos pequeños están activos a lo largo de esa cadena.
Cada cadena termina llamando a un LLM generalista sobre el contexto destilado, por lo que no hay una puerta de aprendizaje entre LLM pequeños y grandes, y no hay una ruta que omita el modelo final. El controlador se entrena con tuplas offline de solicitudes, cadenas de herramientas y etiquetas de aprobado/fallido, y en la inferencia prefiere las cadenas que satisfacen un umbral mínimo de calidad predicho, al tiempo que minimiza aproximadamente un proxy para el costo de los modelos pequeños y la latencia de la cola. Si una cadena elegida falla o expira, un mecanismo de fallback selecciona la siguiente cadena factible.
IV. ENCODERS PERCEPTUALES EN LA INTERFAZ VISIÓN-AUDIO
Tratamos el audio, las imágenes y los documentos en bruto como señales perceptuales de alta dimensión que deben codificarse antes de invocar cualquier modelo de lenguaje. Siguiendo el trabajo a gran escala en reconocimiento de voz, modelado de hablantes, OCR y anclaje visual, mapeamos las formas de onda a representaciones de tiempo-frecuencia que se asemejan a imágenes de baja resolución, y aplicamos codificadores convolucionales o de retardo de tiempo compactos a ellas [27], [28]. Codificadores similares operan en páginas rasterizadas y capturas de pantalla. Cabezales ligeros predicen tokens, idiomas, incrustaciones de hablantes y estructura geométrica, mientras que los detectores neuronales de actividad de voz segmentan flujos continuos en fragmentos manejables [30], [31]. El estado JSON resultante: texto de enunciado con marcas de tiempo y etiquetas de hablante, líneas de texto con cuadros delimitadores, y regiones de objetos o GUI, alimenta el compilador de contexto y la capa de acción en la Sección III.
En Interfaze-Beta, estos módulos perceptuales se implementan como modelos pequeños y específicos para tareas, entrenados internamente con una mezcla de datos públicos y propietarios. Los describimos a nivel de arquitectura y procesamiento de señales en lugar de curación de conjuntos de datos o pesos de modelos.
A. ASR con Diarización
Dada una forma de onda de entrada x(t) muestreada a 16 kHz, la rama de reconocimiento automático de voz (ASR) aplica una transformada de Fourier de corto tiempo o características mel-espectrales u1:7, y una red de segmentación Sab produce probabilidades fotograma a fotograma de cambio de hablante o actividad de voz. Umbralizar y fusionar los fotogramas activos produce segmentos candidatos.
Un banco de filtros mel M ∈ RFxK agrega magnitudes cuadradas en F bandas perceptuales, y calculamos características log-mel zf,T = log (M|X(T, .) (2)+ + ε), que forman una imagen de tiempo-frecuencia de baja resolución [27], [30]. Un codificador fe, implementado como una pila de bloques convolucionales y de auto-atención, mapea la secuencia z1:7 a estados ocultos h1:T = fθ(z1:7).
Un decodificador de secuencia a secuencia gθ con atención cruzada predice tokens de subpalabra. En el paso t,
pθ (Ut | y<t, h1:T) = softmax (Wθt + b),
donde ot es la salida del decodificador y (W,b) son parámetros aprendidos. Entrenamos con forzado de maestro y entropía cruzada sobre transcripciones, opcionalmente con un objetivo multilingüe, y usamos decodificación codiciosa o de baja dispersión para baja latencia. Para grabaciones largas, un detector de actividad de voz neuronal compacto opera en ventanas cortas de z1:7, produciendo probabilidades de voz por fotograma û ∈ [0, 1] que se umbralizan y fusionan en segmentos [30], [31]. Cada segmento se transcribe de forma independiente, delimitando la longitud de la secuencia y permitiendo la transmisión.
El condicionamiento del lenguaje se proporciona mediante una pequeña red de retardo de tiempo sobre características a nivel de fotograma. Agrega estadísticas a lo largo del tiempo y genera una posterior p(€ | z1:7) sobre los idiomas. Convertimos el idioma argmax en un token especial antepuesto a la entrada del decodificador. Esto mejora el reconocimiento multilingüe y estabiliza la comprensión de tareas downstream, manteniendo el detector de idioma lo suficientemente pequeño como para ejecutarse junto con VAD y ASR en la misma GPU.
Una rama de diarización infiere quién habló cuándo. El audio en bruto se convierte a mono a 16 kHz, se filtra paso banda y se normaliza la amplitud. A partir de esta señal, calculamos características cepstrales y una red de segmentación Sab produce probabilidades por fotograma de cambio de hablante o actividad de voz. Umbralizar y fusionar los fotogramas activos produce segmentos candidatos.
Para cada segmento k con un lapso de tiempo [tstart, tend], una red de incrustación de hablante ew mapea los fotogramas correspondientes a un vector de dimensión fija vk = ew(W[tstart, tend]), siguiendo el diseño de retardo de tiempo con atención de canal enfatizada estándar en la verificación y diarización de hablantes [28]. Las incrustaciones normalizadas L2 se agrupan (por ejemplo, con agrupamiento aglomerativo en el espacio del coseno y un criterio de parada aprendido), asignando una etiqueta de hablante discreta sk a cada segmento, en línea con las recientes pipelines de diarización de código abierto [29].
Un paso ligero de postprocesamiento alinea ASR y diarización en el tiempo. Para cada fragmento transcrito con marcas de tiempo [astart, aend] y texto y(i), encontramos el segmento de diarización k con la máxima superposición temporal y le adjuntamos su etiqueta Sk. Esto produce una lista ordenada de enunciados.
{(Sk,astart, aend, y(i))}
que serializamos en JSON y pasamos al compilador de contexto. En el esquema de Interfaze, cada enunciado se convierte en una observación con una entidad de hablante asociada, relaciones temporales y procedencia que apunta a la URL del audio y la configuración del modelo.
Crucialmente, los modelos de lenguaje grandes de Interfaze-Beta nunca operan sobre audio o espectrogramas en bruto. Solo ven esta transcripción estructurada y anotada por el hablante con marcas de tiempo y etiquetas de idioma. Los especialistas en resumen pequeños condensan transcripciones largas en observaciones compactas, y el LLM generalista configurado opera solo sobre este estado destilado.
B. Reconocimiento óptico de caracteres y análisis de documentos complejos
Nuestra pipeline de documentos se dirige a entradas heterogéneas y multilingües, como recibos, artículos científicos con ecuaciones y figuras, formularios y PDFs de varias páginas. En lugar de pasar píxeles en bruto a un modelo grande de visión-lenguaje, ejecutamos una secuencia de modelos ligeros de visión y secuencia que extraen texto a nivel de palabra con geometría, reconstruyen el orden de lectura y, opcionalmente, realizan una extracción guiada por esquemas, basándose en modelos recientes de OCR y diseño ultraligeros [32], [33], [36].
a) Rasterización y fan-out de páginas: Dada una entrada de documento x, determinamos si x es una imagen o un PDF. Para PDFs, un renderizador convierte cada página en una imagen RGB de alta resolución Ip ∈ IRHxWx3 con un factor de escala fijo para que las fuentes pequeñas permanezcan legibles después del submuestreo por parte del detector. Las páginas se procesan de forma independiente y en paralelo, y las imágenes muy pequeñas se escalan para garantizar una altura x efectiva mínima.
b) Cascada de detección-reconocimiento: Para cada imagen de página Ip, un detector de texto produce regiones cuadriláteras orientadas {(Qi, si)}i=1, Qi ∈ IR4x2, si ∈ [0, 1], donde Qi son coordenadas de esquina y si son confianzas de detección. El detector utiliza una backbone convolucional con una pirámide de características y un cabezal de estilo de segmentación que predice regiones de texto diferenciables; el postprocesamiento extrae componentes conectados y ajusta polígonos [32]. Esto admite texto orientado arbitrariamente con parámetros limitados. Cada región detectada se recorta y se pasa a un reconocedor que mapea una franja de ancho variable a una secuencia de caracteres. Un codificador convolucional 2D produce un mapa de características Fi ∈ RCxT, que se colapsa a lo largo de la altura y se alimenta a un modelo de secuencia ligero (transformador o convolución con puerta) para predecir yi = (yi,1, ... ,yi,T;) sobre un alfabeto multilingüe, entrenado con una pérdida de entropía cruzada o de estilo CTC y aumento consciente del lenguaje [32]. Esto produce triples (Qi, yi, Si) con texto, geometría y confianza para cada línea.
c) Agrupación de líneas y orden de lectura: Las salidas del detector por sí solas no definen un orden de lectura lógico en diseños de varias columnas con encabezados, pies de página y notas al margen. Construimos un grafo cuyos nodos son líneas detectadas y cuyas aristas conectan líneas geométricamente adyacentes. Los nodos llevan polígonos Qi y centroides ci; las aristas se puntúan utilizando superposición vertical, distancia horizontal y similitud de altura de fuente, aproximando características por pares de sistemas de orden de lectura basados en aprendizaje [34]-[36]. Un algoritmo codicioso de búsqueda de rutas recorre este grafo para formar cadenas correspondientes a secciones y párrafos.
Dentro de cada cadena, agregamos texto y definimos un cuadro delimitador alineado con los ejes Bi que encierra Qi. La confianza por línea es un promedio ponderado por longitud de las puntuaciones de las palabras, dando secuencias lj=(textj, Bj,S},{Wj,k}k),
donde cada palabra Wj,k tiene su propio cuadro delimitador y confianza, ya sea de un cabezal nativo de cuadro de caracteres o por interpolación a lo largo de la línea cuando solo se dispone de la geometría a nivel de línea.
d) Corrección de límites de grano fino y extracción estructurada: Los diseños complejos y las regiones de bajo contraste pueden causar espacios o palabras fusionadas. Por lo tanto, mantenemos un reconocedor secundario opcional con mayor resolución o con un sesgo inductivo diferente. Sus salidas se alinean con el detector principal utilizando la intersección sobre la unión en polígonos y la similitud de cadenas a nivel de token. Los cuadros faltantes se rellenan fusionando cuadros de caracteres en un cuadrilátero ajustado o particionando un cuadro de línea Bj según los desplazamientos de caracteres. Cuando la evidencia geométrica es inconsistente, un modelo de lenguaje pequeño recibe el texto de la página y las coordenadas vecinas y predice ajustes locales, restringidos a preservar el orden de lectura original.
Cuando las tareas downstream requieren campos estructurados (por ejemplo, facturas o formularios), invocamos opcionalmente un modelo de visión-lenguaje que opera sobre la imagen de la página y una descripción corta del esquema. Los transformadores sin OCR y conscientes del diseño demuestran que los codificadores multimodales pueden mapear una imagen de documento directamente a JSON [33], [37]. Adoptamos esto de forma restringida: el modelo de visión-lenguaje recibe la imagen de la página, un resumen compacto de la salida de OCR y un esquema expresado como una plantilla JSON, y se entrena para emitir una respuesta estructurada que respete el esquema. Para controlar el costo, esta etapa se activa solo cuando la confianza agregada del OCR cae por debajo de un umbral o cuando el usuario solicita explícitamente la extracción estructurada.
e) Integración con el contexto de Interfaze: La representación final de OCR para un documento x es un estado estructurado COCR(x) que se integra en el compilador de contexto de la Sección III-C. Las líneas y palabras pueblan entidades con spans de texto y cuadros delimitadores; las aristas de orden de lectura y las referencias de figuras forman relaciones; y los campos guiados por esquemas se convierten en observaciones de alta confianza con procedencia explícita (índices de página, ID de sección y hashes de imagen). Los LLM enrutados en Interfaze responden preguntas sobre documentos complejos y multilingües utilizando este contexto compacto y consciente de la geometría en lugar de píxeles en bruto.
C. Detección de objetos de vocabulario abierto y análisis de diseño de GUI
Para el anclaje visual y el razonamiento de la interfaz gráfica de usuario (GUI), combinamos (i) un detector de vocabulario abierto que localiza objetos a partir de prompts de lenguaje natural, (ii) un módulo de segmentación basado en Segment Anything Model 2 (SAM 2), y (iii) un analizador de diseño específico de GUI para regiones de texto, iconos y widgets interactivos [44].
a) Detección de vocabulario abierto como puntuación conjunta de imagen-texto: Sea x ∈ RHxWx3 una imagen RGB y p ∈ P un prompt de lenguaje natural (por ejemplo, "botón de enviar rojo" o "menú de navegación"). Usamos un codificador de visión-lenguaje compacto inspirado en el pre-entrenamiento de imagen-texto con pérdidas contrastivas basadas en sigmoides [38]. Un codificador de imagen Φv : RHxWx3 \_+ RDxK (1) produce una cuadrícula de K tokens visuales, y un codificador de texto Φt : P > RD (2) mapea el prompt a una incrustación D-dimensional. Calculamos un mapa de relevancia espacial de sk = σ (Φv (x)ΦT t (p))k, k= 1,. ,K, (3) donde σ es la función sigmoide y T una temperatura aprendida. Durante el pre-entrenamiento, Sk se supervisa para que sea alto cuando el token k se superpone a regiones de verdad para el prompt y bajo en caso contrario, utilizando una formulación logística de etiquetas múltiples [38]. En la inferencia, las regiones contiguas de alta puntuación en la cuadrícula espacial se agrupan y se mapean de nuevo a las coordenadas de la imagen, produciendo cuadros B(p,x)={bi =(xmin, ymin,xmax, ymax)} No. (4)
Dado que los prompts son texto de formato libre, el mismo codificador puede localizar conceptos arbitrarios, incluidas categorías no vistas y multilingües.
b) Segmentación de instancias condicionada por prompt con SAM 2: Refinamos cada cuadro bi en una máscara a nivel de píxel utilizando Segment Anything Model 2 (SAM 2), un Transformer de Visión jerárquico para la segmentación promptable [39]. Dados x y bi, SAM 2 produce mi = S(x, bi) = {0, 1}HxW, (5) donde S es la red de segmentación. SAM 2 construye una representación ViT de múltiples escalas y un decodificador de máscara ligero que se condiciona en tokens de prompt y características de codificador relevantes para predecir mi en un único pase hacia adelante [39]. Agrupamos todos los prompts de cuadros {bi} por imagen para amortizar el costo de la GPU. Cada objeto detectado se representa mediante (bi, mi) más el prompt p y la confianza de detección.
c) Detección de iconos y texto de GUI: Para las capturas de pantalla de GUI, activamos un analizador de diseño especializado con dos detectores. Un detector de texto basado en la conciencia de la región de caracteres identifica regiones de texto de alta densidad [40]. Regresa los mapas de activación Ychar y Yaff para los centros de caracteres y la afinidad por pares; umbralizar y agrupar componentes conectados en Ychar ∪ Yaff produce detecciones a nivel de palabra y un modelo ajustado de YOLO para iconos y elementos web [42], [43].
V. RESULTADOS Y DISCUSIÓN
Informamos la precisión en conocimiento y razonamiento (MMLU-Pro, MMLU), ciencia de posgrado (GPQA-Diamond), matemáticas de competición (AIME-2025), codificación (LiveCodeBench v5), percepción multimodal (MMMU división de validación, AI2D, ChartQA) y voz multilingüe (Common Voice v16) como se ve en la Tabla II [10], [12]-[16], [25], [26]. Todos los resultados de Interfaze-Beta utilizan la misma pila orquestada por herramientas con las herramientas de OCR/ASR, recuperación, gráficos/diagramas y sandbox habilitadas.
Interfaze-Beta lidera en AIME-2025 (90.0), MMLU (91.38) y AI2D (91.51). Está cerca de los informes públicos más sólidos en MMLU-Pro (83.6 frente a 86.2 para Gemini 2.5 Pro) y GPQA-Diamond (81.31 frente a 84.4), al tiempo que ofrece puntuaciones sólidas en MMMU (val) (77.33), LiveCodeBench v5 (57.77), ChartQA (90.88) y Common Voice v16 (90.8) [10], [12]-[16], [25], [26].
Frente a GPT-4.1 en tareas compartidas, observamos mejoras de +3.0 (MMLU-Pro), +1.18 (MMLU), +2.53 (MMMU), +55.3 (AIME-2025), +15.01 (GPQA-Diamond), +12.07 (LiveCodeBench) y +5.61 (AI2D): un promedio macro de +13.53 puntos (mediana +5.61). Las ganancias se concentran donde el contexto estructurado de la herramienta (análisis de OCR/diagramas/gráficos, recuperación, retroalimentación de sandbox) es más informativo; la codificación muestra margen si se permiten bucles agentic más largos. Esto respalda nuestra afirmación central de que la mayor parte de la mejora proviene de la pila de modelos pequeños y herramientas y la forma en que compila el contexto, en lugar de depender de un único modelo generalista más grande.
En nuestros experimentos con ablaciones, observamos: la eliminación de los analizadores de OCR/diagramas/gráficos reduce AI2D/ChartQA entre 4 y 7 puntos; la desactivación de la compilación de contexto cuesta ~2 puntos en GPQA-Diamond; la desactivación del cabezal opcional de razonamiento corto perjudica a AIME y MMLU-Pro en segmentos de alta dificultad. Juntos, la cadena de selección de modelos especializados + el contexto de la herramienta + el razonamiento limitado explican las mejoras observadas, manteniendo la mayor parte del tráfico en rutas SLM más baratas.
A. Notas por dominio
En cuanto a conocimiento y razonamiento general, superamos al grupo en MMLU en +1.18 sobre GPT-4.1 y +2.18 sobre Gemini 2.5 Pro. El MMLU-Pro más difícil nos agrupa con Sonnet 4 y su variante Thinking, a 2.6 puntos del mejor. En la práctica, la mayoría de los elementos se resuelven en rutas SLM+herramienta, y el controlador solo invoca cadenas de herramientas más agresivas cuando la dificultad y la incertidumbre predichas aumentan [10], [25].
En matemáticas de competición (AIME-2025), obtenemos 90.0, un amplio margen de +55.3 frente a GPT-4.1 y +16-17 frente a Sonnet 4 y Opus 4 (Thinking). El enrutador prefiere herramientas centradas en las matemáticas y habilita la auto-consistencia corta solo cuando las comprobaciones aritméticas no concuerdan, lo que frena los errores numéricos por poco.
Para la codificación (LiveCodeBench v5), 57.77 supera cómodamente a GPT-4.1 (+12.07), Sonnet 4 (+12.87) y Gemini 2.5 Flash (+8.27), pero se queda atrás de los sistemas especializados en código más agresivos, Sonnet 4 (Thinking) por 7.73 y Gemini 2.5 Pro por 18.13. Esto refleja una elección deliberada de favorecer las comprobaciones ligeras en sandbox sobre los bucles de depuración agentic más largos [13].
En percepción multimodal, MMMU (val) alcanza 77.33 (+2.53 sobre GPT-4.1), con los mayores márgenes en AI2D (91.51: +5.61 sobre GPT-4.1 y +2.01 sobre Gemini 2.5 Pro) y un sólido ChartQA (90.88). El texto OCR estructurado, los cuadros delimitadores, los ejes de los gráficos y las relaciones de objetos se fusionan en prompts compactos que reducen las alucinaciones y respaldan las comparaciones numéricas [14]-[16].
Para el habla, Common Voice v16 alcanza 90.8 utilizando un especialista ASR multilingüe entrenado en grandes conjuntos de datos de audio multilingües [26].
VI. LIMITACIONES Y TRABAJO FUTURO
Vemos dos puntos débiles prácticos: el retraso y la sobreconstrucción de contexto. El retraso se debe a la expansión del contexto desde los SLM (OCR/ASR, scraping, recuperación) y el bucle agentic acotado, además de los arranques en frío para modelos pequeños alojados en nuestra infraestructura de inferencia, lo que puede aumentar la latencia de la cola incluso cuando los costos promedio son bajos. La sobreconstrucción ocurre cuando el controlador invoca más herramientas o pases de recuperación de los necesarios para una consulta dada, inflando el costo sin claras ganancias de calidad [2], [3].
En futuros trabajos, trataremos el retraso y la sobreconstrucción como objetivos clave: haremos que la construcción agresiva del contexto sea opcional, agregaremos pequeñas penalizaciones por invocaciones adicionales de herramientas en el modelo de costos del controlador y rastrearemos las "expansiones de contexto evitables" (casos en los que una cadena de herramientas más barata habría superado el umbral de precisión) [2], [3].
AGRADECIMIENTOS
Agradecemos a los colegas y revisores que proporcionaron comentarios detallados sobre los borradores iniciales y ayudaron a mejorar la claridad, presentación y el marco técnico de nuestro trabajo. También agradecemos a todos los que ayudaron con la revisión interna, las discusiones sobre benchmarks y la edición del documento.
REFERENCIAS
[1] A. Clark, D. de las Casas, A. Guy, A. Mensch, M. Paganini, J. Hoffmann, B. Damoc, B. Hechtman, T. Cai, S. Borgeaud, et al. Unified Scaling Laws for Routed Language Models. In Proceedings of the 39th International Conference on Machine Learning (ICML), 2022. URL: https://proceedings.mlr.press/v162/clark22a.html.
[2] L. Chen, M. Zaharia, and J. Zou. FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance. arXiv:2305.05176, 2023. URL: https://arxiv.org/abs/2305.05176.
[3] D. Ding, A. Mallick, C. Wang, R. Sim, S. Mukherjee, V. Ruhle, L. V. S. Lakshmanan, and A. H. Awadallah. Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing. In International Conference on Learning Representations (ICLR), 2024. URL: https://openreview.net/forum?id=02f3mUtqnM.
[4] W. Jitkrittum, et al. Universal Model Routing for Efficient LLM Inference. arXiv:2502.08773, 2025. URL: https://arxiv.org/abs/2502.08773.
[5] T. Schick, J. Dwivedi-Yu, R. Dessì, R. Raileanu, M. Lomeli, L. Zettlemoyer, N. Cancedda, and T. Scialom. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761, 2023. URL: https://arxiv.org/abs/2302.04761.
[6] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. arXiv:2303.17580, 2023. URL: https://arxiv.org/abs/2303.17580.
[7] S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, and Y. Cao. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022. URL: https://arxiv.org/abs/2210.03629.
[8] P. Lu, B. Peng, H. Cheng, M. Galley, K.-W. Chang, Y. N. Wu, S.-C. Zhu, and J. Gao. Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models. arXiv:2304.09842, 2023. URL: https://arxiv.org/abs/2304.09842.
[9] X. Wang, J. Wei, D. Schuurmans, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. In International Conference on Learning Representations (ICLR), 2023. URL: https://arxiv.org/abs/2203.11171.
[10] Y. Wang, X. Ma, G. Zhang, Y. Ni, A. Chandra, S. Guo, W. Ren, A. Arulraj, X. He, Z. Jiang, et al. MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark. arXiv:2406.01574, 2024. URL: https://arxiv.org/abs/2406.01574.
[11] Art of Problem Solving (AoPS). AIME Problems and Solutions (1983-present). URL: https://artofproblemsolving.com/wiki/index.php/AIME_Problems_and_Solutions.
[12] D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, and S. R. Bowman. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, 2023. URL: https://arxiv.org/abs/2311.12022.
[13] N. Jain, K. Han, A. Gu, W.-D. Li, F. Yan, T. Zhang, S. Wang, A. Solar-Lezama, K. Sen, and I. Stoica. LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code. arXiv:2403.07974, 2024. URL: https://arxiv.org/abs/2403.07974.
[14] X. Yue, Y. Ni, K. Zhang, T. Zheng, R. Liu, G. Zhang, S. Stevens, D. Jiang, W. Ren, Y. Sun, C. Wei, B. Yu, R. Yuan, R. Sun, M. Yin, B. Zheng, Z. Yang, Y. Liu, W. Huang, H. Sun, Y. Su, and W. Chen. MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. URL: https://openaccess.thecvf.com/content/CVPR2024/papers/Yue_MMMU_A_Massive_Multi-discipline_Multimodal_Understanding_and_Reasoning_Benchmark_for_CVPR_2024_paper.pdf.
[15] A. Kembhavi, M. Salvato, E. Kolve, M. Seo, H. Hajishirzi, and A. Farhadi. A Diagram Is Worth A Dozen Images. arXiv:1603.07396, 2016. URL: https://arxiv.org/abs/1603.07396.
[16] A. Masry, D. X. Long, J. Q. Tan, S. Joty, and E. Hoque. ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. arXiv:2203.10244, 2022. URL: https://arxiv.org/abs/2203.10244.
[17] V. Sanh, L. Debut, J. Chaumond, and T. Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108, 2019. URL: https://arxiv.org/abs/1910.01108.
[18] Z. Sun, H. Yu, X. Song, R. Liu, Y. Yang, and D. Zhou. MobileBERT a Compact Task-Agnostic BERT for Resource-Limited Devices. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 2020. URL: https://arxiv.org/abs/2004.02984.
[19] T. Schick and H. Schütze. It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners. In Proceedings of the 16th Conference of the European Chapter of the ACL (EACL), 2021. URL: https://arxiv.org/abs/2009.07118.
[20] C. Xu, Y. Xu, S. Wang, Y. Liu, C. Zhu, and J. McAuley. Small Models are Valuable Plug-ins for Large Language Models. In Findings of the Association for Computational Linguistics, 2024. URL: https://aclanthology.org/2024.findings-acl.18/.
[21] M. Li, J. Xiang, Q. Zhang, K. Wan, and X. Chen. Flipping Knowledge Distillation: Leveraging Small Models’ Expertise to Enhance LLMs in Text Matching. In Proceedings of the 63rd Annual Meeting of the ACL (Long Papers), 2025. URL: https://aclanthology.org/2025.acl-long.1081/.
[22] Z. Shen. LLM With Tools: A Survey. arXiv:2409.18807, 2024. URL: https://arxiv.org/abs/2409.18807.
[23] P. Belcak, G. Heinrich, S. Diao, Y. Fu, X. Dong, S. Muralidharan, Y. C. Lin, and P. Molchanov. Small Language Models are the Future of Agentic AI. arXiv:2506.02153, 2025. URL: https://arxiv.org/abs/2506.02153.
[24] Meta AI. Llama Guard 4: Multimodal safety classifier 12B. 2025 URL: https://www.llama.com/docs/model-cards-and-prompt-formats/llama-guard-4/.
[25] D. Hendrycks, C. Burns, S. Basart, A. Zheng, M. Stepanek, E. Kuba, S. Ball, S. Tran, C. Tang, J. Song, J. Kornblith, A. Chen, and J. Steinhardt. Measuring Massive Multitask Language Understanding. In Proceedings of the International Conference on Learning Representations (ICLR), 2021. URL: https://arxiv.org/abs/2009.03300.
[26] R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F. Tyers, and G. Weber. Common Voice: A Massively-Multilingual Speech Corpus. In Proceedings of The 12th Language Resources and Evaluation Conference (LREC), 2020. URL: https://arxiv.org/abs/1912.06670.
[27] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever. Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356, 2022. URL: https://arxiv.org/abs/2212.04356.
[28] B. Desplanques, J. Thienpondt, and K. Demuynck. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN-Based Speaker Verification. In Proceedings of Interspeech, 2020. URL: https://www.isca-archive.org/interspeech_2020/desplanques20_interspeech.html.
[29] H. Bredin. pyannote.audio 2.1 Speaker Diarization Pipeline: Principle, Benchmark, and Recipe. In Proceedings of Interspeech, 2023. URL: https://www.isca-archive.org/interspeech_2023/bredin23_interspeech.html.
[30] M. Sharma et al. A Comprehensive Empirical Review of Modern Voice Activity Detection Approaches for Movies and TV Shows. Technical report, 2022.
[31] Silero AI. Silero VAD: Pre-trained Enterprise-Grade Voice Activity Detector. GitHub repository, accessed 2025. URL: https://github.com/snakers4/silero-vad.
[32] C. Li, W. Liu, R. Guo, X. Yin, K. Jiang, Y. Du, Y. Du, L. Zhu, B. Lai, X. Hu, D. Yu, and Y. Ma. PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System. arXiv:2206.03001, 2022. URL: https://arxiv.org/abs/2206.03001.
[33] Y. Huang, L. Bi, F. Fang, S. Liu, X. Fang, X. Sun, and J. Liu. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. arXiv:2204.08387, 2022. URL: https://arxiv.org/abs/2204.08387.
[34] S. Marinai, E. Marinai, and colleagues. Machine Learning for Reading Order Detection in Document Image Understanding. In Machine Learning in Document Analysis and Recognition, 2008.
[35] L. Qiao, C. Li, Z. Cheng, Y. Xu, Y. Niu, and X. Li, "Reading order detection in visually-rich documents with multi-modal layout-aware relation prediction," Pattern Recognition, vol. 150, art. 110314, 2024. doi: 10.1016/j.patcog.2024.110314.
[36] Z. Wang, et al. LayoutReader: Pre-training of Text and Layout for Reading Order Detection. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021. URL: https://aclanthology.org/2021.emnlp-main.389/.
[37] G. Kim, T. Kim, S. Park, S. Yun, C. D. Yoo, and N. I. Cho. OCR-free Document Understanding Transformer. In European Conference on Computer Vision (ECCV), 2022. URL: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136880493.pdf.
[38] X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer. Sigmoid Loss for Language Image Pre-Training. arXiv preprint arXiv:2303.15343, 2023. URL: https://arxiv.org/abs/2303.15343.
[39] N. Ravi, V. Gabeur, Y.-T. Hu, et al. SAM 2: Segment Anything in Images and Videos. arXiv preprint arXiv:2408.00714, 2024. URL: https://arxiv.org/abs/2408.00714.
[40] Baek, Lee, Han, Yun, and Lee. Character region awareness for text detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9365-9374, 2019.
[41] JaidedAI. EasyOCR: Ready-to-use OCR with 80+ supported languages. GitHub repository, 2020. https://github.com/JaidedAI/EasyOCR.
[42] G. Jocher, A. Chaurasia, and J. Qiu, Ultralytics YOLOv8: Real-time object detection, Technical report, Ultralytics, 2023. https://docs.ultralytics.com.
[43] Y. Lu, J. Yang, Y. Shen, and A. H. Awadallah. OmniParser for Pure Vision-Based GUI Agent. arXiv preprint arXiv:2408.00203, 2024. URL: https://arxiv.org/abs/2408.00203.
[44] B. Xiao, H. Wu, W. Xu, X. Dai, H. Hu, Y. Lu, M. Zeng, C. Liu, and L. Yuan. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. URL: https://openaccess.thecvf.com/content/CVPR2024/papers/Xiao_Florence-2_Advancing_a_Unified_Representation_for_a_Variety_of_Vision_CVPR_2024_paper.pdf.
[45] Q. Leng, J. Portes, S. Havens, M. Zaharia, and M. Carbin. Long Context RAG Performance of LLMs. Databricks Blog, 12 August 2024. Available at: https://www.databricks.com/blog/long-context-rag-performance-llms.
[46] J. Hron. Legal AI Benchmarking: Evaluating Long Context Performance for LLMs. Thomson Reuters Innovation Blog, 14 April 2025.
[47] P. Xu, W. Ping, X. Wu, L. McAfee, C. Zhu, Z. Liu, S. Subramanian, E. Bakhturina, M. Shoeybi, and B. Catanzaro. Retrieval Meets Long Context Large Language Models. arXiv preprint arXiv:2310.03025, 2023. Available at: https://arxiv.org/abs/2310.03025.```JSON output
You can reference the precontext to get the raw results from the model for both the STT and translation processes.
{
"content": [
{
"type": "text",
"text": "```markdown\n# Interfaze: El futuro de la IA se construye con modelos pequeños específicos para tareas\nHarsha Vardhan Khurdula, Vineet Agarwal, Yoeven D Khemlani\nJigsawStack, Inc. JigsawStack, Inc. JigsawStack, Inc.\nSan Francisco, CA, USA Durgapur, WB, India San Francisco, CA, USA\nharsha@jigsawstack.com vineet@jigsawstack.com yoeven@jigsawstack.com\n\n**Resumen** — Presentamos Interfaze, un sistema que trata las aplicaciones modernas de LLM como un problema de construir y actuar sobre el contexto, no solo de elegir el modelo monolítico correcto. En lugar de un único transformador, combinamos (i) una pila de DNN heterogéneos emparejados con modelos de lenguaje pequeños como módulos de percepción para OCR que implican PDFs complejos, gráficos y diagramas, y ASR multilingüe con (ii) una capa de construcción de contexto que rastrea, indexa y analiza fuentes externas (páginas web, código, PDFs) en un estado estructurado compacto, y (iii) una capa de acción que puede navegar, recuperar, ejecutar código en una sandbox y controlar un navegador sin interfaz para páginas web dinámicas. Un controlador ligero se sitúa sobre esta pila y expone un único endpoint al estilo OpenAI: decide qué modelos pequeños y acciones ejecutar y siempre reenvía el contexto destilado a un LLM seleccionado por el usuario que produce la respuesta final.\n\nEn esta arquitectura, Interfaze-Beta alcanza 83.6% en MMLU-Pro, 91.4% en MMLU, 81.3% en GPQA-Diamond, 57.8% en LiveCodeBench v5 y 90.0% en AIME-2025, junto con sólidas puntuaciones multimodales en MMMU (val) (77.3%), AI2D (91.5%), ChartQA (90.9%) y Common Voice v16 (90.8%). Mostramos que la mayoría de las consultas son manejadas principalmente por los modelos pequeños y la pila de herramientas, con el LLM grande operando solo sobre el contexto destilado, lo que produce una precisión competitiva mientras desplaza la mayor parte del cómputo lejos de los modelos monolíticos más caros.\n\nTrabajos recientes formalizan partes de este panorama. El enrutamiento híbrido y las cascadas estudian cuándo un modelo pequeño es “lo suficientemente bueno” y cuándo escalar a uno mayor, usando estimaciones aprendidas de dificultad y políticas conscientes del costo [1]-[4]. Los LLMs aumentados con herramientas muestran mejoras cuando el modelo puede llamar APIs, buscar y ejecutar código [5]-[8], [22]. En paralelo, los modelos de lenguaje pequeños se usan como especialistas plug-in para recuperación, reranking y razonamiento específico de dominio, y como modelos compactos para entornos edge [17]-[20], [23]. Sin embargo, la mayoría de estos sistemas se describen desde la perspectiva del modelo grande o del router. El diseño concreto de la pila de modelos pequeños, es decir, qué DNN manejan la percepción y la clasificación, cómo se filtran y combinan sus salidas y cómo se interconectan con scrapers e índices, suele ser abstraído tras llamadas genéricas a “herramientas”, lo que dificulta reproducirlos o ver qué partes impulsan realmente las mejoras en tareas multimodales y de contexto largo.\n\nAdoptamos una perspectiva de sistemas. Tratamos el LLM moderno y la pila de herramientas como sistemas para construir y actuar sobre el contexto, y hacemos que los DNN pequeños y los SLM que construyen este contexto sean ciudadanos de primera clase. Interfaze es una arquitectura centrada en el contexto con tres partes:\n\nI. INTRODUCCIÓN\nLos LLMs de propósito general tienen una amplitud impresionante, pero los sistemas desplegados necesitan más que la predicción del siguiente token. Deben ver el mundo (OCR, detección de objetos, reconocimiento de voz, clasificación), construir y mantener un contexto externo (índices, cachés, código, herramientas) y luego razonar sobre ese contexto.\nEjecutar un único modelo de frontera sobre entradas en bruto: un PDF completo, un archivo de audio largo o un sitio web completo a menudo no es económico ni robusto [2], [3]. Los benchmarks que enfatizan el razonamiento y la comprensión multimodal en lugar de la memorización (MMLU-Pro, GPQA-Diamond, AIME-2025, MMMU, AI2D, ChartQA, Common Voice) explicitan esta brecha [10], [12]-[16], [26].\n\nEn la práctica, los sistemas de producción ya consisten en redes neuronales profundas y herramientas heterogéneas. Las backbones de visión manejan la detección y segmentación de objetos; los modelos de documentos impulsan el OCR y el análisis de diseño; las pilas de ASR y diarización transcriben y segmentan el audio; los sistemas de recuperación y los clasificadores ligeros controlan la búsqueda, la seguridad y el enrutamiento de dominios [24], [26]. Los modelos de lenguaje grandes suelen estar al final de esta cadena: se les pide que razonen sobre salidas estructuradas en lugar de píxeles u ondas. Contribuimos con lo siguiente:\nAceptado en IEEE Conference on Artificial Intelligence (CAI) 2026.\n- una arquitectura de sistema centrada en el contexto que trata los DNN y SLM pequeños para la percepción y recuperación como componentes de primera clase en lugar de herramientas opacas, si es que se modelan.\n- una instanciación concreta, Interfaze-Beta, que integra OCR, análisis de gráficos/diagramas, ASR/diarización, recuperación y una sandbox detrás de un único endpoint,\n- un estudio empírico que muestra que esta pila logra resultados competitivos o de última generación en benchmarks desafiantes de razonamiento y multimodalidad, manteniendo la mayor parte del cómputo en modelos pequeños, y\n- un análisis de las limitaciones de la estrategia actual del controlador y la construcción de contexto, destacando el retraso y la sobreconstrucción de contexto como objetivos principales para futuros trabajos.\n\nII. REVISIÓN DE LA LITERATURA\n\nA. El contexto es clave\nTrabajos recientes sugieren que la forma en que se selecciona y organiza el contexto importa más que simplemente aumentar un modelo o su ventana. Un estudio de Databricks sobre preguntas y respuestas financieras y corporativas varía tanto el recuento de documentos recuperados como la longitud del prompt para modelos de contexto largo como GPT-4 Turbo y Claude 2, y observa ganancias solo mientras el texto recuperado permanece denso y relevante; una vez que dominan los pasajes poco relacionados, la calidad se degrada incluso cuando el contexto completo encaja [45]. En preguntas y respuestas legales, Hron informa un patrón similar: alimentar expedientes completos a veces supera a RAG ingenuo sobre pequeños fragmentos, pero el rendimiento aún disminuye en documentos muy largos con evidencia dispersa [46]. Xu et al. muestran que ventanas de contexto moderadas combinadas con recuperación pueden igualar o superar líneas base más grandes de contexto largo, como se muestra en la Tabla I, en benchmarks de conocimiento y razonamiento [47]. Juntos, estos resultados argumentan que el contexto debe ser filtrado, estructurado y presupuestado. Extendemos esta visión construyendo un estado estructurado compacto basado en esquemas a partir de modelos de percepción y recuperación antes de invocar cualquier LLM.\n\nB. Dónde el enrutamiento se queda corto\nEl trabajo de enrutamiento híbrido pregunta qué LLM llamar y cuándo un modelo más pequeño es \"suficientemente bueno\". FrugalGPT propone cascadas conscientes del costo sobre modelos propietarios [2]; Hybrid LLM agrega un enrutador que predice la dificultad de la consulta y enruta entre un modelo pequeño local y un modelo en la nube más grande [3]; Universal Model Routing generaliza esta idea a pools de expertos cambiantes [4]; y las arquitecturas enrutadas muestran que muchos expertos pueden permanecer inactivos a menos que se activen explícitamente [1]. En casi todos los casos, los expertos son LLM solo de texto de diferentes tamaños y precios. La visión, el habla, el OCR y la recuperación se tratan como utilidades fijas, si es que se modelan. Esto deja abierta la cuestión de cómo enrutar una pila heterogénea de DNN, o cuánto de la calidad y el costo son impulsados por la percepción y la construcción del contexto en lugar de por el LLM final. Nos alejamos del enrutamiento hacia esta pila más amplia: el controlador elige cadenas de herramientas sobre OCR, ASR, análisis de diagramas, recuperación y código en sandbox, mientras que el LLM final es un respondedor fijo sobre el contexto construido.\n\nC. Herramientas y composición de modelos\nUna segunda línea de trabajo estudia los LLM que llaman a herramientas externas. Toolformer demuestra que un modelo grande puede etiquetar sus propios datos de entrenamiento con llamadas a API y aprender cuándo invocar calculadoras, búsqueda o sistemas de traducción [5]. HuggingGPT trata un modelo grande como un planificador sobre un registro de modelos especialistas alojados en Hugging Face [6]. Los patrones de prompting como ReAct intercalan pasos de razonamiento con llamadas explícitas a herramientas [7], y marcos como Chameleon tratan modelos y herramientas como módulos componibles organizados en pequeñas pipelines o árboles [8]. Las encuestas resumen los patrones de diseño emergentes y los modos de falla en dichos sistemas [22]. En la mayor parte de este trabajo, las herramientas se definen solo por firmas de función de alto nivel; las DNN subyacentes para OCR, análisis de gráficos y diagramas, ASR y recuperación se abstraen. Esto dificulta ver qué partes de la pila de percepción son importantes para benchmarks como AI2D, ChartQA, MMMU o Common Voice, donde la lectura confiable de diagramas, gráficos y voz es el desafío principal [14]-[16], [26]. Interfaze mantiene la interfaz de herramientas pero trata estos modelos de percepción y recuperación como componentes de primera clase, especificando cómo se conectan a los crawlers e índices y cómo se fusionan sus salidas en un esquema compartido.\n\nD. Modelos de lenguaje pequeños y especialización\nUna línea complementaria argumenta que los modelos de lenguaje pequeños (SLM) pueden ser especialistas efectivos. Schick y Schütze demuestran que los modelos pequeños pueden actuar como fuertes aprendices de pocas oportunidades en tareas estrechas con el prompting y la calibración adecuados [19], [41]. Trabajos posteriores utilizan modelos compactos como componentes plug-in para la recuperación y el ranking, mejorando sistemas más grandes en subtareas específicas incluso cuando los modelos pequeños no son competitivos como modelos de chat generales [20]. Flipping Knowledge Distillation utiliza pequeños expertos de dominio para transferir sus fortalezas a generalistas más grandes [21], y documentos de posición recientes argumentan que para muchos flujos de trabajo agentic o con muchas herramientas, los modelos pequeños son atractivos debido a la menor latencia y energía. MobileBERT hace el mismo argumento para el uso móvil y de borde [23]. El trabajo clásico de compresión como DistilBERT y despliegue [17], [18]. Menos explorado es cómo organizar sistemas en los que los SLM manejan la mayor parte del trabajo de percepción y construcción de contexto a través de modalidades, en lugar de solo clasificación o reranking. Interfaze aborda esta brecha: en Interfaze-Beta, los DNN y SLM compactos manejan OCR y diseño de documentos, análisis de gráficos y diagramas, reconocimiento y diarización de voz, y clasificación ligera, mientras que el LLM grande solo ve el contexto destilado producido por estos especialistas.\n\nIII. ARQUITECTURA DE INTERFAZE-BETA\nInterfaze-Beta tiene cuatro componentes: una etapa de ingreso, una pila de modelos pequeños y percepción, una capa de construcción de contexto y una capa de acción con un controlador ligero.\n\nA. Resumen del sistema\nUna consulta de usuario entra como una solicitud x que puede contener texto, imágenes, audio o referencias como URLs o documentos. La etapa de ingreso normaliza la entrada, detecta modalidades y ejecuta comprobaciones rápidas de seguridad e intención. La pila de modelos pequeños procesa el contenido en bruto (OCR y diseño para documentos, detección y análisis para imágenes, ASR para audio y clasificadores para dominio, tema y riesgo). La capa de contexto fusiona estas salidas con índices de web, código y documentación en un estado estructurado c(x). Finalmente, la capa de acción selecciona una secuencia de llamadas a herramientas y pasa el estado destilado a un LLM configurado que devuelve la respuesta.\n\nLos LLM grandes nunca ven píxeles en bruto, formas de onda o sitios web completos. Solo ven c(x) y una representación compacta de la consulta original, por lo que la mayor parte del cómputo se gasta en modelos pequeños y recuperación en lugar de en los modelos más grandes.\n\nB. Pila de modelos pequeños y percepción\nLa pila de percepción es una colección de modelos pequeños y específicos para tareas en diferentes modalidades: los modelos de documentos/OCR extraen líneas de texto, diseño y cuadros delimitadores; los modelos de objetos y gráficos/diagramas recuperan regiones de interés, ejes, leyendas y series numéricas; un sistema ASR multilingüe transcribe segmentos de audio con marcas de tiempo; y clasificadores ligeros de texto e imagen predicen el dominio, el tipo de tarea y las etiquetas de seguridad.\n\nEstos modelos son mucho más pequeños que los LLM finales, se ejecutan en pools de GPU separados con batching y caching, y son lo suficientemente baratos como para invocarlos antes de cualquier llamada a LLM. Cada uno está entrenado en una mezcla de datos públicos y propietarios; en este documento nos centramos en cómo alimentan la construcción del contexto.\n\nC. Construcción y retroalimentación del contexto\nLa capa de contexto convierte el resumen de ingreso, las salidas de percepción y los resultados de recuperación en un estado estructurado compacto c(x) adaptado a la solicitud.\n\nDependiendo de la consulta, accedemos a uno o más índices: las preguntas con mucho código consultan un índice de código sobre repositorios de código abierto e internos; las preguntas sobre \"cómo usar esta herramienta\" consultan documentación; las preguntas generales de la web consultan un índice web más amplio. Para entradas de documentos o URL, un crawler y un parser recuperan y normalizan la página o el PDF, luego lo pasan por la pila de percepción para OCR, análisis de diseño y extracción de figuras y tablas.\n\nDado que estas fuentes son ruidosas y redundantes, un compilador de contexto (i) fusiona spans y entidades superpuestos de múltiples herramientas, (ii) filtra detecciones o texto de baja confianza, y (iii) puntúa spans y relaciones candidatas por su relevancia para la consulta. El esquema compartido resultante tiene cuatro campos:\n- observaciones: declaraciones textuales cortas de documentos, código o resultados de búsqueda,\n- entidades: spans tipados, cuadros delimitadores y nodos (por ejemplo, variables, regiones etiquetadas o celdas de tabla),\n- relaciones: enlaces entre entidades, como ejes de gráficos, entradas de leyenda o referencias de texto-figura,\n- procedencia: URLs, identificadores de documentos, hashes y marcas de tiempo.\n\nCada campo tiene un presupuesto de tokens fijo, y el compilador utiliza modelos de puntuación simples aprendidos más heurísticas para mantenerse dentro de ese presupuesto. En la práctica, este esquema es donde se originan la mayoría de las ganancias para AI2D, ChartQA, MMMU y Common Voice.\n\nD. Descarga de trabajo de contexto grande\nLas entradas largas motivan la arquitectura. Pasar un PDF completo de varias páginas, un sitio entero o horas de audio directamente a un LLM grande es costoso y frágil, por lo que Interfaze-Beta descarga tanto como sea posible a la pila de modelos pequeños y recuperación. Los LLM grandes nunca ven píxeles en bruto, formas de onda o sitios web completos. Solo ven c(x) y una representación compacta de la consulta original, por lo que la mayor parte del cómputo se gasta en modelos pequeños y recuperación en lugar de en los modelos más grandes.\n\nPara documentos, un analizador segmenta el archivo en páginas y bloques; los modelos de OCR y diseño convierten cada página en tokens y líneas estructurados; un pequeño recuperador indexa estos segmentos; y las preguntas recuperan solo un puñado de segmentos relevantes, que el compilador destila en observaciones y entidades. Para sitios web, un navegador sin interfaz renderiza la página, un scraper elimina el boilerplate y un extractor consciente del DOM identifica secciones, bloques de código y figuras; las consultas acceden a este índice en lugar de ejecutar un pase completo de LLM por página. Para audio, un detector de actividad de voz segmenta el flujo en enunciados, el modelo ASR transcribe cada segmento y los componentes posteriores operan sobre transcripciones y marcas de tiempo en lugar de sobre formas de onda.\n\nEn todos los casos, el LLM grande solo ve un pequeño subconjunto del contenido total. El estado destilado c(x) se pasa a la capa de acción, que expone un pequeño conjunto de primitivas (consultar un índice, buscar y analizar una URL o documento, ejecutar un modelo de percepción, ejecutar código en una sandbox o llamar a un LLM generalista). El controlador ordena estas primitivas utilizando estimaciones simples de costo y latencia; en Interfaze-Beta, el LLM final se fija mediante la configuración de despliegue en lugar de elegirse por solicitud.\n\nE. Capa de acción y cadena de modelos especializados\nLa capa de acción y la cadena de modelos especializados hacen que el sistema parezca un único modelo para los desarrolladores downstream. Un pequeño controlador se sitúa sobre estas primitivas. Dada la información de entrada y la entrada actual, predice un tipo de tarea grueso y decide qué índices consultar, si invocar pases de percepción adicionales y si ejecutar código en la sandbox. Cada decisión corresponde a elegir una cadena de herramientas, es decir, qué acciones invocar (solo recuperación, recuperación más código, pases de percepción adicionales) y qué modelos pequeños están activos a lo largo de esa cadena.\n\nCada cadena termina llamando a un LLM generalista sobre el contexto destilado, por lo que no hay una puerta de aprendizaje entre LLM pequeños y grandes, y no hay una ruta que omita el modelo final. El controlador se entrena con tuplas offline de solicitudes, cadenas de herramientas y etiquetas de aprobado/fallido, y en la inferencia prefiere las cadenas que satisfacen un umbral mínimo de calidad predicho, al tiempo que minimiza aproximadamente un proxy para el costo de los modelos pequeños y la latencia de la cola. Si una cadena elegida falla o expira, un mecanismo de fallback selecciona la siguiente cadena factible.\n\nIV. ENCODERS PERCEPTUALES EN LA INTERFAZ VISIÓN-AUDIO\n\nTratamos el audio, las imágenes y los documentos en bruto como señales perceptuales de alta dimensión que deben codificarse antes de invocar cualquier modelo de lenguaje. Siguiendo el trabajo a gran escala en reconocimiento de voz, modelado de hablantes, OCR y anclaje visual, mapeamos las formas de onda a representaciones de tiempo-frecuencia que se asemejan a imágenes de baja resolución, y aplicamos codificadores convolucionales o de retardo de tiempo compactos a ellas [27], [28]. Codificadores similares operan en páginas rasterizadas y capturas de pantalla. Cabezales ligeros predicen tokens, idiomas, incrustaciones de hablantes y estructura geométrica, mientras que los detectores neuronales de actividad de voz segmentan flujos continuos en fragmentos manejables [30], [31]. El estado JSON resultante: texto de enunciado con marcas de tiempo y etiquetas de hablante, líneas de texto con cuadros delimitadores, y regiones de objetos o GUI, alimenta el compilador de contexto y la capa de acción en la Sección III.\n\nEn Interfaze-Beta, estos módulos perceptuales se implementan como modelos pequeños y específicos para tareas, entrenados internamente con una mezcla de datos públicos y propietarios. Los describimos a nivel de arquitectura y procesamiento de señales en lugar de curación de conjuntos de datos o pesos de modelos.\n\nA. ASR con Diarización\nDada una forma de onda de entrada x(t) muestreada a 16 kHz, la rama de reconocimiento automático de voz (ASR) aplica una transformada de Fourier de corto tiempo o características mel-espectrales u1:7, y una red de segmentación Sab produce probabilidades fotograma a fotograma de cambio de hablante o actividad de voz. Umbralizar y fusionar los fotogramas activos produce segmentos candidatos.\nUn banco de filtros mel M ∈ RFxK agrega magnitudes cuadradas en F bandas perceptuales, y calculamos características log-mel zf,T = log (M|X(T, .) (2)+ + ε), que forman una imagen de tiempo-frecuencia de baja resolución [27], [30]. Un codificador fe, implementado como una pila de bloques convolucionales y de auto-atención, mapea la secuencia z1:7 a estados ocultos h1:T = fθ(z1:7).\nUn decodificador de secuencia a secuencia gθ con atención cruzada predice tokens de subpalabra. En el paso t,\npθ (Ut | y<t, h1:T) = softmax (Wθt + b),\ndonde ot es la salida del decodificador y (W,b) son parámetros aprendidos. Entrenamos con forzado de maestro y entropía cruzada sobre transcripciones, opcionalmente con un objetivo multilingüe, y usamos decodificación codiciosa o de baja dispersión para baja latencia. Para grabaciones largas, un detector de actividad de voz neuronal compacto opera en ventanas cortas de z1:7, produciendo probabilidades de voz por fotograma û ∈ [0, 1] que se umbralizan y fusionan en segmentos [30], [31]. Cada segmento se transcribe de forma independiente, delimitando la longitud de la secuencia y permitiendo la transmisión.\n\nEl condicionamiento del lenguaje se proporciona mediante una pequeña red de retardo de tiempo sobre características a nivel de fotograma. Agrega estadísticas a lo largo del tiempo y genera una posterior p(€ | z1:7) sobre los idiomas. Convertimos el idioma argmax en un token especial antepuesto a la entrada del decodificador. Esto mejora el reconocimiento multilingüe y estabiliza la comprensión de tareas downstream, manteniendo el detector de idioma lo suficientemente pequeño como para ejecutarse junto con VAD y ASR en la misma GPU.\n\nUna rama de diarización infiere quién habló cuándo. El audio en bruto se convierte a mono a 16 kHz, se filtra paso banda y se normaliza la amplitud. A partir de esta señal, calculamos características cepstrales y una red de segmentación Sab produce probabilidades por fotograma de cambio de hablante o actividad de voz. Umbralizar y fusionar los fotogramas activos produce segmentos candidatos.\nPara cada segmento k con un lapso de tiempo [tstart, tend], una red de incrustación de hablante ew mapea los fotogramas correspondientes a un vector de dimensión fija vk = ew(W[tstart, tend]), siguiendo el diseño de retardo de tiempo con atención de canal enfatizada estándar en la verificación y diarización de hablantes [28]. Las incrustaciones normalizadas L2 se agrupan (por ejemplo, con agrupamiento aglomerativo en el espacio del coseno y un criterio de parada aprendido), asignando una etiqueta de hablante discreta sk a cada segmento, en línea con las recientes pipelines de diarización de código abierto [29].\n\nUn paso ligero de postprocesamiento alinea ASR y diarización en el tiempo. Para cada fragmento transcrito con marcas de tiempo [astart, aend] y texto y(i), encontramos el segmento de diarización k con la máxima superposición temporal y le adjuntamos su etiqueta Sk. Esto produce una lista ordenada de enunciados.\n{(Sk,astart, aend, y(i))}\nque serializamos en JSON y pasamos al compilador de contexto. En el esquema de Interfaze, cada enunciado se convierte en una observación con una entidad de hablante asociada, relaciones temporales y procedencia que apunta a la URL del audio y la configuración del modelo.\n\nCrucialmente, los modelos de lenguaje grandes de Interfaze-Beta nunca operan sobre audio o espectrogramas en bruto. Solo ven esta transcripción estructurada y anotada por el hablante con marcas de tiempo y etiquetas de idioma. Los especialistas en resumen pequeños condensan transcripciones largas en observaciones compactas, y el LLM generalista configurado opera solo sobre este estado destilado.\n\nB. Reconocimiento óptico de caracteres y análisis de documentos complejos\nNuestra pipeline de documentos se dirige a entradas heterogéneas y multilingües, como recibos, artículos científicos con ecuaciones y figuras, formularios y PDFs de varias páginas. En lugar de pasar píxeles en bruto a un modelo grande de visión-lenguaje, ejecutamos una secuencia de modelos ligeros de visión y secuencia que extraen texto a nivel de palabra con geometría, reconstruyen el orden de lectura y, opcionalmente, realizan una extracción guiada por esquemas, basándose en modelos recientes de OCR y diseño ultraligeros [32], [33], [36].\n\na) Rasterización y fan-out de páginas: Dada una entrada de documento x, determinamos si x es una imagen o un PDF. Para PDFs, un renderizador convierte cada página en una imagen RGB de alta resolución Ip ∈ IRHxWx3 con un factor de escala fijo para que las fuentes pequeñas permanezcan legibles después del submuestreo por parte del detector. Las páginas se procesan de forma independiente y en paralelo, y las imágenes muy pequeñas se escalan para garantizar una altura x efectiva mínima.\n\nb) Cascada de detección-reconocimiento: Para cada imagen de página Ip, un detector de texto produce regiones cuadriláteras orientadas {(Qi, si)}i=1, Qi ∈ IR4x2, si ∈ [0, 1], donde Qi son coordenadas de esquina y si son confianzas de detección. El detector utiliza una backbone convolucional con una pirámide de características y un cabezal de estilo de segmentación que predice regiones de texto diferenciables; el postprocesamiento extrae componentes conectados y ajusta polígonos [32]. Esto admite texto orientado arbitrariamente con parámetros limitados. Cada región detectada se recorta y se pasa a un reconocedor que mapea una franja de ancho variable a una secuencia de caracteres. Un codificador convolucional 2D produce un mapa de características Fi ∈ RCxT, que se colapsa a lo largo de la altura y se alimenta a un modelo de secuencia ligero (transformador o convolución con puerta) para predecir yi = (yi,1, ... ,yi,T;) sobre un alfabeto multilingüe, entrenado con una pérdida de entropía cruzada o de estilo CTC y aumento consciente del lenguaje [32]. Esto produce triples (Qi, yi, Si) con texto, geometría y confianza para cada línea.\n\nc) Agrupación de líneas y orden de lectura: Las salidas del detector por sí solas no definen un orden de lectura lógico en diseños de varias columnas con encabezados, pies de página y notas al margen. Construimos un grafo cuyos nodos son líneas detectadas y cuyas aristas conectan líneas geométricamente adyacentes. Los nodos llevan polígonos Qi y centroides ci; las aristas se puntúan utilizando superposición vertical, distancia horizontal y similitud de altura de fuente, aproximando características por pares de sistemas de orden de lectura basados en aprendizaje [34]-[36]. Un algoritmo codicioso de búsqueda de rutas recorre este grafo para formar cadenas correspondientes a secciones y párrafos.\nDentro de cada cadena, agregamos texto y definimos un cuadro delimitador alineado con los ejes Bi que encierra Qi. La confianza por línea es un promedio ponderado por longitud de las puntuaciones de las palabras, dando secuencias lj=(textj, Bj,S},{Wj,k}k),\ndonde cada palabra Wj,k tiene su propio cuadro delimitador y confianza, ya sea de un cabezal nativo de cuadro de caracteres o por interpolación a lo largo de la línea cuando solo se dispone de la geometría a nivel de línea.\n\nd) Corrección de límites de grano fino y extracción estructurada: Los diseños complejos y las regiones de bajo contraste pueden causar espacios o palabras fusionadas. Por lo tanto, mantenemos un reconocedor secundario opcional con mayor resolución o con un sesgo inductivo diferente. Sus salidas se alinean con el detector principal utilizando la intersección sobre la unión en polígonos y la similitud de cadenas a nivel de token. Los cuadros faltantes se rellenan fusionando cuadros de caracteres en un cuadrilátero ajustado o particionando un cuadro de línea Bj según los desplazamientos de caracteres. Cuando la evidencia geométrica es inconsistente, un modelo de lenguaje pequeño recibe el texto de la página y las coordenadas vecinas y predice ajustes locales, restringidos a preservar el orden de lectura original.\nCuando las tareas downstream requieren campos estructurados (por ejemplo, facturas o formularios), invocamos opcionalmente un modelo de visión-lenguaje que opera sobre la imagen de la página y una descripción corta del esquema. Los transformadores sin OCR y conscientes del diseño demuestran que los codificadores multimodales pueden mapear una imagen de documento directamente a JSON [33], [37]. Adoptamos esto de forma restringida: el modelo de visión-lenguaje recibe la imagen de la página, un resumen compacto de la salida de OCR y un esquema expresado como una plantilla JSON, y se entrena para emitir una respuesta estructurada que respete el esquema. Para controlar el costo, esta etapa se activa solo cuando la confianza agregada del OCR cae por debajo de un umbral o cuando el usuario solicita explícitamente la extracción estructurada.\n\ne) Integración con el contexto de Interfaze: La representación final de OCR para un documento x es un estado estructurado COCR(x) que se integra en el compilador de contexto de la Sección III-C. Las líneas y palabras pueblan entidades con spans de texto y cuadros delimitadores; las aristas de orden de lectura y las referencias de figuras forman relaciones; y los campos guiados por esquemas se convierten en observaciones de alta confianza con procedencia explícita (índices de página, ID de sección y hashes de imagen). Los LLM enrutados en Interfaze responden preguntas sobre documentos complejos y multilingües utilizando este contexto compacto y consciente de la geometría en lugar de píxeles en bruto.\n\nC. Detección de objetos de vocabulario abierto y análisis de diseño de GUI\nPara el anclaje visual y el razonamiento de la interfaz gráfica de usuario (GUI), combinamos (i) un detector de vocabulario abierto que localiza objetos a partir de prompts de lenguaje natural, (ii) un módulo de segmentación basado en Segment Anything Model 2 (SAM 2), y (iii) un analizador de diseño específico de GUI para regiones de texto, iconos y widgets interactivos [44].\n\na) Detección de vocabulario abierto como puntuación conjunta de imagen-texto: Sea x ∈ RHxWx3 una imagen RGB y p ∈ P un prompt de lenguaje natural (por ejemplo, \"botón de enviar rojo\" o \"menú de navegación\"). Usamos un codificador de visión-lenguaje compacto inspirado en el pre-entrenamiento de imagen-texto con pérdidas contrastivas basadas en sigmoides [38]. Un codificador de imagen Φv : RHxWx3 _+ RDxK (1) produce una cuadrícula de K tokens visuales, y un codificador de texto Φt : P > RD (2) mapea el prompt a una incrustación D-dimensional. Calculamos un mapa de relevancia espacial de sk = σ (Φv (x)ΦT t (p))k, k= 1,. ,K, (3) donde σ es la función sigmoide y T una temperatura aprendida. Durante el pre-entrenamiento, Sk se supervisa para que sea alto cuando el token k se superpone a regiones de verdad para el prompt y bajo en caso contrario, utilizando una formulación logística de etiquetas múltiples [38]. En la inferencia, las regiones contiguas de alta puntuación en la cuadrícula espacial se agrupan y se mapean de nuevo a las coordenadas de la imagen, produciendo cuadros B(p,x)={bi =(xmin, ymin,xmax, ymax)} No. (4)\nDado que los prompts son texto de formato libre, el mismo codificador puede localizar conceptos arbitrarios, incluidas categorías no vistas y multilingües.\n\nb) Segmentación de instancias condicionada por prompt con SAM 2: Refinamos cada cuadro bi en una máscara a nivel de píxel utilizando Segment Anything Model 2 (SAM 2), un Transformer de Visión jerárquico para la segmentación promptable [39]. Dados x y bi, SAM 2 produce mi = S(x, bi) = {0, 1}HxW, (5) donde S es la red de segmentación. SAM 2 construye una representación ViT de múltiples escalas y un decodificador de máscara ligero que se condiciona en tokens de prompt y características de codificador relevantes para predecir mi en un único pase hacia adelante [39]. Agrupamos todos los prompts de cuadros {bi} por imagen para amortizar el costo de la GPU. Cada objeto detectado se representa mediante (bi, mi) más el prompt p y la confianza de detección.\n\nc) Detección de iconos y texto de GUI: Para las capturas de pantalla de GUI, activamos un analizador de diseño especializado con dos detectores. Un detector de texto basado en la conciencia de la región de caracteres identifica regiones de texto de alta densidad [40]. Regresa los mapas de activación Ychar y Yaff para los centros de caracteres y la afinidad por pares; umbralizar y agrupar componentes conectados en Ychar ∪ Yaff produce detecciones a nivel de palabra y un modelo ajustado de YOLO para iconos y elementos web [42], [43].\n\nV. RESULTADOS Y DISCUSIÓN\nInformamos la precisión en conocimiento y razonamiento (MMLU-Pro, MMLU), ciencia de posgrado (GPQA-Diamond), matemáticas de competición (AIME-2025), codificación (LiveCodeBench v5), percepción multimodal (MMMU división de validación, AI2D, ChartQA) y voz multilingüe (Common Voice v16) como se ve en la Tabla II [10], [12]-[16], [25], [26]. Todos los resultados de Interfaze-Beta utilizan la misma pila orquestada por herramientas con las herramientas de OCR/ASR, recuperación, gráficos/diagramas y sandbox habilitadas.\n\nInterfaze-Beta lidera en AIME-2025 (90.0), MMLU (91.38) y AI2D (91.51). Está cerca de los informes públicos más sólidos en MMLU-Pro (83.6 frente a 86.2 para Gemini 2.5 Pro) y GPQA-Diamond (81.31 frente a 84.4), al tiempo que ofrece puntuaciones sólidas en MMMU (val) (77.33), LiveCodeBench v5 (57.77), ChartQA (90.88) y Common Voice v16 (90.8) [10], [12]-[16], [25], [26].\n\nFrente a GPT-4.1 en tareas compartidas, observamos mejoras de +3.0 (MMLU-Pro), +1.18 (MMLU), +2.53 (MMMU), +55.3 (AIME-2025), +15.01 (GPQA-Diamond), +12.07 (LiveCodeBench) y +5.61 (AI2D): un promedio macro de +13.53 puntos (mediana +5.61). Las ganancias se concentran donde el contexto estructurado de la herramienta (análisis de OCR/diagramas/gráficos, recuperación, retroalimentación de sandbox) es más informativo; la codificación muestra margen si se permiten bucles agentic más largos. Esto respalda nuestra afirmación central de que la mayor parte de la mejora proviene de la pila de modelos pequeños y herramientas y la forma en que compila el contexto, en lugar de depender de un único modelo generalista más grande.\n\nEn nuestros experimentos con ablaciones, observamos: la eliminación de los analizadores de OCR/diagramas/gráficos reduce AI2D/ChartQA entre 4 y 7 puntos; la desactivación de la compilación de contexto cuesta ~2 puntos en GPQA-Diamond; la desactivación del cabezal opcional de razonamiento corto perjudica a AIME y MMLU-Pro en segmentos de alta dificultad. Juntos, la cadena de selección de modelos especializados + el contexto de la herramienta + el razonamiento limitado explican las mejoras observadas, manteniendo la mayor parte del tráfico en rutas SLM más baratas.\n\nA. Notas por dominio\nEn cuanto a conocimiento y razonamiento general, superamos al grupo en MMLU en +1.18 sobre GPT-4.1 y +2.18 sobre Gemini 2.5 Pro. El MMLU-Pro más difícil nos agrupa con Sonnet 4 y su variante Thinking, a 2.6 puntos del mejor. En la práctica, la mayoría de los elementos se resuelven en rutas SLM+herramienta, y el controlador solo invoca cadenas de herramientas más agresivas cuando la dificultad y la incertidumbre predichas aumentan [10], [25].\n\nEn matemáticas de competición (AIME-2025), obtenemos 90.0, un amplio margen de +55.3 frente a GPT-4.1 y +16-17 frente a Sonnet 4 y Opus 4 (Thinking). El enrutador prefiere herramientas centradas en las matemáticas y habilita la auto-consistencia corta solo cuando las comprobaciones aritméticas no concuerdan, lo que frena los errores numéricos por poco.\n\nPara la codificación (LiveCodeBench v5), 57.77 supera cómodamente a GPT-4.1 (+12.07), Sonnet 4 (+12.87) y Gemini 2.5 Flash (+8.27), pero se queda atrás de los sistemas especializados en código más agresivos, Sonnet 4 (Thinking) por 7.73 y Gemini 2.5 Pro por 18.13. Esto refleja una elección deliberada de favorecer las comprobaciones ligeras en sandbox sobre los bucles de depuración agentic más largos [13].\n\nEn percepción multimodal, MMMU (val) alcanza 77.33 (+2.53 sobre GPT-4.1), con los mayores márgenes en AI2D (91.51: +5.61 sobre GPT-4.1 y +2.01 sobre Gemini 2.5 Pro) y un sólido ChartQA (90.88). El texto OCR estructurado, los cuadros delimitadores, los ejes de los gráficos y las relaciones de objetos se fusionan en prompts compactos que reducen las alucinaciones y respaldan las comparaciones numéricas [14]-[16].\n\nPara el habla, Common Voice v16 alcanza 90.8 utilizando un especialista ASR multilingüe entrenado en grandes conjuntos de datos de audio multilingües [26].\n\nVI. LIMITACIONES Y TRABAJO FUTURO\nVemos dos puntos débiles prácticos: el retraso y la sobreconstrucción de contexto. El retraso se debe a la expansión del contexto desde los SLM (OCR/ASR, scraping, recuperación) y el bucle agentic acotado, además de los arranques en frío para modelos pequeños alojados en nuestra infraestructura de inferencia, lo que puede aumentar la latencia de la cola incluso cuando los costos promedio son bajos. La sobreconstrucción ocurre cuando el controlador invoca más herramientas o pases de recuperación de los necesarios para una consulta dada, inflando el costo sin claras ganancias de calidad [2], [3].\n\nEn futuros trabajos, trataremos el retraso y la sobreconstrucción como objetivos clave: haremos que la construcción agresiva del contexto sea opcional, agregaremos pequeñas penalizaciones por invocaciones adicionales de herramientas en el modelo de costos del controlador y rastrearemos las \"expansiones de contexto evitables\" (casos en los que una cadena de herramientas más barata habría superado el umbral de precisión) [2], [3].\n\nAGRADECIMIENTOS\nAgradecemos a los colegas y revisores que proporcionaron comentarios detallados sobre los borradores iniciales y ayudaron a mejorar la claridad, presentación y el marco técnico de nuestro trabajo. También agradecemos a todos los que ayudaron con la revisión interna, las discusiones sobre benchmarks y la edición del documento.\n\nREFERENCIAS\n[1] A. Clark, D. de las Casas, A. Guy, A. Mensch, M. Paganini, J. Hoffmann, B. Damoc, B. Hechtman, T. Cai, S. Borgeaud, et al. Unified Scaling Laws for Routed Language Models. In Proceedings of the 39th International Conference on Machine Learning (ICML), 2022. URL: https://proceedings.mlr.press/v162/clark22a.html.\n[2] L. Chen, M. Zaharia, and J. Zou. FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance. arXiv:2305.05176, 2023. URL: https://arxiv.org/abs/2305.05176.\n[3] D. Ding, A. Mallick, C. Wang, R. Sim, S. Mukherjee, V. Ruhle, L. V. S. Lakshmanan, and A. H. Awadallah. Hybrid LLM: Cost-Efficient and Quality-Aware Query Routing. In International Conference on Learning Representations (ICLR), 2024. URL: https://openreview.net/forum?id=02f3mUtqnM.\n[4] W. Jitkrittum, et al. Universal Model Routing for Efficient LLM Inference. arXiv:2502.08773, 2025. URL: https://arxiv.org/abs/2502.08773.\n[5] T. Schick, J. Dwivedi-Yu, R. Dessì, R. Raileanu, M. Lomeli, L. Zettlemoyer, N. Cancedda, and T. Scialom. Toolformer: Language Models Can Teach Themselves to Use Tools. arXiv:2302.04761, 2023. URL: https://arxiv.org/abs/2302.04761.\n[6] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang. HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face. arXiv:2303.17580, 2023. URL: https://arxiv.org/abs/2303.17580.\n[7] S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, and Y. Cao. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022. URL: https://arxiv.org/abs/2210.03629.\n[8] P. Lu, B. Peng, H. Cheng, M. Galley, K.-W. Chang, Y. N. Wu, S.-C. Zhu, and J. Gao. Chameleon: Plug-and-Play Compositional Reasoning with Large Language Models. arXiv:2304.09842, 2023. URL: https://arxiv.org/abs/2304.09842.\n[9] X. Wang, J. Wei, D. Schuurmans, et al. Self-Consistency Improves Chain of Thought Reasoning in Language Models. In International Conference on Learning Representations (ICLR), 2023. URL: https://arxiv.org/abs/2203.11171.\n[10] Y. Wang, X. Ma, G. Zhang, Y. Ni, A. Chandra, S. Guo, W. Ren, A. Arulraj, X. He, Z. Jiang, et al. MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark. arXiv:2406.01574, 2024. URL: https://arxiv.org/abs/2406.01574.\n[11] Art of Problem Solving (AoPS). AIME Problems and Solutions (1983-present). URL: https://artofproblemsolving.com/wiki/index.php/AIME_Problems_and_Solutions.\n[12] D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, and S. R. Bowman. GPQA: A Graduate-Level Google-Proof Q&A Benchmark. arXiv:2311.12022, 2023. URL: https://arxiv.org/abs/2311.12022.\n[13] N. Jain, K. Han, A. Gu, W.-D. Li, F. Yan, T. Zhang, S. Wang, A. Solar-Lezama, K. Sen, and I. Stoica. LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code. arXiv:2403.07974, 2024. URL: https://arxiv.org/abs/2403.07974.\n[14] X. Yue, Y. Ni, K. Zhang, T. Zheng, R. Liu, G. Zhang, S. Stevens, D. Jiang, W. Ren, Y. Sun, C. Wei, B. Yu, R. Yuan, R. Sun, M. Yin, B. Zheng, Z. Yang, Y. Liu, W. Huang, H. Sun, Y. Su, and W. Chen. MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. URL: https://openaccess.thecvf.com/content/CVPR2024/papers/Yue_MMMU_A_Massive_Multi-discipline_Multimodal_Understanding_and_Reasoning_Benchmark_for_CVPR_2024_paper.pdf.\n[15] A. Kembhavi, M. Salvato, E. Kolve, M. Seo, H. Hajishirzi, and A. Farhadi. A Diagram Is Worth A Dozen Images. arXiv:1603.07396, 2016. URL: https://arxiv.org/abs/1603.07396.\n[16] A. Masry, D. X. Long, J. Q. Tan, S. Joty, and E. Hoque. ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. arXiv:2203.10244, 2022. URL: https://arxiv.org/abs/2203.10244.\n[17] V. Sanh, L. Debut, J. Chaumond, and T. Wolf. DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter. arXiv:1910.01108, 2019. URL: https://arxiv.org/abs/1910.01108.\n[18] Z. Sun, H. Yu, X. Song, R. Liu, Y. Yang, and D. Zhou. MobileBERT a Compact Task-Agnostic BERT for Resource-Limited Devices. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL), 2020. URL: https://arxiv.org/abs/2004.02984.\n[19] T. Schick and H. Schütze. It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners. In Proceedings of the 16th Conference of the European Chapter of the ACL (EACL), 2021. URL: https://arxiv.org/abs/2009.07118.\n[20] C. Xu, Y. Xu, S. Wang, Y. Liu, C. Zhu, and J. McAuley. Small Models are Valuable Plug-ins for Large Language Models. In Findings of the Association for Computational Linguistics, 2024. URL: https://aclanthology.org/2024.findings-acl.18/.\n[21] M. Li, J. Xiang, Q. Zhang, K. Wan, and X. Chen. Flipping Knowledge Distillation: Leveraging Small Models’ Expertise to Enhance LLMs in Text Matching. In Proceedings of the 63rd Annual Meeting of the ACL (Long Papers), 2025. URL: https://aclanthology.org/2025.acl-long.1081/.\n[22] Z. Shen. LLM With Tools: A Survey. arXiv:2409.18807, 2024. URL: https://arxiv.org/abs/2409.18807.\n[23] P. Belcak, G. Heinrich, S. Diao, Y. Fu, X. Dong, S. Muralidharan, Y. C. Lin, and P. Molchanov. Small Language Models are the Future of Agentic AI. arXiv:2506.02153, 2025. URL: https://arxiv.org/abs/2506.02153.\n[24] Meta AI. Llama Guard 4: Multimodal safety classifier 12B. 2025 URL: https://www.llama.com/docs/model-cards-and-prompt-formats/llama-guard-4/.\n[25] D. Hendrycks, C. Burns, S. Basart, A. Zheng, M. Stepanek, E. Kuba, S. Ball, S. Tran, C. Tang, J. Song, J. Kornblith, A. Chen, and J. Steinhardt. Measuring Massive Multitask Language Understanding. In Proceedings of the International Conference on Learning Representations (ICLR), 2021. URL: https://arxiv.org/abs/2009.03300.\n[26] R. Ardila, M. Branson, K. Davis, M. Henretty, M. Kohler, J. Meyer, R. Morais, L. Saunders, F. Tyers, and G. Weber. Common Voice: A Massively-Multilingual Speech Corpus. In Proceedings of The 12th Language Resources and Evaluation Conference (LREC), 2020. URL: https://arxiv.org/abs/1912.06670.\n[27] A. Radford, J. W. Kim, T. Xu, G. Brockman, C. McLeavey, and I. Sutskever. Robust Speech Recognition via Large-Scale Weak Supervision. arXiv:2212.04356, 2022. URL: https://arxiv.org/abs/2212.04356.\n[28] B. Desplanques, J. Thienpondt, and K. Demuynck. ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN-Based Speaker Verification. In Proceedings of Interspeech, 2020. URL: https://www.isca-archive.org/interspeech_2020/desplanques20_interspeech.html.\n[29] H. Bredin. pyannote.audio 2.1 Speaker Diarization Pipeline: Principle, Benchmark, and Recipe. In Proceedings of Interspeech, 2023. URL: https://www.isca-archive.org/interspeech_2023/bredin23_interspeech.html.\n[30] M. Sharma et al. A Comprehensive Empirical Review of Modern Voice Activity Detection Approaches for Movies and TV Shows. Technical report, 2022.\n[31] Silero AI. Silero VAD: Pre-trained Enterprise-Grade Voice Activity Detector. GitHub repository, accessed 2025. URL: https://github.com/snakers4/silero-vad.\n[32] C. Li, W. Liu, R. Guo, X. Yin, K. Jiang, Y. Du, Y. Du, L. Zhu, B. Lai, X. Hu, D. Yu, and Y. Ma. PP-OCRv3: More Attempts for the Improvement of Ultra Lightweight OCR System. arXiv:2206.03001, 2022. URL: https://arxiv.org/abs/2206.03001.\n[33] Y. Huang, L. Bi, F. Fang, S. Liu, X. Fang, X. Sun, and J. Liu. LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking. arXiv:2204.08387, 2022. URL: https://arxiv.org/abs/2204.08387.\n[34] S. Marinai, E. Marinai, and colleagues. Machine Learning for Reading Order Detection in Document Image Understanding. In Machine Learning in Document Analysis and Recognition, 2008.\n[35] L. Qiao, C. Li, Z. Cheng, Y. Xu, Y. Niu, and X. Li, \"Reading order detection in visually-rich documents with multi-modal layout-aware relation prediction,\" Pattern Recognition, vol. 150, art. 110314, 2024. doi: 10.1016/j.patcog.2024.110314.\n[36] Z. Wang, et al. LayoutReader: Pre-training of Text and Layout for Reading Order Detection. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021. URL: https://aclanthology.org/2021.emnlp-main.389/.\n[37] G. Kim, T. Kim, S. Park, S. Yun, C. D. Yoo, and N. I. Cho. OCR-free Document Understanding Transformer. In European Conference on Computer Vision (ECCV), 2022. URL: https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136880493.pdf.\n[38] X. Zhai, B. Mustafa, A. Kolesnikov, and L. Beyer. Sigmoid Loss for Language Image Pre-Training. arXiv preprint arXiv:2303.15343, 2023. URL: https://arxiv.org/abs/2303.15343.\n[39] N. Ravi, V. Gabeur, Y.-T. Hu, et al. SAM 2: Segment Anything in Images and Videos. arXiv preprint arXiv:2408.00714, 2024. URL: https://arxiv.org/abs/2408.00714.\n[40] Baek, Lee, Han, Yun, and Lee. Character region awareness for text detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9365-9374, 2019.\n[41] JaidedAI. EasyOCR: Ready-to-use OCR with 80+ supported languages. GitHub repository, 2020. https://github.com/JaidedAI/EasyOCR.\n[42] G. Jocher, A. Chaurasia, and J. Qiu, Ultralytics YOLOv8: Real-time object detection, Technical report, Ultralytics, 2023. https://docs.ultralytics.com.\n[43] Y. Lu, J. Yang, Y. Shen, and A. H. Awadallah. OmniParser for Pure Vision-Based GUI Agent. arXiv preprint arXiv:2408.00203, 2024. URL: https://arxiv.org/abs/2408.00203.\n[44] B. Xiao, H. Wu, W. Xu, X. Dai, H. Hu, Y. Lu, M. Zeng, C. Liu, and L. Yuan. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024. URL: https://openaccess.thecvf.com/content/CVPR2024/papers/Xiao_Florence-2_Advancing_a_Unified_Representation_for_a_Variety_of_Vision_CVPR_2024_paper.pdf.\n[45] Q. Leng, J. Portes, S. Havens, M. Zaharia, and M. Carbin. Long Context RAG Performance of LLMs. Databricks Blog, 12 August 2024. Available at: https://www.databricks.com/blog/long-context-rag-performance-llms.\n[46] J. Hron. Legal AI Benchmarking: Evaluating Long Context Performance for LLMs. Thomson Reuters Innovation Blog, 14 April 2025.\n[47] P. Xu, W. Ping, X. Wu, L. McAfee, C. Zhu, Z. Liu, S. Subramanian, E. Bakhturina, M. Shoeybi, and B. Catanzaro. Retrieval Meets Long Context Large Language Models. arXiv preprint arXiv:2310.03025, 2023. Available at: https://arxiv.org/abs/2310.03025.\n```"
}
],
"response": {
"id": "interfaze-1775184152747",
"modelId": "interfaze-beta",
"body": {
"id": "interfaze-1775184152747",
"object": "chat.completion",
"model": "interfaze-beta",
"usage": {
"prompt_tokens": 828886,
"completion_tokens": 140006,
"total_tokens": 968892
},
"precontext": [
{
"name": "ocr",
"result": {
"extracted_text": "Interfaze: The Future of AI is built on Task-Specific Small Models\nHarsha Vardhan Khurdula Vineet Agarwal Yoeven D Khemlani\nJigsawStack, Inc. JigsawStack, Inc. JigsawStack, Inc.\nSan Francisco, CA, USA Durgapur, WB, India San Francisco, CA, USA\nharsha@jigsawstack.com vineet@jigsawstack.com yoeven@jigsawstack.com\nAbstract-We present Interfaze, a system that treats modern Recent work formalizes parts of this picture. Hybrid routing\nLLM applications as a problem of building and acting over and cascades study when a small model is \"good enough\"\ncontext, not just picking the right monolithic model. Instead of\na single transformer, we combine (i) a stack of heterogeneous\nand when to escalate to a larger one, using learned difficulty\nDNNs paired with small language models as perception modules\nestimates and cost-aware policies [1]-[4]. Tool-augmented\nfor OCR involving complex PDFs, charts & diagrams, and LLMs show gains when the model can call APIs, search, and\nmultilingual ASR with (ii) a context-construction layer that run code [5]-[8], [22]. In parallel, small language models are\ncrawls, indexes, and parses external sources (web pages, code, used as plug-in specialists for retrieval, reranking, and domain-\nPDFs) into compact structured state, and (iii) an action layer\nthat can browse, retrieve, execute code in a sandbox, and drive\nspecific reasoning, and as compact models for edge settings\na headless browser for dynamic web pages. A thin controller [17]-[20], [23]. Yet most of these systems are described from\nsits on top of this stack and exposes a single, OpenAI-style the perspective of the large model or router. The concrete\nendpoint: it decides which small models and actions to run and design of the small-model stack, i.e., which DNNs handle\nalways forwards the distilled context to a user-selected LLM perception and classification, how their outputs are filtered\nthat produces the final response.\nOn this architecture, Interfaze-Beta achieves 83.6% on\nand merged, and how they interface with scrapers and indexes-\nMMLU-Pro, 91.4% on MMLU, 81.3% on GPQA-Diamond, is typically abstracted behind generic \"tool calls,\" making it\n57.8% on LiveCodeBench v5, and 90.0% on AIME-2025, along\ndifficult to reproduce or to see which pieces actually drive\nwith strong multimodal scores on MMMU (val) (77.3%), AI2D gains on multimodal and long-context tasks.\n(91.5%), ChartQA (90.9%), and Common Voice v16 (90.8%). We adopt a systems perspective. We treat modern LLM\nWe show that most queries are handled primarily by the small-\nmodel and tool stack, with the large LLM operating only on\napplications as systems for building and acting over context,\ndistilled context, yielding competitive accuracy while shifting and we make the small DNNs and SLMs that build this\nthe bulk of computation away from the most expensive and context first-class citizens. Interfaze is a context-centric\nmonolithic models. architecture with three parts:\nI. INTRODUCTION 1) a heterogeneous DNN and SLM stack for perception\nGeneral-purpose LLMs have impressive breadth, but de- and classification across modalities (object detection,\nployed systems need more than next-token prediction. They OCR, speech-to-text, text and image classification),\nmust see the world (OCR, object detection, speech recognition, 2) a context-construction layer that crawls, indexes, and\nclassification), build and maintain external context (indexes, parses external sources (web pages, code, PDFs, dia-\ncaches, code, tools), and then reason over that context. grams) into compact structured state, and\nRunning a single frontier model over raw inputs: a full 3) an action layer with a thin controller that selects which\nPDF, a long audio file, or an entire website which is often tools to run, compiles the resulting state into a bounded\nneither economical nor robust [2], [3]. Benchmarks that prompt, and hands that distilled context to a configured\nstress reasoning and multimodal understanding rather than LLM that generates the final answer.\narXiv:2602.04101v1 [cs.AI] 4 Feb 2026\nmemorization (MMLU-Pro, GPQA-Diamond, AIME-2025, Our concrete instantiation, Interfaze-Beta, uses specialized\nMMMU, AI2D, ChartQA, Common Voice) make this gap models for the major perception and classification tasks\nexplicit [10], [12]-[16], [26]. (document understanding for OCR and layout, chart and\nIn practice, production systems already consist of hetero- diagram parsing, a multilingual ASR and diarization stack,\ngeneous deep networks and tools. Vision backbones handle and small transformers for text and image classification).\nobject detection and segmentation; document models drive These models cooperate with web search, indexing, scraping,\nOCR and layout analysis; ASR and diarization stacks tran- and a sandbox to construct the context the final generalist\nscribe and segment audio; retrieval systems and lightweight LLM sees. We describe the architectures and roles of these\nclassifiers gate search, safety, and domain routing [24], [26]. components in detail and evaluate the resulting system\nLarge language models usually sit at the end of this chain: across knowledge, reasoning, code, multimodal, and speech\nthey are asked to reason over structured outputs rather than benchmarks.\npixels or waveforms. We contribute the following:\nAccepted at IEEE Conference on Artificial Intelligence (CAI) 2026. · a context-centric system architecture that treats small",
"sections": [
{
"text": "Interfaze: The Future of AI is built on Task-Specific Small Models\nHarsha Vardhan Khurdula Vineet Agarwal Yoeven D Khemlani\nJigsawStack, Inc. JigsawStack, Inc. JigsawStack, Inc.\nSan Francisco, CA, USA Durgapur, WB, India San Francisco, CA, USA\nharsha@jigsawstack.com vineet@jigsawstack.com yoeven@jigsawstack.com\nAbstract-We present Interfaze, a system that treats modern Recent work formalizes parts of this picture. Hybrid routing\nLLM applications as a problem of building and acting over and cascades study when a small model is \"good enough\"\ncontext, not just picking the right monolithic model. Instead of\na single transformer, we combine (i) a stack of heterogeneous\nand when to escalate to a larger one, using learned difficulty\nDNNs paired with small language models as perception modules\nestimates and cost-aware policies [1]-[4]. Tool-augmented\nfor OCR involving complex PDFs, charts & diagrams, and LLMs show gains when the model can call APIs, search, and\nmultilingual ASR with (ii) a context-construction layer that run code [5]-[8], [22]. In parallel, small language models are\ncrawls, indexes, and parses external sources (web pages, code, used as plug-in specialists for retrieval, reranking, and domain-\nPDFs) into compact structured state, and (iii) an action layer\nthat can browse, retrieve, execute code in a sandbox, and drive\nspecific reasoning, and as compact models for edge settings\na headless browser for dynamic web pages. A thin controller [17]-[20], [23]. Yet most of these systems are described from\nsits on top of this stack and exposes a single, OpenAI-style the perspective of the large model or router. The concrete\nendpoint: it decides which small models and actions to run and design of the small-model stack, i.e., which DNNs handle\nalways forwards the distilled context to a user-selected LLM perception and classification, how their outputs are filtered\nthat produces the final response.\nOn this architecture, Interfaze-Beta achieves 83.6% on\nand merged, and how they interface with scrapers and indexes-\nMMLU-Pro, 91.4% on MMLU, 81.3% on GPQA-Diamond, is typically abstracted behind generic \"tool calls,\" making it\n57.8% on LiveCodeBench v5, and 90.0% on AIME-2025, along\ndifficult to reproduce or to see which pieces actually drive\nwith strong multimodal scores on MMMU (val) (77.3%), AI2D gains on multimodal and long-context tasks.\n(91.5%), ChartQA (90.9%), and Common Voice v16 (90.8%). We adopt a systems perspective. We treat modern LLM\nWe show that most queries are handled primarily by the small-\nmodel and tool stack, with the large LLM operating only on\napplications as systems for building and acting over context,\ndistilled context, yielding competitive accuracy while shifting and we make the small DNNs and SLMs that build this\nthe bulk of computation away from the most expensive and context first-class citizens. Interfaze is a context-centric\nmonolithic models. architecture with three parts:\nI. INTRODUCTION 1) a heterogeneous DNN and SLM stack for perception\nGeneral-purpose LLMs have impressive breadth, but de- and classification across modalities (object detection,\nployed systems need more than next-token prediction. They OCR, speech-to-text, text and image classification),\nmust see the world (OCR, object detection, speech recognition, 2) a context-construction layer that crawls, indexes, and\nclassification), build and maintain external context (indexes, parses external sources (web pages, code, PDFs, dia-\ncaches, code, tools), and then reason over that context. grams) into compact structured state, and\nRunning a single frontier model over raw inputs: a full 3) an action layer with a thin controller that selects which\nPDF, a long audio file, or an entire website which is often tools to run, compiles the resulting state into a bounded\nneither economical nor robust [2], [3]. Benchmarks that prompt, and hands that distilled context to a configured\nstress reasoning and multimodal understanding rather than LLM that generates the final answer.\narXiv:2602.04101v1 [cs.AI] 4 Feb 2026\nmemorization (MMLU-Pro, GPQA-Diamond, AIME-2025, Our concrete instantiation, Interfaze-Beta, uses specialized\nMMMU, AI2D, ChartQA, Common Voice) make this gap models for the major perception and classification tasks\nexplicit [10], [12]-[16], [26]. (document understanding for OCR and layout, chart and\nIn practice, production systems already consist of hetero- diagram parsing, a multilingual ASR and diarization stack,\ngeneous deep networks and tools. Vision backbones handle and small transformers for text and image classification).\nobject detection and segmentation; document models drive These models cooperate with web search, indexing, scraping,\nOCR and layout analysis; ASR and diarization stacks tran- and a sandbox to construct the context the final generalist\nscribe and segment audio; retrieval systems and lightweight LLM sees. We describe the architectures and roles of these\nclassifiers gate search, safety, and domain routing [24], [26]. components in detail and evaluate the resulting system\nLarge language models usually sit at the end of this chain: across knowledge, reasoning, code, multimodal, and speech\nthey are asked to reason over structured outputs rather than benchmarks.\npixels or waveforms. We contribute the following:\nAccepted at IEEE Conference on Artificial Intelligence (CAI) 2026. · a context-centric system architecture that treats small",
"lines": [
{
"text": "Interfaze: The Future of AI is built on Task-Specific Small Models",
"bounds": {
"top_left": {
"x": 135,
"y": 142
},
"top_right": {
"x": 1077,
"y": 142
},
"bottom_right": {
"x": 1077,
"y": 177
},
"bottom_left": {
"x": 135,
"y": 177
},
"width": 942,
"height": 35
},
"average_confidence": 0.99,
"words": [
{
"text": "Interfaze:",
"bounds": {
"top_left": {
"x": 136,
"y": 145
},
"top_right": {
"x": 274,
"y": 144
},
"bottom_right": {
"x": 275,
"y": 176
},
"bottom_left": {
"x": 137,
"y": 174
},
"width": 138,
"height": 30.5
},
"confidence": 0.99
},
{
"text": "The",
"bounds": {
"top_left": {
"x": 283,
"y": 144
},
"top_right": {
"x": 337,
"y": 144
},
"bottom_right": {
"x": 337,
"y": 176
},
"bottom_left": {
"x": 284,
"y": 176
},
"width": 53.5,
"height": 32
},
"confidence": 1
},
{
"text": "Future",
"bounds": {
"top_left": {
"x": 346,
"y": 144
},
"top_right": {
"x": 443,
"y": 143
},
"bottom_right": {
"x": 443,
"y": 177
},
"bottom_left": {
"x": 347,
"y": 176
},
"width": 96.5,
"height": 33
},
"confidence": 0.99
},
{
"text": "of",
"bounds": {
"top_left": {
"x": 452,
"y": 143
},
"top_right": {
"x": 484,
"y": 143
},
"bottom_right": {
"x": 484,
"y": 177
},
"bottom_left": {
"x": 453,
"y": 177
},
"width": 31.5,
"height": 34
},
"confidence": 1
},
{
"text": "AI",
"bounds": {
"top_left": {
"x": 491,
"y": 143
},
"top_right": {
"x": 530,
"y": 143
},
"bottom_right": {
"x": 530,
"y": 177
},
"bottom_left": {
"x": 491,
"y": 177
},
"width": 39,
"height": 34
},
"confidence": 0.96
},
{
"text": "is",
"bounds": {
"top_left": {
"x": 537,
"y": 143
},
"top_right": {
"x": 564,
"y": 143
},
"bottom_right": {
"x": 564,
"y": 178
},
"bottom_left": {
"x": 537,
"y": 177
},
"width": 27,
"height": 34.5
},
"confidence": 1
},
{
"text": "built",
"bounds": {
"top_left": {
"x": 571,
"y": 143
},
"top_right": {
"x": 640,
"y": 143
},
"bottom_right": {
"x": 640,
"y": 178
},
"bottom_left": {
"x": 571,
"y": 178
},
"width": 69,
"height": 35
},
"confidence": 1
},
{
"text": "on",
"bounds": {
"top_left": {
"x": 647,
"y": 143
},
"top_right": {
"x": 679,
"y": 143
},
"bottom_right": {
"x": 679,
"y": 178
},
"bottom_left": {
"x": 647,
"y": 178
},
"width": 32,
"height": 35
},
"confidence": 1
},
{
"text": "Task-Specific",
"bounds": {
"top_left": {
"x": 695,
"y": 143
},
"top_right": {
"x": 874,
"y": 143
},
"bottom_right": {
"x": 873,
"y": 177
},
"bottom_left": {
"x": 695,
"y": 178
},
"width": 178.5,
"height": 34.5
},
"confidence": 0.99
},
{
"text": "Small",
"bounds": {
"top_left": {
"x": 885,
"y": 143
},
"top_right": {
"x": 968,
"y": 143
},
"bottom_right": {
"x": 967,
"y": 177
},
"bottom_left": {
"x": 885,
"y": 177
},
"width": 82.5,
"height": 34
},
"confidence": 0.99
},
{
"text": "Models",
"bounds": {
"top_left": {
"x": 974,
"y": 143
},
"top_right": {
"x": 1076,
"y": 144
},
"bottom_right": {
"x": 1075,
"y": 176
},
"bottom_left": {
"x": 973,
"y": 177
},
"width": 102,
"height": 33
},
"confidence": 0.99
}
]
},
{
"text": "Harsha Vardhan Khurdula Vineet Agarwal Yoeven D Khemlani",
"bounds": {
"top_left": {
"x": 193,
"y": 214
},
"top_right": {
"x": 430,
"y": 214
},
"bottom_right": {
"x": 430,
"y": 236
},
"bottom_left": {
"x": 193,
"y": 236
},
"width": 237,
"height": 22
},
"average_confidence": 1,
"words": [
{
"text": "Harsha",
"bounds": {
"top_left": {
"x": 194,
"y": 216
},
"top_right": {
"x": 259,
"y": 215
},
"bottom_right": {
"x": 258,
"y": 236
},
"bottom_left": {
"x": 193,
"y": 236
},
"width": 65,
"height": 20.5
},
"confidence": 0.99
},
{
"text": "Vardhan",
"bounds": {
"top_left": {
"x": 266,
"y": 215
},
"top_right": {
"x": 338,
"y": 215
},
"bottom_right": {
"x": 337,
"y": 237
},
"bottom_left": {
"x": 265,
"y": 236
},
"width": 72,
"height": 21.5
},
"confidence": 1
},
{
"text": "Khurdula",
"bounds": {
"top_left": {
"x": 347,
"y": 215
},
"top_right": {
"x": 430,
"y": 215
},
"bottom_right": {
"x": 429,
"y": 237
},
"bottom_left": {
"x": 346,
"y": 237
},
"width": 83,
"height": 22
},
"confidence": 1
}
]
},
{
"text": "JigsawStack, Inc. JigsawStack, Inc. JigsawStack, Inc.",
"bounds": {
"top_left": {
"x": 241,
"y": 240
},
"top_right": {
"x": 383,
"y": 240
},
"bottom_right": {
"x": 383,
"y": 263
},
"bottom_left": {
"x": 241,
"y": 264
},
"width": 142,
"height": 23.5
},
"average_confidence": 0.99,
"words": [
{
"text": "JigsawStack,",
"bounds": {
"top_left": {
"x": 242,
"y": 241
},
"top_right": {
"x": 347,
"y": 241
},
"bottom_right": {
"x": 346,
"y": 263
},
"bottom_left": {
"x": 242,
"y": 264
},
"width": 104.5,
"height": 22.5
},
"confidence": 0.99
},
{
"text": "Inc.",
"bounds": {
"top_left": {
"x": 351,
"y": 240
},
"top_right": {
"x": 382,
"y": 240
},
"bottom_right": {
"x": 381,
"y": 264
},
"bottom_left": {
"x": 350,
"y": 263
},
"width": 31,
"height": 23.5
},
"confidence": 0.99
}
]
},
{
"text": "San Francisco, CA, USA Durgapur, WB, India San Francisco, CA, USA",
"bounds": {
"top_left": {
"x": 206,
"y": 264
},
"top_right": {
"x": 413,
"y": 264
},
"bottom_right": {
"x": 413,
"y": 287
},
"bottom_left": {
"x": 206,
"y": 287
},
"width": 207,
"height": 23
},
"average_confidence": 1,
"words": [
{
"text": "San",
"bounds": {
"top_left": {
"x": 206,
"y": 265
},
"top_right": {
"x": 236,
"y": 265
},
"bottom_right": {
"x": 236,
"y": 287
},
"bottom_left": {
"x": 206,
"y": 287
},
"width": 30,
"height": 22
},
"confidence": 1
},
{
"text": "Francisco,",
"bounds": {
"top_left": {
"x": 243,
"y": 265
},
"top_right": {
"x": 327,
"y": 265
},
"bottom_right": {
"x": 326,
"y": 288
},
"bottom_left": {
"x": 242,
"y": 287
},
"width": 84,
"height": 22.5
},
"confidence": 0.99
},
{
"text": "CA,",
"bounds": {
"top_left": {
"x": 331,
"y": 265
},
"top_right": {
"x": 368,
"y": 265
},
"bottom_right": {
"x": 367,
"y": 288
},
"bottom_left": {
"x": 331,
"y": 288
},
"width": 36.5,
"height": 23
},
"confidence": 1
},
{
"text": "USA",
"bounds": {
"top_left": {
"x": 372,
"y": 265
},
"top_right": {
"x": 411,
"y": 264
},
"bottom_right": {
"x": 410,
"y": 288
},
"bottom_left": {
"x": 371,
"y": 288
},
"width": 39,
"height": 23.5
},
"confidence": 1
}
]
},
{
"text": "harsha@jigsawstack.com vineet@jigsawstack.com yoeven@jigsawstack.com",
"bounds": {
"top_left": {
"x": 206,
"y": 289
},
"top_right": {
"x": 412,
"y": 289
},
"bottom_right": {
"x": 412,
"y": 312
},
"bottom_left": {
"x": 206,
"y": 313
},
"width": 206,
"height": 23.5
},
"average_confidence": 0.99,
"words": [
{
"text": "harsha@jigsawstack.com",
"bounds": {
"top_left": {
"x": 206,
"y": 290
},
"top_right": {
"x": 406,
"y": 289
},
"bottom_right": {
"x": 406,
"y": 312
},
"bottom_left": {
"x": 206,
"y": 314
},
"width": 200,
"height": 23.5
},
"confidence": 0.99
}
]
},
{
"text": "Abstract-We present Interfaze, a system that treats modern Recent work formalizes parts of this picture. Hybrid routing",
"bounds": {
"top_left": {
"x": 125,
"y": 394
},
"top_right": {
"x": 601,
"y": 395
},
"bottom_right": {
"x": 601,
"y": 415
},
"bottom_left": {
"x": 125,
"y": 414
},
"width": 476,
"height": 20
},
"average_confidence": 0.99,
"words": [
{
"text": "Abstract-We",
"bounds": {
"top_left": {
"x": 126,
"y": 394
},
"top_right": {
"x": 234,
"y": 395
},
"bottom_right": {
"x": 234,
"y": 415
},
"bottom_left": {
"x": 126,
"y": 415
},
"width": 108,
"height": 20.5
},
"confidence": 0.96
},
{
"text": "present",
"bounds": {
"top_left": {
"x": 239,
"y": 395
},
"top_right": {
"x": 297,
"y": 395
},
"bottom_right": {
"x": 296,
"y": 415
},
"bottom_left": {
"x": 238,
"y": 415
},
"width": 58,
"height": 20
},
"confidence": 1
},
{
"text": "Interfaze,",
"bounds": {
"top_left": {
"x": 301,
"y": 395
},
"top_right": {
"x": 377,
"y": 396
},
"bottom_right": {
"x": 376,
"y": 416
},
"bottom_left": {
"x": 300,
"y": 415
},
"width": 76,
"height": 20
},
"confidence": 0.99
},
{
"text": "a",
"bounds": {
"top_left": {
"x": 381,
"y": 396
},
"top_right": {
"x": 391,
"y": 396
},
"bottom_right": {
"x": 390,
"y": 416
},
"bottom_left": {
"x": 380,
"y": 416
},
"width": 10,
"height": 20
},
"confidence": 1
},
{
"text": "system",
"bounds": {
"top_left": {
"x": 395,
"y": 396
},
"top_right": {
"x": 442,
"y": 396
},
"bottom_right": {
"x": 440,
"y": 416
},
"bottom_left": {
"x": 394,
"y": 416
},
"width": 46.5,
"height": 20
},
"confidence": 1
},
{
"text": "that",
"bounds": {
"top_left": {
"x": 452,
"y": 396
},
"top_right": {
"x": 486,
"y": 396
},
"bottom_right": {
"x": 484,
"y": 416
},
"bottom_left": {
"x": 451,
"y": 416
},
"width": 33.5,
"height": 20
},
"confidence": 0.99
},
{
"text": "treats",
"bounds": {
"top_left": {
"x": 490,
"y": 396
},
"top_right": {
"x": 535,
"y": 395
},
"bottom_right": {
"x": 533,
"y": 416
},
"bottom_left": {
"x": 488,
"y": 416
},
"width": 45,
"height": 20.5
},
"confidence": 0.99
},
{
"text": "modern",
"bounds": {
"top_left": {
"x": 539,
"y": 395
},
"top_right": {
"x": 598,
"y": 395
},
"bottom_right": {
"x": 596,
"y": 416
},
"bottom_left": {
"x": 537,
"y": 416
},
"width": 59,
"height": 21
},
"confidence": 0.99
}
]
},
{
"text": "LLM applications as a problem of building and acting over and cascades study when a small model is \"good enough\"",
"bounds": {
"top_left": {
"x": 104,
"y": 414
},
"top_right": {
"x": 602,
"y": 414
},
"bottom_right": {
"x": 602,
"y": 436
},
"bottom_left": {
"x": 104,
"y": 435
},
"width": 498,
"height": 21.5
},
"average_confidence": 1,
"words": [
{
"text": "LLM",
"bounds": {
"top_left": {
"x": 105,
"y": 414
},
"top_right": {
"x": 140,
"y": 415
},
"bottom_right": {
"x": 140,
"y": 436
},
"bottom_left": {
"x": 105,
"y": 435
},
"width": 35,
"height": 21
},
"confidence": 0.99
},
{
"text": "applications",
"bounds": {
"top_left": {
"x": 156,
"y": 415
},
"top_right": {
"x": 254,
"y": 416
},
"bottom_right": {
"x": 254,
"y": 436
},
"bottom_left": {
"x": 156,
"y": 436
},
"width": 98,
"height": 20.5
},
"confidence": 0.99
},
{
"text": "as",
"bounds": {
"top_left": {
"x": 258,
"y": 416
},
"top_right": {
"x": 278,
"y": 416
},
"bottom_right": {
"x": 278,
"y": 436
},
"bottom_left": {
"x": 258,
"y": 436
},
"width": 20,
"height": 20
},
"confidence": 1
},
{
"text": "a",
"bounds": {
"top_left": {
"x": 283,
"y": 416
},
"top_right": {
"x": 293,
"y": 416
},
"bottom_right": {
"x": 293,
"y": 436
},
"bottom_left": {
"x": 283,
"y": 436
},
"width": 10,
"height": 20
},
"confidence": 1
},
{
"text": "problem",
"bounds": {
"top_left": {
"x": 300,
"y": 416
},
"top_right": {
"x": 360,
"y": 416
},
"bottom_right": {
"x": 360,
"y": 436
},
"bottom_left": {
"x": 300,
"y": 436
},
"width": 60,
"height": 20
},
"confidence": 1
},
{
"text": "of",
"bounds": {
"top_left": {
"x": 374,
"y": 416
},
"top_right": {
"x": 392,
"y": 416
},
"bottom_right": {
"x": 392,
"y": 436
},
"bottom_left": {
"x": 374,
"y": 436
},
"width": 18,
"height": 20
},
"confidence": 1
},
{
"text": "building",
"bounds": {
"top_left": {
"x": 397,
"y": 416
},
"top_right": {
"x": 463,
"y": 416
},
"bottom_right": {
"x": 463,
"y": 436
},
"bottom_left": {
"x": 397,
"y": 436
},
"width": 66,
"height": 20
},
"confidence": 0.99
},
{
"text": "and",
"bounds": {
"top_left": {
"x": 469,
"y": 416
},
"top_right": {
"x": 500,
"y": 416
},
"bottom_right": {
"x": 500,
"y": 436
},
"bottom_left": {
"x": 469,
"y": 436
},
"width": 31,
"height": 20
},
"confidence": 1
},
{
"text": "acting",
"bounds": {
"top_left": {
"x": 507,
"y": 416
},
"top_right": {
"x": 556,
"y": 416
},
"bottom_right": {
"x": 556,
"y": 436
},
"bottom_left": {
"x": 507,
"y": 436
},
"width": 49,
"height": 20
},
"confidence": 1
},
{
"text": "over",
"bounds": {
"top_left": {
"x": 563,
"y": 415
},
"top_right": {
"x": 599,
"y": 415
},
"bottom_right": {
"x": 599,
"y": 436
},
"bottom_left": {
"x": 563,
"y": 436
},
"width": 36,
"height": 21
},
"confidence": 0.99
}
]
},
{
"text": "context, not just picking the right monolithic model. Instead of",
"bounds": {
"top_left": {
"x": 101,
"y": 436
},
"top_right": {
"x": 600,
"y": 435
},
"bottom_right": {
"x": 600,
"y": 454
},
"bottom_left": {
"x": 101,
"y": 455
},
"width": 499,
"height": 19
},
"average_confidence": 1,
"words": [
{
"text": "context,",
"bounds": {
"top_left": {
"x": 106,
"y": 436
},
"top_right": {
"x": 167,
"y": 436
},
"bottom_right": {
"x": 166,
"y": 456
},
"bottom_left": {
"x": 105,
"y": 456
},
"width": 61,
"height": 20
},
"confidence": 0.99
},
{
"text": "not",
"bounds": {
"top_left": {
"x": 171,
"y": 436
},
"top_right": {
"x": 198,
"y": 436
},
"bottom_right": {
"x": 197,
"y": 456
},
"bottom_left": {
"x": 170,
"y": 456
},
"width": 27,
"height": 20
},
"confidence": 1
},
{
"text": "just",
"bounds": {
"top_left": {
"x": 202,
"y": 436
},
"top_right": {
"x": 233,
"y": 436
},
"bottom_right": {
"x": 233,
"y": 456
},
"bottom_left": {
"x": 201,
"y": 456
},
"width": 31.5,
"height": 20
},
"confidence": 0.99
},
{
"text": "picking",
"bounds": {
"top_left": {
"x": 237,
"y": 436
},
"top_right": {
"x": 295,
"y": 436
},
"bottom_right": {
"x": 294,
"y": 456
},
"bottom_left": {
"x": 236,
"y": 456
},
"width": 58,
"height": 20
},
"confidence": 1
},
{
"text": "the",
"bounds": {
"top_left": {
"x": 300,
"y": 436
},
"top_right": {
"x": 326,
"y": 436
},
"bottom_right": {
"x": 326,
"y": 456
},
"bottom_left": {
"x": 300,
"y": 456
},
"width": 26,
"height": 20
},
"confidence": 1
},
{
"text": "right",
"bounds": {
"top_left": {
"x": 330,
"y": 436
},
"top_right": {
"x": 370,
"y": 436
},
"bottom_right": {
"x": 370,
"y": 456
},
"bottom_left": {
"x": 330,
"y": 456
},
"width": 40,
"height": 20
},
"confidence": 0.99
},
{
"text": "monolithic",
"bounds": {
"top_left": {
"x": 374,
"y": 436
},
"top_right": {
"x": 457,
"y": 436
},
"bottom_right": {
"x": 457,
"y": 456
},
"bottom_left": {
"x": 374,
"y": 456
},
"width": 83,
"height": 20
},
"confidence": 0.99
},
{
"text": "model.",
"bounds": {
"top_left": {
"x": 461,
"y": 436
},
"top_right": {
"x": 515,
"y": 435
},
"bottom_right": {
"x": 515,
"y": 455
},
"bottom_left": {
"x": 461,
"y": 455
},
"width": 54,
"height": 19.5
},
"confidence": 0.99
},
{
"text": "Instead",
"bounds": {
"top_left": {
"x": 519,
"y": 435
},
"top_right": {
"x": 575,
"y": 435
},
"bottom_right": {
"x": 576,
"y": 455
},
"bottom_left": {
"x": 519,
"y": 455
},
"width": 56.5,
"height": 20
},
"confidence": 1
},
{
"text": "of",
"bounds": {
"top_left": {
"x": 581,
"y": 435
},
"top_right": {
"x": 599,
"y": 435
},
"bottom_right": {
"x": 600,
"y": 455
},
"bottom_left": {
"x": 582,
"y": 455
},
"width": 18,
"height": 20
},
"confidence": 1
}
]
},
{
"text": "a single transformer, we combine (i) a stack of heterogeneous",
"bounds": {
"top_left": {
"x": 104,
"y": 455
},
"top_right": {
"x": 600,
"y": 455
},
"bottom_right": {
"x": 600,
"y": 475
},
"bottom_left": {
"x": 104,
"y": 475
},
"width": 496,
"height": 20
},
"average_confidence": 1,
"words": [
{
"text": "a",
"bounds": {
"top_left": {
"x": 107,
"y": 456
},
"top_right": {
"x": 117,
"y": 456
},
"bottom_right": {
"x": 116,
"y": 475
},
"bottom_left": {
"x": 106,
"y": 475
},
"width": 10,
"height": 19
},
"confidence": 1
},
{
"text": "single",
"bounds": {
"top_left": {
"x": 123,
"y": 456
},
"top_right": {
"x": 169,
"y": 456
},
"bottom_right": {
"x": 168,
"y": 475
},
"bottom_left": {
"x": 122,
"y": 475
},
"width": 46,
"height": 19
},
"confidence": 1
},
{
"text": "transformer,",
"bounds": {
"top_left": {
"x": 173,
"y": 456
},
"top_right": {
"x": 274,
"y": 456
},
"bottom_right": {
"x": 273,
"y": 476
},
"bottom_left": {
"x": 172,
"y": 475
},
"width": 101,
"height": 19.5
},
"confidence": 0.99
},
{
"text": "we",
"bounds": {
"top_left": {
"x": 278,
"y": 456
},
"top_right": {
"x": 301,
"y": 456
},
"bottom_right": {
"x": 300,
"y": 476
},
"bottom_left": {
"x": 277,
"y": 476
},
"width": 23,
"height": 20
},
"confidence": 1
},
{
"text": "combine",
"bounds": {
"top_left": {
"x": 305,
"y": 456
},
"top_right": {
"x": 372,
"y": 456
},
"bottom_right": {
"x": 371,
"y": 476
},
"bottom_left": {
"x": 304,
"y": 476
},
"width": 67,
"height": 20
},
"confidence": 1
},
{
"text": "(i)",
"bounds": {
"top_left": {
"x": 377,
"y": 456
},
"top_right": {
"x": 398,
"y": 456
},
"bottom_right": {
"x": 398,
"y": 476
},
"bottom_left": {
"x": 377,
"y": 476
},
"width": 21,
"height": 20
},
"confidence": 0.99
},
{
"text": "a",
"bounds": {
"top_left": {
"x": 402,
"y": 456
},
"top_right": {
"x": 412,
"y": 456
},
"bottom_right": {
"x": 411,
"y": 476
},
"bottom_left": {
"x": 401,
"y": 476
},
"width": 10,
"height": 20
},
"confidence": 0.99
},
{
"text": "stack",
"bounds": {
"top_left": {
"x": 417,
"y": 456
},
"top_right": {
"x": 457,
"y": 456
},
"bottom_right": {
"x": 457,
"y": 476
},
"bottom_left": {
"x": 417,
"y": 476
},
"width": 40,
"height": 20
},
"confidence": 1
},
{
"text": "of",
"bounds": {
"top_left": {
"x": 464,
"y": 456
},
"top_right": {
"x": 481,
"y": 456
},
"bottom_right": {
"x": 480,
"y": 476
},
"bottom_left": {
"x": 464,
"y": 476
},
"width": 16.5,
"height": 20
},
"confidence": 1
},
{
"text": "heterogeneous",
"bounds": {
"top_left": {
"x": 485,
"y": 456
},
"top_right": {
"x": 599,
"y": 456
},
"bottom_right": {
"x": 599,
"y": 475
},
"bottom_left": {
"x": 484,
"y": 476
},
"width": 114.5,
"height": 19.5
},
"confidence": 0.99
}
]
},
{
"text": "and when to escalate to a larger one, using learned difficulty",
"bounds": {
"top_left": {
"x": 624,
"y": 441
},
"top_right": {
"x": 1116,
"y": 441
},
"bottom_right": {
"x": 1116,
"y": 464
},
"bottom_left": {
"x": 624,
"y": 464
},
"width": 492,
"height": 23
},
"average_confidence": 1,
"words": [
{
"text": "and",
"bounds": {
"top_left": {
"x": 624,
"y": 442
},
"top_right": {
"x": 654,
"y": 442
},
"bottom_right": {
"x": 654,
"y": 464
},
"bottom_left": {
"x": 624,
"y": 464
},
"width": 30,
"height": 22
},
"confidence": 1
},
{
"text": "when",
"bounds": {
"top_left": {
"x": 660,
"y": 442
},
"top_right": {
"x": 703,
"y": 443
},
"bottom_right": {
"x": 703,
"y": 464
},
"bottom_left": {
"x": 660,
"y": 464
},
"width": 43,
"height": 21.5
},
"confidence": 0.99
},
{
"text": "to",
"bounds": {
"top_left": {
"x": 708,
"y": 443
},
"top_right": {
"x": 726,
"y": 443
},
"bottom_right": {
"x": 726,
"y": 464
},
"bottom_left": {
"x": 707,
"y": 464
},
"width": 18.5,
"height": 21
},
"confidence": 1
},
{
"text": "escalate",
"bounds": {
"top_left": {
"x": 731,
"y": 443
},
"top_right": {
"x": 795,
"y": 443
},
"bottom_right": {
"x": 795,
"y": 464
},
"bottom_left": {
"x": 730,
"y": 464
},
"width": 64.5,
"height": 21
},
"confidence": 1
},
{
"text": "to",
"bounds": {
"top_left": {
"x": 800,
"y": 443
},
"top_right": {
"x": 817,
"y": 443
},
"bottom_right": {
"x": 816,
"y": 464
},
"bottom_left": {
"x": 799,
"y": 464
},
"width": 17,
"height": 21
},
"confidence": 1
},
{
"text": "a",
"bounds": {
"top_left": {
"x": 823,
"y": 443
},
"top_right": {
"x": 833,
"y": 443
},
"bottom_right": {
"x": 833,
"y": 464
},
"bottom_left": {
"x": 822,
"y": 464
},
"width": 10.5,
"height": 21
},
"confidence": 1
},
{
"text": "larger",
"bounds": {
"top_left": {
"x": 837,
"y": 443
},
"top_right": {
"x": 885,
"y": 443
},
"bottom_right": {
"x": 884,
"y": 464
},
"bottom_left": {
"x": 837,
"y": 464
},
"width": 47.5,
"height": 21
},
"confidence": 1
},
{
"text": "one,",
"bounds": {
"top_left": {
"x": 889,
"y": 443
},
"top_right": {
"x": 925,
"y": 442
},
"bottom_right": {
"x": 925,
"y": 464
},
"bottom_left": {
"x": 889,
"y": 464
},
"width": 36,
"height": 21.5
},
"confidence": 0.99
},
{
"text": "using",
"bounds": {
"top_left": {
"x": 929,
"y": 442
},
"top_right": {
"x": 974,
"y": 442
},
"bottom_right": {
"x": 973,
"y": 464
},
"bottom_left": {
"x": 929,
"y": 464
},
"width": 44.5,
"height": 22
},
"confidence": 1
},
{
"text": "learned",
"bounds": {
"top_left": {
"x": 978,
"y": 442
},
"top_right": {
"x": 1039,
"y": 442
},
"bottom_right": {
"x": 1038,
"y": 465
},
"bottom_left": {
"x": 978,
"y": 464
},
"width": 60.5,
"height": 22.5
},
"confidence": 1
},
{
"text": "difficulty",
"bounds": {
"top_left": {
"x": 1045,
"y": 442
},
"top_right": {
"x": 1115,
"y": 441
},
"bottom_right": {
"x": 1114,
"y": 465
},
"bottom_left": {
"x": 1044,
"y": 465
},
"width": 70,
"height": 23.5
},
"confidence": 0.99
}
]
},
{
"text": "DNNs paired with small language models as perception modules",
"bounds": {
"top_left": {
"x": 105,
"y": 475
},
"top_right": {
"x": 600,
"y": 475
},
"bottom_right": {
"x": 600,
"y": 495
},
"bottom_left": {
"x": 105,
"y": 494
},
"width": 495,
"height": 19.5
},
"average_confidence": 0.99,
"words": [
{
"text": "DNNs",
"bounds": {
"top_left": {
"x": 106,
"y": 475
},
"top_right": {
"x": 152,
"y": 475
},
"bottom_right": {
"x": 152,
"y": 495
},
"bottom_left": {
"x": 106,
"y": 495
},
"width": 46,
"height": 20
},
"confidence": 0.98
},
{
"text": "paired",
"bounds": {
"top_left": {
"x": 156,
"y": 475
},
"top_right": {
"x": 205,
"y": 475
},
"bottom_right": {
"x": 205,
"y": 495
},
"bottom_left": {
"x": 156,
"y": 495
},
"width": 49,
"height": 20
},
"confidence": 0.99
},
{
"text": "with",
"bounds": {
"top_left": {
"x": 211,
"y": 475
},
"top_right": {
"x": 244,
"y": 475
},
"bottom_right": {
"x": 243,
"y": 495
},
"bottom_left": {
"x": 211,
"y": 495
},
"width": 32.5,
"height": 20
},
"confidence": 0.99
},
{
"text": "small",
"bounds": {
"top_left": {
"x": 250,
"y": 475
},
"top_right": {
"x": 291,
"y": 475
},
"bottom_right": {
"x": 291,
"y": 495
},
"bottom_left": {
"x": 250,
"y": 495
},
"width": 41,
"height": 20
},
"confidence": 1
},
{
"text": "language",
"bounds": {
"top_left": {
"x": 295,
"y": 475
},
"top_right": {
"x": 365,
"y": 476
},
"bottom_right": {
"x": 364,
"y": 495
},
"bottom_left": {
"x": 295,
"y": 495
},
"width": 69.5,
"height": 19.5
},
"confidence": 0.99
},
{
"text": "models",
"bounds": {
"top_left": {
"x": 369,
"y": 476
},
"top_right": {
"x": 424,
"y": 476
},
"bottom_right": {
"x": 423,
"y": 495
},
"bottom_left": {
"x": 368,
"y": 495
},
"width": 55,
"height": 19
},
"confidence": 1
},
{
"text": "as",
"bounds": {
"top_left": {
"x": 428,
"y": 476
},
"top_right": {
"x": 444,
"y": 476
},
"bottom_right": {
"x": 443,
"y": 495
},
"bottom_left": {
"x": 427,
"y": 495
},
"width": 16,
"height": 19
},
"confidence": 1
},
{
"text": "perception",
"bounds": {
"top_left": {
"x": 448,
"y": 476
},
"top_right": {
"x": 528,
"y": 476
},
"bottom_right": {
"x": 527,
"y": 495
},
"bottom_left": {
"x": 447,
"y": 495
},
"width": 80,
"height": 19
},
"confidence": 0.99
},
{
"text": "modules",
"bounds": {
"top_left": {
"x": 533,
"y": 476
},
"top_right": {
"x": 600,
"y": 476
},
"bottom_right": {
"x": 599,
"y": 495
},
"bottom_left": {
"x": 533,
"y": 495
},
"width": 66.5,
"height": 19
},
"confidence": 1
}
]
},
{
"text": "estimates and cost-aware policies [1]-[4]. Tool-augmented",
"bounds": {
"top_left": {
"x": 623,
"y": 464
},
"top_right": {
"x": 1118,
"y": 464
},
"bottom_right": {
"x": 1118,
"y": 488
},
"bottom_left": {
"x": 623,
"y": 488
},
"width": 495,
"height": 24
},
"average_confidence": 0.89,
"words": [
{
"text": "estimates",
"bounds": {
"top_left": {
"x": 624,
"y": 467
},
"top_right": {
"x": 704,
"y": 466
},
"bottom_right": {
"x": 704,
"y": 487
},
"bottom_left": {
"x": 624,
"y": 487
},
"width": 80,
"height": 20.5
},
"confidence": 0.99
},
{
"text": "and",
"bounds": {
"top_left": {
"x": 709,
"y": 466
},
"top_right": {
"x": 739,
"y": 466
},
"bottom_right": {
"x": 739,
"y": 488
},
"bottom_left": {
"x": 709,
"y": 487
},
"width": 30,
"height": 21.5
},
"confidence": 1
},
{
"text": "cost-aware",
"bounds": {
"top_left": {
"x": 745,
"y": 466
},
"top_right": {
"x": 835,
"y": 466
},
"bottom_right": {
"x": 836,
"y": 488
},
"bottom_left": {
"x": 745,
"y": 488
},
"width": 90.5,
"height": 22
},
"confidence": 0.99
},
{
"text": "policies",
"bounds": {
"top_left": {
"x": 840,
"y": 466
},
"top_right": {
"x": 906,
"y": 465
},
"bottom_right": {
"x": 907,
"y": 488
},
"bottom_left": {
"x": 841,
"y": 488
},
"width": 66,
"height": 22.5
},
"confidence": 0.99
},
{
"text": "[1]-[4].",
"bounds": {
"top_left": {
"x": 910,
"y": 465
},
"top_right": {
"x": 979,
"y": 465
},
"bottom_right": {
"x": 980,
"y": 489
},
"bottom_left": {
"x": 911,
"y": 488
},
"width": 69,
"height": 23.5
},
"confidence": 0.34
},
{
"text": "Tool-augmented",
"bounds": {
"top_left": {
"x": 984,
"y": 465
},
"top_right": {
"x": 1116,
"y": 465
},
"bottom_right": {
"x": 1117,
"y": 489
},
"bottom_left": {
"x": 984,
"y": 489
},
"width": 132.5,
"height": 24
},
"confidence": 0.99
}
]
},
{
"text": "for OCR involving complex PDFs, charts & diagrams, and LLMs show gains when the model can call APIs, search, and",
"bounds": {
"top_left": {
"x": 104,
"y": 494
},
"top_right": {
"x": 600,
"y": 495
},
"bottom_right": {
"x": 600,
"y": 515
},
"bottom_left": {
"x": 104,
"y": 515
},
"width": 496,
"height": 20.5
},
"average_confidence": 0.99,
"words": [
{
"text": "for",
"bounds": {
"top_left": {
"x": 105,
"y": 494
},
"top_right": {
"x": 131,
"y": 495
},
"bottom_right": {
"x": 131,
"y": 515
},
"bottom_left": {
"x": 105,
"y": 514
},
"width": 26,
"height": 20
},
"confidence": 0.99
},
{
"text": "OCR",
"bounds": {
"top_left": {
"x": 138,
"y": 495
},
"top_right": {
"x": 176,
"y": 495
},
"bottom_right": {
"x": 176,
"y": 515
},
"bottom_left": {
"x": 138,
"y": 515
},
"width": 38,
"height": 20
},
"confidence": 1
},
{
"text": "involving",
"bounds": {
"top_left": {
"x": 187,
"y": 495
},
"top_right": {
"x": 261,
"y": 496
},
"bottom_right": {
"x": 261,
"y": 516
},
"bottom_left": {
"x": 187,
"y": 515
},
"width": 74,
"height": 20
},
"confidence": 0.99
},
{
"text": "complex",
"bounds": {
"top_left": {
"x": 268,
"y": 496
},
"top_right": {
"x": 335,
"y": 496
},
"bottom_right": {
"x": 335,
"y": 516
},
"bottom_left": {
"x": 268,
"y": 516
},
"width": 67,
"height": 20
},
"confidence": 1
},
{
"text": "PDFs,",
"bounds": {
"top_left": {
"x": 342,
"y": 496
},
"top_right": {
"x": 394,
"y": 496
},
"bottom_right": {
"x": 394,
"y": 516
},
"bottom_left": {
"x": 342,
"y": 516
},
"width": 52,
"height": 20
},
"confidence": 0.99
},
{
"text": "charts",
"bounds": {
"top_left": {
"x": 398,
"y": 496
},
"top_right": {
"x": 450,
"y": 496
},
"bottom_right": {
"x": 450,
"y": 516
},
"bottom_left": {
"x": 398,
"y": 516
},
"width": 52,
"height": 20
},
"confidence": 1
},
{
"text": "&",
"bounds": {
"top_left": {
"x": 457,
"y": 496
},
"top_right": {
"x": 468,
"y": 496
},
"bottom_right": {
"x": 468,
"y": 516
},
"bottom_left": {
"x": 457,
"y": 516
},
"width": 11,
"height": 20
},
"confidence": 0.99
},
{
"text": "diagrams,",
"bounds": {
"top_left": {
"x": 481,
"y": 496
},
"top_right": {
"x": 563,
"y": 495
},
"bottom_right": {
"x": 563,
"y": 515
},
"bottom_left": {
"x": 481,
"y": 516
},
"width": 82,
"height": 20
},
"confidence": 0.99
},
{
"text": "and",
"bounds": {
"top_left": {
"x": 567,
"y": 495
},
"top_right": {
"x": 597,
"y": 495
},
"bottom_right": {
"x": 597,
"y": 515
},
"bottom_left": {
"x": 567,
"y": 515
},
"width": 30,
"height": 20
},
"confidence": 1
}
]
}
]
}
],
"width": 1224,
"height": 12672,
"total_pages": 8
}
},
{
"name": "translate",
"result": {
"translated_text": "Interfaze: El futuro de la IA se construye con modelos pequeños específicos para tareas\nHarsha Vardhan Khurdula Vineet Agarwal Yoeven D Khemlani\nJigsawStack, Inc. JigsawStack, Inc. JigsawStack, Inc.\nSan Francisco, CA, USA Durgapur, WB, India San Francisco, CA, USA\nharsha@jigsawstack.com vineet@jigsawstack.com yoeven@jigsawstack.com\nResumen—Presentamos Interfaze, un sistema que trata las aplicaciones modernas de LLM como un problema de construir y actuar sobre el contexto, no solo de elegir el modelo monolítico correcto. En lugar de un único transformador, combinamos (i) una pila de DNN heterogéneos emparejados con modelos de lenguaje pequeños como módulos de percepción para OCR que implican PDFs complejos, gráficos y diagramas, y ASR multilingüe con (ii) una capa de construcción de contexto que rastrea, indexa y analiza fuentes externas (páginas web, código, PDFs) en un estado estructurado compacto, y (iii) una capa de acción que puede navegar, recuperar, ejecutar código en una sandbox y controlar un navegador sin interfaz para páginas web dinámicas. Un controlador ligero se sitúa sobre esta pila y expone un único endpoint al estilo OpenAI: decide qué modelos pequeños y acciones ejecutar y siempre reenvía el contexto destilado a un LLM seleccionado por el usuario que produce la respuesta final.\nEn esta arquitectura, Interfaze-Beta alcanza 83.6% en MMLU-Pro, 91.4% en MMLU, 81.3% en GPQA-Diamond, 57.8% en LiveCodeBench v5 y 90.0% en AIME-2025, junto con sólidas puntuaciones multimodales en MMMU (val) (77.3%), AI2D (91.5%), ChartQA (90.9%) y Common Voice v16 (90.8%). Mostramos que la mayoría de las consultas son manejadas principalmente por los modelos pequeños y la pila de herramientas, con el LLM grande operando solo sobre el contexto destilado, lo que produce una precisión competitiva mientras desplaza la mayor parte del cómputo lejos de los modelos monolíticos más caros.\nTrabajos recientes formalizan partes de este panorama. El enrutamiento híbrido y las cascadas estudian cuándo un modelo pequeño es “lo suficientemente bueno” y cuándo escalar a uno mayor, usando estimaciones aprendidas de dificultad y políticas conscientes del costo [1]-[4]. Los LLMs aumentados con herramientas muestran mejoras cuando el modelo puede llamar APIs, buscar y ejecutar código [5]-[8], [22]. En paralelo, los modelos de lenguaje pequeños se usan como especialistas plug-in para recuperación, reranking y razonamiento específico de dominio, y como modelos compactos para entornos edge [17]-[20], [23]. Sin embargo, la mayoría de estos sistemas se describen desde la perspectiva del modelo grande o del router. El diseño concreto de la pila de modelos pequeños, es decir, qué DNN manejan la percepción y la clasificación, cómo se filtran y combinan sus salidas y cómo se interconectan con scrapers e índices, suele ser abstraído tras llamadas genéricas a “herramientas”, lo que dificulta reproducirlos o ver qué partes impulsan realmente las mejoras en tareas multimodales y de contexto largo.\nAdoptamos una perspectiva de sistemas. Tratamos el LLM moderno y la pila de herramientas como sistemas para construir y actuar sobre el contexto, y hacemos que los DNN pequeños y los SLM que construyen este contexto sean ciudadanos de primera clase. Interfaze es una arquitectura centrada en el contexto con tres partes:",
"source_language": "auto-detected",
"target_language": "es",
"batch_size": 1
}
}
]
}
},
"finishReason": "stop",
"usage": {
"inputTokens": 828886,
"outputTokens": 140006,
"totalTokens": 968892
}
}The output is truncated for this example.
OpenAI SDK
Vercel AI SDK
LangChain SDK
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{
role: "user",
content: "Translate this website to hindi and return it in markdown format: https://interfaze.ai",
},
],
});
console.log(response.choices[0].message.content);
//@ts-expect-error precontext is not typed
const precontext = response.precontext;
console.log("Translation Results:", precontext?.[0]?.result);Markdown output
# डिटरमिनिस्टिक डेवलपर कार्यों के लिए बनाया गया AI मॉडल
Interfaze एक AI मॉडल है जो एक नई आर्किटेक्चर पर आधारित है जो विशेषीकृत DNN/CNN मॉडलों को LLMs के साथ मिलाती है उन डेवलपर कार्यों के लिए जिनके लिए डिटरमिनिस्टिक आउटपुट और उच्च सुसंगतता की आवश्यकता होती है जैसे OCR, scraping, classification, web search और अधिक।
OCR, वेब स्क्रैपिंग, वेब खोज, वर्गीकरण और भी बहुत कुछ
OpenAI chat completion API अनुकूल
उच्च सटीकता वाला संरचित आउटपुट निरंतरता
इन-बिल्ट कोड निष्पादन और सैंडबॉक्सिंग
स्क्रैपिंग और वेब अनुसंधान क्षमताओं के लिए कस्टम वेब इंजन
आवश्यकतानुसार स्वचालित तर्कशीलता
नियंत्रण योग्य गार्डरेइल्स
पूरी तरह प्रबंधित और स्केलेबल
उच्च अपटाइम के साथ वैश्विक रूप से वितरित फॉलबैक सिस्टम
### बीटा लॉन्च वीडियो
### मॉडल तुलना
| बेंचमार्क | interfaze-beta | GPT-4.1 | Claude Sonnet 4 | Gemini 2.5 Flash | Claude Sonnet 4 (Thinking) | Claude Opus 4 (Thinking) | GPT-5-Minimal | Gemini-2.5-Pro |
| :--------------- | :------------- | :------ | :-------------- | :--------------- | :------------------------- | :----------------------- | :------------ | :------------- |
| MMLU-Pro | ८३.६ | ८०.६ | ८३.७ | ८०.९ | ८३.७ | ८६ | ८०.६ | ८६.२ |
| MMLU | ९१.३८ | ९०.२ | - | - | ८८.८ | ८९ | - | ८९.२ |
| MMMU | ७७.३३ | ७४.८ | - | ७९.७ | ७४.४ | ७६.५ | - | ८२ |
| AIME-२०२५ | ९० | ३४.७ | ३८ | ६०.३ | ७४.३ | ७३.३ | ३१.७ | ८७.७ |
| GPQA-Diamond | ८१.३१ | ६६.३ | ६८.३ | ६८.३ | ७७.७ | ७९.६ | ६७.३ | ८४.४ |
| LiveCodeBench | ५७.७७ | ४५.७ | ४४.९ | ४९.५ | ६५.५ | ६३.६ | ५५.८ | ७५.९ |
| ChartQA | ९०.८८ | - | - | - | - | - | - | - |
| AI2D | ९१.५१ | ८५.९ | - | - | - | - | - | ८९.५ |
| Common-Voice-v16 | ९०.८ | - | - | - | - | - | - | - |
\*Non-Interfaze मॉडलों के परिणाम मॉडल प्रदाताओं, लीडरबोर्ड और मूल्यांकन प्रदाताओं जैसे Artificial Analysis से प्राप्त किए गए हैं।
### किसी अन्य LLM की तरह काम करता है
OpenAI API अनुकूल, आउट ऑफ़ द बॉक्स हर AI SDK के साथ काम करता है
OpenAI SDK
Vercel AI SDK
Langchain SDK
typescript
python
...
### OCR और डॉक्युमेंट एक्सट्रैक्शन
vision docs ->
...
### स्मार्ट वेब स्क्रैपिंग
web docs ->
...
### अनुवाद
translation docs ->
...
...
### स्पीच-टू-टेक्स्ट (STT) और डायराइज़ेशन
stt docs ->
...
...
### कॉन्फ़िगर करने योग्य गार्डरेल और NSFW चेक्स
guardrails docs ->
टेक्स्ट और इमेज के लिए पूरी तरह कॉन्फ़िगर करने योग्य गार्डरेल
...
### Architecture
पेपर पढ़ें ->
यह आर्किटेक्चर छोटे-छोटे विशेषीकृत मॉडलों का एक समूह संयोजित करता है जिन्हें कस्टम टूल्स और इन्फ्रास्ट्रक्चर द्वारा समर्थित किया गया है और स्वचालित रूप से उस सर्वश्रेष्ठ मॉडल के पास रूट करता है जो कार्य के लिए सटीकता और गति को प्राथमिकता देता है।
### विवरण
संदर्भ विंडो
1 मिलियन टोकन
अधिकतम आउटपुट टोकन
32 हज़ार टोकन
इनपुट मॉडलिटीज़
टेक्स्ट, इमेजेज़, ऑडियो, फ़ाइल, वीडियो
तर्कशक्ति
उपलब्ध
### मूल्य निर्धारण
मूल्य निर्धारण विवरण ->
इनपुट टोकन
$1.50 / MTok
आउटपुट टोकन
$3.50 / MTok
कैशिंग
शामिल
ऑब्ज़र्वेबिलिटी और लॉगिंग
शीघ्र आ रहा है
### FAQ
**मैं प्रति घंटे कितने अनुरोध कर सकता/सकती हूँ?**
आप प्रति सेकंड 50 अनुरोध कर सकते हैं। यदि आपको और आवश्यकता है, तो कृपया हमें interfaze@jigsawstack.com पर संपर्क करें।
**मैं अपनी उपयोग को कैसे ट्रैक करूँ?**
आप डैशबोर्ड पर अपनी उपयोग को ट्रैक कर सकते हैं। भविष्य में हम और अधिक विस्तृत मेट्रिक्स और एनालिटिक्स जोड़ेंगे।
**क्या मेरे संदेश/प्रॉम्प्ट संग्रहीत किए जाते हैं?**
हम डिफ़ॉल्ट रूप से किसी भी संदेश या प्रॉम्प्ट को संग्रहीत या लॉग नहीं करते। जब हम भविष्य में ऑब्ज़र्वेबिलिटी और लॉगिंग प्रदान करेंगे, तो आपको संग्रहन की अनुमति देने या न देने का विकल्प मिलेगा।
**बग कैसे रिपोर्ट करूँ?**
हम कई बग और समस्याओं की अपेक्षा करते हैं। कृपया इन्हें हमें interfaze@jigsawstack.com पर रिपोर्ट करें।
**अन्य पूछताछ के लिए टीम से कैसे संपर्क करूँ?**
कृपया हमें interfaze@jigsawstack.com पर ईमेल करें या X पर Yoeven से संपर्क करें: https://x.com/yoeven
### Todo (Prioritized)
- लेन-देन टोकन गणना कम करें
- विशिष्ट कार्यों के लिए अनुकूलित पहले से बने प्रॉम्प्ट/स्कीमाएँ
- एंबेडिंग मॉडल
- डैशबोर्ड पर अंतर्निर्मित ऑब्ज़र्वेबिलिटी और लॉगिंग
- पूर्ण मीट्रिक्स और एनालिटिक्स
- v1.1 Interfaze
- लेटेंसी घटाएँ और थ्रूपुट सुधारें
- AI SDK, Langchain आदि के साथ इंटरफेस के लिए कस्टम SDKs
- प्रोजेक्ट्स के लिए लीडरबोर्ड
यदि आपके पास फीचर अनुरोध या सिफारिशें हैं, तो कृपया संपर्क करें!
### अनुसंधान संदर्भ
- Interfaze: The Future of AI is built on Task-Specific Small Models
- Agentic Context Engineering
- Small Language Models are the Future of Agentic AI
- The Sparsely-Gated Mixture-of-Experts Layer
- DeepSeekMoE
- Confronting LLMs with Traditional ML
### हम कौन हैं?
हम एमएल, सॉफ़्टवेयर और इन्फ्रास्ट्रक्चर इंजीनियरों की एक छोटी टीम हैं जो इस तथ्य में डूबे हुए हैं कि एक छोटा मॉडल विशेषीकृत होने पर बहुत अधिक कर सकता है। हमें हर डेव (dev) वर्कफ़्लो में AI उपलब्ध कराने की अनुमति देता है।JSON output
{
"content": [
{
"type": "text",
"text": "```markdown\n# समर्थित द्वारा\nCombinator\n\n# डिटरमिनिस्टिक डेवलपर कार्यों के लिए बनाया गया AI मॉडल\nInterfaze एक AI मॉडल है जो एक नई आर्किटेक्चर पर आधारित है जो विशेषीकृत DNN/CNN मॉडलों को LLMs के साथ मिलाती है उन डेवलपर कार्यों के लिए जिनके लिए डिटरमिनिस्टिक आउटपुट और उच्च सुसंगतता की आवश्यकता होती है जैसे OCR, scraping, classification, web search और अधिक।\n\nOCR, वेब स्क्रैपिंग, वेब खोज, वर्गीकरण और भी बहुत कुछ\nOpenAI chat completion API अनुकूल\nउच्च सटीकता वाला संरचित आउटपुट निरंतरता\nइन-बिल्ट कोड निष्पादन और सैंडबॉक्सिंग\nस्क्रैपिंग और वेब अनुसंधान क्षमताओं के लिए कस्टम वेब इंजन\nआवश्यकतानुसार स्वचालित तर्कशीलता\nनियंत्रण योग्य गार्डरेइल्स\nपूरी तरह प्रबंधित और स्केलेबल\nउच्च अपटाइम के साथ वैश्विक रूप से वितरित फॉलबैक सिस्टम\n\n### बीटा लॉन्च वीडियो\n### मॉडल तुलना\n\n| बेंचमार्क | interfaze-beta | GPT-4.1 | Claude Sonnet 4 | Gemini 2.5 Flash | Claude Sonnet 4 (Thinking) | Claude Opus 4 (Thinking) | GPT-5-Minimal | Gemini-2.5-Pro |\n| :--------------- | :------------- | :------ | :-------------- | :--------------- | :------------------------- | :----------------------- | :------------ | :------------- |\n| MMLU-Pro | ८३.६ | ८०.६ | ८३.७ | ८०.९ | ८३.७ | ८६ | ८०.६ | ८६.२ |\n| MMLU | ९१.३८ | ९०.२ | - | - | ८८.८ | ८९ | - | ८९.२ |\n| MMMU | ७७.३३ | ७४.८ | - | ७९.७ | ७४.४ | ७६.५ | - | ८२ |\n| AIME-२०२५ | ९० | ३४.७ | ३८ | ६०.३ | ७४.३ | ७३.३ | ३१.७ | ८७.७ |\n| GPQA-Diamond | ८१.३१ | ६६.३ | ६८.३ | ६८.३ | ७७.७ | ७९.६ | ६७.३ | ८४.४ |\n| LiveCodeBench | ५७.७७ | ४५.७ | ४४.९ | ४९.५ | ६५.५ | ६३.६ | ५५.८ | ७५.९ |\n| ChartQA | ९०.८८ | - | - | - | - | - | - | - |\n| AI2D | ९१.५१ | ८५.९ | - | - | - | - | - | ८९.५ |\n| Common-Voice-v16 | ९०.८ | - | - | - | - | - | - | - |\n\n*Non-Interfaze मॉडलों के परिणाम मॉडल प्रदाताओं, लीडरबोर्ड और मूल्यांकन प्रदाताओं जैसे Artificial Analysis से प्राप्त किए गए हैं।\n\n### किसी अन्य LLM की तरह काम करता है\nOpenAI API अनुकूल, आउट ऑफ़ द बॉक्स हर AI SDK के साथ काम करता है\nOpenAI SDK\nVercel AI SDK\nLangchain SDK\ntypescript\npython\n\n...\n\n### OCR और डॉक्युमेंट एक्सट्रैक्शन\nvision docs ->\n...\n\n### स्मार्ट वेब स्क्रैपिंग\nweb docs ->\n...\n\n### अनुवाद\ntranslation docs ->\n...\n...\n\n### स्पीच-टू-टेक्स्ट (STT) और डायराइज़ेशन\nstt docs ->\n...\n...\n\n### कॉन्फ़िगर करने योग्य गार्डरेल और NSFW चेक्स\nguardrails docs ->\nटेक्स्ट और इमेज के लिए पूरी तरह कॉन्फ़िगर करने योग्य गार्डरेल\n...\n\n### Architecture\nपेपर पढ़ें ->\nयह आर्किटेक्चर छोटे-छोटे विशेषीकृत मॉडलों का एक समूह संयोजित करता है जिन्हें कस्टम टूल्स और इन्फ्रास्ट्रक्चर द्वारा समर्थित किया गया है और स्वचालित रूप से उस सर्वश्रेष्ठ मॉडल के पास रूट करता है जो कार्य के लिए सटीकता और गति को प्राथमिकता देता है।\n\n### विवरण\nसंदर्भ विंडो\n1 मिलियन टोकन\nअधिकतम आउटपुट टोकन\n32 हज़ार टोकन\nइनपुट मॉडलिटीज़\nटेक्स्ट, इमेजेज़, ऑडियो, फ़ाइल, वीडियो\nतर्कशक्ति\nउपलब्ध\n\n### मूल्य निर्धारण\nमूल्य निर्धारण विवरण ->\nइनपुट टोकन\n$1.50 / MTok\nआउटपुट टोकन\n$3.50 / MTok\nकैशिंग\nशामिल\nऑब्ज़र्वेबिलिटी और लॉगिंग\nशीघ्र आ रहा है\n\n### FAQ\n**मैं प्रति घंटे कितने अनुरोध कर सकता/सकती हूँ?**\nआप प्रति सेकंड 50 अनुरोध कर सकते हैं। यदि आपको और आवश्यकता है, तो कृपया हमें interfaze@jigsawstack.com पर संपर्क करें।\n\n**मैं अपनी उपयोग को कैसे ट्रैक करूँ?**\nआप डैशबोर्ड पर अपनी उपयोग को ट्रैक कर सकते हैं। भविष्य में हम और अधिक विस्तृत मेट्रिक्स और एनालिटिक्स जोड़ेंगे।\n\n**क्या मेरे संदेश/प्रॉम्प्ट संग्रहीत किए जाते हैं?**\nहम डिफ़ॉल्ट रूप से किसी भी संदेश या प्रॉम्प्ट को संग्रहीत या लॉग नहीं करते। जब हम भविष्य में ऑब्ज़र्वेबिलिटी और लॉगिंग प्रदान करेंगे, तो आपको संग्रहन की अनुमति देने या न देने का विकल्प मिलेगा।\n\n**बग कैसे रिपोर्ट करूँ?**\nहम कई बग और समस्याओं की अपेक्षा करते हैं। कृपया इन्हें हमें interfaze@jigsawstack.com पर रिपोर्ट करें।\n\n**अन्य पूछताछ के लिए टीम से कैसे संपर्क करूँ?**\nकृपया हमें interfaze@jigsawstack.com पर ईमेल करें या X पर Yoeven से संपर्क करें: https://x.com/yoeven\n\n### Todo (Prioritized)\n* लेन-देन टोकन गणना कम करें\n* विशिष्ट कार्यों के लिए अनुकूलित पहले से बने प्रॉम्प्ट/स्कीमाएँ\n* एंबेडिंग मॉडल\n* डैशबोर्ड पर अंतर्निर्मित ऑब्ज़र्वेबिलिटी और लॉगिंग\n* पूर्ण मीट्रिक्स और एनालिटिक्स\n* v1.1 Interfaze\n* लेटेंसी घटाएँ और थ्रूपुट सुधारें\n* AI SDK, Langchain आदि के साथ इंटरफेस के लिए कस्टम SDKs\n* प्रोजेक्ट्स के लिए लीडरबोर्ड\n\nयदि आपके पास फीचर अनुरोध या सिफारिशें हैं, तो कृपया संपर्क करें!\n\n### अनुसंधान संदर्भ\n* Interfaze: The Future of AI is built on Task-Specific Small Models\n* Agentic Context Engineering\n* Small Language Models are the Future of Agentic AI\n* The Sparsely-Gated Mixture-of-Experts Layer\n* DeepSeekMoE\n* Confronting LLMs with Traditional ML\n\n### हम कौन हैं?\nहम एमएल, सॉफ़्टवेयर और इन्फ्रास्ट्रक्चर इंजीनियरों की एक छोटी टीम हैं जो इस तथ्य में डूबे हुए हैं कि एक छोटा मॉडल विशेषीकृत होने पर बहुत अधिक कर सकता है। हमें हर डेव (dev) वर्कफ़्लो में AI उपलब्ध कराने की अनुमति देता है।\n```"
}
],
"response": {
"id": "interfaze-1775186765470",
"modelId": "interfaze-beta",
"body": {
"id": "interfaze-1775186765470",
"object": "chat.completion",
"model": "interfaze-beta",
"usage": {
"prompt_tokens": 41587,
"completion_tokens": 10855,
"total_tokens": 52442
},
"precontext": [
{
"name": "web_extract",
"result": {
"scraped_content": {
"about": [
"Backed by\nCombinator\nThe AI model built for deterministic developer tasks\nInterfaze is an AI model built on a new architecture that merges specialized DNN/CNN models with LLMs for developer tasks that require deterministic output and high consistency like OCR, scraping, classification, web search and more.\n +===-----------------=++**++=---::::::::::::::::::::::::::::::--=+++++=- %##*=--------------:---==+***++=---::::::::::::::::::::::::::::::-=+****=:.: %%@%#===+++++++++++++++***#####*********++++++++++++++++++++++++++*######*=::: %@@@#+=+*#****##############################****************###%%%%%%%%@@#=::- %%@@#+-::=+******############%%%%%%%%%%%%%%######***********#%%%%%%%%%@@@%=::- %%@@*-:...-+#%%@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@%+--= %%@%+-....:%@@@@@@@@@@@@@%%%%%%%%#################******##%@@@@@@@@@@@@@@%**++ %%@%+:....-%%%@@@@@@%%%%%%%%%%%################***********#%%@@@@@@@@@@@@@#*++ %%@%+:....=%#%@@@@@@%%%%%%%%%################**************#%%@%@@@@@@@@@@#+== %%@%+:....+#%@@@@@@@%%%%%%%%%################****************#%%@@@@@@@%@@*+-- %%@%+:...:*#%@@@@@@@%%%%%%%%%################************#****##%@@@@@@@@@*+-= %%@%+:...:*#%@@@@@@@%%%%%%%%%################******#######*===+##@@@@@@%@@*+-= %%@%=:...:##%@@@@@@%%%%%%%%%%######################%%%%%#*+:.:-*#@@@@@@%@@*+-= %%@%=:...:##@@@@@@@%%%%%%%%%%#################%%%%%%%%%#*+=. .:+#@@@@@@%@@*+-= %%%%=:...:%%@@@@@@@%%%%%%%%%%############%%%%%%%%%%%%##*+=-. .=#%@@@@@%@@#+== %%@%=:...-%%@@@@@@@%%%%%%%%%%########%%%%%%%%%%%%%###**++=-. .-#%@@@@@%@@#+== %%%%=:...-%%#%%%%######%%%%%%%%%%%%%%%%@@@@%%%%####*****++=:..:=#@@@@@@%@@#+== %%%%=:...-%%#%###%%%###%%%%%%%%%%%%@@@@%%%%%%####********++=--=+%@@@@@@%%@#+== %%%%=:...-%%%%%%%%%%%%%%#%%%%%%@@@@@%%%%%########**********+==+#%@@@@@@%%@#*== %%%%=:...-%%#%%###########*##%%%@%%%%%############**********++*#@@@@@@@%%@#*== %%%%=:...-%%%#%#%%%%%%%%%%#%%%%%%%%################***********#%@@@@@@@%%%#*== %%%%=:...-@%@@@@@@@@@@@@@@%%%%%%%######################******##%@@@@@@%%%%#*== %%%%=:...-@%@@@@@@@@@@@@@%%%%%%%%##############################@@@@@@@%%%%#*== %%%#=::::=@%@@@@@@@@@@@%%%%%%%%%%%############################%@@@@@@@%%%%#*== %%%%+=--=+%@@@@@@@@@@@%%%%%%%%%%%%%%##########################%@@@@@@@%%%%#*== %%%%*+=--=%@%@@@@@@@@@%%%%%%%%%%%%%%%%#######################%@@@@@@@@%%%%#*== %%%%*+-:.:*%%%@@@@@@@@@%%%%%%%%%%%%%%%%%%###################%@@@@@@@@%%%%%#*+= ##%#+-....+%%%@@@@@@@@@@%%%%%%%%%%%%%%%%%%%%%%%%%#########%%%@@@@@@@@%%%%%#*+= %#%#=:....-%%%@@@@@@@@@@@@@@@@%%%%%%%%%%%%%%%%%%%%%%%%%%%%%@@@@@@@@@@%%%%%#*+= %#%#=:.....-=+*#######%%%%%%@@@@@@@@@@@@@@@@@@@%%%%%%#####%%%%%%%@@@@@%%%%#*+= ##%#=:.....:::--==++++===---::::::::::::::::::::::::::::::::-=++***##%@@@%#*+= ####=:::-----------==+****++=-------------------:::::::::::::----=+**####%#*+= ####=::::::::::::::--==+++=--::::::::::::::::::::::::...........::-+********+= ####=::::::::::::::--=++++=--:::::::::::::::::::................::-+********++ ###*=::::::::::::::-==++++=--::::::::::::::::..:--:::------------=+*##*####*++ ###*=:::::::::::::--==++++=--::::::::::::-++:..+%%*:-+****+++++=+*##%%*%%%@#++ ##**=:::::::::::::--==++++=--::::::::::-*##*-::-==-:..:........:::-+***####*++ #***+===============++++++==--------------:::::::::----------==+**########## #**************************++++++++++++++++++++++++++****##%%%%%%%%%%%%% ###########################*******##########%%%%%%%%%%%%%%%### #*++**#%@@@@@@@@@@@@@@@@@@%%%%%%%%%%%%%%%%@@@@@@@@@@@%####### *+===+*#%%%%%####************+++++++++++++*##%%%%%%@@%###### ***#####%###*****++++++++++++++++++++++**#%%%%%%%%@@@@@@ \nTry now ->Read paper ->\nOCR, web scraping, web search, classification and more\nOpenAI chat completion API compatible\nHigh accuracy structured output consistency\nBuilt-in code execution and sandboxing\nCustom web engine for scraping and web research capabilities\nAuto reasoning when needed\nControllable guardrails\nFully managed and scalable\nGlobally distributed fallback system with high uptime\nBeta launch video\nModel Comparison\nBenchmark\ninterfaze-beta\nGPT-4.1\nClaude Sonnet 4\nGemini 2.5 Flash\nClaude Sonnet 4 (Thinking)\nClaude Opus 4 (Thinking)\nGPT-5-Minimal\nGemini-2.5-Pro\nMMLU-Pro\n83.6\n80.6\n83.7\n80.9\n83.7\n86\n80.6\n86.2\nMMLU\n91.38\n90.2\n-\n-\n88.8\n89\n-\n89.2\nMMMU\n77.33\n74.8\n-\n79.7\n74.4\n76.5\n-\n82\nAIME-2025\n90\n34.7\n38\n60.3\n74.3\n73.3\n31.7\n87.7\nGPQA-Diamond\n81.31\n66.3\n68.3\n68.3\n77.7\n79.6\n67.3\n84.4\nLiveCodeBench\n57.77\n45.7\n44.9\n49.5\n65.5\n63.6\n55.8\n75.9\nChartQA\n90.88\n-\n-\n-\n-\n-\n-\n-\nAI2D\n91.51\n85.9\n-\n-\n-\n-\n-\n89.5\nCommon-Voice-v16\n90.8\n-\n-\n-\n-\n-\n-\n-\n*Results for Non-Interfaze models are sourced from model providers, leaderboards, and evaluation providers such as Artificial Analysis.\nWorks like any other LLM\nOpenAI API compatible, works with every AI SDK out of the box\nOpenAI SDK\nVercel AI SDK\nLangchain SDK\ntypescriptpython\ntypescript\ntypescript\npython\n...\nOCR & Document Extraction\nvision docs ->\n...\nSmart Web Scraping\nweb docs ->\n...\nTranslation\ntranslation docs ->\n...\n...\nSpeech-to-text (STT) and diarization\nstt docs ->\n...\n...\nConfigurable guardrails and NSFW checks\nguardrails docs ->\nFully configurable guardrails for text and images\n...\nArchitecture\nread paper ->\nThis architecture combines a suite of small specialized models supported with custom tools and infrastructure while automatically routing to the best model for the task that prioritizes accuracy and speed.\nSpecs\nContext window\n1m tokens\nMax output tokens\n32k tokens\nInput modalities\nText, Images, Audio, File, Video\nReasoning\nAvailable\nPricing\npricing details ->\nInput tokens\n$1.50 / MTok\nOutput tokens\n$3.50 / MTok\nCaching\nIncluded\nObservability & Logging\nComing soon\nFAQ\nHow many requests can I make per hour?\nYou can make 50 requests per second. If you need more, please contact us at interfaze@jigsawstack.com\nHow do I track my usage?\nYou can track your usage on the dashboard. We'll be adding more detailed metrics and analytics in the future.\nAre my messages/prompts stored?\nWe don't store or log any messages or prompts by default. When we do offer observability and logging in the future, you will have the option to allow or disallow storage.\nHow do I report bugs?\nWe do expect many bugs and issues. Please report them to us at interfaze@jigsawstack.com\nHow do I get in contact with the team for other inquiries?\nPlease email us at interfaze@jigsawstack.com or reach out to Yoeven on X: https://x.com/yoeven\nTodo (Prioritized)\nReduce transactional token count\nPre-built prompts/schemas optimized for specific tasks\nEmbedding model\nBuilt-in observability and logging on the dashboard\nComplete metrics and analytics\nv1.1 Interfaze\nReduce latency and improve throughput\nCustom SDKs for interfaze with AI SDK, Langchain, etc.\nLeaderboard for projects\nIf you have feature requests or recommendations, please reach out!\nResearch references\nInterfaze: The Future of AI is built on Task-Specific Small Models\nAgentic Context Engineering\nSmall Language Models are the Future of Agentic AI\nThe Sparsely-Gated Mixture-of-Experts Layer\nDeepSeekMoE\nConfronting LLMs with Traditional ML\nWho are we?\nWe are a small team of ML, Software and Infrastructure engineers engrossed in the fact that a small model can do a lot more when specialized. Allowing us to make AI available in every dev workflow.",
"Backed by",
"Combinator",
"The AI model built for deterministic developer tasks",
"Interfaze is an AI model built on a new architecture that merges specialized DNN/CNN models with LLMs for developer tasks that require deterministic output and high consistency like OCR, scraping, classification, web search and more.",
"OCR, web scraping, web search, classification and more\nOpenAI chat completion API compatible\nHigh accuracy structured output consistency\nBuilt-in code execution and sandboxing\nCustom web engine for scraping and web research capabilities\nAuto reasoning when needed\nControllable guardrails\nFully managed and scalable\nGlobally distributed fallback system with high uptime"
],
"name": ["Interfaze"],
"bio": [
"OpenAI API compatible, works with every AI SDK out of the box",
"We are a small team of ML, Software and Infrastructure engineers engrossed in the fact that a small model can do a lot more when specialized. Allowing us to make AI available in every dev workflow.",
"Context window",
"1m tokens",
"Max output tokens",
"32k tokens",
"Input modalities",
"Text, Images, Audio, File, Video",
"Reasoning",
"Available",
"Input tokens",
"$1.50 / MTok",
"Output tokens",
"$3.50 / MTok",
"Caching",
"Included",
"Observability & Logging",
"Coming soon",
"© 2026 InterfazeJigsawStack, Inc."
]
},
"scraped_elements": [
{
"selector": "div#mdx-content",
"results": [
{
"html": "<div class=\"css-17gh0kn\"><p class=\"css-l0zmib\">Backed by</p><p class=\"css-l0zmib\">Combinator</p></div><h1 class=\"chakra-heading css-1fbuuzc\">The AI model built for deterministic developer tasks</h1><p class=\"css-17d42k4\">Interfaze is an AI model built on a new architecture that merges specialized DNN/CNN models with LLMs for developer tasks that require deterministic output and high consistency like OCR, scraping, classification, web search and more.</p><pre class=\"css-ar8oal\"> \n +===-----------------=++**++=---::::::::::::::::::::::::::::::--=+++++=- \n %##*=--------------:---==+***++=---::::::::::::::::::::::::::::::-=+****=:.: \n %%@%#===+++++++++++++++***#####*********++++++++++++++++++++++++++*######*=::: \n %@@@#+=+*#****##############################****************###%%%%%%%%@@#=::- \n %%@@#+-::=+******############%%%%%%%%%%%%%%######***********#%%%%%%%%%@@@%=::- \n %%@@*-:...-+#%%@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@%+--= \n %%@%+-....:%@@@@@@@@@@@@@%%%%%%%%#################******##%@@@@@@@@@@@@@@%**++ \n %%@%+:....-%%%@@@@@@%%%%%%%%%%%################***********#%%@@@@@@@@@@@@@#*++ \n %%@%+:....=%#%@@@@@@%%%%%%%%%################**************#%%@%@@@@@@@@@@#+== \n %%@%+:....+#%@@@@@@@%%%%%%%%%################****************#%%@@@@@@@%@@*+-- \n %%@%+:...:*#%@@@@@@@%%%%%%%%%################************#****##%@@@@@@@@@*+-= \n %%@%+:...:*#%@@@@@@@%%%%%%%%%################******#######*===+##@@@@@@%@@*+-= \n %%@%=:...:##%@@@@@@%%%%%%%%%%######################%%%%%#*+:.:-*#@@@@@@%@@*+-= \n %%@%=:...:##@@@@@@@%%%%%%%%%%#################%%%%%%%%%#*+=. .:+#@@@@@@%@@*+-= \n %%%%=:...:%%@@@@@@@%%%%%%%%%%############%%%%%%%%%%%%##*+=-. .=#%@@@@@%@@#+== \n %%@%=:...-%%@@@@@@@%%%%%%%%%%########%%%%%%%%%%%%%###**++=-. .-#%@@@@@%@@#+== \n %%%%=:...-%%#%%%%######%%%%%%%%%%%%%%%%@@@@%%%%####*****++=:..:=#@@@@@@%@@#+== \n %%%%=:...-%%#%###%%%###%%%%%%%%%%%%@@@@%%%%%%####********++=--=+%@@@@@@%%@#+== \n %%%%=:...-%%%%%%%%%%%%%%#%%%%%%@@@@@%%%%%########**********+==+#%@@@@@@%%@#*== \n %%%%=:...-%%#%%###########*##%%%@%%%%%############**********++*#@@@@@@@%%@#*== \n %%%%=:...-%%%#%#%%%%%%%%%%#%%%%%%%%################***********#%@@@@@@@%%%#*== \n %%%%=:...-@%@@@@@@@@@@@@@@%%%%%%%######################******##%@@@@@@%%%%#*== \n %%%%=:...-@%@@@@@@@@@@@@@%%%%%%%%##############################@@@@@@@%%%%#*== \n %%%#=::::=@%@@@@@@@@@@@%%%%%%%%%%%############################%@@@@@@@%%%%#*== \n %%%%+=--=+%@@@@@@@@@@@%%%%%%%%%%%%%%##########################%@@@@@@@%%%%#*== \n %%%%*+=--=%@%@@@@@@@@@%%%%%%%%%%%%%%%%#######################%@@@@@@@@%%%%#*== \n %%%%*+-:.:*%%%@@@@@@@@@%%%%%%%%%%%%%%%%%%###################%@@@@@@@@%%%%%#*+= \n ##%#+-....+%%%@@@@@@@@@@%%%%%%%%%%%%%%%%%%%%%%%%%#########%%%@@@@@@@@%%%%%#*+= \n %#%#=:....-%%%@@@@@@@@@@@@@@@@%%%%%%%%%%%%%%%%%%%%%%%%%%%%%@@@@@@@@@@%%%%%#*+= \n %#%#=:.....-=+*#######%%%%%%@@@@@@@@@@@@@@@@@@@%%%%%%#####%%%%%%%@@@@@%%%%#*+= \n ##%#=:.....:::--==++++===---::::::::::::::::::::::::::::::::-=++***##%@@@%#*+= \n ####=:::-----------==+****++=-------------------:::::::::::::----=+**####%#*+= \n ####=::::::::::::::--==+++=--::::::::::::::::::::::::...........::-+********+= \n ####=::::::::::::::--=++++=--:::::::::::::::::::................::-+********++ \n ###*=::::::::::::::-==++++=--::::::::::::::::..:--:::------------=+*##*####*++ \n ###*=:::::::::::::--==++++=--::::::::::::-++:..+%%*:-+****+++++=+*##%%*%%%@#++ \n ##**=:::::::::::::--==++++=--::::::::::-*##*-::-==-:..:........:::-+***####*++ \n #***+===============++++++==--------------:::::::::----------==+**########## \n #**************************++++++++++++++++++++++++++****##%%%%%%%%%%%%% \n ###########################*******##########%%%%%%%%%%%%%%%### \n #*++**#%@@@@@@@@@@@@@@@@@@%%%%%%%%%%%%%%%%@@@@@@@@@@@%####### \n *+===+*#%%%%%####************+++++++++++++*##%%%%%%@@%###### \n ***#####%###*****++++++++++++++++++++++**#%%%%%%%%@@@@@@ </pre><div class=\"css-97th9i\"><a class=\"chakra-link css-8hvdbt\" href=\"/dashboard\"><button type=\"button\" class=\"chakra-button css-1pu7syy\">Try now -></button></a><a class=\"chakra-link css-8hvdbt\" href=\"https://www.arxiv.org/abs/2602.04101\"><button type=\"button\" class=\"chakra-button css-scamzs\">Read paper -></button></a></div><ul class=\"chakra-list__root css-y9vt0c\"><li class=\"chakra-list__item css-11uxivr\">OCR, web scraping, web search, classification and more</li><li class=\"chakra-list__item css-11uxivr\">OpenAI chat completion API compatible</li><li class=\"chakra-list__item css-11uxivr\">High accuracy structured output consistency</li><li class=\"chakra-list__item css-11uxivr\">Built-in code execution and sandboxing</li><li class=\"chakra-list__item css-11uxivr\">Custom web engine for scraping and web research capabilities</li><li class=\"chakra-list__item css-11uxivr\">Auto reasoning when needed</li><li class=\"chakra-list__item css-11uxivr\">Controllable guardrails</li><li class=\"chakra-list__item css-11uxivr\">Fully managed and scalable</li><li class=\"chakra-list__item css-11uxivr\">Globally distributed fallback system with high uptime</li></ul><h3 class=\"chakra-heading css-85svmm\">Beta launch video</h3><h3 class=\"chakra-heading css-85svmm\">Model Comparison</h3><div class=\"css-kzcxkb\"><table class=\"chakra-table__root css-1akj1nd\"><thead class=\"chakra-table__header css-hp6hec\"><tr class=\"chakra-table__row css-dj4s8p\"><th class=\"chakra-table__columnHeader css-d89l83\">Benchmark</th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">interfaze-beta</p></th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">GPT-4.1</p></th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">Claude Sonnet 4</p></th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">Gemini 2.5 Flash</p></th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">Claude Sonnet 4 (Thinking)</p></th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">Claude Opus 4 (Thinking)</p></th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">GPT-5-Minimal</p></th><th class=\"chakra-table__columnHeader css-fa4i0c\"><p class=\"css-1auzp06\">Gemini-2.5-Pro</p></th></tr></thead><tbody class=\"chakra-table__body\"><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">MMLU-Pro</td><td class=\"chakra-table__cell css-1k93ql2\">83.6</td><td class=\"chakra-table__cell css-1k93ql2\">80.6</td><td class=\"chakra-table__cell css-1k93ql2\">83.7</td><td class=\"chakra-table__cell css-1k93ql2\">80.9</td><td class=\"chakra-table__cell css-1k93ql2\">83.7</td><td class=\"chakra-table__cell css-1k93ql2\">86</td><td class=\"chakra-table__cell css-1k93ql2\">80.6</td><td class=\"chakra-table__cell css-1k93ql2\">86.2</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">MMLU</td><td class=\"chakra-table__cell css-1mduri2\">91.38</td><td class=\"chakra-table__cell css-1k93ql2\">90.2</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">88.8</td><td class=\"chakra-table__cell css-1k93ql2\">89</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">89.2</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">MMMU</td><td class=\"chakra-table__cell css-1k93ql2\">77.33</td><td class=\"chakra-table__cell css-1k93ql2\">74.8</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">79.7</td><td class=\"chakra-table__cell css-1k93ql2\">74.4</td><td class=\"chakra-table__cell css-1k93ql2\">76.5</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">82</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">AIME-2025</td><td class=\"chakra-table__cell css-1mduri2\">90</td><td class=\"chakra-table__cell css-1k93ql2\">34.7</td><td class=\"chakra-table__cell css-1k93ql2\">38</td><td class=\"chakra-table__cell css-1k93ql2\">60.3</td><td class=\"chakra-table__cell css-1k93ql2\">74.3</td><td class=\"chakra-table__cell css-1k93ql2\">73.3</td><td class=\"chakra-table__cell css-1k93ql2\">31.7</td><td class=\"chakra-table__cell css-1k93ql2\">87.7</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">GPQA-Diamond</td><td class=\"chakra-table__cell css-1k93ql2\">81.31</td><td class=\"chakra-table__cell css-1k93ql2\">66.3</td><td class=\"chakra-table__cell css-1k93ql2\">68.3</td><td class=\"chakra-table__cell css-1k93ql2\">68.3</td><td class=\"chakra-table__cell css-1k93ql2\">77.7</td><td class=\"chakra-table__cell css-1k93ql2\">79.6</td><td class=\"chakra-table__cell css-1k93ql2\">67.3</td><td class=\"chakra-table__cell css-1k93ql2\">84.4</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">LiveCodeBench</td><td class=\"chakra-table__cell css-1k93ql2\">57.77</td><td class=\"chakra-table__cell css-1k93ql2\">45.7</td><td class=\"chakra-table__cell css-1k93ql2\">44.9</td><td class=\"chakra-table__cell css-1k93ql2\">49.5</td><td class=\"chakra-table__cell css-1k93ql2\">65.5</td><td class=\"chakra-table__cell css-1k93ql2\">63.6</td><td class=\"chakra-table__cell css-1k93ql2\">55.8</td><td class=\"chakra-table__cell css-1k93ql2\">75.9</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">ChartQA</td><td class=\"chakra-table__cell css-1mduri2\">90.88</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">AI2D</td><td class=\"chakra-table__cell css-1mduri2\">91.51</td><td class=\"chakra-table__cell css-1k93ql2\">85.9</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">89.5</td></tr><tr class=\"chakra-table__row css-dj4s8p\"><td class=\"chakra-table__cell css-hk1mvp\">Common-Voice-v16</td><td class=\"chakra-table__cell css-1mduri2\">90.8</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td><td class=\"chakra-table__cell css-1k93ql2\">-</td></tr></tbody></table></div><p class=\"css-7lrzga\">*Results for Non-Interfaze models are sourced from model providers, leaderboards, and evaluation providers such as Artificial Analysis.</p><h3 class=\"chakra-heading css-85svmm\">Works like any other LLM</h3><p class=\"css-zwrm9u\">OpenAI API compatible, works with every AI SDK out of the box</p><div class=\"css-z6hfhj\"><div class=\"css-j7qwjs\"><div class=\"css-1nq3u9d\"><div class=\"css-posfkc\"><div class=\"css-1aehbnf\"><div class=\"css-ig8c7d\"><div class=\"css-1bkjy5i\"><p class=\"css-epvm6\">OpenAI SDK</p></div><div class=\"css-vvsgi0\"><p class=\"css-epvm6\">Vercel AI SDK</p></div><div class=\"css-vvsgi0\"><p class=\"css-epvm6\">Langchain SDK</p></div></div></div></div><div class=\"css-4xjgmj\"><div id=\"select:«Rl9kelcj9nm»\" class=\"chakra-select__root css-22fb6q\"><select aria-hidden=\"true\" id=\"select:«Rl9kelcj9nm»:select\" aria-labelledby=\"select:«Rl9kelcj9nm»:label\"><option>typescript</option><option>python</option></select><div id=\"select:«Rl9kelcj9nm»:control\" class=\"chakra-select__control css-17j1053\"><button id=\"select:«Rl9kelcj9nm»:trigger\" type=\"button\" aria-controls=\"select:«Rl9kelcj9nm»:content\" aria-expanded=\"false\" aria-haspopup=\"listbox\" aria-labelledby=\"select:«Rl9kelcj9nm»:label\" class=\"chakra-select__trigger css-1upyk8o\"><span class=\"chakra-select__valueText css-176t9sc\">typescript</span></button></div><div id=\"select:«Rl9kelcj9nm»:positioner\" class=\"chakra-select__positioner\"><div id=\"select:«Rl9kelcj9nm»:content\" aria-labelledby=\"select:«Rl9kelcj9nm»:label\" class=\"chakra-select__content css-17dnn\"><div id=\"select:«Rl9kelcj9nm»:option:typescript\" aria-selected=\"true\" class=\"chakra-select__item css-1n3dyi2\">typescript</div><div id=\"select:«Rl9kelcj9nm»:option:python\" aria-selected=\"false\" class=\"chakra-select__item css-1n3dyi2\">python</div></div></div></div></div></div><div class=\"css-1h5c3ut\"><div class=\"css-qwfkl2\">...</div></div></div></div><div class=\"css-jptr8y\"><h3 class=\"chakra-heading css-8jo1kl\">OCR & Document Extraction</h3><a class=\"chakra-link css-8hvdbt\" href=\"/docs/vision\"><p class=\"css-1auzp06\">vision docs -></p></a></div><div class=\"css-1lr06ex\"><div class=\"css-1abo3gd\"><div class=\"css-10ideoz\">...</div></div></div><div class=\"css-jptr8y\"><h3 class=\"chakra-heading css-8jo1kl\">Smart Web Scraping</h3><a class=\"chakra-link css-8hvdbt\" href=\"/docs/web\"><p class=\"css-1auzp06\">web docs -></p></a></div><div class=\"css-1lr06ex\"><div class=\"css-1abo3gd\"><div class=\"css-10ideoz\">...</div></div></div><div class=\"css-jptr8y\"><h3 class=\"chakra-heading css-8jo1kl\">Translation</h3><a class=\"chakra-link css-8hvdbt\" href=\"/docs/translation\"><p class=\"css-1auzp06\">translation docs -></p></a></div><div class=\"css-1fo7808\"><div class=\"css-1abo3gd\"><div class=\"css-1owj2kv\">...</div></div><div class=\"css-1abo3gd\"><div class=\"css-1owj2kv\">...</div></div></div><div class=\"css-jptr8y\"><h3 class=\"chakra-heading css-8jo1kl\">Speech-to-text (STT) and diarization</h3><a class=\"chakra-link css-8hvdbt\" href=\"/docs/speech-to-text\"><p class=\"css-1auzp06\">stt docs -></p></a></div><div class=\"css-1uwwv2\"><div class=\"css-1abo3gd\"><div class=\"css-1owj2kv\">...</div></div><div class=\"css-1ucm7yu\"><div class=\"css-1owj2kv\">...</div></div></div><div class=\"css-jptr8y\"><h3 class=\"chakra-heading css-8jo1kl\">Configurable guardrails and NSFW checks</h3><a class=\"chakra-link css-8hvdbt\" href=\"/docs/guard-rails\"><p class=\"css-1auzp06\">guardrails docs -></p></a></div><p class=\"css-ohvbe6\">Fully configurable guardrails for text and images</p><div class=\"css-1fo7808\"><div class=\"css-1abo3gd\"><div class=\"css-1owj2kv\">...</div></div></div><div class=\"css-jptr8y\"><h3 class=\"chakra-heading css-8jo1kl\">Architecture</h3><a class=\"chakra-link css-8hvdbt\" href=\"https://www.arxiv.org/abs/2602.04101\"><p class=\"css-1auzp06\">read paper -></p></a></div><p class=\"css-ohvbe6\">This architecture combines a suite of small specialized models supported with custom tools and infrastructure while automatically routing to the best model for the task that prioritizes accuracy and speed.</p><h3 class=\"chakra-heading css-85svmm\">Specs</h3><div class=\"css-fk6rnb\"><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Context window</p><p class=\"css-l0zmib\">1m tokens</p></div><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Max output tokens</p><p class=\"css-l0zmib\">32k tokens</p></div><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Input modalities</p><p class=\"css-l0zmib\">Text, Images, Audio, File, Video</p></div><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Reasoning</p><p class=\"css-l0zmib\">Available</p></div></div><div class=\"css-jptr8y\"><h3 class=\"chakra-heading css-8jo1kl\">Pricing</h3><a class=\"chakra-link css-8hvdbt\" href=\"/pricing\"><p class=\"css-1auzp06\">pricing details -></p></a></div><div class=\"css-fk6rnb\"><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Input tokens</p><p class=\"css-l0zmib\">$1.50 / MTok</p></div><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Output tokens</p><p class=\"css-l0zmib\">$3.50 / MTok</p></div><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Caching</p><p class=\"css-l0zmib\">Included</p></div><div class=\"css-137pnho\"><p class=\"css-l0zmib\">Observability & Logging</p><p class=\"css-l0zmib\">Coming soon</p></div></div><h3 class=\"chakra-heading css-85svmm\">FAQ</h3><div id=\"accordion:«R52lcj9nm»\" class=\"chakra-accordion__root css-ytxxjc\"><div id=\"collapsible:accordion:«R52lcj9nm»:item:How many requests can I make per hour?\" class=\"chakra-accordion__item css-xiajt7\"><button type=\"button\" id=\"accordion:«R52lcj9nm»:trigger:How many requests can I make per hour?\" aria-controls=\"accordion:«R52lcj9nm»:content:How many requests can I make per hour?\" aria-expanded=\"false\" aria-disabled=\"false\" class=\"chakra-accordion__itemTrigger css-1upe9fa\"><span class=\"css-vta8tc\">How many requests can I make per hour?</span></button><div id=\"accordion:«R52lcj9nm»:content:How many requests can I make per hour?\" aria-labelledby=\"accordion:«R52lcj9nm»:trigger:How many requests can I make per hour?\" class=\"chakra-accordion__itemContent css-pa2fdc\"><div class=\"chakra-accordion__itemBody css-1iv6yik\">You can make 50 requests per second. If you need more, please contact us at interfaze@jigsawstack.com</div></div></div><div id=\"collapsible:accordion:«R52lcj9nm»:item:How do I track my usage?\" class=\"chakra-accordion__item css-xiajt7\"><button type=\"button\" id=\"accordion:«R52lcj9nm»:trigger:How do I track my usage?\" aria-controls=\"accordion:«R52lcj9nm»:content:How do I track my usage?\" aria-expanded=\"false\" aria-disabled=\"false\" class=\"chakra-accordion__itemTrigger css-1upe9fa\"><span class=\"css-vta8tc\">How do I track my usage?</span></button><div id=\"accordion:«R52lcj9nm»:content:How do I track my usage?\" aria-labelledby=\"accordion:«R52lcj9nm»:trigger:How do I track my usage?\" class=\"chakra-accordion__itemContent css-pa2fdc\"><div class=\"chakra-accordion__itemBody css-1iv6yik\">You can track your usage on the dashboard. We'll be adding more detailed metrics and analytics in the future.</div></div></div><div id=\"collapsible:accordion:«R52lcj9nm»:item:Are my messages/prompts stored?\" class=\"chakra-accordion__item css-xiajt7\"><button type=\"button\" id=\"accordion:«R52lcj9nm»:trigger:Are my messages/prompts stored?\" aria-controls=\"accordion:«R52lcj9nm»:content:Are my messages/prompts stored?\" aria-expanded=\"false\" aria-disabled=\"false\" class=\"chakra-accordion__itemTrigger css-1upe9fa\"><span class=\"css-vta8tc\">Are my messages/prompts stored?</span></button><div id=\"accordion:«R52lcj9nm»:content:Are my messages/prompts stored?\" aria-labelledby=\"accordion:«R52lcj9nm»:trigger:Are my messages/prompts stored?\" class=\"chakra-accordion__itemContent css-pa2fdc\"><div class=\"chakra-accordion__itemBody css-1iv6yik\">We don't store or log any messages or prompts by default. When we do offer observability and logging in the future, you will have the option to allow or disallow storage.</div></div></div><div id=\"collapsible:accordion:«R52lcj9nm»:item:How do I report bugs?\" class=\"chakra-accordion__item css-xiajt7\"><button type=\"button\" id=\"accordion:«R52lcj9nm»:trigger:How do I report bugs?\" aria-controls=\"accordion:«R52lcj9nm»:content:How do I report bugs?\" aria-expanded=\"false\" aria-disabled=\"false\" class=\"chakra-accordion__itemTrigger css-1upe9fa\"><span class=\"css-vta8tc\">How do I report bugs?</span></button><div id=\"accordion:«R52lcj9nm»:content:How do I report bugs?\" aria-labelledby=\"accordion:«R52lcj9nm»:trigger:How do I report bugs?\" class=\"chakra-accordion__itemContent css-pa2fdc\"><div class=\"chakra-accordion__itemBody css-1iv6yik\">We do expect many bugs and issues. Please report them to us at interfaze@jigsawstack.com</div></div></div><div id=\"collapsible:accordion:«R52lcj9nm»:item:How do I get in contact with the team for other inquiries?\" class=\"chakra-accordion__item css-xiajt7\"><button type=\"button\" id=\"accordion:«R52lcj9nm»:trigger:How do I get in contact with the team for other inquiries?\" aria-controls=\"accordion:«R52lcj9nm»:content:How do I get in contact with the team for other inquiries?\" aria-expanded=\"false\" aria-disabled=\"false\" class=\"chakra-accordion__itemTrigger css-1upe9fa\"><span class=\"css-vta8tc\">How do I get in contact with the team for other inquiries?</span></button><div id=\"accordion:«R52lcj9nm»:content:How do I get in contact with the team for other inquiries?\" aria-labelledby=\"accordion:«R52lcj9nm»:trigger:How do I get in contact with the team for other inquiries?\" class=\"chakra-accordion__itemContent css-pa2fdc\"><div class=\"chakra-accordion__itemBody css-1iv6yik\">Please email us at interfaze@jigsawstack.com or reach out to Yoeven on X: https://x.com/yoeven</div></div></div></div><h3 class=\"chakra-heading css-1fu3sd\">Todo (Prioritized)</h3><ul class=\"chakra-list__root css-1bo14hc\"><li class=\"chakra-list__item css-11uxivr\">Reduce transactional token count</li><li class=\"chakra-list__item css-11uxivr\">Pre-built prompts/schemas optimized for specific tasks</li><li class=\"chakra-list__item css-11uxivr\">Embedding model</li><li class=\"chakra-list__item css-11uxivr\">Built-in observability and logging on the dashboard</li><li class=\"chakra-list__item css-11uxivr\">Complete metrics and analytics</li><li class=\"chakra-list__item css-11uxivr\">v1.1 Interfaze</li><li class=\"chakra-list__item css-11uxivr\">Reduce latency and improve throughput</li><li class=\"chakra-list__item css-11uxivr\">Custom SDKs for interfaze with AI SDK, Langchain, etc.</li><li class=\"chakra-list__item css-11uxivr\">Leaderboard for projects</li></ul><p class=\"css-17d6iti\">If you have feature requests or recommendations, please reach out!</p><h3 class=\"chakra-heading css-1fu3sd\">Research references</h3><ul class=\"chakra-list__root css-1bo14hc\"><li class=\"chakra-list__item css-11uxivr\"><a class=\"chakra-link css-15agp2p\" href=\"https://www.arxiv.org/abs/2602.04101\">Interfaze: The Future of AI is built on Task-Specific Small Models</a></li><li class=\"chakra-list__item css-11uxivr\"><a class=\"chakra-link css-15agp2p\" href=\"https://www.arxiv.org/pdf/2510.04618\">Agentic Context Engineering</a></li><li class=\"chakra-list__item css-11uxivr\"><a class=\"chakra-link css-15agp2p\" href=\"https://arxiv.org/pdf/2506.02153\">Small Language Models are the Future of Agentic AI</a></li><li class=\"chakra-list__item css-11uxivr\"><a class=\"chakra-link css-15agp2p\" href=\"https://arxiv.org/pdf/1701.06538\">The Sparsely-Gated Mixture-of-Experts Layer</a></li><li class=\"chakra-list__item css-11uxivr\"><a class=\"chakra-link css-15agp2p\" href=\"https://arxiv.org/pdf/2401.06066\">DeepSeekMoE</a></li><li class=\"chakra-list__item css-11uxivr\"><a class=\"chakra-link css-15agp2p\" href=\"https://arxiv.org/pdf/2310.14607\">Confronting LLMs with Traditional ML</a></li></ul><h3 class=\"chakra-heading css-85svmm\">Who are we?</h3><p class=\"css-zwrm9u\">We are a small team of ML, Software and Infrastructure engineers engrossed in the fact that a small model can do a lot more when specialized. Allowing us to make AI available in every dev workflow.</p>",
"text": "Backed by\nCombinator\nThe AI model built for deterministic developer tasks\nInterfaze is an AI model built on a new architecture that merges specialized DNN/CNN models with LLMs for developer tasks that require deterministic output and high consistency like OCR, scraping, classification, web search and more.\n +===-----------------=++**++=---::::::::::::::::::::::::::::::--=+++++=- %##*=--------------:---==+***++=---::::::::::::::::::::::::::::::-=+****=:.: %%@%#===+++++++++++++++***#####*********++++++++++++++++++++++++++*######*=::: %@@@#+=+*#****##############################****************###%%%%%%%%@@#=::- %%@@#+-::=+******############%%%%%%%%%%%%%%######***********#%%%%%%%%%@@@%=::- %%@@*-:...-+#%%@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@%+--= %%@%+-....:%@@@@@@@@@@@@@%%%%%%%%#################******##%@@@@@@@@@@@@@@%**++ %%@%+:....-%%%@@@@@@%%%%%%%%%%%################***********#%%@@@@@@@@@@@@@#*++ %%@%+:....=%#%@@@@@@%%%%%%%%%################**************#%%@%@@@@@@@@@@#+== %%@%+:....+#%@@@@@@@%%%%%%%%%################****************#%%@@@@@@@%@@*+-- %%@%+:...:*#%@@@@@@@%%%%%%%%%################************#****##%@@@@@@@@@*+-= %%@%+:...:*#%@@@@@@@%%%%%%%%%################******#######*===+##@@@@@@%@@*+-= %%@%=:...:##%@@@@@@%%%%%%%%%%######################%%%%%#*+:.:-*#@@@@@@%@@*+-= %%@%=:...:##@@@@@@@%%%%%%%%%%#################%%%%%%%%%#*+=. .:+#@@@@@@%@@*+-= %%%%=:...:%%@@@@@@@%%%%%%%%%%############%%%%%%%%%%%%##*+=-. .=#%@@@@@%@@#+== %%@%=:...-%%@@@@@@@%%%%%%%%%%########%%%%%%%%%%%%%###**++=-. .-#%@@@@@%@@#+== %%%%=:...-%%#%%%%######%%%%%%%%%%%%%%%%@@@@%%%%####*****++=:..:=#@@@@@@%@@#+== %%%%=:...-%%#%###%%%###%%%%%%%%%%%%@@@@%%%%%%####********++=--=+%@@@@@@%%@#+== %%%%=:...-%%%%%%%%%%%%%%#%%%%%%@@@@@%%%%%########**********+==+#%@@@@@@%%@#*== %%%%=:...-%%#%%###########*##%%%@%%%%%############**********++*#@@@@@@@%%@#*== %%%%=:...-%%%#%#%%%%%%%%%%#%%%%%%%%################***********#%@@@@@@@%%%#*== %%%%=:...-@%@@@@@@@@@@@@@@%%%%%%%######################******##%@@@@@@%%%%#*== %%%%=:...-@%@@@@@@@@@@@@@%%%%%%%%##############################@@@@@@@%%%%#*== %%%#=::::=@%@@@@@@@@@@@%%%%%%%%%%%############################%@@@@@@@%%%%#*== %%%%+=--=+%@@@@@@@@@@@%%%%%%%%%%%%%%##########################%@@@@@@@%%%%#*== %%%%*+=--=%@%@@@@@@@@@%%%%%%%%%%%%%%%%#######################%@@@@@@@@%%%%#*== %%%%*+-:.:*%%%@@@@@@@@@%%%%%%%%%%%%%%%%%%###################%@@@@@@@@%%%%%#*+= ##%#+-....+%%%@@@@@@@@@@%%%%%%%%%%%%%%%%%%%%%%%%%#########%%%@@@@@@@@%%%%%#*+= %#%#=:....-%%%@@@@@@@@@@@@@@@@%%%%%%%%%%%%%%%%%%%%%%%%%%%%%@@@@@@@@@@%%%%%#*+= %#%#=:.....-=+*#######%%%%%%@@@@@@@@@@@@@@@@@@@%%%%%%#####%%%%%%%@@@@@%%%%#*+= ##%#=:.....:::--==++++===---::::::::::::::::::::::::::::::::-=++***##%@@@%#*+= ####=:::-----------==+****++=-------------------:::::::::::::----=+**####%#*+= ####=::::::::::::::--==+++=--::::::::::::::::::::::::...........::-+********+= ####=::::::::::::::--=++++=--:::::::::::::::::::................::-+********++ ###*=::::::::::::::-==++++=--::::::::::::::::..:--:::------------=+*##*####*++ ###*=:::::::::::::--==++++=--::::::::::::-++:..+%%*:-+****+++++=+*##%%*%%%@#++ ##**=:::::::::::::--==++++=--::::::::::-*##*-::-==-:..:........:::-+***####*++ #***+===============++++++==--------------:::::::::----------==+**########## #**************************++++++++++++++++++++++++++****##%%%%%%%%%%%%% ###########################*******##########%%%%%%%%%%%%%%%### #*++**#%@@@@@@@@@@@@@@@@@@%%%%%%%%%%%%%%%%@@@@@@@@@@@%####### *+===+*#%%%%%####************+++++++++++++*##%%%%%%@@%###### ***#####%###*****++++++++++++++++++++++**#%%%%%%%%@@@@@@ \nTry now ->Read paper ->\nOCR, web scraping, web search, classification and more\nOpenAI chat completion API compatible\nHigh accuracy structured output consistency\nBuilt-in code execution and sandboxing\nCustom web engine for scraping and web research capabilities\nAuto reasoning when needed\nControllable guardrails\nFully managed and scalable\nGlobally distributed fallback system with high uptime\nBeta launch video\nModel Comparison\nBenchmark\ninterfaze-beta\nGPT-4.1\nClaude Sonnet 4\nGemini 2.5 Flash\nClaude Sonnet 4 (Thinking)\nClaude Opus 4 (Thinking)\nGPT-5-Minimal\nGemini-2.5-Pro\nMMLU-Pro\n83.6\n80.6\n83.7\n80.9\n83.7\n86\n80.6\n86.2\nMMLU\n91.38\n90.2\n-\n-\n88.8\n89\n-\n89.2\nMMMU\n77.33\n74.8\n-\n79.7\n74.4\n76.5\n-\n82\nAIME-2025\n90\n34.7\n38\n60.3\n74.3\n73.3\n31.7\n87.7\nGPQA-Diamond\n81.31\n66.3\n68.3\n68.3\n77.7\n79.6\n67.3\n84.4\nLiveCodeBench\n57.77\n45.7\n44.9\n49.5\n65.5\n63.6\n55.8\n75.9\nChartQA\n90.88\n-\n-\n-\n-\n-\n-\n-\nAI2D\n91.51\n85.9\n-\n-\n-\n-\n-\n89.5\nCommon-Voice-v16\n90.8\n-\n-\n-\n-\n-\n-\n-\n*Results for Non-Interfaze models are sourced from model providers, leaderboards, and evaluation providers such as Artificial Analysis.\nWorks like any other LLM\nOpenAI API compatible, works with every AI SDK out of the box\nOpenAI SDK\nVercel AI SDK\nLangchain SDK\ntypescriptpython\ntypescript\ntypescript\npython\n...\nOCR & Document Extraction\nvision docs ->\n...\nSmart Web Scraping\nweb docs ->\n...\nTranslation\ntranslation docs ->\n...\n...\nSpeech-to-text (STT) and diarization\nstt docs ->\n...\n...\nConfigurable guardrails and NSFW checks\nguardrails docs ->\nFully configurable guardrails for text and images\n...\nArchitecture\nread paper ->\nThis architecture combines a suite of small specialized models supported with custom tools and infrastructure while automatically routing to the best model for the task that prioritizes accuracy and speed.\nSpecs\nContext window\n1m tokens\nMax output tokens\n32k tokens\nInput modalities\nText, Images, Audio, File, Video\nReasoning\nAvailable\nPricing\npricing details ->\nInput tokens\n$1.50 / MTok\nOutput tokens\n$3.50 / MTok\nCaching\nIncluded\nObservability & Logging\nComing soon\nFAQ\nHow many requests can I make per hour?\nYou can make 50 requests per second. If you need more, please contact us at interfaze@jigsawstack.com\nHow do I track my usage?\nYou can track your usage on the dashboard. We'll be adding more detailed metrics and analytics in the future.\nAre my messages/prompts stored?\nWe don't store or log any messages or prompts by default. When we do offer observability and logging in the future, you will have the option to allow or disallow storage.\nHow do I report bugs?\nWe do expect many bugs and issues. Please report them to us at interfaze@jigsawstack.com\nHow do I get in contact with the team for other inquiries?\nPlease email us at interfaze@jigsawstack.com or reach out to Yoeven on X: https://x.com/yoeven\nTodo (Prioritized)\nReduce transactional token count\nPre-built prompts/schemas optimized for specific tasks\nEmbedding model\nBuilt-in observability and logging on the dashboard\nComplete metrics and analytics\nv1.1 Interfaze\nReduce latency and improve throughput\nCustom SDKs for interfaze with AI SDK, Langchain, etc.\nLeaderboard for projects\nIf you have feature requests or recommendations, please reach out!\nResearch references\nInterfaze: The Future of AI is built on Task-Specific Small Models\nAgentic Context Engineering\nSmall Language Models are the Future of Agentic AI\nThe Sparsely-Gated Mixture-of-Experts Layer\nDeepSeekMoE\nConfronting LLMs with Traditional ML\nWho are we?\nWe are a small team of ML, Software and Infrastructure engineers engrossed in the fact that a small model can do a lot more when specialized. Allowing us to make AI available in every dev workflow.",
"attributes": [
{
"name": "id",
"value": "mdx-content"
},
{
"name": "class",
"value": "css-8zg6q6"
}
]
}
],
"key": "about"
},
{
"selector": "div.css-17gh0kn p.css-l0zmib",
"results": [
{
"html": "Backed by",
"text": "Backed by",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Combinator",
"text": "Combinator",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
}
],
"key": "about"
},
{
"selector": "h1.chakra-heading.css-1fbuuzc",
"results": [
{
"html": "The AI model built for deterministic developer tasks",
"text": "The AI model built for deterministic developer tasks",
"attributes": [
{
"name": "class",
"value": "chakra-heading css-1fbuuzc"
}
]
}
],
"key": "about"
},
{
"selector": "p.css-17d42k4",
"results": [
{
"html": "Interfaze is an AI model built on a new architecture that merges specialized DNN/CNN models with LLMs for developer tasks that require deterministic output and high consistency like OCR, scraping, classification, web search and more.",
"text": "Interfaze is an AI model built on a new architecture that merges specialized DNN/CNN models with LLMs for developer tasks that require deterministic output and high consistency like OCR, scraping, classification, web search and more.",
"attributes": [
{
"name": "class",
"value": "css-17d42k4"
}
]
}
],
"key": "about"
},
{
"selector": "ul.chakra-list__root.css-y9vt0c",
"results": [
{
"html": "<li class=\"chakra-list__item css-11uxivr\">OCR, web scraping, web search, classification and more</li><li class=\"chakra-list__item css-11uxivr\">OpenAI chat completion API compatible</li><li class=\"chakra-list__item css-11uxivr\">High accuracy structured output consistency</li><li class=\"chakra-list__item css-11uxivr\">Built-in code execution and sandboxing</li><li class=\"chakra-list__item css-11uxivr\">Custom web engine for scraping and web research capabilities</li><li class=\"chakra-list__item css-11uxivr\">Auto reasoning when needed</li><li class=\"chakra-list__item css-11uxivr\">Controllable guardrails</li><li class=\"chakra-list__item css-11uxivr\">Fully managed and scalable</li><li class=\"chakra-list__item css-11uxivr\">Globally distributed fallback system with high uptime</li>",
"text": "OCR, web scraping, web search, classification and more\nOpenAI chat completion API compatible\nHigh accuracy structured output consistency\nBuilt-in code execution and sandboxing\nCustom web engine for scraping and web research capabilities\nAuto reasoning when needed\nControllable guardrails\nFully managed and scalable\nGlobally distributed fallback system with high uptime",
"attributes": [
{
"name": "class",
"value": "chakra-list__root css-y9vt0c"
}
]
}
],
"key": "about"
},
{
"selector": "p.css-705kqj",
"results": [
{
"html": "Interfaze",
"text": "Interfaze",
"attributes": [
{
"name": "class",
"value": "css-705kqj"
}
]
}
],
"key": "name"
},
{
"selector": "a.chakra-link.css-1yt3pj4",
"results": [
{
"html": "<div class=\"css-8jw6te\"><p class=\"css-705kqj\">Interfaze</p></div>",
"text": "Interfaze",
"attributes": [
{
"name": "class",
"value": "chakra-link css-1yt3pj4"
},
{
"name": "href",
"value": "/"
}
]
}
],
"key": "name"
},
{
"selector": "div.css-8jw6te p.css-705kqj",
"results": [
{
"html": "Interfaze",
"text": "Interfaze",
"attributes": [
{
"name": "class",
"value": "css-705kqj"
}
]
}
],
"key": "name"
},
{
"selector": "p.css-zwrm9u",
"results": [
{
"html": "OpenAI API compatible, works with every AI SDK out of the box",
"text": "OpenAI API compatible, works with every AI SDK out of the box",
"attributes": [
{
"name": "class",
"value": "css-zwrm9u"
}
]
},
{
"html": "We are a small team of ML, Software and Infrastructure engineers engrossed in the fact that a small model can do a lot more when specialized. Allowing us to make AI available in every dev workflow.",
"text": "We are a small team of ML, Software and Infrastructure engineers engrossed in the fact that a small model can do a lot more when specialized. Allowing us to make AI available in every dev workflow.",
"attributes": [
{
"name": "class",
"value": "css-zwrm9u"
}
]
}
],
"key": "bio"
},
{
"selector": "div.css-fk6rnb div.css-137pnho p.css-l0zmib",
"results": [
{
"html": "Context window",
"text": "Context window",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "1m tokens",
"text": "1m tokens",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Max output tokens",
"text": "Max output tokens",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "32k tokens",
"text": "32k tokens",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Input modalities",
"text": "Input modalities",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Text, Images, Audio, File, Video",
"text": "Text, Images, Audio, File, Video",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Reasoning",
"text": "Reasoning",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Available",
"text": "Available",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Input tokens",
"text": "Input tokens",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "$1.50 / MTok",
"text": "$1.50 / MTok",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Output tokens",
"text": "Output tokens",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "$3.50 / MTok",
"text": "$3.50 / MTok",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Caching",
"text": "Caching",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Included",
"text": "Included",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Observability & Logging",
"text": "Observability & Logging",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
},
{
"html": "Coming soon",
"text": "Coming soon",
"attributes": [
{
"name": "class",
"value": "css-l0zmib"
}
]
}
],
"key": "bio"
},
{
"selector": "footer.css-1kghora p.css-8wcbh4",
"results": [
{
"html": "© 2026 Interfaze\nJigsawStack, Inc.",
"text": "© 2026 InterfazeJigsawStack, Inc.",
"attributes": [
{
"name": "class",
"value": "css-8wcbh4"
}
]
}
],
"key": "bio"
}
],
"meta": {
"title": "The AI model built for deterministic developer tasks - Interfaze",
"description": "AI built for developers. Combining LLMs with DNN/CNN models for deterministic OCR, scraping, classification, and web search.",
"og_image": "https://interfaze.ai/banner.png"
}
}
},
{
"name": "translate",
"result": {
"translated_text": [
"समर्थित द्वारा\nCombinator\nडिटरमिनिस्टिक डेवलपर कार्यों के लिए बनाया गया AI मॉडल\nInterfaze एक AI मॉडल है जो एक नई आर्किटेक्चर पर आधारित है जो विशेषीकृत DNN/CNN मॉडलों को LLMs के साथ मिलाती है उन डेवलपर कार्यों के लिए जिनके लिए डिटरमिनिस्टिक आउटपुट और उच्च सुसंगतता की आवश्यकता होती है जैसे OCR, scraping, classification, web search और अधिक।",
"OCR, वेब स्क्रैपिंग, वेब खोज, वर्गीकरण और भी बहुत कुछ\nOpenAI chat completion API अनुकूल\nउच्च सटीकता वाला संरचित आउटपुट निरंतरता\nइन-बिल्ट कोड निष्पादन और सैंडबॉक्सिंग\nस्क्रैपिंग और वेब अनुसंधान क्षमताओं के लिए कस्टम वेब इंजन\nआवश्यकतानुसार स्वचालित तर्कशीलता\nनियंत्रण योग्य गार्डरेइल्स\nपूरी तरह प्रबंधित और स्केलेबल\nउच्च अपटाइम के साथ वैश्विक रूप से वितरित फॉलबैक सिस्टम",
"बीटा लॉन्च वीडियो\nमॉडल तुलना\nबेंचमार्क\ninterfaze-beta\nGPT-4.1\nClaude Sonnet 4\nGemini 2.5 Flash\nClaude Sonnet 4 (Thinking)\nClaude Opus 4 (Thinking)\nGPT-5-Minimal\nGemini-2.5-Pro\nMMLU-Pro\n८३.६\n८०.६\n८३.७\n८०.९\n८३.७\n८६\n८०.६\n८६.२\nMMLU\n९१.३८\n९०.२\n-\n-\n८८.८\n८९\n-\n८९.२\nMMMU\n७७.३३\n७४.८\n-\n७९.७\n७४.४\n७६.५\n-\n८२\nAIME-२०२५\n९०\n३४.७\n३८\n६०.३\n७४.३\n७३.३\n३१.७\n८७.७\nGPQA-Diamond\n८१.३१\n६६.३\n६८.३\n६८.३\n७७.७\n७९.६\n६७.३\n८४.४\nLiveCodeBench\n५७.७७\n४५.७\n४४.९\n४९.५\n६५.५\n६३.६\n५५.८\n७५.९\nChartQA\n९०.८८\n-\n-\n-\n-\n-\n-\n-\nAI2D\n९१.५१\n८५.९\n-\n-\n-\n-\n-\n८९.५\nCommon-Voice-v16\n९०.८\n-\n-\n-\n-\n-\n-\n-\n*Non-Interfaze मॉडलों के परिणाम मॉडल प्रदाताओं, लीडरबोर्ड और मूल्यांकन प्रदाताओं जैसे Artificial Analysis से प्राप्त किए गए हैं।",
"किसी अन्य LLM की तरह काम करता है\nOpenAI API अनुकूल, आउट ऑफ़ द बॉक्स हर AI SDK के साथ काम करता है\nOpenAI SDK\nVercel AI SDK\nLangchain SDK\ntypescriptpython\ntypescript\ntypescript\npython\n...\nOCR और डॉक्युमेंट एक्सट्रैक्शन\nvision docs ->\n...\nस्मार्ट वेब स्क्रैपिंग\nweb docs ->\n...\nअनुवाद\ntranslation docs ->\n...\n...\nस्पीच-टू-टेक्स्ट (STT) और डायराइज़ेशन\nstt docs ->\n...\n...\nकॉन्फ़िगर करने योग्य गार्डरेल और NSFW चेक्स\nguardrails docs ->\nटेक्स्ट और इमेज के लिए पूरी तरह कॉन्फ़िगर करने योग्य गार्डरेल\n...",
"Architecture\nपेपर पढ़ें ->\nयह आर्किटेक्चर छोटे-छोटे विशेषीकृत मॉडलों का एक समूह संयोजित करता है जिन्हें कस्टम टूल्स और इन्फ्रास्ट्रक्चर द्वारा समर्थित किया गया है और स्वचालित रूप से उस सर्वश्रेष्ठ मॉडल के पास रूट करता है जो कार्य के लिए सटीकता और गति को प्राथमिकता देता है।\nविवरण\nसंदर्भ विंडो\n1 मिलियन टोकन\nअधिकतम आउटपुट टोकन\n32 हज़ार टोकन\nइनपुट मॉडलिटीज़\nटेक्स्ट, इमेजेज़, ऑडियो, फ़ाइल, वीडियो\nतर्कशक्ति\nउपलब्ध\nमूल्य निर्धारण\nमूल्य निर्धारण विवरण ->\nइनपुट टोकन\n$1.50 / MTok\nआउटपुट टोकन\n$3.50 / MTok\nकैशिंग\nशामिल\nऑब्ज़र्वेबिलिटी और लॉगिंग\nशीघ्र आ रहा है",
"FAQ\nमैं प्रति घंटे कितने अनुरोध कर सकता/सकती हूँ?\nआप प्रति सेकंड 50 अनुरोध कर सकते हैं। यदि आपको और आवश्यकता है, तो कृपया हमें interfaze@jigsawstack.com पर संपर्क करें।\nमैं अपनी उपयोग को कैसे ट्रैक करूँ?\nआप डैशबोर्ड पर अपनी उपयोग को ट्रैक कर सकते हैं। भविष्य में हम और अधिक विस्तृत मेट्रिक्स और एनालिटिक्स जोड़ेंगे।\nक्या मेरे संदेश/प्रॉम्प्ट संग्रहीत किए जाते हैं?\nहम डिफ़ॉल्ट रूप से किसी भी संदेश या प्रॉम्प्ट को संग्रहीत या लॉग नहीं करते। जब हम भविष्य में ऑब्ज़र्वेबिलिटी और लॉगिंग प्रदान करेंगे, तो आपको संग्रहन की अनुमति देने या न देने का विकल्प मिलेगा।\nबग कैसे रिपोर्ट करूँ?\nहम कई बग और समस्याओं की अपेक्षा करते हैं। कृपया इन्हें हमें interfaze@jigsawstack.com पर रिपोर्ट करें।\nअन्य पूछताछ के लिए टीम से कैसे संपर्क करूँ?\nकृपया हमें interfaze@jigsawstack.com पर ईमेल करें या X पर Yoeven से संपर्क करें: https://x.com/yoeven",
"Todo (Prioritized)\nलेन-देन टोकन गणना कम करें\nविशिष्ट कार्यों के लिए अनुकूलित पहले से बने प्रॉम्प्ट/स्कीमाएँ\nएंबेडिंग मॉडल\nडैशबोर्ड पर अंतर्निर्मित ऑब्ज़र्वेबिलिटी और लॉगिंग\nपूर्ण मीट्रिक्स और एनालिटिक्स\nv1.1 Interfaze\nलेटेंसी घटाएँ और थ्रूपुट सुधारें\nAI SDK, Langchain आदि के साथ इंटरफेस के लिए कस्टम SDKs\nप्रोजेक्ट्स के लिए लीडरबोर्ड\nयदि आपके पास फीचर अनुरोध या सिफारिशें हैं, तो कृपया संपर्क करें!",
"अनुसंधान संदर्भ\nInterfaze: The Future of AI is built on Task-Specific Small Models\nAgentic Context Engineering\nSmall Language Models are the Future of Agentic AI\nThe Sparsely-Gated Mixture-of-Experts Layer\nDeepSeekMoE\nConfronting LLMs with Traditional ML",
"हम कौन हैं?\nहम एमएल, सॉफ़्टवेयर और इन्फ्रास्ट्रक्चर इंजीनियरों की एक छोटी टीम हैं जो इस तथ्य में डूबे हुए हैं कि एक छोटा मॉडल विशेषीकृत होने पर बहुत अधिक कर सकता है। हमें हर डेव (dev) वर्कफ़्लो में AI उपलब्ध कराने की अनुमति देता है।"
],
"source_language": "auto-detected",
"target_language": "hi",
"batch_size": 9
}
}
]
},
"messages": [
{
"role": "assistant",
"content": [
{
"type": "text",
"text": "```markdown\n# समर्थित द्वारा\nCombinator\n\n# डिटरमिनिस्टिक डेवलपर कार्यों के लिए बनाया गया AI मॉडल\nInterfaze एक AI मॉडल है जो एक नई आर्किटेक्चर पर आधारित है जो विशेषीकृत DNN/CNN मॉडलों को LLMs के साथ मिलाती है उन डेवलपर कार्यों के लिए जिनके लिए डिटरमिनिस्टिक आउटपुट और उच्च सुसंगतता की आवश्यकता होती है जैसे OCR, scraping, classification, web search और अधिक।\n\nOCR, वेब स्क्रैपिंग, वेब खोज, वर्गीकरण और भी बहुत कुछ\nOpenAI chat completion API अनुकूल\nउच्च सटीकता वाला संरचित आउटपुट निरंतरता\nइन-बिल्ट कोड निष्पादन और सैंडबॉक्सिंग\nस्क्रैपिंग और वेब अनुसंधान क्षमताओं के लिए कस्टम वेब इंजन\nआवश्यकतानुसार स्वचालित तर्कशीलता\nनियंत्रण योग्य गार्डरेइल्स\nपूरी तरह प्रबंधित और स्केलेबल\nउच्च अपटाइम के साथ वैश्विक रूप से वितरित फॉलबैक सिस्टम\n\n### बीटा लॉन्च वीडियो\n### मॉडल तुलना\n\n| बेंचमार्क | interfaze-beta | GPT-4.1 | Claude Sonnet 4 | Gemini 2.5 Flash | Claude Sonnet 4 (Thinking) | Claude Opus 4 (Thinking) | GPT-5-Minimal | Gemini-2.5-Pro |\n| :--------------- | :------------- | :------ | :-------------- | :--------------- | :------------------------- | :----------------------- | :------------ | :------------- |\n| MMLU-Pro | ८३.६ | ८०.६ | ८३.७ | ८०.९ | ८३.७ | ८६ | ८०.६ | ८६.२ |\n| MMLU | ९१.३८ | ९०.२ | - | - | ८८.८ | ८९ | - | ८९.२ |\n| MMMU | ७७.३३ | ७४.८ | - | ७९.७ | ७४.४ | ७६.५ | - | ८२ |\n| AIME-२०२५ | ९० | ३४.७ | ३८ | ६०.३ | ७४.३ | ७३.३ | ३१.७ | ८७.७ |\n| GPQA-Diamond | ८१.३१ | ६६.३ | ६८.३ | ६८.३ | ७७.७ | ७९.६ | ६७.३ | ८४.४ |\n| LiveCodeBench | ५७.७७ | ४५.७ | ४४.९ | ४९.५ | ६५.५ | ६३.६ | ५५.८ | ७५.९ |\n| ChartQA | ९०.८८ | - | - | - | - | - | - | - |\n| AI2D | ९१.५१ | ८५.९ | - | - | - | - | - | ८९.५ |\n| Common-Voice-v16 | ९०.८ | - | - | - | - | - | - | - |\n\n*Non-Interfaze मॉडलों के परिणाम मॉडल प्रदाताओं, लीडरबोर्ड और मूल्यांकन प्रदाताओं जैसे Artificial Analysis से प्राप्त किए गए हैं।\n\n### किसी अन्य LLM की तरह काम करता है\nOpenAI API अनुकूल, आउट ऑफ़ द बॉक्स हर AI SDK के साथ काम करता है\nOpenAI SDK\nVercel AI SDK\nLangchain SDK\ntypescript\npython\n\n...\n\n### OCR और डॉक्युमेंट एक्सट्रैक्शन\nvision docs ->\n...\n\n### स्मार्ट वेब स्क्रैपिंग\nweb docs ->\n...\n\n### अनुवाद\ntranslation docs ->\n...\n...\n\n### स्पीच-टू-टेक्स्ट (STT) और डायराइज़ेशन\nstt docs ->\n...\n...\n\n### कॉन्फ़िगर करने योग्य गार्डरेल और NSFW चेक्स\nguardrails docs ->\nटेक्स्ट और इमेज के लिए पूरी तरह कॉन्फ़िगर करने योग्य गार्डरेल\n...\n\n### Architecture\nपेपर पढ़ें ->\nयह आर्किटेक्चर छोटे-छोटे विशेषीकृत मॉडलों का एक समूह संयोजित करता है जिन्हें कस्टम टूल्स और इन्फ्रास्ट्रक्चर द्वारा समर्थित किया गया है और स्वचालित रूप से उस सर्वश्रेष्ठ मॉडल के पास रूट करता है जो कार्य के लिए सटीकता और गति को प्राथमिकता देता है।\n\n### विवरण\nसंदर्भ विंडो\n1 मिलियन टोकन\nअधिकतम आउटपुट टोकन\n32 हज़ार टोकन\nइनपुट मॉडलिटीज़\nटेक्स्ट, इमेजेज़, ऑडियो, फ़ाइल, वीडियो\nतर्कशक्ति\nउपलब्ध\n\n### मूल्य निर्धारण\nमूल्य निर्धारण विवरण ->\nइनपुट टोकन\n$1.50 / MTok\nआउटपुट टोकन\n$3.50 / MTok\nकैशिंग\nशामिल\nऑब्ज़र्वेबिलिटी और लॉगिंग\nशीघ्र आ रहा है\n\n### FAQ\n**मैं प्रति घंटे कितने अनुरोध कर सकता/सकती हूँ?**\nआप प्रति सेकंड 50 अनुरोध कर सकते हैं। यदि आपको और आवश्यकता है, तो कृपया हमें interfaze@jigsawstack.com पर संपर्क करें।\n\n**मैं अपनी उपयोग को कैसे ट्रैक करूँ?**\nआप डैशबोर्ड पर अपनी उपयोग को ट्रैक कर सकते हैं। भविष्य में हम और अधिक विस्तृत मेट्रिक्स और एनालिटिक्स जोड़ेंगे।\n\n**क्या मेरे संदेश/प्रॉम्प्ट संग्रहीत किए जाते हैं?**\nहम डिफ़ॉल्ट रूप से किसी भी संदेश या प्रॉम्प्ट को संग्रहीत या लॉग नहीं करते। जब हम भविष्य में ऑब्ज़र्वेबिलिटी और लॉगिंग प्रदान करेंगे, तो आपको संग्रहन की अनुमति देने या न देने का विकल्प मिलेगा।\n\n**बग कैसे रिपोर्ट करूँ?**\nहम कई बग और समस्याओं की अपेक्षा करते हैं। कृपया इन्हें हमें interfaze@jigsawstack.com पर रिपोर्ट करें।\n\n**अन्य पूछताछ के लिए टीम से कैसे संपर्क करूँ?**\nकृपया हमें interfaze@jigsawstack.com पर ईमेल करें या X पर Yoeven से संपर्क करें: https://x.com/yoeven\n\n### Todo (Prioritized)\n* लेन-देन टोकन गणना कम करें\n* विशिष्ट कार्यों के लिए अनुकूलित पहले से बने प्रॉम्प्ट/स्कीमाएँ\n* एंबेडिंग मॉडल\n* डैशबोर्ड पर अंतर्निर्मित ऑब्ज़र्वेबिलिटी और लॉगिंग\n* पूर्ण मीट्रिक्स और एनालिटिक्स\n* v1.1 Interfaze\n* लेटेंसी घटाएँ और थ्रूपुट सुधारें\n* AI SDK, Langchain आदि के साथ इंटरफेस के लिए कस्टम SDKs\n* प्रोजेक्ट्स के लिए लीडरबोर्ड\n\nयदि आपके पास फीचर अनुरोध या सिफारिशें हैं, तो कृपया संपर्क करें!\n\n### अनुसंधान संदर्भ\n* Interfaze: The Future of AI is built on Task-Specific Small Models\n* Agentic Context Engineering\n* Small Language Models are the Future of Agentic AI\n* The Sparsely-Gated Mixture-of-Experts Layer\n* DeepSeekMoE\n* Confronting LLMs with Traditional ML\n\n### हम कौन हैं?\nहम एमएल, सॉफ़्टवेयर और इन्फ्रास्ट्रक्चर इंजीनियरों की एक छोटी टीम हैं जो इस तथ्य में डूबे हुए हैं कि एक छोटा मॉडल विशेषीकृत होने पर बहुत अधिक कर सकता है। हमें हर डेव (dev) वर्कफ़्लो में AI उपलब्ध कराने की अनुमति देता है।\n```"
}
]
}
]
},
"finishReason": "stop",
"usage": {
"inputTokens": 41587,
"outputTokens": 10855,
"totalTokens": 52442
}
}Running translation as a task with <task>translate</task> in the system message makes it faster and cheaper with a fixed structured output that's pre-defined.
Learn more about running a task.
OpenAI SDK
Vercel AI SDK
LangChain SDK
import { z } from "zod";
import { zodResponseFormat } from "openai/helpers/zod";
const response = await interfaze.chat.completions.create({
model: "interfaze-beta",
messages: [
{ role: "system", content: "<task>translate</task>" },
{
role: "user",
content:
"Translate the following text into French: 'The UK drinks about 100–160 million cups of tea every day, and 98% of tea drinkers add milk to their tea.'",
},
],
response_format: zodResponseFormat(z.any(), "translate_schema"),
});
console.log(response.choices[0].message.content);JSON output
{
"object": {
"name": "translate",
"result": {
"translated_text": "Le Royaume-Uni boit environ 100–160 millions de tasses de thé chaque jour, et 98 % des buveurs de thé ajoutent du lait à leur thé.",
"source_language": "en",
"target_language": "fr"
}
},
"response": {
"id": "interfaze-1775188135404",
"modelId": "interfaze-beta",
"body": {
"id": "interfaze-1775188135404",
"object": "chat.completion",
"model": "interfaze-beta",
"usage": {
"prompt_tokens": 1863,
"completion_tokens": 66,
"total_tokens": 1929
}
}
},
"finishReason": "stop",
"usage": {
"inputTokens": 1863,
"outputTokens": 66,
"totalTokens": 1929
}
}