Camada 03 · Orquestração

Um único cérebro não dá conta. Times de cérebros, sim.

A Synapse roteia cada tarefa para o modelo certo — Claude, GPT, Gemini, Llama ou modelo proprietário Bluey. Pergunta simples vai para o barato. Análise complexa vai para o top. Você paga só pelo que faz sentido.

Ver arquitetura completa
6+
famílias de modelos suportadas
−40-60%
custo de tokens vs. uso ingênuo
99.9%
uptime com fallback automático
JM
"Compare o resultado consolidado do Q3 com o Q2 e identifique as 3 maiores variações por linha de produto."
roteador · tarefa: análise complexa · escolha: Claude Opus
Claude
Haiku
Claude
Opus
GPT-5
Gemini
Flash
B
3 maiores variações Q3 vs Q2: Linha Premium +18,4%, Genéricos −7,2%, Distribuição +12,1%. Margem consolidada subiu 1,3pp. Detalho cada uma?
O problema do "um único LLM"

Depender de um modelo só é frágil — e caro.

Mid-market que adota IA via API direta de um único provedor descobre três dores nos primeiros meses: a conta explode, a operação fica refém de um fornecedor e quando o modelo cai, a empresa para junto. O roteador multi-LLM existe para neutralizar os três riscos de uma vez.

Lock-in com o fornecedor

Preço sobe sem aviso, modelo é descontinuado, política de uso muda. Quem tem código atado a um único provedor reescreve tudo — ou paga o que pedirem.

Pagando topo para tarefa simples

Modelo premium custa 10-30× mais que o eficiente. Quando todo prompt vai para o top, a fatura cresce sem ganho de qualidade. Tarefa banal não precisa de cérebro caro.

Modelo cai — operação cai junto

Provedor com indisponibilidade significa squad parada, atendimento parado, pipeline parado. Sem fallback automático para outro modelo, sua continuidade depende de um SLA que você não controla.

A solução: roteador inteligente

Quatro etapas, um único roteador. Decisão em milissegundos.

O roteador da Synapse não é uma chave manual — é uma camada de decisão que classifica a tarefa, compara com a política do agente e escolhe o modelo certo. Tudo antes da pergunta sair da sua infraestrutura.

Etapa 01

Classificação da tarefa

O roteador lê a pergunta e identifica: simples, média ou complexa? Texto, número, código, multimodal? Crítica ou rotineira? Isso define a faixa de modelos elegíveis.

Intent detectionModalidadeCriticidade
Etapa 02

Política do agente

Cada squad tem regra própria. Squad Financeiro nunca usa modelo open-source. Squad de Marketing pode usar Gemini para imagens. Você define — o roteador respeita.

Por agentePor dadoAuditável
Etapa 03

Escolha do modelo certo

Dentro da faixa elegível, o roteador escolhe pelo melhor custo-benefício em tempo real: latência atual, fila de cada provedor, preço por token, qualidade histórica para o tipo de tarefa.

Custo-benefícioLatência liveDecisão Bluey
Etapa 04

Fallback automático

Se o modelo escolhido falhar ou demorar, o roteador redireciona para o próximo da fila sem o usuário perceber. Continuidade operacional sem depender de um único SLA.

RetryFailover99.9% uptime
Catálogo de modelos

Cada cérebro é bom em uma coisa. O roteador conhece todos.

Você não escolhe modelo — escolhe resultado. Mas se quiser saber quem está por trás, aqui está o catálogo atual da plataforma. Novos modelos entram via release contínuo, sem mexer no código das suas squads.

Premium

Claude (Anthropic)

Família Opus, Sonnet e Haiku

Raciocínio profundo, análise de longos contextos e geração estruturada confiável. Opus para análise crítica, Haiku para volume de baixo custo.

Melhor para
Análise financeiraContratosDecisões críticas
Balanceado

GPT (OpenAI)

Família GPT-5 e variantes mini

Forte em geração natural, code interpretation e multimodal. Excelente baseline geral para squads de comunicação e produtividade.

Melhor para
AtendimentoConteúdoMultimodal
Eficiente

Gemini (Google)

Família Pro e Flash

Janela de contexto generosa, ótimo custo em escala e processamento visual nativo. Ideal para ingestão de documentos grandes e tarefas visuais em volume.

Melhor para
Documentos longosImagensVolume
Open-source

Llama (Meta)

Open-source para cenários on-prem

Modelo aberto rodando em infra própria do cliente — para casos onde dado sensível não pode sair da rede. Roteador trata Llama como qualquer outro provedor.

Melhor para
On-premSoberania de dadoSetor regulado
Eficiente

Mistral / DeepSeek / Qwen

Famílias eficientes alternativas

Linha de modelos com custo agressivo para tarefas de classificação, extração e workflows de alto volume. Roteador escala automaticamente quando o custo dita.

Melhor para
ClassificaçãoExtraçãoPipelines em escala
Proprietário

Modelos Bluey

Reranker e classificadores próprios

Modelos proprietários treinados pela Bluey para o pipeline interno: reranker de RAG, classificador de tarefas, detector de PII. Componentes onde a Bluey controla acurácia ponta a ponta.

Melhor para
RAG rerankRoteamentoCompliance LGPD
Especificação técnica

Os detalhes que seu time de tecnologia vai querer ver.

Multi-LLM sério não é só "ter API de vários modelos" — é arquitetura que decide, mede, faz fallback, audita e isola por tenant. Aqui está como a Synapse implementa cada peça.

Roteador por tarefa, não por chave

Não é um seletor manual: cada agente declara política e o roteador decide modelo a cada chamada com base em tipo de tarefa, criticidade e SLA atual de cada provedor.

Decisão dinâmicaPor agentePor chamada

Fallback e retry transparentes

Provedor primário fora? Roteador redireciona ao secundário do mesmo nível de qualidade — sem o usuário perceber. Retry com backoff e degradação controlada quando todos pioram.

Failover <1s99.9% uptimeSem código do cliente

Telemetria de custo em tempo real

Cada chamada registra modelo, tokens, latência e custo. Painel mostra quanto cada squad consome por dia, semana, mês — e onde dá para otimizar trocando de faixa.

Cost per callPor squadAlertas de spike

Cache semântico

Perguntas equivalentes não precisam ir para o LLM duas vezes. Cache identifica similaridade semântica, devolve resposta validada e economiza tokens em workflows repetitivos.

Cache hit ratioTTL configurávelInvalidação por fonte

Política por dado, não só por agente

Dados marcados como sensíveis nunca saem para provedor externo — só Llama on-prem ou modelo Bluey. PII detection nativa bloqueia vazamento antes da chamada.

PII redactionTag-based routingLGPD by design

Multi-tenant isolado

Cada cliente tem cota, chaves e telemetria separadas. Nenhum dado entra em fine-tune de modelo — Bluey ou terceiro. Sistema de Filiais aplica isolamento entre unidades de um mesmo grupo.

Sem cross-trainingCota por tenantFiliais isoladas
Integração com a plataforma

O roteador é o cérebro central — todas as outras camadas passam por ele.

Nenhuma decisão de IA da Synapse vai direto a um modelo externo. Squads, Sua Base e Governança fluem por ele para garantir custo, qualidade e compliance ponta a ponta.

Squads chamam o roteador

Cada squad declara política — o roteador resolve qual modelo executa cada passo do workflow. Squad não conhece provedor, só conhece resultado esperado.

Sua Base entrega contexto

RAG busca os documentos certos, roteador escolhe o cérebro que vai interpretá-los. Pergunta pesada vai para Opus, pergunta direta vai para Haiku — contexto continua o mesmo.

Governança audita escolhas

Toda chamada registra modelo escolhido, motivo, custo e resultado. Auditoria mostra para o compliance qual cérebro processou o quê — sempre rastreável.

Quer ver o roteador rodando nos seus prompts reais?

Em uma demo técnica de 45 minutos, rodamos um workflow do seu time em paralelo — modelo único vs. roteador multi-LLM. Você vê custo, latência e qualidade lado a lado, com dados reais.

Ver arquitetura completa