Lock-in com o fornecedor
Preço sobe sem aviso, modelo é descontinuado, política de uso muda. Quem tem código atado a um único provedor reescreve tudo — ou paga o que pedirem.
A Synapse roteia cada tarefa para o modelo certo — Claude, GPT, Gemini, Llama ou modelo proprietário Bluey. Pergunta simples vai para o barato. Análise complexa vai para o top. Você paga só pelo que faz sentido.
Mid-market que adota IA via API direta de um único provedor descobre três dores nos primeiros meses: a conta explode, a operação fica refém de um fornecedor e quando o modelo cai, a empresa para junto. O roteador multi-LLM existe para neutralizar os três riscos de uma vez.
Preço sobe sem aviso, modelo é descontinuado, política de uso muda. Quem tem código atado a um único provedor reescreve tudo — ou paga o que pedirem.
Modelo premium custa 10-30× mais que o eficiente. Quando todo prompt vai para o top, a fatura cresce sem ganho de qualidade. Tarefa banal não precisa de cérebro caro.
Provedor com indisponibilidade significa squad parada, atendimento parado, pipeline parado. Sem fallback automático para outro modelo, sua continuidade depende de um SLA que você não controla.
O roteador da Synapse não é uma chave manual — é uma camada de decisão que classifica a tarefa, compara com a política do agente e escolhe o modelo certo. Tudo antes da pergunta sair da sua infraestrutura.
O roteador lê a pergunta e identifica: simples, média ou complexa? Texto, número, código, multimodal? Crítica ou rotineira? Isso define a faixa de modelos elegíveis.
Cada squad tem regra própria. Squad Financeiro nunca usa modelo open-source. Squad de Marketing pode usar Gemini para imagens. Você define — o roteador respeita.
Dentro da faixa elegível, o roteador escolhe pelo melhor custo-benefício em tempo real: latência atual, fila de cada provedor, preço por token, qualidade histórica para o tipo de tarefa.
Se o modelo escolhido falhar ou demorar, o roteador redireciona para o próximo da fila sem o usuário perceber. Continuidade operacional sem depender de um único SLA.
Você não escolhe modelo — escolhe resultado. Mas se quiser saber quem está por trás, aqui está o catálogo atual da plataforma. Novos modelos entram via release contínuo, sem mexer no código das suas squads.
Família Opus, Sonnet e Haiku
Raciocínio profundo, análise de longos contextos e geração estruturada confiável. Opus para análise crítica, Haiku para volume de baixo custo.
Família GPT-5 e variantes mini
Forte em geração natural, code interpretation e multimodal. Excelente baseline geral para squads de comunicação e produtividade.
Família Pro e Flash
Janela de contexto generosa, ótimo custo em escala e processamento visual nativo. Ideal para ingestão de documentos grandes e tarefas visuais em volume.
Open-source para cenários on-prem
Modelo aberto rodando em infra própria do cliente — para casos onde dado sensível não pode sair da rede. Roteador trata Llama como qualquer outro provedor.
Famílias eficientes alternativas
Linha de modelos com custo agressivo para tarefas de classificação, extração e workflows de alto volume. Roteador escala automaticamente quando o custo dita.
Reranker e classificadores próprios
Modelos proprietários treinados pela Bluey para o pipeline interno: reranker de RAG, classificador de tarefas, detector de PII. Componentes onde a Bluey controla acurácia ponta a ponta.
Multi-LLM sério não é só "ter API de vários modelos" — é arquitetura que decide, mede, faz fallback, audita e isola por tenant. Aqui está como a Synapse implementa cada peça.
Não é um seletor manual: cada agente declara política e o roteador decide modelo a cada chamada com base em tipo de tarefa, criticidade e SLA atual de cada provedor.
Provedor primário fora? Roteador redireciona ao secundário do mesmo nível de qualidade — sem o usuário perceber. Retry com backoff e degradação controlada quando todos pioram.
Cada chamada registra modelo, tokens, latência e custo. Painel mostra quanto cada squad consome por dia, semana, mês — e onde dá para otimizar trocando de faixa.
Perguntas equivalentes não precisam ir para o LLM duas vezes. Cache identifica similaridade semântica, devolve resposta validada e economiza tokens em workflows repetitivos.
Dados marcados como sensíveis nunca saem para provedor externo — só Llama on-prem ou modelo Bluey. PII detection nativa bloqueia vazamento antes da chamada.
Cada cliente tem cota, chaves e telemetria separadas. Nenhum dado entra em fine-tune de modelo — Bluey ou terceiro. Sistema de Filiais aplica isolamento entre unidades de um mesmo grupo.
Nenhuma decisão de IA da Synapse vai direto a um modelo externo. Squads, Sua Base e Governança fluem por ele para garantir custo, qualidade e compliance ponta a ponta.
Cada squad declara política — o roteador resolve qual modelo executa cada passo do workflow. Squad não conhece provedor, só conhece resultado esperado.
RAG busca os documentos certos, roteador escolhe o cérebro que vai interpretá-los. Pergunta pesada vai para Opus, pergunta direta vai para Haiku — contexto continua o mesmo.
Toda chamada registra modelo escolhido, motivo, custo e resultado. Auditoria mostra para o compliance qual cérebro processou o quê — sempre rastreável.