Apple Foundation Models: o que desenvolvedores indie para Mac podem fazer com IA no dispositivo

Por cerca de três anos, todo desenvolvedor indie que queria lançar “recursos de IA” tinha que tomar a mesma decisão desconfortável. Ou pagar uma conta da OpenAI ou Anthropic que escala linearmente com os usuários, ou pular os recursos de IA completamente. A matemática para um app de compra única era brutal. Alguns centavos por usuário por mês destroem a margem de um app de $9.99 vitalício em questão de meses.

O framework Foundation Models da Apple, anunciado na WWDC 2025 e disponível no macOS 26 (Tahoe), muda a matemática. O framework dá aos desenvolvedores acesso programático ao mesmo modelo de linguagem no dispositivo que alimenta os recursos do Apple Intelligence no Mac do usuário. O modelo roda localmente. Seu app não paga pela inferência. O usuário não precisa de uma chave de API. O texto nunca sai do dispositivo.

Este texto é um tour prático do que os desenvolvedores indie podem realmente fazer com o framework, no que ele não é bom, e o que a mudança arquitetural significa para um app focado para Mac.

O que você obtém

O framework expõe uma LanguageModelSession que você pode alimentar com texto. O modelo responde com texto e, opcionalmente, com um objeto estruturado que você especifica com o macro @Generable. O modo de saída estruturada é o mais útil para a maioria dos apps porque permite dizer “me retorne JSON em conformidade com este esquema” em vez de tentar analisar texto livre.

Um fluxo típico se parece com:

Criar uma sessão com instruções de sistema descrevendo a tarefa do modelo.
Enviar uma mensagem do usuário.
Ler a resposta estruturada.
Usar a resposta para guiar o app.

Tudo roda em milissegundos para prompts curtos e alguns segundos para os longos. Não há chamada de rede. Não há chave de API. Não há limite de taxa além do que o próprio dispositivo consegue sustentar.

O mesmo prompt processado por um LLM na nuvem (acima) ou pelo framework Foundation Models no dispositivo da Apple (abaixo). O caminho no dispositivo não tem salto de rede nem cobrança por chamada.

No que o modelo realmente é bom

O modelo no dispositivo é pequeno comparado a um modelo de nuvem de última geração. Não é o GPT-4. Tratá-lo como tal levará à decepção. Onde ele brilha é em uma classe específica de tarefas:

Classificação. “Essa string é uma frase de data ou não?” “A qual das cinco categorias essa tarefa pertence?” Essas são tarefas que o modelo no dispositivo lida de forma confiável e rápida.
Extração estruturada. Extrair campos específicos de uma entrada de texto livre. “A que hora do dia esta frase se refere?” “Qual é o verbo nesta frase?” O modo de saída estruturada do framework é construído para isso.
Reescrita de textos curtos. Converter uma nota informal em um título limpo, resumir um parágrafo em uma frase, corrigir a gramática em um rascunho. O modelo é bom em transformações de texto pequenas e contidas.
Mudanças de tom. Tornar um rascunho mais caloroso, mais conciso ou mais profissional. Mesma restrição: entradas curtas, saídas contidas.

Isso é a maior parte do que um app de produtividade realmente precisa. Observe o que não está na lista: geração de texto longo, raciocínio complexo, perguntas de conhecimento de mundo, geração de código. O modelo no dispositivo pode fazer isso, mas não tão bem quanto um modelo de nuvem. Se isso é central para o seu produto, você ainda precisa da nuvem.

No que o modelo não é bom

Três classes de tarefa em que você deve buscar outra solução:

Contexto longo. O modelo no dispositivo tem uma janela de contexto menor do que um modelo de nuvem. Alimentá-lo com um documento de 50 páginas e pedir análise não vai funcionar bem. Alimente-o com o trecho relevante.
Escrita criativa aberta. Ele consegue fazer escrita criativa curta, mas você vai notar a diferença em comparação com um modelo de nuvem de fronteira. Se seu app é um assistente de escrita para romancistas, provavelmente não é esse o seu modelo.
Tarefas em que o usuário espera qualidade de ponta. Se seus usuários vão comparar sua saída ao ChatGPT e julgar de acordo, você vai perder. O modelo é excelente para utilidade invisível, menos adequado para tarefas em que a IA é o produto visível.

O enquadramento certo é: use o modelo no dispositivo para tornar o app mais inteligente em segundo plano, não para ser o produto visível.

O que isso significa para os preços indie

A consequência mais interessante do modelo no dispositivo é a implicação para os preços. Durante a maior parte dos últimos três anos, o conselho padrão para desenvolvedores indie lançando recursos de IA era “você deve cobrar uma assinatura, porque os custos de inferência são reais e recorrentes”. Esse conselho estava correto.

Não está mais correto para apps em que a inteligência no dispositivo é suficiente. A razão inteira pela qual um app de compra única não podia lançar IA era o custo recorrente. Se o custo recorrente é zero, o modelo quebra. Você pode lançar recursos de IA em um app de compra única e não ir à falência.

Isso é um grande negócio para a pequena onda de apps indie para Mac tentando reviver o modelo de compra única. Escrevemos sobre a tendência mais ampla mas a parte de IA é uma das razões técnicas reais pelas quais funciona em 2026.

Como começar

O framework faz parte do SDK padrão da Apple no macOS 26. Não há download separado. Não há chave de API. Não há conta a criar. Adicione import FoundationModels a um arquivo Swift, crie uma LanguageModelSession, envie um prompt, leia a resposta.

O modelo está disponível em Macs com Apple Silicon que atendem aos requisitos do sistema para o Apple Intelligence. Macs Intel mais antigos não obtêm o framework, então seu app precisa de uma estratégia de fallback se quiser suportá-los. Para a maioria dos apps indie para Mac lançando hoje, uma verificação de disponibilidade e um caminho de degradação suave é suficiente. O usuário sem o modelo obtém a versão baseada em regex do recurso; o usuário com o modelo obtém a versão mais inteligente.

O que isso parece no TodoBar

O TodoBar usa o framework como fallback para a interpretação de datas em linguagem natural. O caminho rápido são expressões regulares, que capturam cerca de 90% das frases de data em menos de um milissegundo. Quando o caminho de regex falha, o modelo no dispositivo tenta, com uma latência típica de cerca de 50 milissegundos, e retorna uma classificação estruturada do que o usuário quis dizer. Descrevemos o pipeline completo em o texto sobre interpretação de datas.

O modelo é invisível para o usuário. Ele não sabe que está lá. Só nota que “em algumas horas” funciona da mesma forma que “em 2 horas”. É assim que a boa IA no dispositivo parece.

É também por isso que um app de compra única de $9.99 pode lançar um recurso que teria exigido uma assinatura há um ano. A matemática finalmente funciona.