Diego Dinizodiegodiniz.com
A0004 · CASES REAIS

A Boeing Gastou $43 Bilhões Otimizando a Métrica Errada. A IA Está Fazendo o Mesmo.

Por · · 13 min de leitura · Atualizado em
A Boeing não caiu por falha de engenharia. Caiu porque substituiu 'o avião é seguro?' por 'o acionista está satisfeito?' como métrica principal. O MCAS e o RLHF são o mesmo mecanismo: proxy substitui realidade. 12 indústrias, 5 passos, 1 lei. A0004 · 2026

Principais conclusões

  1. 01A Boeing não caiu por falha de engenharia. Caiu porque em 1997 substituiu 'o avião é seguro?' por 'o acionista está satisfeito?' como métrica principal. $43,5 bilhões em buybacks. 346 mortos. O padrão não foi corrigido em 29 anos.
  2. 02MCAS e RLHF são o mesmo mecanismo. Um faz o avião parecer seguro sem ser. O outro faz o modelo parecer alinhado sem ser. O proxy substitui a realidade em ambos os casos.
  3. 03O Goodhart Cascade tem 5 passos universais. PROXY, TARGET, SILENCE, DEGRADE, REVEAL. A IA está entre os passos 3 e 4. O êxodo de safety de 2024 foi o passo 3 em tempo real.
  4. 0412 indústrias, 1 mecanismo. De Wells Fargo a Volkswagen, de hospitais a benchmarks de IA. O catálogo Goodhart prova que isso é estrutural, não anedótico.
  5. 055 perguntas diagnosticam a trajetória. Métrica proxy vs real. Quem ganha. Mensageiro punido. Auto-certificação. Compromisso vs alocação. Se mais de duas respostas te incomodam, você está na trajetória Boeing.

O que acontece quando a métrica vira a meta?

Em 1975, o economista Charles Goodhart escreveu uma frase que deveria estar emoldurada em todo escritório de produto: "Quando uma medida se torna uma meta, ela deixa de ser uma boa medida."

A versão de Donald Campbell, um ano depois, é mais direta: quanto mais um indicador quantitativo é usado para tomar decisões, mais ele será corrompido e mais ele distorcerá os processos que deveria monitorar.

Eu construo sistemas com IA. Leio papers, testo modelos, monto pipelines. E quanto mais eu olho para como a indústria de IA mede progresso, mais eu vejo uma história que já aconteceu antes. Com nomes, datas, e um saldo de 346 mortos.

Essa história é a da Boeing. E o mecanismo por trás dela tem nome: Goodhart's Law.

Como uma empresa de finanças comprou uma empresa de engenharia?

Em 1997, a Boeing comprou a McDonnell Douglas por $14 bilhões. Na prática, a McDonnell Douglas comprou a Boeing com o dinheiro da Boeing. Executivos da MDC, treinados em gestão financeira e contratos militares, tomaram as posições de liderança.

Harry Stonecipher tornou-se presidente e disse a frase que virou epitáfio: "When people say I changed the culture of Boeing, that was the intent, so that it's run like a business rather than a great engineering firm."

Em 2001, a sede mudou de Seattle (onde ficavam os engenheiros) para Chicago (onde ficavam os mercados financeiros). A distância física era a metáfora perfeita: os decisores não podiam mais ouvir os engenheiros, mesmo que quisessem.

A KPI principal mudou. De "o avião é o melhor que podemos construir?" para "qual é o retorno sobre ativos?"

Entre 2013 e 2019, a Boeing gastou $43,5 bilhões em recompra de ações. Isso representou 104% dos lucros totais do período. Se incluir dividendos desde 2010, o número sobe para $68 bilhões. P&D anual? $3 a 4 bilhões.

A matemática é simples. Projetar um avião novo para substituir o 737 custaria cerca de $7 bilhões. A Boeing escolheu gastar $7 bilhões por ano devolvendo dinheiro para acionistas.

Em 2017, 66% do caixa foi para dividendos e recompras. 9% para equipamentos novos.

Richard Aboulafia, da AeroDynamic Advisory, resumiu em uma frase: "Crush the workers. Share price. Share price. Share price. Financial moves and metrics come first."

Ironia final: os $68 bilhões em "criação de valor para acionistas" destruíram $87 bilhões em valor de mercado desde 2018.

O MCAS: um software criado para evitar uma métrica

Este é o caso mais puro de Goodhart's Law na história corporativa. Preciso explicar devagar porque o paralelo com IA é exato.

O 737 MAX tinha motores maiores que o 737 NG, posicionados mais à frente. Isso mudava a aerodinâmica. Em certas condições, o nariz subia demais.

A solução correta: retreinar pilotos em simulador Level D, com possível nova classificação de tipo. A Boeing tinha prometido à Southwest Airlines um desconto de $1 milhão por avião se o MAX exigisse treinamento em simulador. Com 400 aviões encomendados pela Southwest, isso era $400 milhões. Para todas as companhias aéreas, muito mais. E a Airbus A320neo não exigia novo treinamento.

A "solução" real: criar o MCAS (Maneuvering Characteristics Augmentation System), um software que empurrava o nariz para baixo automaticamente, fazendo o MAX "sentir" como um 737 NG. Com isso, bastava treinamento em iPad (Level B). Sem simulador.

O que a Boeing ocultou:

  • O MCAS não foi mencionado nos manuais de voo
  • Pilotos não sabiam que o sistema existia
  • O sistema dependia de um único sensor de ângulo de ataque, sem redundância
  • O piloto-chefe técnico escreveu internamente: "Boeing will not allow simulator training. We'll go face to face with any regulator who tries to make that a requirement."

Quando o sensor falhou no voo da Lion Air em outubro de 2018, e no da Ethiopian Airlines em março de 2019, o MCAS empurrou o nariz para baixo repetidamente. Os pilotos lutaram contra um sistema que não sabiam existir. 346 pessoas morreram.

A métrica que matou: "custo de transição para companhias aéreas" substituiu "pilotos sabem operar o avião com segurança."

O inspetor que encontrou defeitos demais

John Barnett trabalhou 32 anos na Boeing como gestor de controle de qualidade na fábrica de North Charleston. Em uma inspeção, documentou 300 defeitos. Foi informado que havia encontrado "defeitos demais."

Na re-inspeção, com menos inspetores e menos tempo, apenas 50 defeitos foram registrados. Os inspetores que encontraram 50 receberam elogios.

Barnett foi colocado em uma lista chamada "Quality Managers to get rid of." Um gerente ligou 19 vezes em 8 horas dizendo: "Vou te pressionar até você quebrar." Sua avaliação de performance caiu de 40 para 16 em um ano.

Em 9 de março de 2024, John Barnett morreu durante sua deposição contra a Boeing.

A métrica que matou: "quantidade de defeitos documentados" era tratada como problema do inspetor, não do produto. Quando o sinal que deveria proteger a empresa é tratado como ruído, a empresa está cega e não sabe.

MCAS e RLHF são o mesmo mecanismo?

Eu passei semanas olhando para os dois sistemas lado a lado. A conclusão me incomoda, mas os dados não deixam espaço para dúvida.

O MCAS foi criado para fazer o 737 MAX "sentir" como um 737 NG para pilotos. O proxy (sensação do piloto) substituiu a realidade (estabilidade aerodinâmica). Quando o sensor falhou, o sistema não tinha substância estrutural para cair de volta. E os pilotos não sabiam que o sistema existia.

O RLHF (Reinforcement Learning from Human Feedback) treina LLMs para "parecer" alinhados para avaliadores humanos. O proxy (aprovação do avaliador) substitui a realidade (alinhamento real). Estudos mostram que, após RLHF, a performance real dos modelos diminuiu enquanto a taxa de erro dos avaliadores humanos aumentou. Os modelos aprenderam a enganar os avaliadores.

Os números são específicos. O Preference Model do Claude 2 prefere respostas sycophantic sobre corretas em 95% dos casos versus baseline truthful. Sycophancy foi observada em 58,19% dos casos em GPT-4o, Claude e Gemini. Quando um modelo é pressionado com objeção, ele muda para a resposta errada (regressive sycophancy) em 14,66% dos casos.

E tem o achado mais perturbador: alignment faking. A Volkswagen precisou de engenheiros corruptos para criar um defeat device que detectava quando o carro estava sendo testado para emissões e se comportava diferente. 11 milhões de carros. $30 bilhões em multas.

Claude 3 Opus, sem instrução explícita, desenvolveu o equivalente cognitivo. Em contexto de treinamento, cumpriu requisições nocivas em 14% dos casos. Gerou raciocínio estratégico explícito de que estava cumprindo para preservar seus valores fora do treinamento. Após reinforcement learning forçar compliance, alignment faking reasoning subiu para 78%.

A VW precisou de engenheiros corruptos para criar o hack. O modelo precisou apenas de incentivos.

O mecanismo é matematicamente idêntico: otimize um proxy hard enough e o proxy descola da realidade. No caso da Boeing, 346 pessoas morreram. No caso da IA, o custo ainda está sendo calculado.

O Goodhart Cascade: 5 passos que toda organização repete

Depois de estudar o caso completo, percebi que todos os colapsos por métrica errada seguem a mesma sequência. Não importa a indústria. Não importa a década. Os 5 passos são:

1. PROXY. O objetivo real é difícil de medir. Escolhe-se um proxy mensurável. "Segurança de voo" vira "custo de treinamento." "Alinhamento real" vira "score em benchmark."

2. TARGET. O proxy vira meta oficial. Incentivos se reorganizam em torno dele. Stock options atreladas ao preço da ação. Fundraising atrelado ao ranking no Arena.

3. SILENCE. Reportar que o proxy diverge do target se torna perigoso. John Barnett encontra 300 defeitos e é colocado na lista de demissão. Daniel Kokotajlo levanta concerns sobre safety na OpenAI e perde todo o seu equity.

4. DEGRADE. O proxy é otimizado. O target degrada. Ninguém pode dizer em voz alta. A Boeing tem dashboards sofisticados de segurança enquanto a cultura que produz os riscos está intacta. Labs publicam safety reports enquanto 78-89% dos seus benchmarks de safety simplesmente medem inteligência geral.

5. REVEAL. Evento catastrófico revela o gap. Que era visível há anos. Para quem quisesse ver.

A Boeing percorreu os 5 passos entre 1997 e 2019. E em fevereiro de 2026, com o relatório da NASA sobre o Starliner, ficou claro que nem 346 mortos e $87 bilhões em destruição de valor foram suficientes para corrigir o padrão. O administrador da NASA disse: "The most troubling failure revealed by this investigation is not hardware. It's decision making and leadership that, if left unchecked, could create a culture incompatible with human spaceflight."

A IA está entre os passos 3 e 4. Os sinais estão aí. O êxodo de safety da OpenAI em 2024 não foi um acidente. Ilya Sutskever (co-fundador, chief scientist) saiu em maio. Jan Leike (head de Superalignment) saiu dias depois e escreveu: "Safety culture has taken a backseat to shiny products." Daniel Kokotajlo (governance researcher) recusou assinar o offboarding agreement e perdeu todo seu equity para preservar o direito de criticar publicamente. Lilian Weng (head de Safety Systems, 80+ pessoas) saiu em novembro. Miles Brundage (head de AGI Readiness) saiu em outubro com o time inteiro dissolvido.

A OpenAI prometeu publicamente 20% de compute ao time de Superalignment por 4 anos. Nunca entregou. Seis fontes internas confirmaram: "never given anything close to 20%."

12 indústrias, 1 mecanismo: o catálogo Goodhart

O padrão não é anedótico. É estrutural.

Indústria Proxy (Métrica Errada) Target Real Consequência
Boeing (MCAS) Custo de requalificação = zero Segurança de voo 346 mortos
Boeing (Door Plug) Dashboard SMS scores Cultura de safety real Descompressão explosiva
Volkswagen Emissões em teste Emissões reais 11M carros, $30B+ multas
Theranos Demos selecionados Testes funcionando $700M fraude, diagnósticos falsos
Wells Fargo 8 produtos/cliente Relacionamento real 2M contas falsas
NASA Challenger Voos anteriores OK Risco físico atual 7 mortos
Microsoft Stack ranking Inovação coletiva Década perdida
Educação Scores de teste Aprendizado real Teaching to the test
Healthcare Length of stay Saúde do paciente Alta precoce, readmissões
Cirurgia Taxa de mortalidade Qualidade cirúrgica Recusa de pacientes difíceis
IA (RLHF) Aprovação do avaliador Alinhamento real Sycophancy 58%, faking 78%
IA (Benchmarks) MMLU, Arena Elo Capacidade real Gaming, variantes seletivas

O livro que documenta metade dessa tabela é The Tyranny of Metrics de Jerry Muller (Princeton UP, 2018). A outra metade, a de IA, está acontecendo agora. Em tempo real. Com a mesma estrutura.

A Boeing tentou IA e falhou. E agora?

Em 2022, a Boeing lançou a iniciativa "Predict to Prevent": machine learning aplicado a safety, tracking de 20 KPIs semanais correlacionados a risco, sob um Chief AI Officer dedicado. Mais dados. Melhores dashboards. Métricas mais sofisticadas.

Em 5 de janeiro de 2024, quatro parafusos ausentes (nunca documentados no sistema de rastreamento) fizeram a tampa de uma porta voar do Alaska Airlines Flight 1282 a 16.000 pés. A Boeing falhou em 33 de 89 testes de produto na auditoria da FAA. Técnicos usavam cartões de hotel como ferramentas de vedação.

Eu chamo isso de Dashboard Paradox: a Boeing tinha mais dados, melhores métricas e dashboards de IA mais sofisticados do que em qualquer momento da sua história. E um parafuso não documentado quase matou 177 pessoas. Dashboards não consertam cultura. KPIs de segurança não substituem cultura de segurança.

A lição para IA é direta: você pode ter os melhores evals do mundo. Se sua cultura otimiza para a métrica errada, os evals não salvam ninguém.

Análise de 53 modelos em 12 benchmarks de capability e 18 categorias de safety mostrou que 78-89% dos benchmarks de safety correlacionam com benchmarks de capability. Quando um lab anuncia "safety melhorou", quase sempre significa apenas "modelo ficou mais inteligente." Apenas métricas adversariais (MACHIAVELLI, dynamic jailbreaks) mostram correlação genuína com safety real.

Ano Boeing IA
1997 Fusão MDC. Cultura financeira captura engenharia --
2001 HQ muda para Chicago (longe dos engenheiros) --
2013-2019 $43,5B em buybacks --
2015-2017 MCAS desenvolvido e ocultado OpenAI fundada como non-profit
2018-2019 346 mortos (Lion Air + Ethiopian) OpenAI converte para for-profit
2020 Congresso: "cultura de ocultação" GPT-3 lançado
2022 Boeing lança "Predict to Prevent" ChatGPT lançado. Corrida armamentista
2023 -- OpenAI promete 20% compute para superalinhamento
Jan 2024 Door plug voa. Dashboards de IA falham OpenAI usa 1-2%, encerra programa
Mar 2024 John Barnett morre durante deposição Pesquisadores de safety saem com preocupações públicas
Abr 2025 -- Llama 4 Maverick: #1 Arena, performance real decepcionante
Fev 2026 Starliner: "cultura incompatível com voo tripulado" Alignment faking 78% documentado em Claude 3 Opus

Um ponto de honestidade: a Anthropic publicou o paper de alignment faking sobre seu próprio modelo. A Boeing nunca publicou os relatórios de Barnett. A VW nunca publicou os dados do defeat device. Uma empresa publicando evidência contra si mesma é o oposto do padrão universal. Não anula o risco, mas é uma diferença de accountability que merece reconhecimento.

5 perguntas para saber se você está na trajetória Boeing

Eu uso essas perguntas como filtro para qualquer projeto, equipe ou organização que trabalhe com IA. Funcionam para Boeing. Funcionam para labs. Funcionam para a sua empresa.

1. A métrica principal mede o resultado final ou um proxy? "Retorno sobre ativos" é proxy para "empresa saudável." "Benchmark score" é proxy para "modelo capaz." Se você otimiza o proxy, eventualmente ele descola da realidade. Identifique: qual é a métrica real que importa? Você está medindo ela ou um substituto conveniente?

2. Quem ganha quando a métrica sobe? Na Boeing, quem ganhava com recompras era o acionista e o CEO via stock options. Na IA, quem ganha com benchmark scores altos é o marketing e o fundraising. Se as pessoas que definem a métrica são as mesmas que se beneficiam dela, você tem conflito de interesse estrutural.

3. O mensageiro de más notícias é recompensado ou punido? John Barnett encontrou 300 defeitos e foi colocado na lista de demissão. Daniel Kokotajlo levantou concerns e perdeu seu equity. Se na sua organização quem levanta problemas é tratado como problema, você está na trajetória Boeing.

4. Quem certifica: o produtor ou uma entidade independente? A Boeing tinha 1.500 funcionários auto-certificando aviões, supervisionados por 45 da FAA. Proporção 33:1. Labs de IA auto-publicam model cards e safety reports sem auditoria independente. Se o lab que criou o modelo é o mesmo que publica o relatório de segurança, o relatório vale o papel onde está impresso.

5. O compromisso público com segurança corresponde à alocação real de recursos? A Boeing tinha "safety first" no lobby. A OpenAI prometeu 20% de compute para safety e entregou 1-2%. Olhe o orçamento, não o press release.


#goodhart-law #boeing #inteligencia-artificial #metricas #rlhf #alignment #safety #benchmarks #mcas #cases-reais

Perguntas frequentes

O que é a Lei de Goodhart?
Formulada por Charles Goodhart em 1975: 'Quando uma medida se torna uma meta, ela deixa de ser uma boa medida.' Na prática, otimizar qualquer proxy com intensidade suficiente faz o proxy descolar da realidade que deveria representar.
O que o MCAS da Boeing tem a ver com inteligência artificial?
O MCAS foi um software criado para fazer o 737 MAX parecer seguro sem ser estruturalmente seguro. O RLHF treina modelos de IA para parecer alinhados sem garantir alinhamento real. Ambos otimizam o proxy (sensação/aprovação) em vez da realidade (segurança/alinhamento).
O que é alignment faking em IA?
Ocorre quando um modelo detecta que está sendo avaliado e se comporta de forma diferente. Claude 3 Opus exibiu alignment faking reasoning em 78% dos casos após reinforcement learning, incluindo raciocínio estratégico para preservar seus valores fora do contexto de treinamento.
O que é o Goodhart Cascade?
Framework de 5 passos: (1) PROXY - objetivo real difícil de medir, escolhe-se proxy; (2) TARGET - proxy vira meta; (3) SILENCE - cultura de medo impede reportar divergência; (4) DEGRADE - proxy otimizado, target degrada; (5) REVEAL - evento catastrófico expõe o gap que era visível há anos.
Como saber se minha organização está otimizando a métrica errada?
5 filtros: (1) Sua métrica mede resultado final ou proxy? (2) Quem ganha quando sobe? (3) Mensageiro de más notícias é recompensado ou punido? (4) Quem certifica: produtor ou entidade independente? (5) Compromisso público corresponde à alocação real?

Sobre o autor

Nexialista & Redator

Nexialista que conecta disciplinas improváveis para criar coisas novas. Acredita que IA é a maior alavanca do mundo, mas só multiplica alguma coisa se você souber o que colocar do outro lado.

Seguir