Não existem ateus quando o assunto é futebol. Apesar de dividirmos a paixão pelo jogo com nossos vizinhos sul-americanos, como o escritor uruguaio Eduardo Galeano, cuja citação abre esse relatório, nenhum país é tão aficionado pela Copa do Mundo quanto o Brasil (essa opinião não é isenta de vieses, claro). A cada quatro anos, todos nos reunimos com amigos e família na frente da TV para torcer pela seleção, com os olhos grudados na tela até o apito final.
Como estamos nos aproximando do evento mais importante do ano (de novo, sem viés aqui), nosso time de Estratégia Quantitativa encarou o desafio de tentar prever qual seleção deve vencer a Copa do Mundo de 2022, com início em meados de novembro no Catar.
A partir de técnicas de machine learning e raspagem de dados, coletamos informações sobre as características e classificações em rankings das 32 seleções nacionais que vão jogar a próxima Copa do Mundo. Com base em um modelo que prevê qual equipe vencerá cada confronto, combinado a 25.000 simulações, traçamos o cenário mais provável para a competição, com probabilidades de cada equipe progredir tanto na fase de grupos quanto nas eliminatórias, chegar às finais e, eventualmente, ser campeão.
Nossos principais resultados são:
- De acordo com as nossas simulações, os 5 times com maior probabilidade de serem campeões são Argentina, Bélgica, Brasil, Holanda e Espanha. Em comparação, sites de apostas também colocam Argentina, Brasil e Espanha entre os favoritos, mas apostam também na Inglaterra e França entre os top 5.
- O Brasil tem a maior probabilidade de vencer se chegar à final, mas o maior desafio é chegar até lá: sua probabilidade de chegar no último embate é a 6ª mais alta.
- O embate final mais provável é entre Argentina e França, com a Argentina derrotando o atual campeão com 55% de probabilidade, segundo nossos cenários simulados.
- O país-sede costuma se dar bem na Copa: todas as seleções locais passaram da fase de grupo, exceto a África do Sul em 2010. No entanto, nosso modelo indica que o Catar também não deve chegar à fase eliminatória, já que sua probabilidade de passar para as Oitavas é de 19,5% .
- Brasil, Argentina, Espanha, Holanda, Bélgica, França e Portugal provavelmente vão passar sem grandes dificuldades para as Oitavas de final, e não esperamos surpresas aqui. Vamos ficar de olho no Grupo B, que deve ser o mais disputado dadas as pequenas diferenças entre as probabilidades de avançar e pontuação esperada dos membros segundo nosso modelo.
- Sites de apostas mostram um cenário diferente. Apesar das probabilidades dessas casas sugerirem que o Brasil é o favorito para ganhar a Copa, os apostadores não excluem a possibilidade de Argentina ou França levantarem a taça.
- A Inglaterra é o quarto favorito pra ganhar segundo apostadores, enquanto ele não consta nos top 5 das nossas projeções. Aqui, é interessante notar que a cultura de apostas tem uma longa história no país, o que pode sugerir um viés nas probabilidades a favor do time nacional.
- Um possível azarão é a Holanda, que está bem posicionada em nossa análise, mas não é tão procurada pelos apostadores.
Mais detalhes sobre nossa metodologia e dados de sites de apostas estão descritos abaixo.
Figura 1: Fase de Grupos — Resultados esperados segundo a probabilidade estimada de avançar às oitavas de final
Figura 2: Fase Eliminatória — Probabilidades estimadas de chegar à cada fase. Última coluna mostra a probabilidade estimada da seleção ganhar a Copa dado que chegou até a final
Primeiro tempo: Modelando os resultados das partidas
Decidimos usar técnicas de machine learning (ou aprendizado de máquina) para compor nossa metodologia, já que elas possibilitam a análise de um grande número de possíveis variáveis explicativas para produzir previsões mais precisas. Mais especificamente, utilizamos os dados de características das equipes, posições em rankings e desempenho em partidas recentes para construir um modelo de regressão logística multinomial, que estima a probabilidade de cada resultado para cada partida simulada.
O modelo aprendeu a relação entre esses dados e o resultado triplo (vitória, derrota ou empate) a partir de dados de 820 partidas diferentes extraídas do Sofascore, incluindo torneios anteriores, eliminatórias e amistosos. A partir desse conjunto de dados, analisamos o desempenho geral da equipe em cada jogo: posse de bola, escanteios e chutes no gol ou para fora. Também adicionamos aos nossos modelos os rankings históricos FIFA e Elo, pois consideramos que eles também têm poder explicativo para resultados de jogos.
Antes de a bola rolar, algumas transformações precisaram ser feitas. Dada cada partida simulada, calculamos uma média móvel de 10 jogos das características analisadas para cada equipe. Nossas previsões foram construídas com base na diferença entre as métricas das duas equipes em um jogo, enquanto nossa variável dependente (a que queremos prever) é definida como um resultado categórico: vitória (W), derrota (L) ou empate (D). Ou seja, usamos a distância entre os rankings FIFA e Elo, bem como como a diferença das estatísticas médias entre as equipes, para tentar inferir sobre o resultado da partida, presumindo que uma diferença menor entre as duas equipes leva a um jogo mais equilibrado.
Segundo tempo: Prevendo a Copa do Mundo 2022
Depois de treinar o modelo usando as diferenças das métricas escolhidas no histórico de jogos, nós o usamos para prever a probabilidade de resultados em cada possível embate da Copa do Mundo. Por exemplo: com base na nossa análise, esperamos que o Brasil vença a Sérvia em sua primeira partida com 65,5% de probabilidade – ou seja, a cada mil simulações, o Brasil tem mais chances de vencer a Sérvia em 655 delas.
Para obter as probabilidades finais, começamos estimando as probabilidades na Fase de Grupos. Aplicamos nosso modelo a cada uma das 48 partidas desta rodada, considerando diferenças específicas entre as estatísticas e classificações de cada equipe, e obtemos a probabilidade correspondente de vitória-perda-empate. Com base nessas distribuições de probabilidade, simulamos os resultados possíveis e atribuímos 3 pontos se a equipe tiver mais chances de vencer, 0 se esperamos que perca e 1 se o resultado for um empate. Os dois maiores pontuadores (segundo nossas simulações) de cada grupo avançam para a próxima fase.
Para partidas da Fase Eliminatória passamos pelo mesmo processo de simulação, prevendo qual time ganha ou perde. Se o resultado mais provável for um empate, selecionamos aleatoriamente um vencedor, presumindo que os fatores analisados aqui não são determinantes em uma eventual disputa de pênaltis. Assim, os vencedores simulados das oitavas de final avançam para as quartas, depois para as semifinais e finais. Este processo é repetido 25.000 vezes para obter as probabilidades estimadas indicadas nas Figuras 1 e 2.
Prorrogação: O que os sites de aposta têm a dizer sobre o possível vencedor
Extraímos os dados de chance de vitória de cada seleção de 3 sites de apostas: Bet365, SportingBet e Betfair. Antes que elas possam ser transformadas em probabilidades implícitas, decidimos considerar a maior chance disponível para um determinado resultado como a que será analisada, já que ela representaria melhor o comportamento de um torcedor fazendo uma aposta. A partir desses dados, convertemos as chances em probabilidades invertendo os valores e contabilizando a margem de lucro da casa de apostas. Os resultados são os seguintes:
Figura 3: Probabilidades estimadas para cada seleção segundo os sites de apostas
Pós-jogo: Nossos comentários finais
Sabemos que esse relatório foge à regra das nossas análises de investimentos tradicionais. Em um 2022 marcado por preocupações dos investidores com uma inflação mais alta, taxas de juros, guerra na Ucrânia, vários surtos de Covid-19, problemas na cadeia de suprimentos, e, claro, eleições no Brasil, chegamos à reta final do ano com o evento esportivo mais celebrado no país. Esperamos que, com esse conteúdo, possamos dar uma visão do potencial do nosso time e algo bom para esperar em meio a um ano tão incerto para o mercado.
Outras análises do time sobre a Copa do Mundo:
Se você ainda não tem conta na XP Investimentos, abra a sua!