# Predicción del Mundial de Fútbol 2022 con Modelos Estadísticos

Este proyecto tiene como objetivo analizar y predecir los resultados del Mundial de Fútbol 2022 utilizando técnicas de ciencia de datos en Python. Para ello, extraemos los datos históricos y de la edición 2022 directamente desde Wikipedia, procesamos y organizamos los grupos del torneo, y preparamos las tablas necesarias para simular el campeonato usando un modelo estadístico de Poisson.

Además del análisis exploratorio inicial, el proyecto culmina con una simulación completa de la fase de grupos y eliminatorias del Mundial 2022, calculando automáticamente puntos y clasificando selecciones con un modelo estadístico fundamentado en los resultados históricos de los equipos.

## 🎯 Objetivos del proyecto

Automatizar la extracción de datos de mundiales pasados y del Mundial 2022 desde Wikipedia.

Procesar las tablas de grupos y generar estructuras de datos listas para simulación.

Implementar una simulación realista del torneo basada en la distribución de Poisson.

Visualizar y analizar el posible desarrollo del campeonato con base en datos históricos.

## 🛠️ Herramientas utilizadas

| Herramienta                        | Descripción de uso                              |
| ---------------------------------- | ----------------------------------------------- |
| **Python (pandas, BeautifulSoup)** | Extracción, limpieza y procesamiento de datos   |
| **Jupyter Notebook**               | Desarrollo paso a paso y documentación visual   |
| **Git y GitHub**                   | Control de versiones y publicación del proyecto |

Nota: El análisis parte de fuentes públicas (Wikipedia) y no requiere bases de datos locales ni acceso a APIs externas.


In [8]:
import pandas as pd
from string import ascii_uppercase as abecedario
import pickle

In [9]:
todas_tablas = pd.read_html('https://en.wikipedia.org/wiki/2022_FIFA_World_Cup')

In [10]:
#Extraemos tablas de los grupos
#A -> H
#18 -> 7*8 + 18 = 74
todas_tablas[18]
todas_tablas[25]
todas_tablas[32]

Unnamed: 0,Pos,Teamvte,Pld,W,D,L,GF,GA,GD,Pts,Qualification
0,1,Argentina,3,2,0,1,5,2,+3,6,Advanced to knockout stage
1,2,Poland,3,1,1,1,2,2,0,4,Advanced to knockout stage
2,3,Mexico,3,1,1,1,2,3,−1,4,
3,4,Saudi Arabia,3,1,0,2,3,5,−2,3,


In [11]:
#Extracción + pequeña limpieza
todas_tablas = pd.read_html('https://en.wikipedia.org/wiki/2022_FIFA_World_Cup')

dict_tablas = {}
for letra, i in zip(abecedario, range(18, 74, 7)):
    df = todas_tablas[i]
    df.rename(columns={df.columns[1]:'Team'}, inplace=True)
    df.pop('Qualification')
    dict_tablas[f'Group {letra}'] = df

In [12]:
dict_tablas

{'Group A':    Pos         Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1  Netherlands    3  2  1  0   5   1  +4    7
 1    2      Senegal    3  2  0  1   5   4  +1    6
 2    3      Ecuador    3  1  1  1   4   3  +1    4
 3    4    Qatar (H)    3  0  0  3   1   7  −6    0,
 'Group B':    Pos           Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1        England    3  2  1  0   9   2  +7    7
 1    2  United States    3  1  2  0   2   1  +1    5
 2    3           Iran    3  1  0  2   4   7  −3    3
 3    4          Wales    3  0  1  2   1   6  −5    1,
 'Group C':    Pos          Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1     Argentina    3  2  0  1   5   2  +3    6
 1    2        Poland    3  1  1  1   2   2   0    4
 2    3        Mexico    3  1  1  1   2   3  −1    4
 3    4  Saudi Arabia    3  1  0  2   3   5  −2    3,
 'Group D':    Pos       Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1     France    3  2  0  1   6   3  +3    6
 1    2  Australia    3  2  0  1   3   4  −1    6
 2    3 

In [13]:
# Vaciamos todas las estadísticas para realizar las predicciones
for grupo, tabla in dict_tablas.items():
    columnas_a_vaciar = [col for col in tabla.columns if col not in ['Pos', 'Team']]
    tabla[columnas_a_vaciar] = 0
dict_tablas

{'Group A':    Pos         Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1  Netherlands    0  0  0  0   0   0   0    0
 1    2      Senegal    0  0  0  0   0   0   0    0
 2    3      Ecuador    0  0  0  0   0   0   0    0
 3    4    Qatar (H)    0  0  0  0   0   0   0    0,
 'Group B':    Pos           Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1        England    0  0  0  0   0   0   0    0
 1    2  United States    0  0  0  0   0   0   0    0
 2    3           Iran    0  0  0  0   0   0   0    0
 3    4          Wales    0  0  0  0   0   0   0    0,
 'Group C':    Pos          Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1     Argentina    0  0  0  0   0   0   0    0
 1    2        Poland    0  0  0  0   0   0   0    0
 2    3        Mexico    0  0  0  0   0   0   0    0
 3    4  Saudi Arabia    0  0  0  0   0   0   0    0,
 'Group D':    Pos       Team  Pld  W  D  L  GF  GA  GD  Pts
 0    1     France    0  0  0  0   0   0   0    0
 1    2  Australia    0  0  0  0   0   0   0    0
 2    3 

In [14]:
#Exportamos las tablas
with open('dict_table', 'wb') as output:
    pickle.dump(dict_tablas, output)