# **Proyecto Data Science From Scratch**

## Predicción del Campeón de la Copa del Mundo 2022

En este proyecto intentaremos predecir al campeón de fútbol de la Copa del Mundo 2022 a partir
de los **datos históricos** que recolectaremos, limpiaremos y organizaremos para realizar,
posteriormente, la predicción del campeón de mundo 2022. Para ello utilizaremos la [Distribución
de Poisson](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_de_Poisson)

# Fases de un Proyecto de Data Science

![Fases de un Proyecto de Data Science](./images/workflow.png)

# Parte 1
## Extracción de los grupos 2022

In [1]:
import pandas as pd

In [2]:
# Leo todas las tablas - Tablas vacías de Mundial 2022
all_tables = pd.read_html('https://web.archive.org/web/20221115040351/https://en.wikipedia.org/wiki/2022_FIFA_World_Cup')

In [3]:
# Leo las tablas que me interesan (Grupo A hasta Grupo H), las limpio y las guardo en una lista
tables = []
for i in range(12, 62, 7):
    table = all_tables[i]

    # corrijo las columnas
    table.pop('Qualification')
    table.rename(columns={'Teamvte': 'Team'}, inplace=True)
    
    tables.append(table)

In [4]:
# Creo un diccionario emparejando el 'grupo' con su respectiva 'tabla'
groups = {}
for i in range(0, len(tables)):
    k = chr(65 + i)
    v = tables[i]

    groups[f'Group {k}'] = v

In [5]:
import pickle

In [6]:
# Guardo el diccionario de grupos serializado en disco
with open('groups.dat', 'wb') as out:
    pickle.dump(groups, out)

# Parte 2
## Recolección de datos (todos los mundiales del 1930 al 2018)

In [7]:
import pandas as pd
import requests
from bs4 import BeautifulSoup

In [8]:
def get_matches(url, year):
    """Obtiene todos los partidos jugados en un año determinado.
    
    Parameters
    ----------
    year : str or int
      Año del mundial.
    
    Returns
    -------
    pandas.core.frame.DataFrame: Dataframe con el resultado de todos los equipos.
        
    """
        
    response = requests.get(url)
    content = response.text

    # parser lxml
    soup = BeautifulSoup(content, 'lxml')

    # todos los partidos (encuentros)
    matches = soup.find_all('div', class_='footballbox')
    
    home = []
    score = []
    away = []
    for match in matches:
        home.append(match.find('th', class_='fhome').get_text().replace('\xa0', ''))
        score.append(match.find('th', class_='fscore').get_text().replace(' (a.e.t.)', ''))
        away.append(match.find('th', class_='faway').get_text().replace('\xa0', ''))

    df = pd.DataFrame({
        'Home': home,
        'Score': score,
        'Away': away
    })

    df['Year'] = year

    return df

In [9]:
# Obtengo los dataframes de todos los mundiales (todos los años)
matches_list = []
for year in range(1930, 2019, 4):
    # elimino los años que no se jugaron mundiales
    if year == 1942 or year == 1946:
        continue

    # URL de la cual voy a extraer los datos de los partidos
    url = f'https://en.wikipedia.org/wiki/{year}_FIFA_World_Cup'
    
    matches_list.append(get_matches(url, year))

In [10]:
# unifico todos los mundiales en un único dataframe
df_fifa = pd.concat(matches_list, ignore_index=True)

# los exporto a un archivo csv
df_fifa.to_csv('fifa_worldcup_historical_data.csv', index=False)

## Extracción del Fixture 2022

In [11]:
# URL de la cual voy a extraer los datos de los partidos
url = 'https://web.archive.org/web/20221115040351/https://en.wikipedia.org/wiki/2022_FIFA_World_Cup'

# año del mundial sin datos (2022)
year = 2022

# extraigo los partidos (encuentros) que se disputarán en 2022
df_fixture = get_matches(url, year)

# lo exporto a un archivo csv
df_fixture.to_csv('fifa_worldcup_fixture_2022.csv', index=False)

# Parte 3
## Obtención de los datos faltantes con la librería _Selenium_

In [12]:
import pandas as pd
from time import sleep

from selenium import webdriver
from selenium.webdriver.firefox.service import Service

In [13]:
def extract_matches(driver, year):
    """Extrae los partidos "faltantes" de la Copa del Mundo en un año determinado.

    Args:
        driver (selenium webdriver): webdriver de selenium instanciado con el servicio
        year (str or int): año del mundial

    Returns:
        pandas.core.frame.dataframe: dataframe con los partidos (equipos y resultados)
    """

    URL = f'https://en.wikipedia.org/wiki/{year}_FIFA_World_Cup'
    
    driver.get(URL)

    matches = driver.find_elements('xpath', '//tr[@style="font-size:90%"]')
    # matches = driver.find_elements('xpath', '//tr[@itemprop="name"]')

    home = []
    score = []
    away = []
    for match in matches:
        home.append(match.find_element('xpath', './td[1]').text.replace('\xa0', ''))
        score.append(match.find_element('xpath', './td[2]').text.replace(' (a.e.t.)', ''))
        away.append(match.find_element('xpath', './td[3]').text.replace('\xa0', ''))

    df = pd.DataFrame({
        'Home': home,
        'Score': score,
        'Away': away
    })

    df['Year'] = year

    return df

In [14]:
service = Service(executable_path='./driver/geckodriver')
driver = webdriver.Firefox(service=service)

df_list = []
for year in range(1930, 2019, 4):
    # en estos años no se jugaron mundiales
    if year == 1942 or year == 1946:
        continue

    df = extract_matches(driver, year)
    df_list.append(df)
    
    sleep(1)

driver.close()

df_fifa = pd.concat(df_list, ignore_index=True)
df_fifa.to_csv('fifa_worldcup_missing_data.csv', index=False)

# Parte 4
## Limpieza de los datos

In [15]:
import pandas as pd

In [16]:
historical_data = pd.read_csv('fifa_worldcup_historical_data.csv')
missing_data = pd.read_csv('fifa_worldcup_missing_data.csv')
fixture = pd.read_csv('fifa_worldcup_fixture_2022.csv')

## Limpiando el fixture

In [17]:
# Esto en mi caso no es necesario porque ya lo limpié al momento de extraer la data
# Sin embargo lo dejo documentado como se hace en el curso porque son métodos interesantes
fixture['Home'] = fixture['Home'].str.strip()
fixture['Away'] = fixture['Away'].str.strip()

## Limpiando _missing data_

In [18]:
# Esto está mal en el curso (es incorrecto), y en mi caso no es
# necesario, sin embargo dejo documentado lo que se hizo.

# para saber si hay datos nulos (no son los NaN como se dice)
missing_data[missing_data['Home'].isnull()]
# para eliminarlos
missing_data.dropna(inplace=True)

## Agrupando y limpiando toda la data (historical y missing)

In [19]:
# agrupo los dataframes con datos de los partidos
all_data = pd.concat([historical_data, missing_data], ignore_index=True)

# Esto en mi caso no es necesario porque ya lo limpié al momento de extraer la data
# Sin embargo lo dejo documentado como se hace en el curso porque son métodos interesantes
all_data['Home'] = all_data['Home'].str.strip()
all_data['Away'] = all_data['Away'].str.strip()

# elimino valores nulos
all_data.dropna(inplace=True)

# elimino valores duplicados
all_data.drop_duplicates(inplace=True)

# ordeno todos los datos por los valores de la columna 'Year' (de menor a mayor)
all_data.sort_values(by='Year', inplace=True)

In [20]:
# Hay un partido que no se jugó
# busco el index (sé cual es porque se indica en el curso)
index_to_drop = all_data[all_data['Home'].str.contains('Sweden') &
                         all_data['Away'].str.contains('Austria')].index

# elimino el partido que no se jugó (por el índice)
all_data.drop(index_to_drop, inplace=True)

In [21]:
# ahora debo terminar de limpiar la columna 'Score'
# usamos Regex para encontrar las filas que contienen datos no deseados
# 
# Nota: el circunflejo se usa para indicar NOT y los corchetes indican REGEX
# 
all_data[all_data['Score'].str.contains('[^\d–]')] # el guión lo copio del df (no es el convencional)

Unnamed: 0,Home,Score,Away,Year
531,France,1–0 (a.e.t./g.g.),Paraguay,1998
600,South Korea,2–1 (a.e.t./g.g.),Italy,2002
595,Sweden,1–2 (a.e.t./g.g.),Senegal,2002
604,Senegal,0–1 (a.e.t./g.g.),Turkey,2002


In [22]:
# como se ve arriba, hay 4 campos del score que contienen caracteres adicionales
# así que los elimino haciendo un reemplazo por cadena vacía
all_data['Score'] = all_data['Score'].str.replace('[^\d–]', '', regex=True)

## Acondicionando los datos para poder procesarlos

In [23]:
# Separo los datos numéricos de la columna 'Score' en dos nuevas columnas y las inserto en el df
all_data[['Home Goals', 'Away Goals']] = all_data['Score'].str.split('[^\d]', expand=True)

# elimino la columna 'Score' porque ya no la necesito
all_data.drop('Score', axis=1, inplace=True)

# cambio los datos de los 'Goals' a tipo integer
all_data = all_data.astype({
    'Home Goals': int,
    'Away Goals': int,
    'Year': int # no es neccesario, pero ya que está lo pongo
})

# renombro las columnas para más claridad
all_data.rename(columns={'Home': 'Home Team', 'Away': 'Away Team'}, inplace=True)

In [24]:
# aquí veo como se cambiaron los tipos del df
all_data.dtypes

Home Team     object
Away Team     object
Year           int64
Home Goals     int64
Away Goals     int64
dtype: object

In [25]:
# agrego una última columna con los goles totales del partido (sólo por gusto)
# es interesante obervar el hecho de que no podría hacerlo si no hubiera
# cambiado los tipos de datos
all_data['Total Goals'] = all_data['Home Goals'] + all_data['Away Goals']

In [26]:
# reorganizo las columnas enviando al final del df a 'Year'
all_data = all_data.reindex(columns=['Home Team', 'Away Team', 'Home Goals', 'Away Goals', 'Total Goals', 'Year'])

## Comprobación de los datos

In [27]:
# Compruebo que la cantidad de datos sea correcto (cantidad de partidos por años de mudial)
print('Year    ', 'Matches Played')
print('----    ', '--------------')

for year in range(1930, 2019, 4):
    if year == 1942 or year == 1946:
        continue
        
    matches = all_data[all_data['Year'] == year]
    matches_played = len(matches)
    
    print(year, ' ' * 8, matches_played)

Year     Matches Played
----     --------------
1930          18
1934          17
1938          18
1950          22
1954          26
1958          35
1962          32
1966          32
1970          32
1974          38
1978          38
1982          52
1986          52
1990          52
1994          52
1998          64
2002          64
2006          64
2010          64
2014          64
2018          64


## Guardo los dataframes limpios en el disco (formato csv)

In [28]:
all_data.to_csv('clean_fifa_worldcup_historical_data.csv', index=False)
fixture.to_csv('clean_fifa_worldcup_fixture_2022.csv', index=False)

# Parte 5
## Creación del modelo (usando la distribución de Poisson)