# Predicción Mundial 2022

## Importamos datos

In [19]:
import pandas as pd

df_data_historica = pd.read_csv('fifa_worldcup_matches.csv')
df_fixture = pd.read_csv('fifa_worldcup_fixture.csv')
df_data_faltante = pd.read_csv('fifa_worldcup_missing_data.csv')

## Limpieza de datos

### Limpieza de df_fixture

In [20]:
# str sirve para acceder a la cadena de texto
df_fixture['home'] = df_fixture['home'].str.strip()
df_fixture['away'] = df_fixture['away'].str.strip()

### Limpieza de df_data_faltante

In [26]:
# .isnull devuelve un dataframe del mismo tamaño que el original pero en cada celda
# devuelve un true/false dependiendo de si el dato es null
# df_data_faltante.isnull()

# Devuelve un df con los datos NaN
df_data_faltante[df_data_faltante['home'].isnull()]

# Elimina data faltante, inplace=True es un argumento que se utiliza para
# modificar el objeto original en lugar de crear una copia del objeto y modificar la copia
df_data_faltante.dropna(inplace = True)

In [34]:
# Unimos la data faltante a la data histórica
# Ignoramos los indices originales y todo se enumera desde cero
df_data_historica = pd.concat([df_data_historica, df_data_faltante], ignore_index = True)
# Prueba que no hay ningun dato NaN
df_data_historica[df_data_historica['home'].isnull()]
# Borra elementos duplicados
df_data_historica.drop_duplicates(inplace = True)
# Ordena según el año
df_data_historica.sort_values('year', inplace = True)
df_data_historica

Unnamed: 0,home,score,away,year
0,France,4–1,Mexico,1930
17,United States,3–0,Belgium,1930
16,Brazil,4–0,Bolivia,1930
15,Argentina,1–0,France,1930
14,Chile,3–0,Mexico,1930
...,...,...,...,...
863,Sweden,0–2,England,2018
864,Russia,2–2 (a.e.t.),Croatia,2018
865,Croatia,2–1 (a.e.t.),England,2018
867,Japan,0–1,Poland,2018


### Limpieza df_data_historica

In [44]:
# Este encuentro presenta un walk over, y esto puede afectar los resultados si queremos predecir 
# al ganador del mundial basado en goles anotados por ejemplo
df_data_historica[df_data_historica['home'].str.contains('Sweden') & 
                  df_data_historica['away'].str.contains('Austria')]

Unnamed: 0,home,score,away,year
48,Sweden,w/o[a],Austria,1938


In [54]:
# Debemos eliminar el elemeno anterior
# Obtenemos el index del elemento
index_eliminar = df_data_historica[df_data_historica['home'].str.contains('Sweden') & 
                  df_data_historica['away'].str.contains('Austria')].index
# Eliminamos
df_data_historica.drop(index = index_eliminar, inplace = True)

In [59]:
df_data_historica['score']

0               4–1
17              3–0
16              4–0
15              1–0
14              3–0
           ...     
863             0–2
864    2–2 (a.e.t.)
865    2–1 (a.e.t.)
867             0–1
900             1–2
Name: score, Length: 900, dtype: object

In [None]:
#Nueva linea