In [None]:
import pandas as pd

***Urls de los archivos csv***

In [None]:
# url archivo fifa_worldcup_fixture.csv
url_fwf = 'http://drive.google.com/uc?export=view&id=1S3tm49ZhcqE97D5oKVECB9BMrNelMN73'
# url archivo fifa_worldcup_matches.csv
url_fwm = 'http://drive.google.com/uc?export=view&id=1wFenvq147powDWsS34pQvSi82xNOjfRJ'
# url archivo fifa_worldcup_missing_data.csv
url_fwmd = 'http://drive.google.com/uc?export=view&id=1r0nLoIRdXyKYOGDBMMGHMV3A24sD1oVf'

***Guardando los Datos en Dataframes***

In [None]:
# contiene los resultados de los partidos del mundial desde 1930-2018
df_fifa_worldcup_matches = pd.read_csv(url_fwm)
# contiene los datos faltantes de los partidos del anterior dataframe
df_fifa_worldcup_missing = pd.read_csv(url_fwmd)
# contiene todos los partidos que se van a jugar en el mundial 2022
df_fifa_worldcup_fixture = pd.read_csv(url_fwf)


***Limpiando los Datos del Df Fifa Worldcup Fixture.***

Los datos de los nombres de los paises de cada partido, presentan espacios en blanco al comienzo y al final.

In [None]:
# Limpio los nombres del equipo local
df_fifa_worldcup_matches['home'] = df_fifa_worldcup_matches['home'].str.strip()
# Limpio los nombres del equipo visitante
df_fifa_worldcup_matches['away'] = df_fifa_worldcup_matches['away'].str.strip()

***Limpiando los Datos del Df Fifa Worldcup Fixture.***

Los datos de los nombres de los paises de cada partido, presentan espacios en blanco al comienzo y al final.

In [None]:
# Limpio los nombres del equipo local
df_fifa_worldcup_fixture['home'] = df_fifa_worldcup_fixture['home'].str.strip()
# Limpio los nombres del equipo visitante
df_fifa_worldcup_fixture['away'] = df_fifa_worldcup_fixture['away'].str.strip()

***Limpiando los Datos del Df Fifa Worldcup Missing Data.***

Algunas filas del df presentan valores nulos en las columnas *home*, *score* y *away*. Hay 64 partidos del 2010 tienen valores nulos en sus columnas.

In [None]:
df_fifa_worldcup_missing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 508 entries, 0 to 507
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   home    444 non-null    object
 1   score   444 non-null    object
 2   away    444 non-null    object
 3   year    508 non-null    int64 
dtypes: int64(1), object(3)
memory usage: 16.0+ KB


In [None]:
# Elimino las filas con valores Nulos del Df
df_fifa_worldcup_missing.dropna(inplace=True)
# Al igual que en el df que almacena los partidos, tambien posee espacios en 
# al comienzo y final del nombre.
df_fifa_worldcup_missing['home'] = df_fifa_worldcup_missing['home'].str.strip()
df_fifa_worldcup_missing['away'] = df_fifa_worldcup_missing['away'].str.strip()
#df_fifa_worldcup_missing

***Uniendo los Datos en un solo DataFrame***

Todos los datos almacenados en **df_fifa_worldcup_matches** y **df_fifa_worldcup_missing**, se guardaran en un solo dataframe **df_fifa_worldcup_history**.

In [None]:
# lista de df que se van a concatenar
lista = [df_fifa_worldcup_matches,df_fifa_worldcup_missing]
# concateno los Dataframes
df_fifa_worldcup_history = pd.concat(lista, ignore_index=True)
# Ordeno segun el año
df_fifa_worldcup_history.sort_values('year', inplace=True)

***Limpiando los Datos de df_fifa_worldcup_history***

Eliminamos algunas filas (las repetidas y algunas especificas que no aportan información) y transformamos algunas columnas del df.

In [None]:
# Veo si hay valores duplicados
any(df_fifa_worldcup_history.duplicated())

False

In [None]:
# Obtengo el registro del df del partido que no se jugo 
fila = df_fifa_worldcup_history[df_fifa_worldcup_history['score'].str.contains('[^[\d-]]')]
fila

Unnamed: 0,home,score,away,year
37,Sweden,w/o[a],Austria,1938


In [None]:
# Obtengo su indice
indice = fila.index
indice

Int64Index([37], dtype='int64')

In [None]:
# Elimino el registro con ese Indice
df_fifa_worldcup_history.drop(index = indice, inplace=True)

In [None]:
# Modifico los valores de la columna score, eliminando cualquier caracter que no sean digitos o '-'
df_fifa_worldcup_history['score'] = df_fifa_worldcup_history['score'].str.replace('[^[0-9\-]]','',regex=True)
df_fifa_worldcup_history['score'] = df_fifa_worldcup_history['score'].str.replace('[a-z\.\(\)]','',regex=True)

In [None]:
# Separo los valores de los goles que marco cada equipo
df_fifa_worldcup_history[['HomeGoals','AwayGoals']] = df_fifa_worldcup_history['score'].str.split('–',expand=True)

In [None]:
# Elimino la columna score, ya que no tiene sentido conservarlo
df_fifa_worldcup_history.drop('score',axis=1, inplace=True)

In [None]:
# Renombro las columnas home, away y year del df
columnas = {'home':'HomeTeam','away':'AwayTeam','year':'Year'}
df_fifa_worldcup_history.rename(columns=columnas, inplace=True)

In [None]:
# Comprobando los tipos de los Datos del Df
df_fifa_worldcup_history.dtypes

HomeTeam     object
AwayTeam     object
Year          int64
HomeGoals    object
AwayGoals    object
dtype: object

In [None]:
# Modificamos los tipos de datos de las columnas del df
cambios_tipo = {'HomeTeam':str,'AwayTeam':str,'Year':int,'HomeGoals':int,'AwayGoals':int}
df_fifa_worldcup_history = df_fifa_worldcup_history.astype(cambios_tipo)

In [None]:
# Verifico que los tipos concuerdan con las modificaciones
df_fifa_worldcup_history.dtypes

HomeTeam     object
AwayTeam     object
Year          int64
HomeGoals     int64
AwayGoals     int64
dtype: object

***Por ultimo guardamos la Informacion***

Guardamos los datasets con los Datos que limpiamos, **df_fifa_worldcup_history** y **df_fifa_worldcup_fixture**.

In [None]:
# Guardo los datos que se limpiaron
df_fifa_worldcup_history.to_csv('clean_fifa_worldcup_history.csv',index=False)
df_fifa_worldcup_fixture.to_csv('clean_fifa_worldcup_fixture.csv',index=False)