## Importando as bibliotecas

In [48]:
import pandas as pd
import matplotlib.pyplot as plt
plt.style.use("seaborn")

## Análise Exploratória Futebol Internacional

Este dataset consiste no resultado de 43170 partidas internacionais do futebol masculino, desde a primeira partida oficial em 1872 até 2022. As partidas variam desde eventos como a Copa do Mundo FIFA até a Copa do Mundo FIFI e amistosos entre seleções. Além disso a base de dados não inclui partidas dos jogos olímpicos ou partidas onde qualquer uma das seleções jogou com time reserva, ou seleção sub 23 ou contra clube de futebol.

O arquivo results.csv inclui as seguintes colunas:

* date - data da partida
* home_team - nome do time da casa
* away_team - nome do time visitante
* home_score - número de gols marcados pelo time da casa, incluindo acréscimos, sem incluir disputas de pênaltis
* away_score - número de gols marcados pelo time visitante, incluindo acréscimos, sem incluir disputas de pênaltis
* tournament - o nome do torneio
* city - o nome da cidade onde a partida foi disputada
* country -  o nome do país onde a partida foi disputada
* neutral - booleano indicando se a partida foi realizada em campo neutro

O arquivo shootouts.csv inclui as seguintes colunas:

* date - data da partida
* home_team - nome do time da casa
* away_team - nome do time visitante
* winner - o vencedor da disputa de pênaltis

## Carregando os dados

In [49]:
resultados = pd.read_csv("datasets/results.csv")
resultados_penaltis = pd.read_csv("datasets/shootouts.csv")


In [50]:
resultados.head()

Unnamed: 0,date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
0,1872-11-30,Scotland,England,0,0,Friendly,Glasgow,Scotland,False
1,1873-03-08,England,Scotland,4,2,Friendly,London,England,False
2,1874-03-07,Scotland,England,2,1,Friendly,Glasgow,Scotland,False
3,1875-03-06,England,Scotland,2,2,Friendly,London,England,False
4,1876-03-04,Scotland,England,3,0,Friendly,Glasgow,Scotland,False


In [60]:
resultados.tail()

Unnamed: 0,Data,Mandante,Visante,Gols Mandante,Gols Visitante,Torneio,Cidade,País,Neutro
43747,2022-06-14,Moldova,Andorra,2,1,UEFA Nations League,Chișinău,Moldova,False
43748,2022-06-14,Liechtenstein,Latvia,0,2,UEFA Nations League,Vaduz,Liechtenstein,False
43749,2022-06-14,Chile,Ghana,0,0,Kirin Cup,Suita,Japan,True
43750,2022-06-14,Japan,Tunisia,0,3,Kirin Cup,Suita,Japan,False
43751,2022-06-14,South Korea,Egypt,4,1,Friendly,Seoul,South Korea,False


In [51]:
resultados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43752 entries, 0 to 43751
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   date        43752 non-null  object
 1   home_team   43752 non-null  object
 2   away_team   43752 non-null  object
 3   home_score  43752 non-null  int64 
 4   away_score  43752 non-null  int64 
 5   tournament  43752 non-null  object
 6   city        43752 non-null  object
 7   country     43752 non-null  object
 8   neutral     43752 non-null  bool  
dtypes: bool(1), int64(2), object(6)
memory usage: 2.7+ MB


In [52]:
resultados_penaltis.head()

Unnamed: 0,date,home_team,away_team,winner
0,1967-08-22,India,Taiwan,Taiwan
1,1971-11-14,South Korea,Vietnam Republic,South Korea
2,1972-05-17,Thailand,South Korea,South Korea
3,1972-05-19,Thailand,Cambodia,Thailand
4,1973-07-26,Malaysia,Kuwait,Malaysia


In [61]:
resultados_penaltis.tail()

Unnamed: 0,Data,Mandante,Visante,Vencedor
490,2022-03-25,Tajikistan,Uganda,Uganda
491,2022-03-29,Kazakhstan,Moldova,Kazakhstan
492,2022-03-29,Senegal,Egypt,Senegal
493,2022-06-13,Australia,Peru,Australia
494,2022-06-14,Chile,Ghana,Ghana


In [53]:
resultados_penaltis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 495 entries, 0 to 494
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   date       495 non-null    object
 1   home_team  495 non-null    object
 2   away_team  495 non-null    object
 3   winner     495 non-null    object
dtypes: object(4)
memory usage: 15.6+ KB


Após a verificação inicial do dataset é possível ver que ambos datasets não possuem valores faltantes, mas ambos possuem a coluna "date" como object, a seguir será convertida para datetime e as colunas serão renomeadas.

In [54]:
resultados["date"] = pd.to_datetime(resultados["date"])
resultados_penaltis["date"] = pd.to_datetime(resultados_penaltis["date"])

In [55]:
colunas_resultados = [
    "Data",
    "Mandante",
    "Visante",
    "Gols Mandante",
    "Gols Visitante",
    "Torneio", 
    "Cidade", 
    "País",
    "Neutro"
    ]

colunas_resultados_penaltis = [
    "Data",
    "Mandante",
    "Visante",
    "Vencedor"
]

In [56]:
dict1 = {col:nova_col for col,nova_col in zip(resultados.columns,colunas_resultados)}
dict2 = {col:nova_col for col,nova_col in zip(resultados_penaltis.columns,colunas_resultados_penaltis)}

In [57]:
resultados = resultados.rename(columns= dict1)
resultados_penaltis = resultados_penaltis.rename(columns= dict2)

In [59]:
resultados.head()

Unnamed: 0,Data,Mandante,Visante,Gols Mandante,Gols Visitante,Torneio,Cidade,País,Neutro
0,1872-11-30,Scotland,England,0,0,Friendly,Glasgow,Scotland,False
1,1873-03-08,England,Scotland,4,2,Friendly,London,England,False
2,1874-03-07,Scotland,England,2,1,Friendly,Glasgow,Scotland,False
3,1875-03-06,England,Scotland,2,2,Friendly,London,England,False
4,1876-03-04,Scotland,England,3,0,Friendly,Glasgow,Scotland,False
