### 1. Imports

In [210]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [211]:
############### Caminho das Bases ###############
goals_scorers = 'https://raw.githubusercontent.com/ErikHenning927/project_modulo3/main/goalscorers.csv'
results = 'https://raw.githubusercontent.com/ErikHenning927/project_modulo3/main/results.csv'
shootouts = 'https://raw.githubusercontent.com/ErikHenning927/project_modulo3/main/shootouts.csv'

############### Lendo as Bases ###############

df_goals = pd.read_csv(goals_scorers)
df_results = pd.read_csv(results)
df_shootouts = pd.read_csv(shootouts)

In [212]:
print("Colunas do df_goals:")
print(df_goals.columns)

print("\nColunas do df_results:")
print(df_results.columns)

print("\nColunas do df_shootouts:")
print(df_shootouts.columns)

Colunas do df_goals:
Index(['date', 'home_team', 'away_team', 'team', 'scorer', 'minute',
       'own_goal', 'penalty'],
      dtype='object')

Colunas do df_results:
Index(['date', 'home_team', 'away_team', 'home_score', 'away_score',
       'tournament', 'city', 'country', 'neutral'],
      dtype='object')

Colunas do df_shootouts:
Index(['date', 'home_team', 'away_team', 'winner', 'first_shooter'], dtype='object')


### 2. Renomeando as colunas

In [214]:
df_goals.rename(columns={
    'date': 'Data',
    'home_team': 'time_casa',
    'away_team': 'time_visitante',
    'team': 'Time_marcador',
    'scorer': 'artilheiro',
    'minute': 'minuto',
    'own_goal': 'gol_contra',
    'penalty': 'penalti'
}, inplace=True)

df_results.rename(columns={
    'date': 'Data',
    'home_team': 'Time_casa',
    'away_team': 'Time_visitante',
    'home_score': 'Placar_TIMEcasa',
    'away_score': 'Placar_TIMEfora',
    'tournament': 'Torneio',
    'city': 'Cidade',
    'country': 'País',
    'neutral': 'Neutro'
 
}, inplace=True)
df_shootouts.rename(columns={
    'date': 'Data',
    'home_team': 'Time_casa',
    'away_team': 'Time_visitante',
    'winner': 'Vencedor',
    'first_shooter': 'Primeiro_Time_a_chutar_ao_Gol'
   
}, inplace=True)


In [215]:
## Função para verificar o formato de data de uma coluna
def verificar_formato_data(df, coluna):
    primeiros_valores = df[coluna].head().tolist()
    # Tenta inferir o formato da data com base nos primeiros valores
    formatos = ["%Y-%m-%d", "%d-%m-%Y", "%m-%d-%Y", "%Y/%m/%d", "%d/%m/%Y", "%m/%d/%Y"]
    for formato in formatos:
        try:
            pd.to_datetime(primeiros_valores, format=formato)
            return formato
        except ValueError:
            continue
    return "Formato não reconhecido"

# Verificar o formato de data para cada coluna
print("Formato de data para df_goals['data']: ", verificar_formato_data(df_goals, 'Data'))
print("Formato de data para df_results['Data']: ", verificar_formato_data(df_results, 'Data'))
print("Formato de data para df_shootouts['Data']: ", verificar_formato_data(df_shootouts, 'Data'))


Formato de data para df_goals['data']:  %Y-%m-%d
Formato de data para df_results['Data']:  %Y-%m-%d
Formato de data para df_shootouts['Data']:  %Y-%m-%d


### 2. Tratamento de Dados (Conversão para tipos adequados)

In [216]:
# Tratamento para a coluna 'data' em df_goals
df_goals['Data'] = pd.to_datetime(df_goals['Data'], format='%Y-%m-%d').dt.strftime('%d-%m-%Y')

# Tratamento para a coluna 'Data' em df_results
df_results['Data'] = pd.to_datetime(df_results['Data'], format='%Y-%m-%d').dt.strftime('%d-%m-%Y')

# Tratamento para a coluna 'Data' em df_shootouts
df_shootouts['Data'] = pd.to_datetime(df_shootouts['Data'], format='%Y-%m-%d').dt.strftime('%d-%m-%Y')

# Conversão da coluna 'minuto' para float em df_goals
df_goals['minuto'] = df_goals['minuto'].astype(float)

# Conversão das colunas 'Placar_TIMEcasa' e 'Placar_TIMEfora' para int em df_results
df_results['Placar_TIMEcasa'] = df_results['Placar_TIMEcasa'].astype(int)
df_results['Placar_TIMEfora'] = df_results['Placar_TIMEfora'].astype(int)

# Imprimir as colunas tratadas
print(df_goals['Data'])
print(df_results['Data'])


0        02-07-1916
1        02-07-1916
2        02-07-1916
3        02-07-1916
4        06-07-1916
            ...    
44105    10-02-2024
44106    10-02-2024
44107    11-02-2024
44108    11-02-2024
44109    11-02-2024
Name: Data, Length: 44110, dtype: object
0        30-11-1872
1        08-03-1873
2        07-03-1874
3        06-03-1875
4        04-03-1876
            ...    
46284    07-02-2024
46285    07-02-2024
46286    10-02-2024
46287    10-02-2024
46288    11-02-2024
Name: Data, Length: 46289, dtype: object


### 3. Tratamento de Dados (removendo duplicados e NaN)

In [217]:
df_goals.dropna(inplace=True)
df_results.dropna(inplace=True)
df_shootouts.dropna(inplace=True)


df_goals.drop_duplicates(inplace=True)
df_results.drop_duplicates(inplace=True)
df_shootouts.drop_duplicates(inplace=True)


In [218]:
df_results[df_results['Placar_TIMEcasa'] == df_results['Placar_TIMEfora']].shape[0]

10555

In [219]:
##Dataframe tratado
df_goals.head(3)

Unnamed: 0,Data,time_casa,time_visitante,Time_marcador,artilheiro,minuto,gol_contra,penalti
0,02-07-1916,Chile,Uruguay,Uruguay,José Piendibene,44.0,False,False
1,02-07-1916,Chile,Uruguay,Uruguay,Isabelino Gradín,55.0,False,False
2,02-07-1916,Chile,Uruguay,Uruguay,Isabelino Gradín,70.0,False,False


In [220]:
##Dataframe tratado
df_results.head(3)

Unnamed: 0,Data,Time_casa,Time_visitante,Placar_TIMEcasa,Placar_TIMEfora,Torneio,Cidade,País,Neutro
0,30-11-1872,Scotland,England,0,0,Friendly,Glasgow,Scotland,False
1,08-03-1873,England,Scotland,4,2,Friendly,London,England,False
2,07-03-1874,Scotland,England,2,1,Friendly,Glasgow,Scotland,False


In [222]:
##Dataframe tratado
df_shootouts.head(3)

Unnamed: 0,Data,Time_casa,Time_visitante,Vencedor,Primeiro_Time_a_chutar_ao_Gol
26,20-06-1976,Czechoslovakia,Germany,Czechoslovakia,Czechoslovakia
36,22-05-1979,Argentina,Netherlands,Argentina,Argentina
40,21-06-1980,Italy,Czechoslovakia,Czechoslovakia,Italy


## Levantamento de Inferências com base nos Dados:

**Questões:**

1. Qual é a média de gols marcados por jogo?

2. Quem são os 5 maiores artilheiros e quantos gols cada um marcou?

3. Qual país sediou o maior número de partidas?

4. Qual o desempenho médio de gols do Brasil em casa e fora nos últimos 10 anos.

5. Qual a correlação entre a equipe que inicia marcando e a probabilidade de vencer a partida?

6. Saldo da Seleção Brasileira em Copas do Mundo.


>### Qual é a média de gols marcados por jogo?

In [223]:
df_results

Unnamed: 0,Data,Time_casa,Time_visitante,Placar_TIMEcasa,Placar_TIMEfora,Torneio,Cidade,País,Neutro
0,30-11-1872,Scotland,England,0,0,Friendly,Glasgow,Scotland,False
1,08-03-1873,England,Scotland,4,2,Friendly,London,England,False
2,07-03-1874,Scotland,England,2,1,Friendly,Glasgow,Scotland,False
3,06-03-1875,England,Scotland,2,2,Friendly,London,England,False
4,04-03-1876,Scotland,England,3,0,Friendly,Glasgow,Scotland,False
...,...,...,...,...,...,...,...,...,...
46284,07-02-2024,Ivory Coast,DR Congo,1,0,African Cup of Nations,Ebimpé,Ivory Coast,False
46285,07-02-2024,Nigeria,South Africa,1,1,African Cup of Nations,Bouaké,Ivory Coast,True
46286,10-02-2024,Qatar,Jordan,3,1,AFC Asian Cup,Lusail,Qatar,False
46287,10-02-2024,South Africa,DR Congo,0,0,African Cup of Nations,Abidjan,Ivory Coast,True


In [224]:
(df_results['Placar_TIMEcasa'].sum() + df_results['Placar_TIMEfora'].sum()) / df_results.shape[0]

2.9370908855235585

> Ou seja, sabendo que temos uma quantidade de 46.289 resultados registrados, e somadas os gols fora e em casa temos uma média de aproximadamente ± 3 gols por jogo (2.93).


>### Quais são os 5 maiores marcadores e qual seu país de vínculo?

In [225]:
top_5_artilheiros = df_goals.groupby(['artilheiro', 'Time_marcador']).size().nlargest(5)
top_5_artilheiros

artilheiro          Time_marcador
Cristiano Ronaldo   Portugal         108
Robert Lewandowski  Poland            61
Romelu Lukaku       Belgium           60
Harry Kane          England           55
Lionel Messi        Argentina         54
dtype: int64

> O maior marcador é Cristiano Ronaldo, o português acumula 108 gols.


>### Qual País sediou mais partidas?

In [226]:
print(f"O país com o maior número de partidas é: {df_results['País'].value_counts().idxmax()}, com um total de {df_results['País'].value_counts().max()} partidas.")


O país com o maior número de partidas é: United States, com um total de 1339 partidas.


> O país com o maior número de partidas é: United States, com um total de 1339 partidas.


>### Qual o desempenho do brasil em casa e fora em 10 anos?

In [227]:
# Definir a data atual
from datetime import datetime, timedelta
data_atual = datetime.now()
intervalo = data_atual - timedelta(days=365*10) #10 anos

jogoscasa_brasil = df_results[df_results['Time_casa'] == 'Brazil']
# Filtrar com base no intervalo.
jogosbrasil = jogoscasa_brasil[pd.to_datetime(jogoscasa_brasil['Data'], format='%d-%m-%Y').dt.year >= intervalo.year]

# Calcular a média de gols marcados | casa
avg_goals_casa = jogosbrasil.groupby('Data')['Placar_TIMEcasa'].mean()



In [228]:
avg_goals_casa

Data
01-02-2022    4.0
02-07-2018    2.0
02-07-2019    2.0
02-07-2021    1.0
03-06-2014    4.0
             ... 
28-03-2017    3.0
28-06-2014    1.0
28-11-2022    1.0
29-03-2015    1.0
31-08-2017    2.0
Name: Placar_TIMEcasa, Length: 77, dtype: float64

In [229]:
# Definir a data atual
jogosfora_brasil = df_results[df_results['Time_visitante'] == 'Brazil']
# Filtrar com base no intervalo.
jogosbrasil = jogosfora_brasil[pd.to_datetime(jogosfora_brasil['Data'], format='%d-%m-%Y').dt.year >= intervalo.year]

# Calcular a média de gols marcados | casa
avg_goals_fora = jogosbrasil.groupby('Data')['Placar_TIMEfora'].mean()



In [230]:
avg_goals_fora

Data
01-09-2016    3.0
02-06-2022    5.0
02-09-2021    1.0
02-12-2022    0.0
03-06-2018    2.0
05-03-2014    5.0
05-09-2015    1.0
05-09-2017    1.0
05-10-2017    0.0
06-06-2022    1.0
07-09-2018    2.0
07-10-2021    3.0
08-06-2021    2.0
08-09-2015    4.0
08-10-2015    0.0
09-06-2017    0.0
09-12-2022    1.0
10-06-2018    3.0
10-10-2021    0.0
10-11-2017    3.0
11-10-2014    2.0
11-10-2016    2.0
12-09-2023    1.0
12-10-2018    2.0
12-11-2014    4.0
13-06-2017    4.0
13-10-2020    4.0
13-11-2015    1.0
14-10-2014    4.0
14-11-2017    0.0
15-11-2016    2.0
16-10-2018    1.0
16-11-2021    0.0
16-11-2023    1.0
17-10-2023    0.0
17-11-2020    2.0
18-11-2014    2.0
23-03-2017    4.0
23-03-2018    3.0
25-03-2023    1.0
26-03-2015    3.0
26-03-2019    3.0
27-01-2022    1.0
27-03-2018    1.0
27-06-2018    2.0
29-03-2016    2.0
29-03-2022    4.0
Name: Placar_TIMEfora, dtype: float64

>### Qual a correlação entre a equipe que inicia marcando e a probabilidade de vencer a partida?

In [231]:
first_shooter_counts = df_goals['Time_marcador'].value_counts()

vitoria_por_primeiro_marcador = df_shootouts.groupby('Primeiro_Time_a_chutar_ao_Gol')['Vencedor'].apply(lambda x: (x == x.name).mean())
# Calcular a correlação em porcentagem entre a contagem de primeiros chutes e a probabilidade de vitória
correlacao = first_shooter_counts.corr(vitoria_por_primeiro_marcador) * 100
print(f"Correlação entre o primeiro time a marcar e a probabilidade de vencer: {correlacao:.2f}%")

Correlação entre o primeiro time a marcar e a probabilidade de vencer: 6.31%


## Saldo de Gols da Seleção Brasileira em Copas do Mundo

In [248]:
copa_do_mundo = df_results[df_results['Torneio'] == 'FIFA World Cup'].copy()
copa_do_mundo.loc[:, 'Data'] = pd.to_datetime(copa_do_mundo['Data'], dayfirst=True).dt.year

copa_do_mundo


Unnamed: 0,Data,Time_casa,Time_visitante,Placar_TIMEcasa,Placar_TIMEfora,Torneio,Cidade,País,Neutro
1407,1930,Belgium,United States,0,3,FIFA World Cup,Montevideo,Uruguay,True
1408,1930,France,Mexico,4,1,FIFA World Cup,Montevideo,Uruguay,True
1409,1930,Brazil,Yugoslavia,1,2,FIFA World Cup,Montevideo,Uruguay,True
1410,1930,Peru,Romania,1,3,FIFA World Cup,Montevideo,Uruguay,True
1411,1930,Argentina,France,1,0,FIFA World Cup,Montevideo,Uruguay,True
...,...,...,...,...,...,...,...,...,...
45145,2022,England,France,1,2,FIFA World Cup,Al Khor,Qatar,True
45147,2022,Argentina,Croatia,3,0,FIFA World Cup,Lusail,Qatar,True
45148,2022,France,Morocco,2,0,FIFA World Cup,Al Khor,Qatar,True
45152,2022,Croatia,Morocco,2,1,FIFA World Cup,Al Rayyan,Qatar,True


>##### É necessário renomear as colunas para que seus resultados em jogos em casa e fora sejam concatenados. O Axis = 0 está organizando os resultados por colunas.

In [331]:
placar_casa = copa_do_mundo[['Time_casa', 'Placar_TIMEcasa', 'Data']].rename({'Time_casa':'selecao', 'Placar_TIMEcasa':'placar', 'Data':'ano'}, axis='columns')
placar_fora = copa_do_mundo[['Time_visitante', 'Placar_TIMEfora', 'Data']].rename({'Time_visitante':'selecao', 'Placar_TIMEfora':'placar', 'Data':'ano'}, axis='columns')

placar_fora

Unnamed: 0,selecao,placar,ano
1407,United States,3,1930
1408,Mexico,1,1930
1409,Yugoslavia,2,1930
1410,Romania,3,1930
1411,France,0,1930
...,...,...,...
45145,France,2,2022
45147,Croatia,0,2022
45148,Morocco,0,2022
45152,Morocco,1,2022


In [332]:
placar_casa

Unnamed: 0,selecao,placar,ano
1407,Belgium,0,1930
1408,France,4,1930
1409,Brazil,1,1930
1410,Peru,1,1930
1411,Argentina,1,1930
...,...,...,...
45145,England,1,2022
45147,Argentina,3,2022
45148,France,2,2022
45152,Croatia,2,2022


>##### O axis='columns' está organizando os resultados por colunas.

In [333]:
#Juntar as duas variáveis que contém os placares

saldo_gols = pd.concat([placar_casa, placar_fora]).reset_index(drop=True).fillna(0)

saldo_gols

  saldo_gols = pd.concat([placar_casa, placar_fora]).reset_index(drop=True).fillna(0)


Unnamed: 0,selecao,placar,ano
0,Belgium,0,1930
1,France,4,1930
2,Brazil,1,1930
3,Peru,1,1930
4,Argentina,1,1930
...,...,...,...
1923,France,2,2022
1924,Croatia,0,2022
1925,Morocco,0,2022
1926,Morocco,1,2022


In [353]:
saldo_acumulado = saldo_gols.groupby(['selecao', 'ano'])['placar'].sum().unstack(fill_value=0)
saldo_acumulado['historico de gols'] = saldo_acumulado.sum(axis=1)
saldo_acumulado = saldo_acumulado.sort_values(by='historico de gols', ascending=False)

saldo_acumulado


ano,1930,1934,1938,1950,1954,1958,1962,1966,1970,1974,...,1990,1994,1998,2002,2006,2010,2014,2018,2022,historico de gols
selecao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Brazil,5,1,14,22,8,16,14,4,19,6,...,4,11,14,18,10,9,11,8,8,237
Germany,0,11,3,0,25,12,4,15,17,13,...,15,9,8,14,14,16,18,2,6,232
Argentina,18,2,0,0,0,5,2,4,0,9,...,5,8,10,2,11,10,8,6,15,152
France,4,2,4,0,3,23,0,2,0,0,...,0,0,15,0,9,1,10,14,16,136
Italy,0,12,11,4,6,0,3,2,10,5,...,10,8,8,5,12,4,2,0,0,128
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
El Salvador,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1
DR Congo,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
Trinidad and Tobago,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
China PR,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
