# Análise de Dados

Análise de dados, aprendizado de máquina (_Machine Learning_), _Data Science_, Inteligência Artificial. O que tudo isso tem em comum? 

Todas giram em torno de **manipular e transformar dados em informações úteis**, em geral para que nós humanos tomemos decisões melhores. E analisar os dados é a primeira coisa que um profissional dessas carreiras vai fazer. Um Cientista de Dados só conseguirá montar um modelo preditivo de vendas se entender mais dos dados, por exemplo. 

Por isso, vamos começar essa série de aulas conhecendo os dados. E nada mais divertido do que analisar os dados da Copa do Mundo de 2022 no Qatar!


# Jupyter Notebooks

Jupyter Notebooks é uma das ferramentas mais queridinhas de um cientista de dados. Provavelmente o motivo disso é ser um ambiente extremamente versátil, que permite rodar trechos de códigos por partes, criar anotações com detalhes e figuras, imagens dinâmicas que respondem com mouse etc. Ou seja, o inverso do que um terminal comum costuma fazer (rs). 

Se estás com problemas para usá-lo ou precisa instalá-lo, veja detalhes no arquivo `README_VIRTUALENV.md` na raiz deste projeto.

Vamos entender o basicão de notebooks.

## Células

Um notebook é dividido em células, tantas quantas forem necessárias. Cada célula roda um trecho de código, de forma que você pode seguir uma linha de raciocínio enquanto explora os dados. A ideia por trás disso é que, ao fazer análise de dados, precisamos iterar várias vezes, rodar pequenas partes para entender melhor, e ainda manter uma visão cronológica das células em ordem. 

Exercício:
- crie células abaixo desta e as apague. Crie e apague usando a aba superior ou com atalhos.

Os notebooks têm 2 modos de navegação: _ Edit mode and Command mode_. O primeiro é quando você consegue editar o que há nas células; no segundo você navega entre células. Com `Esc` você entra no modo comando (navegação), com `Enter` você entra no modo edição.

Exercício: 
- Fique do modo de comando e navegue pelas células. Depois, entre no modo comando e experimente editar algo nesta célula. Use "Ctrl+Enter" para executar o que há nas células e ver sua alteração.

## Markdowns

A maioria das pessoas que já teve contato com tecnologia já entende como escrever em markdowns, e aqui não é diferente. Use um ou vários `#` para criar títulos em níveis, `-` para bullet points, `>` para citações, entre outras coisas como hyperlinks ([mais detalhes sobre markdowns no jupyter](https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd)).

Outra grande funcionalidade é escrever equações com LaTeX, muito usada em exatas, como:
$$\vec{F} = m \cdot \vec{a}$$

Exercício:
- Faça uma célula abaixo e treine alguns títulos diferentes, usando um ou vários `#`. Experimente fazer bullet points e identá-los também.

Extra:
- se tiver interesse em saber mais sobre LaTeX, veja um post [resumido aqui](https://www.overleaf.com/learn/latex/Learn_LaTeX_in_30_minutes).

## Bash

Seu amigo terminal não está sozinho. As células aqui podem executar comandos em `bash` através de "comandos mágicos", que são caracteres usados logo no início da célula. No caso do bash, é o `!`:

In [1]:
!ls

'Aula 1 - Análise de Dados.ipynb'


# Chega! Me mostre os dados!

Chega de enrolação. Vamos ver logo os dados da Copa? Afinal, **pra quê** você gostaria de saber o que há de informação sobre os dados da copa? Será que podemos extrair padrões de lá? Entender times fortes, padrões históricos e muito mais?

Toda análise de dados começa vendo os dados. Esses dados são um compilado já feito sobre partidas de futebol em todo o mundo de 1872 a 2022. A fonte dele é o [Kaggle](https://www.kaggle.com/datasets/brenda89/fifa-world-cup-2022).

## `pandas`

`pandas` é provavelmente a biblioteca mais usada em ciência de dados, do básico ao avançado. Ela foi criada por _Wes McKinney_ em um fundo de investimentos de 2007 a 2010, sendo liberada para open-source em 2009.


> Dica de ouro #1: não ter medo de ver a implementação das coisas aos poucos! [github do projeto](https://github.com/pandas-dev/pandas) aqui.

> Dica de ouro #2: procurar dúvidas na própria [documentação](https://pandas.pydata.org/docs/), preferencialmente!

Curiosidade: como se vê o primeiro commit de um projeto?

In [9]:
# Resposta
# git log --reverse

# hide_toggle()

NameError: name 'hide_toggle' is not defined

In [11]:
import pandas as pd

In [12]:
!ls ../../datasets/predictions

quatar2022_features.csv


In [13]:
!head -n 10 ../../datasets/predictions/quatar2022_features.csv

date,home_team,away_team,tournament,city,country,neutral_location,year,home_team_fifa_rank,home_team_total_fifa_points,home_team_goalkeeper_score,home_team_mean_defense_score,home_team_mean_offense_score,home_team_mean_midfield_score,away_team_fifa_rank,away_team_total_fifa_points,away_team_goalkeeper_score,away_team_mean_defense_score,away_team_mean_offense_score,away_team_mean_midfield_score
2022-11-20,Qatar,Ecuador,FIFA World Cup,Al Khor,Qatar,False,2022,52,1437,,,,,46,1452,71.0,73.5,76.0,74.5
2022-11-21,Senegal,Netherlands,FIFA World Cup,Doha,Qatar,True,2022,20,1584,83.0,79.0,80.7,79.0,10,1658,81.0,85.2,83.0,83.5
2022-11-21,England,Iran,FIFA World Cup,Al Rayyan,Qatar,True,2022,5,1761,83.0,85.0,88.0,84.0,21,1564,73.0,69.0,75.3,69.0
2022-11-21,United States,Wales,FIFA World Cup,Al Rayyan,Qatar,True,2022,15,1633,77.0,75.8,77.7,75.8,18,1588,74.0,75.0,73.0,78.5
2022-11-22,Argentina,Saudi Arabia,FIFA World Cup,Lusail,Qatar,True,2022,4,1765,84.0,82.2,89.0,84.0,49,1444,70.0,72.8,67.7,

In [14]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]', *, sep: 'str | None | lib.NoDefault' = <no_default>, delimiter: 'str | None | lib.NoDefault' = None, header: "int | Sequence[int] | None | Literal['infer']" = 'infer', names: 'Sequence[Hashable] | None | lib.NoDefault' = <no_default>, index_col: 'IndexLabel | Literal[False] | None' = None, usecols=None, squeeze: 'bool | None' = None, prefix: 'str | lib.NoDefault' = <no_default>, mangle_dupe_cols: 'bool' = True, dtype: 'DtypeArg | None' = None, engine: 'CSVEngine | None' = None, converters=None, true_values=None, false_values=None, skipinitialspace: 'bool' = False, skiprows=None, skipfooter: 'int' = 0, nrows: 'int | None' = None, na_values=None, keep_default_na: 'bool' = True, na_filter: 'bool' = True, verbose: 'bool' = False, skip_blank_lines: 'bool' = True, parse_dates=None, infer_datetime_format: 'bool' = False, keep_date_col: 'bool' = F

os objetos do pandas tem suas próprias de dados. Tudo começa com `DataFrames` e `Series`.

In [15]:
df = pd.read_csv('../../datasets/fifa_world_cup_2022/fifa_world_cup_2022.csv')

df.tail(10)

Unnamed: 0,date,home_team,away_team,home_team_continent,away_team_continent,home_team_fifa_rank,away_team_fifa_rank,home_team_total_fifa_points,away_team_total_fifa_points,home_team_score,...,shoot_out,home_team_result,home_team_goalkeeper_score,away_team_goalkeeper_score,home_team_mean_defense_score,home_team_mean_offense_score,home_team_mean_midfield_score,away_team_mean_defense_score,away_team_mean_offense_score,away_team_mean_midfield_score
23911,2022-06-14,Ukraine,Republic of Ireland,Europe,Europe,27,47,1535,1449,1,...,No,Draw,75.0,75.0,74.8,78.7,80.0,76.5,72.7,73.8
23912,2022-06-14,Bosnia and Herzegovina,Finland,Europe,Europe,59,57,1388,1406,3,...,No,Win,76.0,83.0,74.2,77.0,78.0,70.0,72.3,73.5
23913,2022-06-14,Romania,Montenegro,Europe,Europe,48,70,1446,1342,0,...,No,Lose,77.0,65.0,73.5,73.7,75.0,76.2,74.7,68.2
23914,2022-06-14,Luxembourg,Faroe Islands,Europe,Europe,94,124,1229,1137,2,...,No,Draw,69.0,,68.5,,69.8,,,
23915,2022-06-14,Turkey,Lithuania,Europe,Europe,43,138,1461,1092,2,...,No,Win,79.0,71.0,78.2,76.7,78.2,,,
23916,2022-06-14,Moldova,Andorra,Europe,Europe,180,153,932,1040,2,...,No,Win,65.0,,,,,,,
23917,2022-06-14,Liechtenstein,Latvia,Europe,Europe,192,135,895,1105,0,...,No,Lose,,65.0,,,,,,
23918,2022-06-14,Chile,Ghana,South America,Africa,28,60,1526,1387,0,...,Yes,Lose,79.0,74.0,75.5,76.7,78.2,75.5,76.0,78.2
23919,2022-06-14,Japan,Tunisia,Asia,Africa,23,35,1553,1499,0,...,No,Lose,73.0,,75.2,75.0,77.5,70.8,72.3,74.0
23920,2022-06-14,Korea Republic,Egypt,Asia,Africa,29,32,1519,1500,4,...,No,Win,75.0,,73.0,80.0,73.8,,79.3,70.8


In [16]:
type(df)

pandas.core.frame.DataFrame

In [17]:
type(df.date)

pandas.core.series.Series

As `Series` têm diversos tipos de dados também, quase sempre análogos aos tipos básicos do python (mais info [aqui](https://pbpython.com/pandas_dtypes.html)).

> Tipos de dados são importantes. Sem prestar atenção a eles, assim como construção de software, podemos cair em muitos erros!

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23921 entries, 0 to 23920
Data columns (total 25 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   date                           23921 non-null  object 
 1   home_team                      23921 non-null  object 
 2   away_team                      23921 non-null  object 
 3   home_team_continent            23921 non-null  object 
 4   away_team_continent            23921 non-null  object 
 5   home_team_fifa_rank            23921 non-null  int64  
 6   away_team_fifa_rank            23921 non-null  int64  
 7   home_team_total_fifa_points    23921 non-null  int64  
 8   away_team_total_fifa_points    23921 non-null  int64  
 9   home_team_score                23921 non-null  int64  
 10  away_team_score                23921 non-null  int64  
 11  tournament                     23921 non-null  object 
 12  city                           23921 non-null 

## Perguntas interessantes aos dados

Agora que vimos os dados, conseguimos pensar em como extrair insights deles? 

Aqui vão algumas perguntas, separadas em nível crescente de dificuldade e contexto, e que vão nos ajudar a entender mais desses dados e aprender mais juntos.

### 1. Dados gerais

- Qual o tamanho do dataset?
- Quantos países distintos há nas partidas?
- Quantos anos há de informação?
- Em quantas cidades temos registros de partidas?
- Quantas copas há no dataset?
- O que quer dizer a coluna `neutral_location`? Quantas partidas há em cada caso dessa coluna?
    


###  Qual o tamanho do dataset?

In [19]:
df.shape

(23921, 25)

### Quantos países distintos há nas partidas?

In [20]:
l = df.home_team.to_list() + df.away_team.to_list()
len(set(l))

211

### Quantos anos há de informação?

In [21]:
df['date'] = pd.to_datetime(df.date)
df['year'] = df['date'].dt.year

df.head()

Unnamed: 0,date,home_team,away_team,home_team_continent,away_team_continent,home_team_fifa_rank,away_team_fifa_rank,home_team_total_fifa_points,away_team_total_fifa_points,home_team_score,...,home_team_result,home_team_goalkeeper_score,away_team_goalkeeper_score,home_team_mean_defense_score,home_team_mean_offense_score,home_team_mean_midfield_score,away_team_mean_defense_score,away_team_mean_offense_score,away_team_mean_midfield_score,year
0,1993-08-08,Bolivia,Uruguay,South America,South America,59,22,0,0,3,...,Win,,,,,,,,,1993
1,1993-08-08,Brazil,Mexico,South America,North America,8,14,0,0,1,...,Draw,,,,,,,,,1993
2,1993-08-08,Ecuador,Venezuela,South America,South America,35,94,0,0,5,...,Win,,,,,,,,,1993
3,1993-08-08,Guinea,Sierra Leone,Africa,Africa,65,86,0,0,1,...,Win,,,,,,,,,1993
4,1993-08-08,Paraguay,Argentina,South America,South America,67,5,0,0,1,...,Lose,,,,,,,,,1993


In [22]:
print("anos distintos: ", df.year.nunique())
print("min e max de anos: ", df.year.min(), df.year.max())

anos distintos:  30
min e max de anos:  1993 2022


### Em quantas cidades temos registros de partidas?

In [23]:
df.city.nunique()

1576

### Quantas copas há no dataset?

In [24]:
# usando referências de índices para ajudar

df[df.tournament.str.contains("FIFA")].tournament.unique()

array(['FIFA World Cup qualification', 'FIFA World Cup'], dtype=object)

In [25]:
df[df.tournament == 'FIFA World Cup'].year.unique()

array([1994, 1998, 2002, 2006, 2010, 2014, 2018])

### O que quer dizer a coluna `neutral_location`? Quantas partidas há em cada caso dessa coluna?

In [28]:
# Vendo na documentação do dataset, quer dizer
# se os times jogaram em local neutro ou a favor de um deles

# encontra locais onde foi neutro e seleciona colunas
df[df.neutral_location].sample(5)[['date', 'home_team', 'away_team', 'city', 'neutral_location']]

Unnamed: 0,date,home_team,away_team,city,neutral_location
23354,2022-01-05,Algeria,Ghana,Al Rayyan,True
7129,2003-06-20,Colombia,New Zealand,Lyon,True
22617,2021-06-08,Trinidad and Tobago,St. Kitts and Nevis,Santo Domingo,True
1247,1996-01-14,Côte d'Ivoire,Ghana,Port Elizabeth,True
10460,2007-06-08,Mexico,Cuba,East Rutherford,True


In [30]:
# encontra locais onde NÂO foi neutro e seleciona colunas
# repare o uso do operador '~'

df[~df.neutral_location].sample(5)[['date', 'home_team', 'away_team', 'city', 'neutral_location']]

Unnamed: 0,date,home_team,away_team,city,neutral_location
10199,2007-02-07,China PR,Kazakhstan,Guangzhou,False
17584,2015-03-31,Portugal,Cabo Verde,Estoril,False
21057,2019-03-26,Algeria,Tunisia,Blida,False
4737,2000-07-06,Cabo Verde,Angola,Praia,False
3350,1998-10-10,San Marino,Israel,Serravalle,False


# 2. Investigando mais a fundo

- Encontre as partidas do Brasil vs Alemanha
- Qual o time com mais vitórias? E no torneio da Copa?
- Qual o time com menos vitórias? e na Copa?
- Quantos jogos por ano? Quantos torneios por ano?
- Quantos países sediam jogos por ano? Qual país mais sediou jogos? 
- Quais times tem mais ofensa, defesa e meio campo?
- Existem times que nunca se enfrentaram?

<br>

<h3>Encontre as partidas do Brasil vs Alemanha

In [44]:
df_br = df[(df.home_team == 'Brazil') &  (df.away_team == 'Germany') | 
           (df.home_team == 'Germany') & (df.away_team == 'Brazil')]
df_br

Unnamed: 0,date,home_team,away_team,home_team_continent,away_team_continent,home_team_fifa_rank,away_team_fifa_rank,home_team_total_fifa_points,away_team_total_fifa_points,home_team_score,...,home_team_result,home_team_goalkeeper_score,away_team_goalkeeper_score,home_team_mean_defense_score,home_team_mean_offense_score,home_team_mean_midfield_score,away_team_mean_defense_score,away_team_mean_offense_score,away_team_mean_midfield_score,year
131,1993-11-17,Germany,Brazil,Europe,South America,4,1,0,0,2,...,Win,,,,,,,,,1993
2950,1998-03-25,Germany,Brazil,Europe,South America,2,1,0,0,1,...,Lose,,,,,,,,,1998
3840,1999-07-24,Brazil,Germany,South America,Europe,1,5,0,0,4,...,Win,,,,,,,,,1999
6410,2002-06-30,Germany,Brazil,Europe,South America,11,2,0,0,0,...,Lose,,,,,,,,,2002
8318,2004-09-08,Germany,Brazil,Europe,South America,11,1,0,0,1,...,Draw,94.0,93.0,87.5,82.7,87.5,89.0,92.3,89.8,2004
8990,2005-06-25,Germany,Brazil,Europe,South America,21,1,0,0,2,...,Lose,94.0,93.0,87.5,82.7,87.5,89.0,92.3,89.8,2005
14204,2011-08-10,Germany,Brazil,Europe,South America,3,4,0,0,3,...,Win,86.0,86.0,82.0,83.3,82.2,84.5,84.0,81.8,2011
16931,2014-07-08,Brazil,Germany,South America,Europe,3,2,1242,1299,1,...,Lose,82.0,87.0,84.8,84.0,83.2,84.5,84.7,86.0,2014
20216,2018-03-27,Germany,Brazil,Europe,South America,1,2,1609,1489,0,...,Lose,92.0,83.0,85.8,82.0,87.5,86.8,87.0,83.8,2018


<h3> Qual o time com mais vitórias? E no torneio da Copa?

In [58]:
df.columns

Index(['date', 'home_team', 'away_team', 'home_team_continent',
       'away_team_continent', 'home_team_fifa_rank', 'away_team_fifa_rank',
       'home_team_total_fifa_points', 'away_team_total_fifa_points',
       'home_team_score', 'away_team_score', 'tournament', 'city', 'country',
       'neutral_location', 'shoot_out', 'home_team_result',
       'home_team_goalkeeper_score', 'away_team_goalkeeper_score',
       'home_team_mean_defense_score', 'home_team_mean_offense_score',
       'home_team_mean_midfield_score', 'away_team_mean_defense_score',
       'away_team_mean_offense_score', 'away_team_mean_midfield_score',
       'year'],
      dtype='object')

In [185]:
#pais com mais vitorias geral

#criando coluna para vencedores away pq só existe home
import numpy as np
condict = [
    (df['away_team_score']) > (df['home_team_score']),
    (df['away_team_score']) < (df['home_team_score']),
    (df['away_team_score']) == (df['home_team_score'])
]
values = ['Win', 'Lose', 'Draw']
df['away_team_result'] = np.select(condict, values)

df[['home_team', 'away_team','home_team_score',
    'away_team_score','home_team_result', 'away_team_result']].head()



# df['away_team_result'] = np.where(df['away_team_score'] > df['home_team_score'],
#                                   df['away_team_score'] < df['home_team_score'], 'Win','Lose')
# 
# df[(df['away_team_score']) > (df['home_team_score'])]

SyntaxError: invalid syntax (1859427206.py, line 15)

In [125]:
#pegando o resultado da galerinha que venceu em casa
df_vic_home = df[(df['home_team_result'] == 'Win')]
df_vic_home = df_vic_home.groupby(by=['home_team']).count().sort_values('home_team_result', ascending=False)
df_vic_home['home_team_result'].head().to_frame()

Unnamed: 0_level_0,home_team_result
home_team,Unnamed: 1_level_1
USA,194
Mexico,190
Brazil,181
Saudi Arabia,164
Egypt,163


In [160]:
#agora só quem venceu fora
df_vic_away = df[(df.away_team_result) == 'Win']
df_vic_away = df_vic_away.groupby('away_team').count().sort_values('away_team_result', ascending=False)
df_vic_away.away_team_result.head().to_frame()

Unnamed: 0_level_0,away_team_result
away_team,Unnamed: 1_level_1
Brazil,116
Germany,100
Spain,99
France,85
Zambia,85


In [161]:
#deixando os indices iguais pra poder mergear com o parametro de chaves "on"
vv = df_vic_away
vv.index.name = 'paises'
cc = df_vic_home
cc.index.name = 'paises'

In [174]:
#mergeando e vendo que isso ficou uma bagunça :rsrs:
#vamos considerar só as colunas importantes...
aa = pd.merge(vv,cc, on=['paises'])
aa['total_wins'] = (aa['home_team_result_x']) + (aa['away_team_result_y'])
aa = aa.sort_values('total_wins', ascending=False)
aa.total_wins.head().to_frame()

Unnamed: 0_level_0,total_wins
paises,Unnamed: 1_level_1
Brazil,297
Mexico,270
Spain,244
USA,242
Germany,239


<br>

In [209]:
#pais com mais vitorias somente na copa
# the process é parecido, mas tem que filtrar os camp
cup_vic = df[df.tournament == 'FIFA World Cup']
cup_vic[['home_team', 'away_team','home_team_score',
    'away_team_score','home_team_result', 'away_team_result']].head(1)

Unnamed: 0,home_team,away_team,home_team_score,away_team_score,home_team_result,away_team_result
385,Germany,Bolivia,1,0,Win,Lose


In [221]:
#filtrando só os vencedores :eyes:
cup_vic_home = cup_vic[(cup_vic.home_team_result) == 'Win']
cup_vic_away = cup_vic[(cup_vic.away_team_result) == 'Win']

In [222]:
#somente vencedores em casa
cup_vic_home = cup_vic_home.groupby('home_team').count().sort_values('home_team_result', ascending=False)
cup_vic_home.home_team_result.head().to_frame()

Unnamed: 0_level_0,home_team_result
home_team,Unnamed: 1_level_1
Brazil,24
Germany,21
Argentina,17
France,14
Netherlands,12


In [223]:
#somente vencedores de fora
cup_vic_away = cup_vic_away.groupby('away_team').count().sort_values('away_team_result', ascending=False)
cup_vic_away.away_team_result.head().to_frame()

Unnamed: 0_level_0,away_team_result
away_team,Unnamed: 1_level_1
Spain,9
Croatia,9
Brazil,8
Germany,8
Netherlands,7


In [228]:
#bora juntar esses caras
cup_vic_home.index.name = 'paises'
cup_vic_away.index.name = 'paises'
cup_geral = pd.merge(cup_vic_home,cup_vic_away, on=['paises'])
cup_geral['total_wins'] = (cup_geral['home_team_result_x']) + (cup_geral['away_team_result_y'])
cup_geral.total_wins.head().to_frame()

Unnamed: 0_level_0,total_wins
paises,Unnamed: 1_level_1
Brazil,32
Germany,29
Argentina,20
France,20
Netherlands,19


<br>

<h3>- Qual o time com menos vitórias? e na Copa?

In [234]:
#da pra reutilizar o que ja foi feito, basta reutilizarmos com sort_values
# que por padrao tem o ascending como True
#o pais que menos ganhou em geral.
piores = aa.sort_values('total_wins')
piores.total_wins.head().to_frame()

Unnamed: 0_level_0,total_wins
paises,Unnamed: 1_level_1
Anguilla,2
American Samoa,4
Gibraltar,5
Cook Islands,5
Somalia,5


In [236]:
#O pais que menos ganhou na Cup
cup_piores = cup_geral.sort_values('total_wins')
cup_piores.total_wins.head().to_frame()

Unnamed: 0_level_0,total_wins
paises,Unnamed: 1_level_1
Norway,2
Ukraine,2
Poland,3
Côte d'Ivoire,3
Saudi Arabia,3


<br>

<h3>Quantos jogos por ano? Quantos torneios por ano?

In [293]:
#jogos totais, considerando todos camps
jogos_anual = df[['home_team', 'year']]
jogos_anual = jogos_anual.groupby('year')['home_team'].count()
jogos_anual.to_frame()

Unnamed: 0_level_0,home_team
year,Unnamed: 1_level_1
1993,171
1994,494
1995,564
1996,781
1997,797
1998,636
1999,670
2000,993
2001,953
2002,701


In [272]:
#to em duvida desse resultado haha. o numero aparenta mais ser partidas disputadas em cada camp
#mas de certa forma, o indice ainda responde quantos torneios por ano...
#help haha
torneios = df[['home_team', 'away_team','tournament', 'year']]
torneios = torneios.groupby(['year','tournament'])['tournament'].count()
torneios.to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,tournament
year,tournament,Unnamed: 2_level_1
1993,African Cup of Nations qualification,2
1993,Amílcar Cabral Cup,13
1993,FIFA World Cup qualification,94
1993,Friendly,62
1994,African Cup of Nations,17
...,...,...
2022,FIFA World Cup qualification,99
2022,Friendly,168
2022,Kirin Cup,4
2022,Navruz Cup,4


<br>

<h3> Quantos países sediam jogos por ano? Qual país mais sediou jogos? 

In [274]:
df.columns

Index(['date', 'home_team', 'away_team', 'home_team_continent',
       'away_team_continent', 'home_team_fifa_rank', 'away_team_fifa_rank',
       'home_team_total_fifa_points', 'away_team_total_fifa_points',
       'home_team_score', 'away_team_score', 'tournament', 'city', 'country',
       'neutral_location', 'shoot_out', 'home_team_result',
       'home_team_goalkeeper_score', 'away_team_goalkeeper_score',
       'home_team_mean_defense_score', 'home_team_mean_offense_score',
       'home_team_mean_midfield_score', 'away_team_mean_defense_score',
       'away_team_mean_offense_score', 'away_team_mean_midfield_score', 'year',
       'away_team_result'],
      dtype='object')

In [382]:
#quantos paises sediam jogos por ano
promotores = df[['year', 'country']]
promotores = promotores.groupby(['year','country']).count()
promotores
#nao consegui chegar no resultado separado anualmente contado

year,country
1993,Albania
1993,Algeria
1993,Argentina
1993,Australia
1993,Austria
...,...
2022,Uzbekistan
2022,Venezuela
2022,Vietnam
2022,Wales


In [366]:
#qual pais mais sediou jogos
maior_sediador = df[['home_team', 'country']]
maior_sediador.groupby('country').count().sort_values('home_team', ascending=False).head()

Unnamed: 0_level_0,home_team
country,Unnamed: 1_level_1
USA,1003
South Africa,505
United Arab Emirates,462
Qatar,461
France,445


<br>
<h3>Quais times tem mais ofensa, defesa e meio campo?

In [387]:
tecnica = df[['home_team','away_team','home_team_mean_offense_score','away_team_mean_offense_score',
    'home_team_mean_midfield_score', 'away_team_mean_midfield_score',
   'home_team_mean_defense_score', 'away_team_mean_defense_score']].dropna(thresh=3)
tecnica.head()

Unnamed: 0,home_team,away_team,home_team_mean_offense_score,away_team_mean_offense_score,home_team_mean_midfield_score,away_team_mean_midfield_score,home_team_mean_defense_score,away_team_mean_defense_score
8263,Netherlands,Liechtenstein,93.0,,87.0,,85.0,
8264,Spain,Scotland,89.3,79.7,89.5,81.8,86.5,80.2
8265,Albania,Greece,59.0,83.7,74.5,85.2,,82.8
8266,Austria,England,73.0,88.7,74.0,91.2,76.2,90.5
8267,Azerbaijan,Wales,,79.3,,80.5,,71.5


In [402]:
# time com mais ofensiva em casa
team_offense = tecnica.sort_values('home_team_mean_offense_score', ascending=False)
team_offense[['home_team', 'home_team_mean_offense_score']].drop_duplicates(subset='home_team').head(3)

Unnamed: 0,home_team,home_team_mean_offense_score
8263,Netherlands,93.0
8866,France,93.0
9679,Brazil,92.7


In [401]:
# time com mais ofensiva fora
team_offense_away = tecnica.sort_values('away_team_mean_offense_score', ascending=False)
team_offense_away[['away_team', 'away_team_mean_offense_score']].drop_duplicates(subset='away_team').head(3)

Unnamed: 0,away_team,away_team_mean_offense_score
8485,Netherlands,93.0
8427,France,93.0
9282,Brazil,92.7


In [400]:
#time com melhor meio de campo em casa
team_midfield = tecnica.sort_values('home_team_mean_midfield_score', ascending=False)
team_midfield[['home_team', 'home_team_mean_midfield_score']].drop_duplicates(subset='home_team').head(3)

Unnamed: 0,home_team,home_team_mean_midfield_score
8866,France,93.2
9718,Brazil,92.0
8770,England,91.2


In [399]:
#time com melhor meio de campo fora
team_midfield_away = tecnica.sort_values('away_team_mean_midfield_score', ascending=False)
team_midfield_away[['away_team', 'away_team_mean_midfield_score']].drop_duplicates(subset='away_team').head(3)

Unnamed: 0,away_team,away_team_mean_midfield_score
8427,France,93.2
9499,Brazil,92.0
8865,England,91.2


In [404]:
#time com maior defesa em casa
team_defense = tecnica.sort_values('home_team_mean_defense_score', ascending=False)
team_defense[['home_team', 'home_team_mean_defense_score']].drop_duplicates(subset='home_team').head(3)

Unnamed: 0,home_team,home_team_mean_defense_score
8434,Italy,91.8
8811,England,90.5
8910,Brazil,89.0


In [407]:
#time com maior defesa fora
team_defense_away = tecnica.sort_values('away_team_mean_defense_score', ascending=False)
team_defense_away[['away_team', 'away_team_mean_defense_score']].drop_duplicates(subset='away_team').head(3)

Unnamed: 0,away_team,away_team_mean_defense_score
8896,Italy,91.8
8524,England,90.5
8921,Brazil,89.0


<br>


    
# 3. Plots
- Plote o número de gols médio por ano
- Adicione no gráfico anterior o mínimo e máximo de gols por ano
- Plote o número de times em partidas por ano
- Plote o Ranking da FIFA do Brasil e Argentina por ano
- Plote o ataque, defesa e meio de campo do Brasil e Argentina por ano

# 3. Estatística

#### Distribuições e Histogramas

#### Correlações
- O que é uma distribuição de dados? 
- Como é a distribuição de gols por jogo nos jogos do Brasil? Muda se for home_team? ou away_team?
- Como é a mesma distribuição para todos os jogos de Copas?
- Como podemos ver distribuição de placares de jogos?

# 4. Previsões
- Pense e escreva uma estratégia para prever vencedores de partidas na Copa de 2022. O que você levaria em conta? Quais as limtações? 
- Use sua estratégia para prever os finalistas da fase de grupos de 2022
- Faça uma estratégia simples para prever o vencedor da Copa de 2022