In [2]:
from utils import hide_toggle

# Análise de Dados

Análise de dados, aprendizado de máquina (_Machine Learning_), _Data Science_, Inteligência Artificial. O que tudo isso tem em comum? 

Todas giram em torno de **manipular e transformar dados em informações úteis**, em geral para que nós humanos tomemos decisões melhores. E analisar os dados é a primeira coisa que um profissional dessas carreiras vai fazer. Um Cientista de Dados só conseguirá montar um modelo preditivo de vendas se entender mais dos dados, por exemplo. 

Por isso, vamos começar essa série de aulas conhecendo os dados. E nada mais divertido do que analisar os dados da Copa do Mundo de 2022 no Qatar!


# Jupyter Notebooks

Jupyter Notebooks é uma das ferramentas mais queridinhas de um cientista de dados. Provavelmente o motivo disso é ser um ambiente extremamente versátil, que permite rodar trechos de códigos por partes, criar anotações com detalhes e figuras, imagens dinâmicas que respondem com mouse etc. Ou seja, o inverso do que um terminal comum costuma fazer (rs). 

Se estás com problemas para usá-lo ou precisa instalá-lo, veja detalhes no arquivo `README_VIRTUALENV.md` na raiz deste projeto.

Vamos entender o basicão de notebooks.

## Células

Um notebook é dividido em células, tantas quantas forem necessárias. Cada célula roda um trecho de código, de forma que você pode seguir uma linha de raciocínio enquanto explora os dados. A ideia por trás disso é que, ao fazer análise de dados, precisamos iterar várias vezes, rodar pequenas partes para entender melhor, e ainda manter uma visão cronológica das células em ordem. 

Exercício:
- crie células abaixo desta e as apague. Crie e apague usando a aba superior ou com atalhos.

Os notebooks têm 2 modos de navegação: _ Edit mode and Command mode_. O primeiro é quando você consegue editar o que há nas células; no segundo você navega entre células. Com `Esc` você entra no modo comando (navegação), com `Enter` você entra no modo edição.

Exercício: 
- Fique do modo de comando e navegue pelas células. Depois, entre no modo comando e experimente editar algo nesta célula. Use "Ctrl+Enter" para executar o que há nas células e ver sua alteração.

## Markdowns

A maioria das pessoas que já teve contato com tecnologia já entende como escrever em markdowns, e aqui não é diferente. Use um ou vários `#` para criar títulos em níveis, `-` para bullet points, `>` para citações, entre outras coisas como hyperlinks ([mais detalhes sobre markdowns no jupyter](https://medium.com/analytics-vidhya/the-ultimate-markdown-guide-for-jupyter-notebook-d5e5abf728fd)).

Outra grande funcionalidade é escrever equações com LaTeX, muito usada em exatas, como:
$$\vec{F} = m \cdot \vec{a}$$

Exercício:
- Faça uma célula abaixo e treine alguns títulos diferentes, usando um ou vários `#`. Experimente fazer bullet points e identá-los também.

Extra:
- se tiver interesse em saber mais sobre LaTeX, veja um post [resumido aqui](https://www.overleaf.com/learn/latex/Learn_LaTeX_in_30_minutes).

## Bash

Seu amigo terminal não está sozinho. As células aqui podem executar comandos em `bash` através de "comandos mágicos", que são caracteres usados logo no início da célula. No caso do bash, é o `!`:

In [10]:
!ls

'Aula 1 - Análise de Dados.ipynb'


# Chega! Me mostre os dados!

Chega de enrolação. Vamos ver logo os dados da Copa? Afinal, **pra quê** você gostaria de saber o que há de informação sobre os dados da copa? Será que podemos extrair padrões de lá? Entender times fortes, padrões históricos e muito mais?

Toda análise de dados começa vendo os dados. Esses dados são um compilado já feito sobre partidas de futebol em todo o mundo de 1872 a 2022. A fonte dele é o [Kaggle](https://www.kaggle.com/datasets/brenda89/fifa-world-cup-2022).

## `pandas`

`pandas` é provavelmente a biblioteca mais usada em ciência de dados, do básico ao avançado. Ela foi criada por _Wes McKinney_ em um fundo de investimentos de 2007 a 2010, sendo liberada para open-source em 2009.


> Dica de ouro #1: não ter medo de ver a implementação das coisas aos poucos! [github do projeto](https://github.com/pandas-dev/pandas) aqui.

> Dica de ouro #2: procurar dúvidas na própria [documentação](https://pandas.pydata.org/docs/), preferencialmente!

Curiosidade: como se vê o primeiro commit de um projeto?

In [4]:
# Resposta
# git log --reverse

hide_toggle()

In [5]:
import pandas as pd

In [6]:
!ls ../../datasets/predictions

quatar2022_features.csv


In [7]:
help(pd.read_csv)

Help on function read_csv in module pandas.io.parsers.readers:

read_csv(filepath_or_buffer: 'FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]', sep=<no_default>, delimiter=None, header='infer', names=<no_default>, index_col=None, usecols=None, squeeze=None, prefix=<no_default>, mangle_dupe_cols=True, dtype: 'DtypeArg | None' = None, engine: 'CSVEngine | None' = None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression: 'CompressionOptions' = 'infer', thousands=None, decimal: 'str' = '.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors: 'str | None' = 'strict', dialect=None, error_bad_li

os objetos do pandas tem suas próprias de dados. Tudo começa com `DataFrames` e `Series`.

In [8]:
df = pd.read_csv('../../datasets/fifa_world_cup_2022/fifa_world_cup_2022.csv')
df.head(10)

Unnamed: 0,date,home_team,away_team,home_team_continent,away_team_continent,home_team_fifa_rank,away_team_fifa_rank,home_team_total_fifa_points,away_team_total_fifa_points,home_team_score,...,shoot_out,home_team_result,home_team_goalkeeper_score,away_team_goalkeeper_score,home_team_mean_defense_score,home_team_mean_offense_score,home_team_mean_midfield_score,away_team_mean_defense_score,away_team_mean_offense_score,away_team_mean_midfield_score
0,1993-08-08,Bolivia,Uruguay,South America,South America,59,22,0,0,3,...,No,Win,,,,,,,,
1,1993-08-08,Brazil,Mexico,South America,North America,8,14,0,0,1,...,No,Draw,,,,,,,,
2,1993-08-08,Ecuador,Venezuela,South America,South America,35,94,0,0,5,...,No,Win,,,,,,,,
3,1993-08-08,Guinea,Sierra Leone,Africa,Africa,65,86,0,0,1,...,No,Win,,,,,,,,
4,1993-08-08,Paraguay,Argentina,South America,South America,67,5,0,0,1,...,No,Lose,,,,,,,,
5,1993-08-08,Peru,Colombia,South America,South America,70,19,0,0,0,...,No,Lose,,,,,,,,
6,1993-08-08,Zimbabwe,Eswatini,Africa,Africa,50,102,0,0,2,...,No,Win,,,,,,,,
7,1993-08-09,Guinea,Sierra Leone,Africa,Africa,65,86,0,0,4,...,No,Win,,,,,,,,
8,1993-08-11,Faroe Islands,Norway,Europe,Europe,111,9,0,0,0,...,No,Lose,,,,,,,,
9,1993-08-11,Sweden,Switzerland,Europe,Europe,4,3,0,0,1,...,No,Lose,,,,,,,,


In [10]:
type(df)

pandas.core.frame.DataFrame

In [11]:
type(df.date)

pandas.core.series.Series

As `Series` têm diversos tipos de dados também, quase sempre análogos aos tipos básicos do python (mais info [aqui](https://pbpython.com/pandas_dtypes.html)).

> Tipos de dados são importantes. Sem prestar atenção a eles, assim como construção de software, podemos cair em muitos erros!

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 23921 entries, 0 to 23920
Data columns (total 25 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   date                           23921 non-null  object 
 1   home_team                      23921 non-null  object 
 2   away_team                      23921 non-null  object 
 3   home_team_continent            23921 non-null  object 
 4   away_team_continent            23921 non-null  object 
 5   home_team_fifa_rank            23921 non-null  int64  
 6   away_team_fifa_rank            23921 non-null  int64  
 7   home_team_total_fifa_points    23921 non-null  int64  
 8   away_team_total_fifa_points    23921 non-null  int64  
 9   home_team_score                23921 non-null  int64  
 10  away_team_score                23921 non-null  int64  
 11  tournament                     23921 non-null  object 
 12  city                           23921 non-null 

## Perguntas interessantes aos dados

Agora que vimos os dados, conseguimos pensar em como extrair insights deles? 

Aqui vão algumas perguntas, separadas em nível crescente de dificuldade e contexto, e que vão nos ajudar a entender mais desses dados e aprender mais juntos.

### 1. Dados gerais

- Qual o tamanho do dataset?
- Quantos países distintos há nas partidas?
- Quantos anos há de informação?
- Em quantas cidades temos registros de partidas?
- Quantas copas há no dataset?
- O que quer dizer a coluna `neutral_location`? Quantas partidas há em cada caso dessa coluna?
    


###  Qual o tamanho do dataset?

In [22]:
df.shape

hide_toggle()

### Quantos países distintos há nas partidas?

In [23]:
l = df.home_team.to_list() + df.away_team.to_list()
len(set(l))

hide_toggle()

### Quantos anos há de informação?

In [33]:
df['date'] = pd.to_datetime(df.date)
df['year'] = df['date'].dt.year

df.head()

hide_toggle()

In [34]:
# print("anos distintos: ", df.year.nunique())
# print("min e max de anos: ", df.year.min(), df.year.max())

hide_toggle()

### Em quantas cidades temos registros de partidas?

In [42]:
df.city.unique()[:20]

hide_toggle()

In [43]:
df.city.nunique()

hide_toggle()

### Quantas copas há no dataset?

In [52]:
import re 

# usando referências de índices para ajudar

df[df.tournament.str.contains("FIFA")].tournament.unique()

hide_toggle()

In [53]:
df[df.tournament == 'FIFA World Cup'].year.unique()

hide_toggle()

### O que quer dizer a coluna `neutral_location`? Quantas partidas há em cada caso dessa coluna?

In [59]:
# Vendo na documentação do dataset, quer dizer
# se os times jogaram em local neutro ou a favor de um deles

# encontra locais onde foi neutro e seleciona colunas
df[df.neutral_location].sample(5)[['date', 'home_team', 'away_team', 'city', 'neutral_location']]

hide_toggle()

In [60]:
# encontra locais onde NÂO foi neutro e seleciona colunas
# repare o uso do operador '~'

df[~df.neutral_location].sample(5)[['date', 'home_team', 'away_team', 'city', 'neutral_location']]

hide_toggle()

# 2. Investigando mais a fundo

- Encontre as partidas do Brasil vs Alemanha
- Qual o time com mais vitórias? E no torneio da Copa?
- Qual o time menos vitórias? e na Copa?
- Quantos jogos por ano? Quantos torneios por ano?
- Quantos países sediam jogos por ano? Qual país mais sediou jogos? 
- Quais times tem mais ofensa, defesa e meio campo?
- Existem times que nunca se enfrentaram?


    
# 3. Plots
- Plote o número de gols médio por ano
- Adicione no gráfico anterior o mínimo e máximo de gols por ano
- Plote o número de times em partidas por ano
- Plote o Ranking da FIFA do Brasil e Argentina por ano
- Plote o ataque, defesa e meio de campo do Brasil e Argentina por ano

# 3. Estatística

#### Distribuições e Histogramas

#### Correlações
- O que é uma distribuição de dados? 
- Como é a distribuição de gols por jogo nos jogos do Brasil? Muda se for home_team? ou away_team?
- Como é a mesma distribuição para todos os jogos de Copas?
- Como podemos ver distribuição de placares de jogos?

# 4. Previsões
- Pense e escreva uma estratégia para prever vencedores de partidas na Copa de 2022. O que você levaria em conta? Quais as limtações? 
- Use sua estratégia para prever os finalistas da fase de grupos de 2022
- Faça uma estratégia simples para prever o vencedor da Copa de 2022