## Executando este notebook


Na primeira vez, será necessário criar um ambiente virtual para o python. Uma das formas é utilizando o `venv`

```bash
python3 -m venv .venv
```

Posteriormente, basta ativar o ambiente e instalar dependências

```bash
source .venv/bin/activate
pip3 install jupyter pandas pandasql
```

Agora basta iniciar o jupyter notebook quando desejado! Lembrando que é necessário que o ambiente virtual tenha sido ativado previamente.
```bash
jupyter notebook
```

## Exemplo de importação de dados

In [None]:
dataset_path = '../Brasileirao_Dataset'

In [None]:
import pandas as pd

df_full = pd.read_csv(dataset_path + '/campeonato-brasileiro-full.csv')

display(df_full.head())
df_full.info()

df_est = pd.read_csv(dataset_path + '/campeonato-brasileiro-estatisticas-full.csv')

display(df_est.head())
df_est.info()

## Exemplo de limpeza e pré-processamento de dados

In [None]:
df_full['data'] = pd.to_datetime(df_full['data'], format='%d/%m/%Y', errors='coerce')
df_full['hora'] = pd.to_datetime(df_full['hora'], format='%H:%M', errors='coerce').dt.time

## Exemplo de query SQL em Dataframe

In [None]:
from pandasql import sqldf

pysqldf = lambda q: sqldf(q, globals())

# Exemplo de query: listar partidas onde mandante venceu por mais de 2 gols
query = """
SELECT ID, data, mandante, visitante, mandante_Placar, visitante_Placar
FROM df_full
WHERE (mandante_Placar - visitante_Placar) > 2
ORDER BY data DESC
LIMIT 10;
"""

result = pysqldf(query)
print(result)