# 📚 Projeto de Estatística Aplicada – Prática 02

## 🎯 Objetivo

Antes de começarmos a análise de dados, precisamos **conhecer a estrutura do dataset** que iremos trabalhar.

Nosso objetivo é:
- Abrir o dataset.
- Verificar as primeiras informações.
- Entender quantas linhas e colunas temos.
- Identificar o tipo de cada variável (quantitativa ou qualitativa).

> **Importante:** Ainda não faremos gráficos ou cálculos estatísticos. Estamos apenas **nos familiarizando** com os dados!


# 📦 1. Importando Bibliotecas

Antes de trabalhar com dados, precisamos carregar algumas bibliotecas.

**Bibliotecas são ferramentas que adicionam funções prontas ao Python.**

Vamos usar:
- `pandas`: para ler e trabalhar com tabelas (Dataframes).
- `kagglehub`: para baixar arquivos do Kaggle.

_Se você não for usar dataset do kaggle, não precisa do kagglehub_


✅ **Após rodar o código, o Python estará preparado para as próximas etapas.**




In [1]:
import kagglehub
import os
import pandas as pd


# 📥 2. Baixando o Dataset do Kaggle

Agora vamos **baixar o conjunto de dados** direto do site Kaggle.

**O que o código abaixo faz:**
- Conecta-se ao Kaggle.
- Baixa o arquivo chamado "Football Events".
- Mostra o local onde o arquivo foi salvo.

Veja outras formas de carregar datasets [AQUI](https://nymarya.github.io/5-modos-de-carregar-arquivos-no-google-colab/)!

✅ Depois de rodar, você verá um caminho de pasta aparecendo na tela.


In [2]:
# Baixar o dataset
path = kagglehub.dataset_download("secareanualin/football-events")

# Mostrar onde o arquivo foi salvo
print("Path to dataset files:", path)


Downloading from https://www.kaggle.com/api/v1/datasets/download/secareanualin/football-events?dataset_version_number=1...


100%|██████████| 21.1M/21.1M [00:01<00:00, 19.1MB/s]

Extracting files...





Path to dataset files: /root/.cache/kagglehub/datasets/secareanualin/football-events/versions/1


> Esse é o local onde o arquivo `events.csv` foi salvo no seu ambiente.


# 📂 3. Carregando o arquivo events.csv

Agora vamos **abrir o arquivo** `events.csv` que foi baixado.

**O que o próximo comando faz:**
- Acessa a pasta onde o arquivo foi salvo.
- Lê o arquivo como um tabela (Dataframe).
- Guarda essa tabela dentro da variável `events`.

Veja outras formas de carregar datasets [AQUI](https://nymarya.github.io/5-modos-de-carregar-arquivos-no-google-colab/)!


✅ Depois de rodar, o arquivo estará carregado e pronto para ser explorado!


In [None]:
# Lendo o arquivo de eventos
events = pd.read_csv(os.path.join(path, 'events.csv'))


# 👀 4. Visualizando as Primeiras Informações

Agora vamos ver **as 5 primeiras linhas** do dataset.

**O que o próximo comando faz:**
- Mostra as 5 primeiras linhas da tabela.
- Ajuda a visualizar como as informações estão organizadas.

✅ Assim, podemos ter uma ideia geral do que é registrado em cada evento.


In [None]:
# Visualizar as primeiras 5 linhas
events.head()


Unnamed: 0,id_odsp,id_event,sort_order,time,text,event_type,event_type2,side,event_team,opponent,...,player_in,player_out,shot_place,shot_outcome,is_goal,location,bodypart,assist_method,situation,fast_break
0,UFot0hit/,UFot0hit1,1,2,Attempt missed. Mladen Petric (Hamburg) left f...,1,12.0,2,Hamburg SV,Borussia Dortmund,...,,,6.0,2.0,0,9.0,2.0,1,1.0,0
1,UFot0hit/,UFot0hit2,2,4,"Corner, Borussia Dortmund. Conceded by Dennis...",2,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
2,UFot0hit/,UFot0hit3,3,4,"Corner, Borussia Dortmund. Conceded by Heiko ...",2,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
3,UFot0hit/,UFot0hit4,4,7,Foul by Sven Bender (Borussia Dortmund).,3,,1,Borussia Dortmund,Hamburg SV,...,,,,,0,,,0,,0
4,UFot0hit/,UFot0hit5,5,7,Gokhan Tore (Hamburg) wins a free kick in the ...,8,,2,Hamburg SV,Borussia Dortmund,...,,,,,0,2.0,,0,,0


> 🎯 **A saída:**
>
> Uma pequena tabela (5 linhas e várias colunas).
>
> Cada linha é um evento do jogo.
> Cada coluna é uma informação sobre o evento (exemplo: time, jogador, tipo de ação).


# 📏 5. Verificando o Tamanho do Dataset

Agora vamos descobrir:
- Quantos eventos (linhas) existem.
- Quantas informações (colunas) existem.

**O próximo comando vai nos mostrar isso.**


In [None]:
# Verificar o tamanho do dataset
print("Número de linhas e colunas:", events.shape)


Número de linhas e colunas: (941009, 22)


> - 941.009 eventos registrados.
> - 22 informações diferentes sobre cada evento.


# 🏷️ 6. Explorando as Variáveis

Agora queremos ver:
- O nome de cada variável.
- O tipo de dado que ela armazena.

✅ Isso nos ajuda a entender como as informações foram registradas.


In [None]:
# Mostrar informações sobre as variáveis
events.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 941009 entries, 0 to 941008
Data columns (total 22 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   id_odsp        941009 non-null  object 
 1   id_event       941009 non-null  object 
 2   sort_order     941009 non-null  int64  
 3   time           941009 non-null  int64  
 4   text           941009 non-null  object 
 5   event_type     941009 non-null  int64  
 6   event_type2    214293 non-null  float64
 7   side           941009 non-null  int64  
 8   event_team     941009 non-null  object 
 9   opponent       941009 non-null  object 
 10  player         880009 non-null  object 
 11  player2        291310 non-null  object 
 12  player_in      51715 non-null   object 
 13  player_out     51738 non-null   object 
 14  shot_place     227459 non-null  float64
 15  shot_outcome   228498 non-null  float64
 16  is_goal        941009 non-null  int64  
 17  location       467067 non-nul

> 🎯 **O que você verá:**
>
> - A lista de todas as variáveis (colunas).
> - Para cada uma, o tipo de dado (`object`, `int64`, etc).
>
> 📌 **Importante lembrar:**
> - `object` → geralmente é texto ou categoria.
> - `int64` ou `float64` → geralmente é número.

> 🎯 **Dica Importante:**
>
> Mesmo que a variável `is_goal` seja representada como 0 e 1, **tratamos como qualitativa** (aconteceu gol ou não).


# 🧠 7. Classificando as Variáveis

Agora, vamos classificar:
- Quais variáveis são **quantitativas** (números)?
- Quais são **qualitativas** (categorias ou textos)?



Com base no que vimos acima, podemos classificar:

| Variável           | Tipo         | Observação |
|--------------------|--------------|------------|
| `id_odsp`           | Qualitativa  | Identificador da partida |
| `id_event`          | Qualitativa  | Identificador do evento |
| `sort_order`        | Quantitativa | Ordem do evento |
| `time`              | Quantitativa | Minuto do evento |
| `text`              | Qualitativa  | Descrição textual |
| `event_type`        | Qualitativa  | Tipo de evento |
| `event_type2`       | Qualitativa  | Subtipo de evento |
| `side`              | Qualitativa  | Lado da equipe |
| `event_team`        | Qualitativa  | Nome do time |
| `opponent`          | Qualitativa  | Nome do time adversário |
| `player`            | Qualitativa  | Nome do jogador |
| `player2`           | Qualitativa  | Nome do segundo jogador envolvido |
| `player_in`         | Qualitativa  | Jogador que entrou |
| `player_out`        | Qualitativa  | Jogador que saiu |
| `shot_place`        | Qualitativa  | Localização do chute |
| `shot_outcome`      | Qualitativa  | Resultado do chute |
| `is_goal`           | Qualitativa  | Gol ou não (apesar de ser 0/1, é categórico!) |
| `location`          | Qualitativa  | Área do campo |
| `bodypart`          | Qualitativa  | Parte do corpo |
| `assist_method`     | Qualitativa  | Forma da assistência |
| `situation`         | Qualitativa  | Situação de jogo |

---


# 🚀8. Conclusão

✅ Agora você:
- Conheceu as primeiras linhas do dataset.
- Entendeu o tamanho do conjunto de dados.
- Identificou e classificou as variáveis.
- Se preparou para a próxima etapa: a análise exploratória!

🎯 Parabéns por concluir essa etapa fundamental!