# T√≥pico 1 ‚Äî Localiza√ß√£o e Download do Dataset P√∫blico

### Dataset: **European Soccer Database**

üîó **Link:** [https://www.kaggle.com/datasets/hugomathien/soccer](https://www.kaggle.com/datasets/hugomathien/soccer)

---

## üìÑ Sobre o Dataset

O *European Soccer Database* √© um dos maiores conjuntos de dados p√∫blicos sobre futebol na Europa, contendo informa√ß√µes completas para an√°lises e aplica√ß√µes de machine learning.

### üìä O que est√° inclu√≠do:

* **+25.000** partidas
* **+10.000** jogadores
* **11 pa√≠ses europeus** com suas principais ligas
* Temporadas de **2008 a 2016**
* Atributos de jogadores e times (originados do FIFA e atualizados semanalmente)
* Forma√ß√µes e coordenadas (X,Y) dos jogadores em campo
* Odds de apostas de at√© **10 casas diferentes**
* Eventos detalhados de partidas

  * Tipos de gol
  * Posse de bola
  * Escanteios
  * Cruzamentos
  * Faltas
  * Cart√µes
  * E muito mais
* *(Atualiza√ß√£o de 16/10/2016: nova tabela contendo atributos completos dos times do FIFA)*


## T√≥pico 2 - Importa√ß√£o dos Dados em Python


In [6]:
import sqlite3
import pandas as pd

##Caminho para o arquivo SQLite
db_path = "../DataBase/database.sqlite"

##Conectar ao banco
conn = sqlite3.connect(db_path)

##Listar todas as tabelas
tables = pd.read_sql("SELECT name FROM sqlite_master WHERE type='table';", conn)
tables

Unnamed: 0,name
0,sqlite_sequence
1,Player_Attributes
2,Player
3,Match
4,League
5,Country
6,Team
7,Team_Attributes


In [8]:
##Ler uma tabela espec√≠fica (exemplo: Times da Premier League)
df_queryResult = pd.read_sql("SELECT DISTINCT team_long_name FROM Team WHERE team_api_id IN (SELECT home_team_api_id FROM Match WHERE league_id = (SELECT id FROM League WHERE name = 'England Premier League') UNION SELECT away_team_api_id FROM Match WHERE league_id = (SELECT id FROM League WHERE name = 'England Premier League'));", conn)

##Mostrar primeiras linhas
df_queryResult.head(50)

Unnamed: 0,team_long_name
0,Burnley
1,Leicester City
2,Cardiff City
3,Chelsea
4,Manchester City
5,Portsmouth
6,Southampton
7,Sunderland
8,Blackpool
9,Wigan Athletic


## T√≥pico 3 - An√°lise explorat√≥ria dos dados (dimens√µes, tipos, primeiras linhas, estat√≠sticas descritivas).

## üìä **Estrutura da An√°lise Explorat√≥rio**

### 1. **Dimens√µes**

```python
df_tabela.shape
```

* **Objetivo**: Mostrar o n√∫mero de **linhas** e **colunas** da tabela.
* **Significado**:

  * **Linhas**: Quantos registros (ou entradas) est√£o presentes na tabela.
  * **Colunas**: Quantas vari√°veis (ou atributos) a tabela possui.

**Exemplo**:

```python
(11060, 8)
```

Aqui, temos 11.060 registros e 8 vari√°veis (colunas) na tabela.

---

### 2. **Tipos das Colunas**

```python
df_tabela.dtypes
```

* **Objetivo**: Exibir o tipo de dado de cada coluna, como `int64`, `float64`, `object`, etc.
* **Significado**:

  * Isso ajuda a entender **como os dados est√£o armazenados** (num√©ricos, texto, datas, etc.).

**Exemplo**:

```python
id                      int64
player_api_id           int64
player_name            object
player_fifa_api_id     int64
birthday               object
height                float64
weight                float64
dtype: object
```

Aqui, vemos que **id, player_api_id, player_fifa_api_id** s√£o num√©ricos (`int64`), enquanto **player_name, birthday** s√£o **texto** (`object`), e **height, weight** s√£o **n√∫meros com ponto flutuante** (`float64`).

---

### 3. **Primeiras Linhas**

```python
df_tabela.head(5)
```

* **Objetivo**: Exibir as **primeiras 5 linhas** da tabela para ter uma vis√£o r√°pida dos dados.
* **Significado**: Isso ajuda a **visualizar** os dados reais e garantir que tudo esteja conforme esperado.

**Exemplo**:

```python
   id  player_api_id player_name     player_fifa_api_id  birthday    height   weight
0   1        2625.0    Danilo              165664.91   1989-03-02     181.87    168.38
1   2        2626.0    Messi               165665.50   1987-07-24     169.80    140.00
2   3        2627.0    Neymar              165666.00   1992-02-05     170.80    130.00
3   4        2628.0    Ronaldo             165667.12   1985-06-23     180.50    150.00
4   5        2629.0    Mbapp√©              165668.30   1999-12-08     175.00    160.00
```

---

### 4. **Estat√≠sticas Descritivas**

Aqui, vamos **explicar cada linha da tabela de estat√≠sticas descritivas** gerada por:

```python
df_tabela.describe(include="all")
```

A fun√ß√£o `describe()` gera v√°rias **estat√≠sticas resumo** para cada coluna num√©rica e categ√≥rica. Vamos detalhar cada linha da sa√≠da.

#### Explica√ß√£o das linhas:

| **Linha**  | **Significado**                                                                                                                                    |
| ---------- | -------------------------------------------------------------------------------------------------------------------------------------------------- |
| **count**  | **N√∫mero de valores n√£o nulos** na coluna. Exemplo: se a coluna "height" tiver valores ausentes, o count mostrar√° quantos valores v√°lidos existem. |
| **unique** | N√∫mero de **valores √∫nicos** em uma coluna. Usado principalmente para colunas categ√≥ricas (como "player_name").                                    |
| **top**    | O **valor mais frequente** (modo) na coluna. Por exemplo, qual jogador aparece mais vezes no dataset.                                              |
| **freq**   | A **frequ√™ncia** do valor mais comum na coluna. Se "Danilo" √© o nome mais repetido, o `freq` mostrar√° quantas vezes ele aparece.                   |
| **mean**   | **M√©dia** dos valores num√©ricos na coluna. Exemplo: a m√©dia das alturas dos jogadores.                                                             |
| **std**    | O **desvio padr√£o** dos valores, mostrando a **dispers√£o** dos dados. Valores mais altos indicam maior varia√ß√£o.                                   |
| **min**    | O **menor valor** registrado na coluna (para colunas num√©ricas). Exemplo: a altura mais baixa dos jogadores.                                       |
| **25%**    | O **1¬∫ quartil** (25%) dos dados, ou seja, 25% dos valores est√£o abaixo desse ponto.                                                               |
| **50%**    | O **2¬∫ quartil** (50%) ou **mediana**. Metade dos valores est√£o abaixo e metade acima desse valor.                                                 |
| **75%**    | O **3¬∫ quartil** (75%) dos dados, ou seja, 75% dos valores est√£o abaixo desse ponto.                                                               |
| **max**    | O **maior valor** registrado na coluna (para colunas num√©ricas). Exemplo: a altura mais alta dos jogadores.                                        |

---

### Exemplo de Sa√≠da:

Suponha que a tabela de estat√≠sticas para a coluna `height` seja assim:

```
       height
count   11060.000000
unique         NaN
top            NaN
freq           NaN
mean      181.867445
std          6.369201
min        157.480000
25%        177.800000
50%        182.880000
75%        185.420000
max        208.280000
```

#### Como interpretar:

1. **count**: H√° 11.060 jogadores com altura registrada.
2. **unique**: N√£o se aplica aqui, pois "height" √© num√©rica.
3. **top**: N√£o se aplica aqui, pois "height" n√£o tem um valor mais frequente.
4. **freq**: Tamb√©m n√£o se aplica a n√∫meros.
5. **mean**: A **m√©dia da altura** dos jogadores √© **181.87 cm**.
6. **std**: O **desvio padr√£o** √© **6.37 cm**, indicando que a altura dos jogadores tem uma varia√ß√£o de aproximadamente 6 cm.
7. **min**: O jogador mais baixo tem **157.48 cm**.
8. **25%**: 25% dos jogadores t√™m altura **menor ou igual a 177.8 cm**.
9. **50%**: A mediana da altura dos jogadores √© **182.88 cm** (meio dos dados).
10. **75%**: 75% dos jogadores t√™m altura **menor ou igual a 185.42 cm**.
11. **max**: O jogador mais alto tem **208.28 cm**.


In [17]:
# Lista de tabelas que voc√™ quer excluir da an√°lise
tabelas_excluidas = ['sqlite_sequence', 'Player_Attributes', 'Team_Attributes']

tabelas_filtradas = tables[~tables['name'].isin(tabelas_excluidas)]

for tabela in tabelas_filtradas['name']:
    print(f"Analisando a tabela: {tabela}")
    
    # Carregar dados da tabela
    df_tabela = pd.read_sql(f"SELECT * FROM {tabela}", conn)
    
    # Exibir dimens√µes
    print(f"\nDimens√µes da tabela {tabela}:", df_tabela.shape)
    
    # Exibir tipos das colunas
    print(f"\nTipos das colunas da tabela {tabela}:")
    display(df_tabela.dtypes)
    
    # Exibir as primeiras linhas
    print(f"\nPrimeiras linhas da tabela {tabela}:")
    display(df_tabela.head(5))
    
    # Estat√≠sticas b√°sicas
    print(f"\nEstat√≠sticas descritivas da tabela {tabela}:")
    # Calcular as estat√≠sticas descritivas
    estatisticas = df_tabela.describe(include="all")
    
    # Exibir as estat√≠sticas formatadas
    display(estatisticas)
    print("\n")
    print("="*50)
    print("\n")

Analisando a tabela: Player

Dimens√µes da tabela Player: (11060, 7)

Tipos das colunas da tabela Player:


id                      int64
player_api_id           int64
player_name            object
player_fifa_api_id      int64
birthday               object
height                float64
weight                  int64
dtype: object


Primeiras linhas da tabela Player:


Unnamed: 0,id,player_api_id,player_name,player_fifa_api_id,birthday,height,weight
0,1,505942,Aaron Appindangoye,218353,1992-02-29 00:00:00,182.88,187
1,2,155782,Aaron Cresswell,189615,1989-12-15 00:00:00,170.18,146
2,3,162549,Aaron Doran,186170,1991-05-13 00:00:00,170.18,163
3,4,30572,Aaron Galindo,140161,1982-05-08 00:00:00,182.88,198
4,5,23780,Aaron Hughes,17725,1979-11-08 00:00:00,182.88,154



Estat√≠sticas descritivas da tabela Player:


Unnamed: 0,id,player_api_id,player_name,player_fifa_api_id,birthday,height,weight
count,11060.0,11060.0,11060,11060.0,11060,11060.0,11060.0
unique,,,10848,,5762,,
top,,,Danilo,,1989-03-02 00:00:00,,
freq,,,7,,10,,
mean,5537.511392,156582.427215,,165664.910488,,181.867445,168.380289
std,3197.692647,160713.700624,,58649.92836,,6.369201,14.990217
min,1.0,2625.0,,2.0,,157.48,117.0
25%,2767.75,35555.5,,151889.5,,177.8,159.0
50%,5536.5,96619.5,,184671.0,,182.88,168.0
75%,8306.25,212470.5,,203883.25,,185.42,179.0






Analisando a tabela: Match

Dimens√µes da tabela Match: (25979, 115)

Tipos das colunas da tabela Match:


id              int64
country_id      int64
league_id       int64
season         object
stage           int64
               ...   
GBD           float64
GBA           float64
BSH           float64
BSD           float64
BSA           float64
Length: 115, dtype: object


Primeiras linhas da tabela Match:


Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,...,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
0,1,1,1,2008/2009,1,2008-08-17 00:00:00,492473,9987,9993,1,...,4.0,1.65,3.4,4.5,1.78,3.25,4.0,1.73,3.4,4.2
1,2,1,1,2008/2009,1,2008-08-16 00:00:00,492474,10000,9994,0,...,3.8,2.0,3.25,3.25,1.85,3.25,3.75,1.91,3.25,3.6
2,3,1,1,2008/2009,1,2008-08-16 00:00:00,492475,9984,8635,0,...,2.5,2.35,3.25,2.65,2.5,3.2,2.5,2.3,3.2,2.75
3,4,1,1,2008/2009,1,2008-08-17 00:00:00,492476,9991,9998,5,...,7.5,1.45,3.75,6.5,1.5,3.75,5.5,1.44,3.75,6.5
4,5,1,1,2008/2009,1,2008-08-16 00:00:00,492477,7947,9985,1,...,1.73,4.5,3.4,1.65,4.5,3.5,1.65,4.75,3.3,1.67



Estat√≠sticas descritivas da tabela Match:


Unnamed: 0,id,country_id,league_id,season,stage,date,match_api_id,home_team_api_id,away_team_api_id,home_team_goal,...,SJA,VCH,VCD,VCA,GBH,GBD,GBA,BSH,BSD,BSA
count,25979.0,25979.0,25979.0,25979,25979.0,25979,25979.0,25979.0,25979.0,25979.0,...,17097.0,22568.0,22568.0,22568.0,14162.0,14162.0,14162.0,14161.0,14161.0,14161.0
unique,,,,8,,1694,,,,,...,,,,,,,,,,
top,,,,2008/2009,,2009-04-11 00:00:00,,,,,...,,,,,,,,,,
freq,,,,3326,,60,,,,,...,,,,,,,,,,
mean,12990.0,11738.630317,11738.630317,,18.242773,,1195429.0,9984.371993,9984.475115,1.544594,...,4.622343,2.668107,3.899048,4.840281,2.498764,3.648189,4.353097,2.497894,3.660742,4.405663
std,7499.635658,7553.936759,7553.936759,,10.407354,,494627.9,14087.453758,14087.445135,1.297158,...,3.632164,1.928753,1.248221,4.318338,1.489299,0.86744,3.010189,1.507793,0.868272,3.189814
min,1.0,1.0,1.0,,1.0,,483129.0,1601.0,1601.0,0.0,...,1.1,1.03,1.62,1.08,1.05,1.45,1.12,1.04,1.33,1.12
25%,6495.5,4769.0,4769.0,,9.0,,768436.5,8475.0,8475.0,1.0,...,2.5,1.7,3.3,2.55,1.67,3.2,2.5,1.67,3.25,2.5
50%,12990.0,10257.0,10257.0,,18.0,,1147511.0,8697.0,8697.0,1.0,...,3.5,2.15,3.5,3.5,2.1,3.3,3.4,2.1,3.4,3.4
75%,19484.5,17642.0,17642.0,,27.0,,1709852.0,9925.0,9925.0,2.0,...,5.25,2.8,4.0,5.4,2.65,3.75,5.0,2.62,3.75,5.0






Analisando a tabela: League

Dimens√µes da tabela League: (11, 3)

Tipos das colunas da tabela League:


id             int64
country_id     int64
name          object
dtype: object


Primeiras linhas da tabela League:


Unnamed: 0,id,country_id,name
0,1,1,Belgium Jupiler League
1,1729,1729,England Premier League
2,4769,4769,France Ligue 1
3,7809,7809,Germany 1. Bundesliga
4,10257,10257,Italy Serie A



Estat√≠sticas descritivas da tabela League:


Unnamed: 0,id,country_id,name
count,11.0,11.0,11
unique,,,11
top,,,Belgium Jupiler League
freq,,,1
mean,12452.090909,12452.090909,
std,8215.308472,8215.308472,
min,1.0,1.0,
25%,6289.0,6289.0,
50%,13274.0,13274.0,
75%,18668.0,18668.0,






Analisando a tabela: Country

Dimens√µes da tabela Country: (11, 2)

Tipos das colunas da tabela Country:


id       int64
name    object
dtype: object


Primeiras linhas da tabela Country:


Unnamed: 0,id,name
0,1,Belgium
1,1729,England
2,4769,France
3,7809,Germany
4,10257,Italy



Estat√≠sticas descritivas da tabela Country:


Unnamed: 0,id,name
count,11.0,11
unique,,11
top,,Belgium
freq,,1
mean,12452.090909,
std,8215.308472,
min,1.0,
25%,6289.0,
50%,13274.0,
75%,18668.0,






Analisando a tabela: Team

Dimens√µes da tabela Team: (299, 5)

Tipos das colunas da tabela Team:


id                    int64
team_api_id           int64
team_fifa_api_id    float64
team_long_name       object
team_short_name      object
dtype: object


Primeiras linhas da tabela Team:


Unnamed: 0,id,team_api_id,team_fifa_api_id,team_long_name,team_short_name
0,1,9987,673.0,KRC Genk,GEN
1,2,9993,675.0,Beerschot AC,BAC
2,3,10000,15005.0,SV Zulte-Waregem,ZUL
3,4,9994,2007.0,Sporting Lokeren,LOK
4,5,9984,1750.0,KSV Cercle Brugge,CEB



Estat√≠sticas descritivas da tabela Team:


Unnamed: 0,id,team_api_id,team_fifa_api_id,team_long_name,team_short_name
count,299.0,299.0,288.0,299,299
unique,,,,296,259
top,,,,Widzew ≈Å√≥d≈∫,GEN
freq,,,,2,3
mean,23735.301003,12340.521739,21534.305556,,
std,15167.914719,25940.411135,42456.439408,,
min,1.0,1601.0,1.0,,
25%,9552.5,8349.0,178.75,,
50%,22805.0,8655.0,673.5,,
75%,36250.5,9886.5,1910.75,,








## T√≥pico 4 - Entendimento e explica√ß√£o dos dados, vari√°veis e contexto do problema.


## 4.1. Contexto do Dataset

O dataset utilizado neste projeto foi retirado do **Kaggle**, uma das maiores plataformas p√∫blicas de compartilhamento de datasets do mundo. Ele cont√©m informa√ß√µes detalhadas sobre partidas, jogadores, times e ligas de futebol europeias, abrangendo um per√≠odo de **10 anos**, de 2008 a 2018.

Nosso objetivo principal √© **tentar prever o campe√£o da Premier League na temporada 2015/2016** utilizando estat√≠sticas hist√≥ricas. No entanto, um ponto importante do trabalho √© mostrar que, apesar de termos acesso a grandes quantidades de dados, **prever resultados esportivos ‚Äî especialmente um campe√£o ‚Äî √© algo extremamente dif√≠cil e muitas vezes pr√≥ximo do imposs√≠vel** devido √† aleatoriedade do futebol.

Este projeto n√£o busca apenas acertar o campe√£o, mas sim **demonstrar os limites da modelagem estat√≠stica em competi√ß√µes esportivas**.

---

## 4.2. Tabelas dispon√≠veis e sua fun√ß√£o

O dataset √© composto por diversas tabelas que se relacionam entre si. Para este trabalho, utilizamos as seguintes:

### **1. Player ‚Äî informa√ß√µes sobre jogadores**

Cont√©m dados cadastrais e f√≠sicos de cada jogador, como nome, data de nascimento, altura e peso.

### **2. Match ‚Äî informa√ß√µes sobre partidas**

√â a **tabela mais importante do dataset** e o cora√ß√£o do projeto.
Ela conecta:

* jogadores
* times
* ligas
* pa√≠ses

Aqui est√£o resultados das partidas, escala√ß√µes, estat√≠sticas in-game, season, rodada, mandante, visitante etc.

### **3. League ‚Äî informa√ß√µes sobre ligas**

Possui o nome e o pa√≠s da liga.
Exemplo: Premier League (Inglaterra), La Liga (Espanha), Serie A (It√°lia), etc.

### **4. Country ‚Äî pa√≠ses associados √†s ligas**

Tabela auxiliar que relaciona o pa√≠s √† liga e tamb√©m fornece IDs √∫nicos.

### **5. Team ‚Äî informa√ß√µes dos times**

Cont√©m nome completo, nome curto e identificadores utilizados pelo Kaggle e pela FIFA.

---

## 4.3. Vari√°veis principais (colunas) e seus significados

Aqui listamos as principais colunas que ser√£o usadas na an√°lise.
Abaixo est√£o os tipos das colunas e suas interpreta√ß√µes:

---

### üîπ **Tabela Player**

```text
id                    int64  ‚Üí ID interno
player_api_id         int64  ‚Üí ID √∫nico do jogador no dataset
player_name           object ‚Üí Nome do jogador
player_fifa_api_id    int64  ‚Üí ID do jogador na base FIFA
birthday              object ‚Üí Data de nascimento
height               float64 ‚Üí Altura em cent√≠metros
weight                int64  ‚Üí Peso em libras
```

**Interpreta√ß√£o:**
Essa tabela serve como cadastro geral dos jogadores. As colunas num√©ricas permitem an√°lises estat√≠sticas, enquanto colunas como nome e anivers√°rio s√£o categ√≥ricas.

---

### üîπ **Tabela Match** (115 colunas)

```text
id              int64  ‚Üí ID da partida
country_id      int64  ‚Üí Pa√≠s onde a liga pertence
league_id       int64  ‚Üí Liga da partida
season          object ‚Üí Temporada (ex: 2015/2016)
stage           int64  ‚Üí Rodada (1 ‚Üí abertura, 38 ‚Üí √∫ltima)
...
GBD           float64
GBA           float64
BSH           float64
BSD           float64
BSA           float64
```

**Interpreta√ß√£o:**
A tabela Match √© extremamente rica. Al√©m de mapeamento das partidas, ela cont√©m:

* estat√≠sticas avan√ßadas sobre desempenho
* n√∫mero de gols
* posse de bola
* finaliza√ß√µes
* escala√ß√µes
* odds de apostas (colunas como BSH, BSD, BSA)

√â a tabela que permite **construir s√©ries hist√≥ricas** e criar features para tentar prever o campe√£o.

---

### üîπ **Tabela League**

```text
id             int64  ‚Üí ID da liga
country_id     int64  ‚Üí Pa√≠s associado
name          object ‚Üí Nome da liga
```

**Interpreta√ß√£o:**
Tabela simples, mas essencial para filtrar apenas a **Premier League**, que √© o foco do trabalho.

---

### üîπ **Tabela Country**

```text
id       int64   ‚Üí ID do pa√≠s
name    object  ‚Üí Nome do pa√≠s
```

Serve como tabela auxiliar que permite cruzar ligas com pa√≠ses.

---

### üîπ **Tabela Team**

```text
id                    int64    ‚Üí ID da tabela interna
team_api_id           int64    ‚Üí ID √∫nico do time
team_fifa_api_id    float64    ‚Üí ID oficial (FIFA)
team_long_name       object    ‚Üí Nome completo do time
team_short_name      object    ‚Üí Nome curto do time
```

**Interpreta√ß√£o:**
Essencial para identificar os times na tabela Match e para an√°lise de desempenho dos clubes ao longo da temporada.

---

## 4.4. Contexto do problema de Machine Learning

O problema que buscamos resolver √©:

> **Com base em dados hist√≥ricos de 2008 a 2015, conseguir√≠amos prever o campe√£o da Premier League 2015/2016?**

A resposta mais prov√°vel √© **n√£o** ‚Äî e isso √© justamente parte do aprendizado.
A temporada 2015/2016 foi hist√≥rica: o Leicester City, um time cotado para rebaixamento, foi o campe√£o. Essa √© considerada a **maior zebra da hist√≥ria do futebol moderno**.

Nosso modelo tentar√° aprender:

* desempenho hist√≥rico dos times
* estat√≠sticas das partidas
* tend√™ncias de resultados
* for√ßa do elenco

Mas mesmo com tudo isso, existe um limite do que o modelo consegue prever.

Tipo de problema:

* **Classifica√ß√£o multiclasse** (classe = campe√£o)
  ou
* **Regress√£o** (ex: prever pontua√ß√£o final)

Decis√£o comum: transformar em classifica√ß√£o ‚Üí prever qual time termina em 1¬∫.

---

## 4.5. Rela√ß√£o entre dados e objetivo

A rela√ß√£o entre as tabelas e o problema √© a seguinte:

* **Match** fornece resultados reais, estat√≠sticas e pontos.
* **Team** permite identificar cada clube.
* **League** permite filtrar apenas a Premier League.
* **Player** permite enriquecer dados com informa√ß√µes de elenco.
* **Country** organiza a hierarquia liga ‚Üí pa√≠s.

Combinando essas tabelas, √© poss√≠vel:

* reconstruir a tabela de classifica√ß√£o de cada temporada
* analisar o desempenho de cada time
* criar features baseadas em gols, vit√≥rias, derrotas, desempenho recente
* usar isso para tentar prever o campe√£o

No entanto, o futebol √© caos puro ‚Äî les√µes, t√©cnicos, motiva√ß√£o, sorte ‚Äî tudo influencia.

O objetivo da an√°lise √© **mostrar tanto o poder quanto a limita√ß√£o da ci√™ncia de dados em esportes imprevis√≠veis**.


## T√≥pico 5 - Visualiza√ß√£o dos dados com gr√°ficos apropriados (histogramas, boxplots, dispers√£o, etc.).


## T√≥pico 6 - Tratamento de dados inv√°lidos ou inconsistentes.


## T√≥pico 7 - Tratamento de dados faltantes (remo√ß√£o ou imputa√ß√£o).


## T√≥pico 8 - Sele√ß√£o de atributos relevantes para o modelo.


## T√≥pico 9 - Classifica√ß√£o das vari√°veis (num√©ricas, categ√≥ricas, discretas, cont√≠nuas).


## T√≥pico 10 - Separa√ß√£o entre atributos preditores (X) e vari√°vel-alvo ( y ).


## T√≥pico 11 - Transforma√ß√µes necess√°rias nas colunas (normaliza√ß√£o, codifica√ß√£o, etc.).


## T√≥pico 12 - Padroniza√ß√£o dos dados para modelagem (ex: StandardScaler, MinMaxScaler).


## T√≥pico 13 - Divis√£o dos dados em conjunto de treino e teste.


## T√≥pico 14 - Treinamento de ao menos um modelo de machine learning supervisionado adequado ao problema.


## T√≥pico 15 - Avalia√ß√£o do modelo (ex: acur√°cia, precis√£o, recall, F1-score, matriz de confus√£o).


## T√≥pico 16 - Documenta√ß√£o clara e detalhada do c√≥digo no pr√≥prio notebook (com coment√°rios e c√©lulas explicativas).


## T√≥pico 17 - Cria√ß√£o de uma apresenta√ß√£o resumida em slides (Google Slides, PowerPoint, Canva etc.).


## T√≥pico 18 - Grava√ß√£o de um v√≠deo (m√°x. 10 minutos) com ambos os integrantes explicando o projeto, o c√≥digo e os resultados obtidos.
