# ⚽ MLS 2024 — Football Market Intelligence (Fase 1)
## Análise de performance ofensiva ajustada por minutos (por 90)

### Objetivo desta etapa
- Carregar o dataset (raw)
- Validar tipos e qualidade dos dados
- Limpar colunas críticas (principalmente `minutes_played`)
- Filtrar jogadores com minutos mínimos
- Criar métricas **por 90 minutos**
- Criar um **score ofensivo inicial** para ranking

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pd.set_option("display.max_columns", 200)
pd.set_option("display.width", 120)

## 1) Carregamento do dataset (RAW)

Aqui eu importo o CSV original **sem alterações**, criando um DataFrame chamado `df_raw`.

In [None]:
df_raw = pd.read_cvs("../data/raw/mls_2024_player_stats.csv")
df_raw.head()

## 2) Diagnóstico do dataset

Nesta etapa eu verifico:
- número de linhas e colunas
- tipos de dados (números vs texto)
- presença de valores nulos

Isso define quais limpezas serão necessárias antes de calcular métricas.


In [None]:
df_raw.shape
df_raw.info()
df = df_raw.copy()

## 4) Limpeza crítica: `minutes_played`

`minutes_played` normalmente vem como texto quando contém separador de milhar (ex.: `"1,637"`).
Para calcular métricas por 90, precisamos transformar isso em número.

Passos:
1. garantir que é string
2. remover vírgulas
3. converter para número (`to_numeric`)