# Notebook: NBA Data

## 0. Introdução / Contexto / Objetivo do Projeto

- Identificação da equipa: [26535 Pedro Simões + 26025 Carlos Brandão + 26027 Pedro Carneiro]
- Contexto:
    - A modalidade basquetebol (NBA) tem elevado volume de dados estatísticos sobre jogadores (minutos jogados, pontos, assistências, percentagens, etc.).
    - Com o crescimento da análise estatística no desporto, é interessante aplicar técnicas de Machine Learning para extrair insights além dos tradionais.
- Propósito:
    - Mostrar como diferentes métodos de ML (classificação, clustering, regras de associação) podem ajudar a segmentar jogadores, prever desempenhos e descobrir padrões de comportamento/performance.
- Motivação:
    - Ajudar, por exemplo, um clube ou analista a identificar talentos, agrupar jogadores com perfis similares, ou entender que combinações de atributos caracterizam jogadores de alto desempenho.

## 1. Dataset – Fonte e Descrição + EDA + Metadata

- Fonte: “NBA Player Data (1996-2024)” (link do dataset) :contentReference[oaicite:4]{index=4}  
- Carregamento dos dados (pandas, etc.)
- Metadata:
    - Número de registos (linhas)  
    - Número de colunas  
    - Tipos de variáveis (numéricas, categóricas, booleanas, datas, etc.)  
    - Definição e descrição de cada atributo/coluna: p.ex. jogos disputados, minutos, pontos por jogo, assistências, percentagem de lançamento, posição, equipa, época, idade, etc.  
    - Variável(s) alvo(s) — a definir conforme objetivo de classificação/clustering (ex.: “alto desempenho” = jogadores acima de certo limiar de estatísticas, ou “All-Star” se houver esse rótulo, etc.)

- Análise Exploratória (EDA):
    - Estatísticas descritivas (mean, median, std, min, max) para as variáveis numéricas.  
    - Contagem / frequência para variáveis categóricas (posição, equipa, época, etc.)  
    - Distribuições (histogramas) de algumas variáveis chave: pontos por jogo, minutos, idade, efficiency, etc.  
    - Análise de correlações entre variáveis numéricas (matriz de correlação, heatmap).  
    - Identificação de valores ausentes ou inconsistências (missing data, outliers).  
    - Possível visualização: scatter-plots para relação entre variáveis (ex: idade vs pontos, minutos vs eficiência), boxplots, etc.

## 2. Objetivos de Negócio / Hipóteses de ML

### Objetivo de Classificação  
- **Hipótese**: “É possível prever se um jogador é de alto desempenho (ou “star”) com base em estatísticas básicas e demográficas.”  
- **Rótulo alvo**: definir “alto desempenho” — por exemplo, jogadores com média de pontos/assistências acima de certo limiar, ou top X por percentil.  
- **Uso prático**: ajudar scouts ou equipas a identificar novos talentos ou jogadores sub-avaliados.

### Objetivo de Clustering  
- Agrupar jogadores com perfis semelhantes — por exemplo:
  - “Scorers” (pontos elevados, muitos minutos),  
  - “Defensive / Role Players” (menos pontos, mas talvez ressalvas, roubos, rebounds, etc.),  
  - “Young promising players”,  
  - “Veteranos com uso limitado”, etc.  
- **Uso prático**: segmentação de plantel, análise comparativa entre grupos, planeamento de equipa/formação.

### Objetivo de Regras de Associação (no futuro)  
- Descobrir **combinações de atributos frequentes** entre jogadores com performance elevada — por exemplo: “jogadores com >20 pts/jogo **e** eficiência acima de X **e** menos de Y turnovers tendem a ter carreira longa / All-Star / transferência de alto valor”.  
- **Uso prático**: definir perfis de “jogador ideal” para recrutamento ou treino, auxiliar decisões de scouting.

