# 🎮 Hands-On: Classificação de Dados com Pandas e Scikit-Learn (Versão do Professor)

Este notebook contém as respostas para cada uma das etapas do hands-on.


## 🔹 Seção 1: Carregamento e Exploração dos Dados

In [None]:
# Importar bibliotecas essenciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Carregar o dataset
df = pd.read_csv('vgsales.csv')
df.head(10)

In [None]:
# Exibir informações gerais do dataset
df.info()
df.describe()

In [None]:
# Identificar valores ausentes
df.isnull().sum()

## 🔹 Seção 2: Pré-processamento de Dados

In [None]:
# Remover colunas irrelevantes
df = df.drop(columns=['Rank', 'Name'])
df.head()

In [None]:
# Tratar valores ausentes
df.fillna(df.median(numeric_only=True), inplace=True)
df.isnull().sum()

In [None]:
# Converter colunas categóricas em numéricas
le = LabelEncoder()
df['Platform'] = le.fit_transform(df['Platform'])
df['Genre'] = le.fit_transform(df['Genre'])
df['Publisher'] = le.fit_transform(df['Publisher'])
df.head()

## 🔹 Seção 3: Análise e Transformação de Dados

In [None]:
# Normalizar valores numéricos
scaler = MinMaxScaler()
df[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']] = scaler.fit_transform(df[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']])
df.head()

In [None]:
# Criar gráficos exploratórios
plt.figure(figsize=(10,6))
sns.histplot(df['Global_Sales'], bins=30, kde=True)
plt.show()

In [None]:
# Identificar correlações entre variáveis
plt.figure(figsize=(12,8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.show()

## 🔹 Seção 4: Preparação para a Classificação

In [None]:
# Criar a variável alvo High_Sales com base em Global_Sales
df['High_Sales'] = (df['Global_Sales'] > df['Global_Sales'].median()).astype(int)
df.head()

In [None]:
# Dividir os dados em treino e teste
X = df.drop(columns=['High_Sales'])
y = df['High_Sales']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
X_train.shape, X_test.shape

In [None]:
# Selecionar um modelo de classificação
model = DecisionTreeClassifier(random_state=42)
model.fit(X_train, y_train)

## 🔹 Seção 5: Aplicação do Modelo e Avaliação

In [None]:
# Treinar o modelo e realizar previsões
y_pred = model.predict(X_test)
y_pred[:10]

In [None]:
# Avaliar o desempenho do modelo
print(f'Accuracy: {accuracy_score(y_test, y_pred):.2f}')
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

In [None]:
# Testar diferentes hiperparâmetros
model_tuned = DecisionTreeClassifier(max_depth=5, min_samples_split=10, random_state=42)
model_tuned.fit(X_train, y_train)
y_pred_tuned = model_tuned.predict(X_test)
print(f'Accuracy (Tuned Model): {accuracy_score(y_test, y_pred_tuned):.2f}')

🎯 **Conclusão:**

- Analisamos os dados, limpamos e pré-processamos corretamente.
- Criamos um modelo de classificação e ajustamos hiperparâmetros.
- O modelo pode ser aprimorado testando outras abordagens, como Random Forest ou SVM.