# Exercícios de Classificação de Dados com NumPy, Pandas e Scikit-Learn - Versão do Professor

## 1. Introdução ao NumPy
### Exercício 1
Importe a biblioteca NumPy e crie um array unidimensional com os valores de vendas globais (Global_Sales) do dataset "vgsales.csv".

In [None]:
import numpy as np
import pandas as pd

# Carregar o dataset
data = pd.read_csv('vgsales.csv')

# Criar um array unidimensional com os valores de vendas globais
global_sales_array = np.array(data['Global_Sales'])

Exercício 2

Calcule a média, mediana e desvio padrão das vendas globais utilizando funções do NumPy.

In [None]:
mean_sales = np.mean(global_sales_array)
median_sales = np.median(global_sales_array)
std_sales = np.std(global_sales_array)

print(f"Média: {mean_sales}, Mediana: {median_sales}, Desvio Padrão: {std_sales}")


2. Manipulação de Dados com Pandas

Exercício 3

Importe a biblioteca Pandas e carregue o dataset "vgsales.csv" em um DataFrame.

In [None]:
import pandas as pd

# Carregar o dataset
data = pd.read_csv('vgsales.csv')


Exercício 4

Exiba as primeiras 10 linhas do DataFrame e descreva as colunas presentes.

In [None]:
print(data.head(10))

Exercício 5

Verifique se há valores ausentes no DataFrame e, se houver, conte quantos são.

In [None]:
missing_values = data.isnull().sum()
print(missing_values[missing_values > 0])

3. Limpeza de Dados

Exercício 6

Remova as linhas que contêm valores ausentes do DataFrame.

In [None]:
data_cleaned = data.dropna()

Exercício 7

Crie uma nova coluna chamada "Total_Sales" que seja a soma das vendas em todas as regiões (NA_Sales, EU_Sales, JP_Sales, Other_Sales).

In [None]:
data_cleaned['Total_Sales'] = data_cleaned['NA_Sales'] + data_cleaned['EU_Sales'] + data_cleaned['JP_Sales'] + data_cleaned['Other_Sales']


4. Análise Exploratória de Dados

Exercício 8

Utilize o método groupby do Pandas para calcular as vendas médias por gênero (Genre) e exiba os resultados em ordem decrescente.

In [None]:
average_sales_by_genre = data_cleaned.groupby('Genre')['Total_Sales'].mean().sort_values(ascending=False)
print(average_sales_by_genre)

Exercício 9

Crie um gráfico de barras que mostre as vendas totais por plataforma (Platform) utilizando a biblioteca Matplotlib.

In [None]:
import matplotlib.pyplot as plt

total_sales_by_platform = data_cleaned.groupby('Platform')['Total_Sales'].sum()
total_sales_by_platform.plot(kind='bar')
plt.title('Vendas Totais por Plataforma')
plt.xlabel('Plataforma')
plt.ylabel('Vendas Totais')
plt.show()


5. Preparação para Classificação

Exercício 10

Converta a coluna "Genre" em variáveis categóricas utilizando o método pd.get_dummies().

In [None]:
data_dummies = pd.get_dummies(data_cleaned, columns=['Genre'], drop_first=True)

Exercício 11

Separe o DataFrame em variáveis independentes (X) e dependentes (y), onde y será a coluna "Global_Sales" e X será o restante das colunas.

In [None]:
X = data_dummies.drop('Global_Sales', axis=1)
y = data_dummies['Global_Sales']

6. Divisão de Dados

Exercício 12

Divida os dados em conjuntos de treinamento e teste utilizando a função train_test_split do Scikit-Learn, com 80% dos dados para treinamento e 20% para teste.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


7. Classificação com Scikit-Learn

Exercício 13

Importe o classificador RandomForestClassifier do Scikit-Learn e treine o modelo com os dados de treinamento.

In [None]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()
model.fit(X_train, y_train)


Exercício 14

Faça previsões com o conjunto de teste e calcule a acurácia do modelo utilizando a função accuracy_score.

In [None]:
from sklearn.metrics import accuracy_score

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {accuracy}")


8. Avaliação do Modelo

Exercício 15

Crie uma matriz de confusão para visualizar o desempenho do modelo e discuta os resultados obtidos.

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot()
plt.title('Matriz de Confusão')
plt.show()