
# Predição da Dificuldade em Matemática de Alunos

Projeto desenvolvido para o Desafio COMPET - IA - Nível I.

**Base de dados**: [Student Performance Data Set](https://archive.ics.uci.edu/ml/datasets/Student+Performance)

**Objetivo**: Desenvolver um modelo de classificação para prever a dificuldade de um aluno na disciplina de Matemática.

**Modelos testados**:
- Árvore de Decisão
- K-Nearest Neighbors (KNN)

**Critério de escolha**: Acurácia


In [None]:

# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Carregamento dos dados
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/00320/student-mat.csv"
data = pd.read_csv(url, sep=';')

# Visualização inicial
print("Dimensões do dataset:", data.shape)
display(data.head())

# Análise exploratória
# Distribuição das notas finais
plt.figure(figsize=(8,5))
sns.histplot(data['G3'], bins=10, kde=True)
plt.title('Distribuição das Notas Finais de Matemática')
plt.xlabel('Nota Final')
plt.ylabel('Frequência')
plt.show()

# Relação entre tempo de estudo e nota
plt.figure(figsize=(8,5))
sns.boxplot(x='studytime', y='G3', data=data)
plt.title('Tempo de Estudo x Nota Final')
plt.xlabel('Tempo de Estudo')
plt.ylabel('Nota Final')
plt.show()

# Apoio escolar
plt.figure(figsize=(6,4))
sns.countplot(x='schoolsup', data=data)
plt.title('Distribuição de Apoio Escolar')
plt.show()

# Pré-processamento
# Criando a variável alvo: dificuldade
data['dificuldade'] = data['G3'].apply(lambda x: 1 if x <= 10 else 0)

# Removendo as notas para evitar vazamento
data = data.drop(['G1', 'G2', 'G3'], axis=1)

# Seleção de variáveis úteis
cols = ['sex', 'age', 'studytime', 'failures', 'schoolsup', 'famsup', 'absences', 'dificuldade']
data = data[cols]

# Codificação de variáveis categóricas
le = LabelEncoder()
for col in ['sex', 'schoolsup', 'famsup']:
    data[col] = le.fit_transform(data[col])

# Divisão dos dados
X = data.drop('dificuldade', axis=1)
y = data['dificuldade']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("Tamanho do conjunto de treino:", X_train.shape)
print("Tamanho do conjunto de teste:", X_test.shape)

# Modelo 1: Árvore de Decisão
dtc = DecisionTreeClassifier(random_state=42)
dtc.fit(X_train, y_train)
y_pred_dtc = dtc.predict(X_test)
acc_dtc = accuracy_score(y_test, y_pred_dtc)
print("Acurácia - Árvore de Decisão:", acc_dtc)
print(classification_report(y_test, y_pred_dtc))

# Matriz de confusão - Árvore de Decisão
sns.heatmap(confusion_matrix(y_test, y_pred_dtc), annot=True, fmt='d')
plt.title('Matriz de Confusão - Árvore de Decisão')
plt.show()

# Modelo 2: K-Nearest Neighbors
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)
acc_knn = accuracy_score(y_test, y_pred_knn)
print("Acurácia - KNN:", acc_knn)
print(classification_report(y_test, y_pred_knn))

# Matriz de confusão - KNN
sns.heatmap(confusion_matrix(y_test, y_pred_knn), annot=True, fmt='d')
plt.title('Matriz de Confusão - KNN')
plt.show()

# Comparação dos modelos
if acc_dtc > acc_knn:
    print("Melhor modelo: Árvore de Decisão com acurácia de", acc_dtc)
else:
    print("Melhor modelo: KNN com acurácia de", acc_knn)
