# Projeto de Mineração de dados
Aluno: Rafael Freitas


### Analisando Fatores que Afetam o Desempenho Estudantil


Esse projeto busca explorar os fatores que influenciam o desempenho acadêmico dos alunos usando um conjunto de dados que inclui informações demográficas, socioeconômicas e educacionais.

## Descrição do Dataset  

O dataset *"StudentsPerformance.csv"* contém informações sobre o desempenho acadêmico de estudantes em três disciplinas: Matemática, Leitura e Escrita. Além das notas, o conjunto de dados inclui características demográficas e educacionais dos alunos. Abaixo, uma descrição das colunas presentes no dataset:  

- **gender** (*gênero*): Indica o gênero do estudante, podendo ser *"male"* (masculino) ou *"female"* (feminino).  
- **race/ethnicity** (*raça/etnia*): Classificação do aluno em grupos raciais ou étnicos, representados por categorias como *"group A"*, *"group B"*, etc.  
- **parental level of education** (*nível de educação dos pais*): Nível educacional mais alto alcançado pelos pais ou responsáveis pelo aluno, como *"high school"* (ensino médio), *"associate's degree"* (tecnólogo), *"bachelor's degree"* (graduação), entre outros.  
- **lunch** (*almoço*): Tipo de almoço recebido pelo aluno, podendo ser *"standard"* (padrão) ou *"free/reduced"* (gratuito ou com preço reduzido).  
- **test preparation course** (*curso preparatório para o teste*): Indica se o aluno completou um curso preparatório antes dos testes, com valores *"completed"* (completou) ou *"none"* (nenhum).  
- **math score** (*nota em matemática*): Pontuação obtida pelo aluno na prova de matemática, variando de 0 a 100.  
- **reading score** (*nota em leitura*): Pontuação obtida pelo aluno na prova de leitura, variando de 0 a 100.  
- **writing score** (*nota em escrita*): Pontuação obtida pelo aluno na prova de escrita, variando de 0 a 100.  



<h3>
  O dataset pode ser encontrado no meu GitHub, no seguinte link:  
  <a href="https://raw.githubusercontent.com/RafaelFreitas1009/projetoMineracaodeDados/refs/heads/main/Documentos/StudentsPerformance.csv"
     target="_blank"
     style="text-decoration: none; color: orange;">
     LINK DO DATASET 🔗
  </a>
</h3>


# 🔍Possíveis Insights  


Com base nas colunas disponíveis, podemos explorar diversos padrões e relações entre as variáveis:  

<h2> 1. Impacto do nível de escolaridade dos pais no desempenho acadêmico  </h2>
- Alunos cujos pais têm níveis educacionais mais altos têm melhores notas?  
- Qual a relação entre o nível de escolaridade dos pais e as notas em matemática, leitura e escrita?  

<h2> 2. Diferença de desempenho entre gêneros  </h2>
- Meninas e meninos têm diferenças significativas nas notas de matemática, leitura e escrita?  
- Quem tem maior média em cada disciplina?  

<h2> 3. Influência do tipo de almoço no desempenho  </h2>
- Alunos que recebem almoço gratuito ou reduzido têm notas diferentes dos que pagam pelo almoço?  
- O fator socioeconômico pode impactar no desempenho?  

<h2> 4. Efeito do teste de preparação  </h2>
- Alunos que fizeram o teste de preparação tiveram melhores notas?  
- Qual o impacto do teste de preparação para cada disciplina?  

<h2> 5. Disparidades entre grupos raciais/étnicos  </h2>
- Algum grupo apresenta desempenho consistentemente melhor ou pior?  
- Existe diferença entre etnias no desempenho escolar?  
- Como esses fatores afetam cada disciplina?  

<h2> 6. Correlação entre as notas  </h2>
- As notas de matemática, leitura e escrita estão altamente correlacionadas?  
- Alunos com boas notas em matemática também se saem bem em leitura e escrita?  
- Existe algum padrão entre as notas?  

<h2> 7. Detecção de outliers  </h2>
- Há alunos com notas excepcionalmente altas ou baixas?  

<h2> 8. Predição de desempenho  </h2>
- Podemos usar modelos de Machine Learning para prever a nota de um aluno com base nas outras características?  
- Quais características são mais relevantes para prever o desempenho?  


### Importação das bibliotecas necessárias

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, r2_score

Estamos importando as bibliotecas necessárias para manipulação e análise dos dados,

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/RafaelFreitas1009/projetoMineracaodeDados/refs/heads/main/Documentos/StudentsPerformance.csv")

Carregamos o dataset que se encontra no github do meu repositório usando pandas

In [None]:
print(df.head())

A função df.head() exibe as primeiras 5 linhas do dataframe, permitindo verificar a estrutura do dataset

### 🔹1.Análise exploratória🔹

In [None]:
print(df.info())

df.info() Exibe um resumo do dataframe, incluindo: O número total de entradas (linhas). O nome das colunas e seus tipos de dados. A quantidade de valores não nulos em cada coluna (ajuda a identificar valores ausentes).

In [None]:
print(df.describe())

df.describe( ) Retorna estatísticas descritivas para as colunas numéricas. Contagem (count), média (mean), desvio padrão (std), valores mínimos e máximos, e percentis (25%, 50% e 75%).

In [None]:
for col in df.select_dtypes(include=['object']).columns:
    print(f"\nValores únicos em {col}:")
    print(df[col].value_counts())

Pelo código acima, foi percorrido todas as colunas categóricas do dataframe. df[col].value_counts(). Conta quantas vezes cada valor aparece na coluna. O objetivo é entender a distribuição das categorias (exemplo: quantos alunos são do sexo feminino ou masculino). Ajuda a detectar possíveis erros ou valores inesperados. Útil para decidir se variáveis categóricas precisam de pré-processamento antes da modelagem.

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 5))
sns.histplot(df['math score'], bins=20, kde=True, ax=axes[0], color='blue')
sns.histplot(df['reading score'], bins=20, kde=True, ax=axes[1], color='red')
sns.histplot(df['writing score'], bins=20, kde=True, ax=axes[2], color='green')
plt.show()

Essa plotagem permite visualizar a distribuição das notas dos alunos. Identifica se os dados seguem uma distribuição normal ou se há viés. Ajuda a detectar outliers (valores extremos).

In [None]:
plt.figure(figsize=(10, 5))
sns.boxplot(data=df[["math score", "reading score", "writing score"]])
plt.title("Distribuição das Notas")
plt.show()

O boxplot mostra a mediana, quartis e possíveis outliers. Ajuda a comparar a distribuição das notas entre diferentes matérias.

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(df.select_dtypes(include=np.number).corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correlação")
plt.show()

Analisei se há relações entre variáveis. Para ajudar a entender quais notas estão mais relacionadas entre si. Pode indicar colinearidade (se duas variáveis são muito correlacionadas, pode ser necessário remover uma para evitar redundância no modelo).

In [None]:
sns.pairplot(df, hue="gender", vars=["math score", "reading score", "writing score"])
plt.show()

Assim como no plot acima, esse gráfico nostra a relação entre as diferentes notas.
Permite identificar padrões entre gêneros (por exemplo, se um gênero tende a ter notas mais altas em uma matéria específica).
Ajuda a visualizar se há correlações lineares entre as variáveis.

 ### 🔹2. Integração de bases e limpeza 🔹

In [None]:
# Verificar valores nulos
print("Valores Nulos:\n", df.isnull().sum())

# Remover duplicatas, se houver
df.drop_duplicates(inplace=True)

Essas etapas fazem parte da limpeza dos dados, que é essencial para garantir análises e modelos precisos. Permite identificar colunas com dados ausentes.
Se houver muitas informações ausentes, pode ser necessário tratar os dados (preenchendo ou removendo valores).
Dados duplicados podem distorcer análises e modelos preditivos.
Mantém a qualidade e confiabilidade do dataset. Por isso foi decidido remover dados duplicados

 ### 🔹3. Normalização e Engenharia de características🔹

In [None]:
# Criando uma média geral de desempenho do aluno
df['nota média'] = df[['math score', 'reading score', 'writing score']].mean(axis=1)

# Codificação de variáveis categóricas (Label Encoding)
categorical_cols = ['gender', 'race/ethnicity', 'parental level of education', 'lunch', 'test preparation course']
encoder = LabelEncoder()

for col in categorical_cols:
    df[col] = encoder.fit_transform(df[col])

# Normalização das notas (opcional, mas útil para alguns modelos)
scaler = StandardScaler()
df[['math score', 'reading score', 'writing score', 'nota média']] = scaler.fit_transform(df[['math score', 'reading score', 'writing score', 'nota média']])


O código primeiro cria uma nova coluna chamada "nota média", calculando a média das três notas disponíveis para cada aluno. Em seguida, utiliza Label Encoding para converter variáveis categóricas (como gênero e nível de educação dos pais) em valores numéricos, facilitando seu uso em modelos de aprendizado de máquina. Depois, aplica a normalização (StandardScaler) às colunas de notas, garantindo que todas tenham média 0 e desvio padrão 1, o que é especialmente útil para modelos que dependem de escalas padronizadas, como regressão linear e redes neurais.

In [None]:
df_original = pd.read_csv("https://raw.githubusercontent.com/RafaelFreitas1009/projetoMineracaodeDados/refs/heads/main/Documentos/StudentsPerformance.csv")  # Carregar os dados originais
df_original['nota média'] = df_original[['math score', 'reading score', 'writing score']].mean(axis=1)

# Criando subplots
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Boxplot das notas originais
sns.boxplot(data=df_original[['math score', 'reading score', 'writing score', 'nota média']], ax=axes[0])
axes[0].set_title("Notas Originais")

# Boxplot das notas normalizadas
sns.boxplot(data=df[['math score', 'reading score', 'writing score', 'nota média']], ax=axes[1])
axes[1].set_title("Notas Normalizadas")

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(15, 8))

# Notas originais
sns.histplot(df_original['math score'], bins=20, kde=True, ax=axes[0, 0], color='blue')
sns.histplot(df_original['reading score'], bins=20, kde=True, ax=axes[0, 1], color='red')
sns.histplot(df_original['writing score'], bins=20, kde=True, ax=axes[0, 2], color='green')

# Notas normalizadas
sns.histplot(df['math score'], bins=20, kde=True, ax=axes[1, 0], color='blue')
sns.histplot(df['reading score'], bins=20, kde=True, ax=axes[1, 1], color='red')
sns.histplot(df['writing score'], bins=20, kde=True, ax=axes[1, 2], color='green')

# Configuração dos títulos
axes[0, 0].set_title("Math Score - Original")
axes[0, 1].set_title("Reading Score - Original")
axes[0, 2].set_title("Writing Score - Original")

axes[1, 0].set_title("Math Score - Normalizado")
axes[1, 1].set_title("Reading Score - Normalizado")
axes[1, 2].set_title("Writing Score - Normalizado")

plt.tight_layout()
plt.show()


As notas originais terão diferentes escalas e distribuições.
Após a normalização, todas as variáveis estarão padronizadas (média 0, desvio padrão 1), e os boxplots parecerão centrados na mesma escala.

 ### 🔹4. Seleção de Características 🔹

In [None]:
# Analisando a correlação entre variáveis
plt.figure(figsize=(10,6))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.show()

In [None]:
# Definindo variáveis independentes (X) e dependentes (y)
X = df.drop(columns=['math score', 'reading score', 'writing score', 'nota média'])
y = df["nota média"]

# Padronização dos dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar um modelo simples para ver a importância das variáveis
modelo = RandomForestRegressor(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# Importância das características
importances = pd.Series(modelo.feature_importances_, index=X.columns)
importances.sort_values(ascending=False).plot(kind="bar", title="Importância das Características")
plt.show()

 ### 🔹5. Análise / Remoção de Outliers 🔹

In [None]:
#Boxplot para identificar outliers
plt.figure(figsize=(12, 5))
sns.boxplot(data=df[['math score', 'reading score', 'writing score']], palette="Set2")
plt.show()


In [None]:
# Remover outliers usando o IQR
Q1 = df[['math score', 'reading score', 'writing score']].quantile(0.25)
Q3 = df[['math score', 'reading score', 'writing score']].quantile(0.75)
IQR = Q3 - Q1

df = df[~((df[['math score', 'reading score', 'writing score']] < (Q1 - 1.5 * IQR)) |
          (df[['math score', 'reading score', 'writing score']] > (Q3 + 1.5 * IQR))).any(axis=1)]

 ### 🔹6. Modelo usados 🔹

In [None]:
# Divisão entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo escolhido: Random Forest Regressor
modelo = RandomForestRegressor(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# Previsões no conjunto de teste
y_pred = modelo.predict(X_test)

# Avaliação do modelo
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Erro Médio Absoluto (MAE): {mae:.2f}")
print(f"Coeficiente de Determinação (R²): {r2:.2f}")

# Importância das variáveis
importances = modelo.feature_importances_
feature_names = X.columns

plt.figure(figsize=(10,5))
sns.barplot(x=importances, y=feature_names, palette="viridis")
plt.xlabel("Importância")
plt.ylabel("Variáveis")
plt.title("Importância das Variáveis no Modelo")
plt.show()

# Resultados e Discusões

O nível de educação dos pais é o maior fator para as maiores notas dos alunos, seguido pela variável de raça e etínia.
Essa segunda variável não define que alguma raça é superior a outra, porém mostra que algumas raças/etnias estão ligadas a níveis educacionais e isso influencia as maiores médias dos alunos.
O gênero é a variável menos influente na relação das maiores notas dos alunos.