# Projeto de Minera√ß√£o de dados
Aluno: Rafael Freitas


### Analisando Fatores que Afetam o Desempenho Estudantil


Esse projeto busca explorar os fatores que influenciam o desempenho acad√™mico dos alunos usando um conjunto de dados que inclui informa√ß√µes demogr√°ficas, socioecon√¥micas e educacionais.

## Descri√ß√£o do Dataset  

O dataset *"StudentsPerformance.csv"* cont√©m informa√ß√µes sobre o desempenho acad√™mico de estudantes em tr√™s disciplinas: Matem√°tica, Leitura e Escrita. Al√©m das notas, o conjunto de dados inclui caracter√≠sticas demogr√°ficas e educacionais dos alunos. Abaixo, uma descri√ß√£o das colunas presentes no dataset:  

- **gender** (*g√™nero*): Indica o g√™nero do estudante, podendo ser *"male"* (masculino) ou *"female"* (feminino).  
- **race/ethnicity** (*ra√ßa/etnia*): Classifica√ß√£o do aluno em grupos raciais ou √©tnicos, representados por categorias como *"group A"*, *"group B"*, etc.  
- **parental level of education** (*n√≠vel de educa√ß√£o dos pais*): N√≠vel educacional mais alto alcan√ßado pelos pais ou respons√°veis pelo aluno, como *"high school"* (ensino m√©dio), *"associate's degree"* (tecn√≥logo), *"bachelor's degree"* (gradua√ß√£o), entre outros.  
- **lunch** (*almo√ßo*): Tipo de almo√ßo recebido pelo aluno, podendo ser *"standard"* (padr√£o) ou *"free/reduced"* (gratuito ou com pre√ßo reduzido).  
- **test preparation course** (*curso preparat√≥rio para o teste*): Indica se o aluno completou um curso preparat√≥rio antes dos testes, com valores *"completed"* (completou) ou *"none"* (nenhum).  
- **math score** (*nota em matem√°tica*): Pontua√ß√£o obtida pelo aluno na prova de matem√°tica, variando de 0 a 100.  
- **reading score** (*nota em leitura*): Pontua√ß√£o obtida pelo aluno na prova de leitura, variando de 0 a 100.  
- **writing score** (*nota em escrita*): Pontua√ß√£o obtida pelo aluno na prova de escrita, variando de 0 a 100.  



<h3>
  O dataset pode ser encontrado no meu GitHub, no seguinte link:  
  <a href="https://raw.githubusercontent.com/RafaelFreitas1009/projetoMineracaodeDados/refs/heads/main/Documentos/StudentsPerformance.csv"
     target="_blank"
     style="text-decoration: none; color: orange;">
     LINK DO DATASET üîó
  </a>
</h3>


# üîçPoss√≠veis Insights  


Com base nas colunas dispon√≠veis, podemos explorar diversos padr√µes e rela√ß√µes entre as vari√°veis:  

<h2> 1. Impacto do n√≠vel de escolaridade dos pais no desempenho acad√™mico  </h2>
- Alunos cujos pais t√™m n√≠veis educacionais mais altos t√™m melhores notas?  
- Qual a rela√ß√£o entre o n√≠vel de escolaridade dos pais e as notas em matem√°tica, leitura e escrita?  

<h2> 2. Diferen√ßa de desempenho entre g√™neros  </h2>
- Meninas e meninos t√™m diferen√ßas significativas nas notas de matem√°tica, leitura e escrita?  
- Quem tem maior m√©dia em cada disciplina?  

<h2> 3. Influ√™ncia do tipo de almo√ßo no desempenho  </h2>
- Alunos que recebem almo√ßo gratuito ou reduzido t√™m notas diferentes dos que pagam pelo almo√ßo?  
- O fator socioecon√¥mico pode impactar no desempenho?  

<h2> 4. Efeito do teste de prepara√ß√£o  </h2>
- Alunos que fizeram o teste de prepara√ß√£o tiveram melhores notas?  
- Qual o impacto do teste de prepara√ß√£o para cada disciplina?  

<h2> 5. Disparidades entre grupos raciais/√©tnicos  </h2>
- Algum grupo apresenta desempenho consistentemente melhor ou pior?  
- Existe diferen√ßa entre etnias no desempenho escolar?  
- Como esses fatores afetam cada disciplina?  

<h2> 6. Correla√ß√£o entre as notas  </h2>
- As notas de matem√°tica, leitura e escrita est√£o altamente correlacionadas?  
- Alunos com boas notas em matem√°tica tamb√©m se saem bem em leitura e escrita?  
- Existe algum padr√£o entre as notas?  

<h2> 7. Detec√ß√£o de outliers  </h2>
- H√° alunos com notas excepcionalmente altas ou baixas?  

<h2> 8. Predi√ß√£o de desempenho  </h2>
- Podemos usar modelos de Machine Learning para prever a nota de um aluno com base nas outras caracter√≠sticas?  
- Quais caracter√≠sticas s√£o mais relevantes para prever o desempenho?  


### Importa√ß√£o das bibliotecas necess√°rias

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, r2_score

Estamos importando as bibliotecas necess√°rias para manipula√ß√£o e an√°lise dos dados,

In [None]:
df = pd.read_csv("https://raw.githubusercontent.com/RafaelFreitas1009/projetoMineracaodeDados/refs/heads/main/Documentos/StudentsPerformance.csv")

Carregamos o dataset que se encontra no github do meu reposit√≥rio usando pandas

In [None]:
print(df.head())

A fun√ß√£o df.head() exibe as primeiras 5 linhas do dataframe, permitindo verificar a estrutura do dataset

### üîπ1.An√°lise explorat√≥riaüîπ

In [None]:
print(df.info())

df.info() Exibe um resumo do dataframe, incluindo: O n√∫mero total de entradas (linhas). O nome das colunas e seus tipos de dados. A quantidade de valores n√£o nulos em cada coluna (ajuda a identificar valores ausentes).

In [None]:
print(df.describe())

df.describe( ) Retorna estat√≠sticas descritivas para as colunas num√©ricas. Contagem (count), m√©dia (mean), desvio padr√£o (std), valores m√≠nimos e m√°ximos, e percentis (25%, 50% e 75%).

In [None]:
for col in df.select_dtypes(include=['object']).columns:
    print(f"\nValores √∫nicos em {col}:")
    print(df[col].value_counts())

Pelo c√≥digo acima, foi percorrido todas as colunas categ√≥ricas do dataframe. df[col].value_counts(). Conta quantas vezes cada valor aparece na coluna. O objetivo √© entender a distribui√ß√£o das categorias (exemplo: quantos alunos s√£o do sexo feminino ou masculino). Ajuda a detectar poss√≠veis erros ou valores inesperados. √ötil para decidir se vari√°veis categ√≥ricas precisam de pr√©-processamento antes da modelagem.

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 5))
sns.histplot(df['math score'], bins=20, kde=True, ax=axes[0], color='blue')
sns.histplot(df['reading score'], bins=20, kde=True, ax=axes[1], color='red')
sns.histplot(df['writing score'], bins=20, kde=True, ax=axes[2], color='green')
plt.show()

Essa plotagem permite visualizar a distribui√ß√£o das notas dos alunos. Identifica se os dados seguem uma distribui√ß√£o normal ou se h√° vi√©s. Ajuda a detectar outliers (valores extremos).

In [None]:
plt.figure(figsize=(10, 5))
sns.boxplot(data=df[["math score", "reading score", "writing score"]])
plt.title("Distribui√ß√£o das Notas")
plt.show()

O boxplot mostra a mediana, quartis e poss√≠veis outliers. Ajuda a comparar a distribui√ß√£o das notas entre diferentes mat√©rias.

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(df.select_dtypes(include=np.number).corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correla√ß√£o")
plt.show()

Analisei se h√° rela√ß√µes entre vari√°veis. Para ajudar a entender quais notas est√£o mais relacionadas entre si. Pode indicar colinearidade (se duas vari√°veis s√£o muito correlacionadas, pode ser necess√°rio remover uma para evitar redund√¢ncia no modelo).

In [None]:
sns.pairplot(df, hue="gender", vars=["math score", "reading score", "writing score"])
plt.show()

Assim como no plot acima, esse gr√°fico nostra a rela√ß√£o entre as diferentes notas.
Permite identificar padr√µes entre g√™neros (por exemplo, se um g√™nero tende a ter notas mais altas em uma mat√©ria espec√≠fica).
Ajuda a visualizar se h√° correla√ß√µes lineares entre as vari√°veis.

 ### üîπ2. Integra√ß√£o de bases e limpeza üîπ

In [None]:
# Verificar valores nulos
print("Valores Nulos:\n", df.isnull().sum())

# Remover duplicatas, se houver
df.drop_duplicates(inplace=True)

Essas etapas fazem parte da limpeza dos dados, que √© essencial para garantir an√°lises e modelos precisos. Permite identificar colunas com dados ausentes.
Se houver muitas informa√ß√µes ausentes, pode ser necess√°rio tratar os dados (preenchendo ou removendo valores).
Dados duplicados podem distorcer an√°lises e modelos preditivos.
Mant√©m a qualidade e confiabilidade do dataset. Por isso foi decidido remover dados duplicados

 ### üîπ3. Normaliza√ß√£o e Engenharia de caracter√≠sticasüîπ

In [None]:
# Criando uma m√©dia geral de desempenho do aluno
df['nota m√©dia'] = df[['math score', 'reading score', 'writing score']].mean(axis=1)

# Codifica√ß√£o de vari√°veis categ√≥ricas (Label Encoding)
categorical_cols = ['gender', 'race/ethnicity', 'parental level of education', 'lunch', 'test preparation course']
encoder = LabelEncoder()

for col in categorical_cols:
    df[col] = encoder.fit_transform(df[col])

# Normaliza√ß√£o das notas (opcional, mas √∫til para alguns modelos)
scaler = StandardScaler()
df[['math score', 'reading score', 'writing score', 'nota m√©dia']] = scaler.fit_transform(df[['math score', 'reading score', 'writing score', 'nota m√©dia']])


O c√≥digo primeiro cria uma nova coluna chamada "nota m√©dia", calculando a m√©dia das tr√™s notas dispon√≠veis para cada aluno. Em seguida, utiliza Label Encoding para converter vari√°veis categ√≥ricas (como g√™nero e n√≠vel de educa√ß√£o dos pais) em valores num√©ricos, facilitando seu uso em modelos de aprendizado de m√°quina. Depois, aplica a normaliza√ß√£o (StandardScaler) √†s colunas de notas, garantindo que todas tenham m√©dia 0 e desvio padr√£o 1, o que √© especialmente √∫til para modelos que dependem de escalas padronizadas, como regress√£o linear e redes neurais.

In [None]:
df_original = pd.read_csv("https://raw.githubusercontent.com/RafaelFreitas1009/projetoMineracaodeDados/refs/heads/main/Documentos/StudentsPerformance.csv")  # Carregar os dados originais
df_original['nota m√©dia'] = df_original[['math score', 'reading score', 'writing score']].mean(axis=1)

# Criando subplots
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Boxplot das notas originais
sns.boxplot(data=df_original[['math score', 'reading score', 'writing score', 'nota m√©dia']], ax=axes[0])
axes[0].set_title("Notas Originais")

# Boxplot das notas normalizadas
sns.boxplot(data=df[['math score', 'reading score', 'writing score', 'nota m√©dia']], ax=axes[1])
axes[1].set_title("Notas Normalizadas")

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(15, 8))

# Notas originais
sns.histplot(df_original['math score'], bins=20, kde=True, ax=axes[0, 0], color='blue')
sns.histplot(df_original['reading score'], bins=20, kde=True, ax=axes[0, 1], color='red')
sns.histplot(df_original['writing score'], bins=20, kde=True, ax=axes[0, 2], color='green')

# Notas normalizadas
sns.histplot(df['math score'], bins=20, kde=True, ax=axes[1, 0], color='blue')
sns.histplot(df['reading score'], bins=20, kde=True, ax=axes[1, 1], color='red')
sns.histplot(df['writing score'], bins=20, kde=True, ax=axes[1, 2], color='green')

# Configura√ß√£o dos t√≠tulos
axes[0, 0].set_title("Math Score - Original")
axes[0, 1].set_title("Reading Score - Original")
axes[0, 2].set_title("Writing Score - Original")

axes[1, 0].set_title("Math Score - Normalizado")
axes[1, 1].set_title("Reading Score - Normalizado")
axes[1, 2].set_title("Writing Score - Normalizado")

plt.tight_layout()
plt.show()


As notas originais ter√£o diferentes escalas e distribui√ß√µes.
Ap√≥s a normaliza√ß√£o, todas as vari√°veis estar√£o padronizadas (m√©dia 0, desvio padr√£o 1), e os boxplots parecer√£o centrados na mesma escala.

 ### üîπ4. Sele√ß√£o de Caracter√≠sticas üîπ

In [None]:
# Analisando a correla√ß√£o entre vari√°veis
plt.figure(figsize=(10,6))
sns.heatmap(df.corr(), annot=True, cmap="coolwarm", fmt=".2f")
plt.show()

In [None]:
# Definindo vari√°veis independentes (X) e dependentes (y)
X = df.drop(columns=['math score', 'reading score', 'writing score', 'nota m√©dia'])
y = df["nota m√©dia"]

# Padroniza√ß√£o dos dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar um modelo simples para ver a import√¢ncia das vari√°veis
modelo = RandomForestRegressor(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# Import√¢ncia das caracter√≠sticas
importances = pd.Series(modelo.feature_importances_, index=X.columns)
importances.sort_values(ascending=False).plot(kind="bar", title="Import√¢ncia das Caracter√≠sticas")
plt.show()

 ### üîπ5. An√°lise / Remo√ß√£o de Outliers üîπ

In [None]:
#Boxplot para identificar outliers
plt.figure(figsize=(12, 5))
sns.boxplot(data=df[['math score', 'reading score', 'writing score']], palette="Set2")
plt.show()


In [None]:
# Remover outliers usando o IQR
Q1 = df[['math score', 'reading score', 'writing score']].quantile(0.25)
Q3 = df[['math score', 'reading score', 'writing score']].quantile(0.75)
IQR = Q3 - Q1

df = df[~((df[['math score', 'reading score', 'writing score']] < (Q1 - 1.5 * IQR)) |
          (df[['math score', 'reading score', 'writing score']] > (Q3 + 1.5 * IQR))).any(axis=1)]

 ### üîπ6. Modelo usados üîπ

In [None]:
# Divis√£o entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Modelo escolhido: Random Forest Regressor
modelo = RandomForestRegressor(n_estimators=100, random_state=42)
modelo.fit(X_train, y_train)

# Previs√µes no conjunto de teste
y_pred = modelo.predict(X_test)

# Avalia√ß√£o do modelo
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Erro M√©dio Absoluto (MAE): {mae:.2f}")
print(f"Coeficiente de Determina√ß√£o (R¬≤): {r2:.2f}")

# Import√¢ncia das vari√°veis
importances = modelo.feature_importances_
feature_names = X.columns

plt.figure(figsize=(10,5))
sns.barplot(x=importances, y=feature_names, palette="viridis")
plt.xlabel("Import√¢ncia")
plt.ylabel("Vari√°veis")
plt.title("Import√¢ncia das Vari√°veis no Modelo")
plt.show()

# Resultados e Discus√µes

O n√≠vel de educa√ß√£o dos pais √© o maior fator para as maiores notas dos alunos, seguido pela vari√°vel de ra√ßa e et√≠nia.
Essa segunda vari√°vel n√£o define que alguma ra√ßa √© superior a outra, por√©m mostra que algumas ra√ßas/etnias est√£o ligadas a n√≠veis educacionais e isso influencia as maiores m√©dias dos alunos.
O g√™nero √© a vari√°vel menos influente na rela√ß√£o das maiores notas dos alunos.