<a href="https://colab.research.google.com/github/Yan-Santana/AnaliseDeDados-DesempenhoEstudantil/blob/main/Trabalho_Pratico_Analise_Dados.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Trabalho Prático de Análise de Dados - Desempenho Estudantil

Este notebook consolida todas as etapas da análise de dados realizada sobre o desempenho de estudantes em duas escolas portuguesas, utilizando o dataset "Student Performance" do UCI Machine Learning Repository.

## Fase 1: Definição do Problema, Perguntas e Dicionário de Dados

# Definição do Problema e Perguntas - Análise de Desempenho Estudantil

## 2.1. Descrição do Problema

O conjunto de dados "Student Performance" contém informações sobre o desempenho de estudantes do ensino secundário em duas escolas portuguesas, abrangendo duas disciplinas: Matemática (student-mat.csv) e Português (student-por.csv). O problema central a ser abordado é **identificar os fatores que mais influenciam o desempenho acadêmico dos estudantes (expresso pelas notas finais - G3) e construir modelos preditivos capazes de estimar esse desempenho ou classificar os alunos em categorias de rendimento (por exemplo, baixo, médio, alto)**. A análise buscará entender como variáveis demográficas (ex: sexo, idade), socioeconômicas (ex: situação familiar, educação dos pais, renda familiar implícita por atividades extracurriculares pagas), comportamentais (ex: tempo de estudo, faltas, atividades extracurriculares, consumo de álcool) e relacionadas à escola (ex: apoio educacional, qualidade das relações familiares) se correlacionam e impactam as notas finais dos alunos.

## 2.2. Perguntas a Serem Respondidas

Com base na descrição do problema, as seguintes perguntas principais guiarão a análise:

1.  **Quais são os principais fatores demográficos (sexo, idade) que afetam o desempenho dos alunos em Matemática e Português?**
2.  **Como as características socioeconômicas da família do estudante (educação dos pais, tamanho da família, status de coabitação dos pais) se relacionam com suas notas finais?**
3.  **Qual é o impacto dos hábitos de estudo (tempo de estudo semanal, falhas em classes anteriores) no desempenho final dos alunos?**
4.  **Atividades extracurriculares (pagas ou não) e o uso da internet (para fins não escolares) influenciam positivamente ou negativamente as notas?**
5.  **Fatores comportamentais como o consumo de álcool (durante a semana e fim de semana) e a frequência de saídas com amigos estão associados a um menor desempenho acadêmico?**
6.  **A qualidade das relações familiares e o apoio educacional fornecido pela escola ou família têm um papel significativo nas notas dos estudantes?**
7.  **Existem diferenças significativas no desempenho e nos fatores influenciadores entre as disciplinas de Matemática e Português?**
8.  **É possível construir um modelo de regressão preciso para prever a nota final (G3) dos alunos com base nas características disponíveis? Quais variáveis são mais preditivas?**
9.  **É possível desenvolver um modelo de classificação eficaz para categorizar os alunos em diferentes níveis de desempenho (ex: aprovado/reprovado, ou baixo/médio/alto rendimento) com base em seus atributos? Quais variáveis são mais discriminantes?**
10. **Quais são as implicações práticas das descobertas para educadores, pais e formuladores de políticas educacionais visando a melhoria do desempenho estudantil?**

## 2.3. Utilidade Pública do Problema

A compreensão dos fatores que afetam o desempenho estudantil tem grande utilidade pública. Os resultados desta análise podem:

*   **Informar Políticas Educacionais:** Identificar os principais preditores de sucesso ou fracasso escolar pode ajudar na formulação de políticas públicas mais eficazes, direcionando recursos para áreas críticas, como apoio a estudantes de famílias com menor nível socioeconômico ou programas de combate a hábitos prejudiciais.
*   **Orientar Intervenções Pedagógicas:** Educadores e escolas podem utilizar as descobertas para desenvolver estratégias pedagógicas personalizadas e programas de tutoria focados nos alunos que apresentam maior risco de baixo desempenho, abordando os fatores específicos que os afetam.
*   **Engajar Pais e Responsáveis:** Ao destacar a importância de fatores como o ambiente familiar, o tempo de estudo e o envolvimento dos pais, a análise pode conscientizar e engajar as famílias no processo educacional dos estudantes.
*   **Promover a Equidade:** Ao identificar disparidades no desempenho relacionadas a fatores socioeconômicos ou demográficos, a análise pode contribuir para a criação de iniciativas que visem promover maior equidade no sistema de ensino.
*   **Prevenção do Abandono Escolar:** A identificação precoce de alunos com maior propensão a notas baixas pode ser um passo importante para intervenções que previnam o desengajamento e o eventual abandono escolar.

Resolver este problema e responder a estas perguntas pode, portanto, fornecer insights valiosos para melhorar a qualidade da educação e o futuro dos estudantes.


# Dicionário de Dados - Student Performance

Este documento descreve as variáveis presentes nos conjuntos de dados `student-mat.csv` (desempenho em Matemática) e `student-por.csv` (desempenho em Português).

## Atributos Comuns a Ambos os Datasets:

1.  **school**: Escola do estudante
    *   Tipo: Binário
    *   Valores: "GP" (Gabriel Pereira) ou "MS" (Mousinho da Silveira)
2.  **sex**: Sexo do estudante
    *   Tipo: Binário
    *   Valores: "F" (feminino) ou "M" (masculino)
3.  **age**: Idade do estudante
    *   Tipo: Numérico
    *   Valores: de 15 a 22
4.  **address**: Tipo de endereço residencial do estudante
    *   Tipo: Binário
    *   Valores: "U" (urbano) ou "R" (rural)
5.  **famsize**: Tamanho da família
    *   Tipo: Binário
    *   Valores: "LE3" (menor ou igual a 3) ou "GT3" (maior que 3)
6.  **Pstatus**: Status de coabitação dos pais
    *   Tipo: Binário
    *   Valores: "T" (morando juntos) ou "A" (separados)
7.  **Medu**: Nível de educação da mãe
    *   Tipo: Numérico (Ordinal)
    *   Valores: 0 (nenhum), 1 (ensino primário - 4ª série), 2 (5ª à 9ª série), 3 (ensino secundário) ou 4 (ensino superior)
8.  **Fedu**: Nível de educação do pai
    *   Tipo: Numérico (Ordinal)
    *   Valores: 0 (nenhum), 1 (ensino primário - 4ª série), 2 (5ª à 9ª série), 3 (ensino secundário) ou 4 (ensino superior)
9.  **Mjob**: Trabalho da mãe
    *   Tipo: Nominal
    *   Valores: "teacher" (professora), "health" (relacionado à saúde), "services" (serviços civis, ex: administrativo ou policial), "at_home" (doméstica) ou "other" (outro)
10. **Fjob**: Trabalho do pai
    *   Tipo: Nominal
    *   Valores: "teacher" (professor), "health" (relacionado à saúde), "services" (serviços civis, ex: administrativo ou policial), "at_home" (doméstico) ou "other" (outro)
11. **reason**: Razão para escolher esta escola
    *   Tipo: Nominal
    *   Valores: "home" (perto de casa), "reputation" (reputação da escola), "course" (preferência pelo curso) ou "other" (outro)
12. **guardian**: Guardião do estudante
    *   Tipo: Nominal
    *   Valores: "mother" (mãe), "father" (pai) ou "other" (outro)
13. **traveltime**: Tempo de viagem de casa para a escola
    *   Tipo: Numérico (Ordinal)
    *   Valores: 1 (<15 min.), 2 (15 a 30 min.), 3 (30 min. a 1 hora) ou 4 (>1 hora)
14. **studytime**: Tempo de estudo semanal
    *   Tipo: Numérico (Ordinal)
    *   Valores: 1 (<2 horas), 2 (2 a 5 horas), 3 (5 a 10 horas) ou 4 (>10 horas)
15. **failures**: Número de reprovações em classes anteriores
    *   Tipo: Numérico
    *   Valores: n se 1<=n<3, senão 4 (indicando 3 ou mais falhas)
16. **schoolsup**: Suporte educacional extra da escola
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
17. **famsup**: Suporte educacional familiar
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
18. **paid**: Aulas extras pagas dentro da disciplina do curso (Matemática ou Português)
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
19. **activities**: Atividades extracurriculares
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
20. **nursery**: Frequentou creche
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
21. **higher**: Deseja cursar ensino superior
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
22. **internet**: Acesso à internet em casa
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
23. **romantic**: Com um relacionamento romântico
    *   Tipo: Binário
    *   Valores: "yes" (sim) ou "no" (não)
24. **famrel**: Qualidade das relações familiares
    *   Tipo: Numérico (Ordinal)
    *   Valores: de 1 (muito ruim) a 5 (excelente)
25. **freetime**: Tempo livre após a escola
    *   Tipo: Numérico (Ordinal)
    *   Valores: de 1 (muito baixo) a 5 (muito alto)
26. **goout**: Sair com amigos
    *   Tipo: Numérico (Ordinal)
    *   Valores: de 1 (muito baixo) a 5 (muito alto)
27. **Dalc**: Consumo de álcool durante a semana
    *   Tipo: Numérico (Ordinal)
    *   Valores: de 1 (muito baixo) a 5 (muito alto)
28. **Walc**: Consumo de álcool no fim de semana
    *   Tipo: Numérico (Ordinal)
    *   Valores: de 1 (muito baixo) a 5 (muito alto)
29. **health**: Estado de saúde atual
    *   Tipo: Numérico (Ordinal)
    *   Valores: de 1 (muito ruim) a 5 (muito bom)
30. **absences**: Número de faltas escolares
    *   Tipo: Numérico
    *   Valores: de 0 a 93

## Atributos Específicos da Disciplina (Matemática ou Português):

31. **G1**: Nota do primeiro período
    *   Tipo: Numérico
    *   Valores: de 0 a 20
32. **G2**: Nota do segundo período
    *   Tipo: Numérico
    *   Valores: de 0 a 20
33. **G3**: Nota final (variável alvo)
    *   Tipo: Numérico
    *   Valores: de 0 a 20

## Informações Adicionais:

*   Existem 382 estudantes que pertencem a ambos os conjuntos de dados (Matemática e Português). Estes podem ser identificados pela correspondência dos atributos que caracterizam cada estudante.
*   Os dados foram coletados através de relatórios escolares e questionários.
*   Não há valores ausentes (missing values) reportados nos datasets originais.

## Quantidade de Instâncias e Características (por dataset):

*   **student-mat.csv (Matemática):**
    *   Instâncias: 395
    *   Características: 33 (incluindo G1, G2, G3 para Matemática)
*   **student-por.csv (Português):**
    *   Instâncias: 649
    *   Características: 33 (incluindo G1, G2, G3 para Português)

Este dicionário servirá como base para as etapas subsequentes de limpeza, análise exploratória e modelagem dos dados.


## Fase 2: Análise Exploratória e Pré-processamento

### Script: 04_limpeza_inicial.py

Este script realiza o carregamento inicial dos datasets, verifica as dimensões, tipos de dados, valores ausentes e apresenta estatísticas descritivas iniciais.

In [None]:
import pandas as pd

# Carregar os datasets
try:
    df_mat = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-mat_processed.csv", sep=";")
    df_por = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-por_processed.csv", sep=";")
    print("Datasets student-mat.csv e student-por.csv carregados com sucesso.")
except FileNotFoundError:
    print("Erro: Um ou ambos os arquivos CSV não foram encontrados no diretório /content/drive/MyDrive/Colab Notebooks/dataset/")
    exit()

# Informações iniciais e verificação de valores ausentes para student-mat.csv
print("\n--- Análise Inicial: student-mat.csv ---")
print("\nShape do dataset (linhas, colunas):")
print(df_mat.shape)
print("\nPrimeiras 5 linhas:")
print(df_mat.head())
print("\nInformações do dataset:")
df_mat.info()
print("\nValores ausentes por coluna:")
print(df_mat.isnull().sum())

# Verificar se há colunas com tipo 'object' que deveriam ser numéricas ou categóricas e que não foram identificadas no dicionário
print("\nTipos de dados por coluna (student-mat.csv):")
print(df_mat.dtypes)

# Descrição estatística inicial para colunas numéricas
print("\nEstatísticas Descritivas (student-mat.csv):")
print(df_mat.describe(include='all'))

# Informações iniciais e verificação de valores ausentes para student-por.csv
print("\n\n--- Análise Inicial: student-por.csv ---")
print("\nShape do dataset (linhas, colunas):")
print(df_por.shape)
print("\nPrimeiras 5 linhas:")
print(df_por.head())
print("\nInformações do dataset:")
df_por.info()
print("\nValores ausentes por coluna:")
print(df_por.isnull().sum())

# Verificar se há colunas com tipo 'object' que deveriam ser numéricas ou categóricas e que não foram identificadas no dicionário
print("\nTipos de dados por coluna (student-por.csv):")
print(df_por.dtypes)

# Descrição estatística inicial para colunas numéricas
print("\nEstatísticas Descritivas (student-por.csv):")
print(df_por.describe(include='all'))

# O dicionário de dados menciona que não há valores ausentes.
# Esta verificação programática confirma isso para ambos os datasets.

# Próximas etapas da limpeza (a serem implementadas em scripts subsequentes ou no notebook):
# - Identificação e tratamento de outliers (ex: usando boxplots, Z-score).
# - Verificação de consistência dos dados (ex: 'age' entre 15 e 22).
# - Encoding de variáveis categóricas binárias (ex: 'yes'/'no' para 1/0, 'M'/'F' para 0/1) e nominais (ex: one-hot encoding para Mjob, Fjob, reason, guardian).

print("\nAnálise inicial de valores ausentes e tipos de dados concluída.")



Datasets student-mat.csv e student-por.csv carregados com sucesso.

--- Análise Inicial: student-mat.csv ---

Shape do dataset (linhas, colunas):
(395, 1)

Primeiras 5 linhas:
  school,sex,age,address,famsize,Pstatus,Medu,Fedu,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3,Mjob_health,Mjob_other,Mjob_services,Mjob_teacher,Fjob_health,Fjob_other,Fjob_services,Fjob_teacher,reason_home,reason_other,reason_reputation,guardian_mother,guardian_other
0  0,0,18,0,1,1,4,4,2,2,0,1,0,0,0,1,1,0,0,4,3,4,1...                                                                                                                                                                                                                                                                                                                                     
1  0,0,17,0,1,0,1,1,1,2,0,0,1,0,0,0,1,1,0,5,3,3,1...                


**Resumo do Output Esperado (ver `04_limpeza_inicial_output.txt` para detalhes):**
* Confirmação do carregamento dos datasets.
* Shape (linhas, colunas) de cada dataset.
* Primeiras linhas de cada dataset.
* Informações gerais (tipos de dados, contagem não nula).
* Verificação de valores ausentes (esperado: nenhum).
* Estatísticas descritivas iniciais.


### Script: 05_eda_preprocessing.py

Este script realiza o encoding de variáveis categóricas, análise exploratória de dados (EDA) com visualizações e detecção de outliers. Os datasets processados são salvos.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Criar diretório para salvar gráficos se não existir
import os
if not os.path.exists("/content/drive/MyDrive/Colab Notebooks/dataset/plots"):
    os.makedirs("/content/drive/MyDrive/Colab Notebooks/dataset/plots")

def preprocess_and_eda(df, course_name):
    print(f"\n--- Pré-processamento e EDA para: {course_name} ---")

    # Copiar dataframe para evitar SettingWithCopyWarning
    df_processed = df.copy()

    # 1. Encoding de Variáveis Categóricas
    print("\n1. Encoding de Variáveis Categóricas...")

    # Variáveis binárias (sim/não ou equivalentes)
    binary_cols_map = {
        'schoolsup': {'yes': 1, 'no': 0},
        'famsup': {'yes': 1, 'no': 0},
        'paid': {'yes': 1, 'no': 0},
        'activities': {'yes': 1, 'no': 0},
        'nursery': {'yes': 1, 'no': 0},
        'higher': {'yes': 1, 'no': 0},
        'internet': {'yes': 1, 'no': 0},
        'romantic': {'yes': 1, 'no': 0}
    }
    for col, mapping in binary_cols_map.items():
        df_processed[col] = df_processed[col].map(mapping)
        print(f"Coluna '{col}' mapeada para numérico.")

    # Outras variáveis binárias específicas
    df_processed['school'] = df_processed['school'].map({'GP': 0, 'MS': 1})
    df_processed['sex'] = df_processed['sex'].map({'F': 0, 'M': 1})
    df_processed['address'] = df_processed['address'].map({'U': 0, 'R': 1})
    df_processed['famsize'] = df_processed['famsize'].map({'LE3': 0, 'GT3': 1})
    df_processed['Pstatus'] = df_processed['Pstatus'].map({'T': 0, 'A': 1})
    print("Colunas 'school', 'sex', 'address', 'famsize', 'Pstatus' mapeadas para numérico.")

    # Variáveis nominais (One-Hot Encoding)
    nominal_cols = ['Mjob', 'Fjob', 'reason', 'guardian']
    df_processed = pd.get_dummies(df_processed, columns=nominal_cols, prefix=nominal_cols, drop_first=True)
    print(f"Variáveis nominais {nominal_cols} convertidas com One-Hot Encoding.")

    print("\nShape após encoding:", df_processed.shape)
    print("Tipos de dados após encoding:")
    print(df_processed.dtypes)

    # 2. Análise Exploratória de Dados (EDA) e Detecção de Outliers
    print("\n2. Análise Exploratória de Dados (EDA) e Detecção de Outliers...")

    # Distribuição da variável alvo (G3)
    plt.figure(figsize=(8, 5))
    sns.histplot(df_processed['G3'], kde=True)
    plt.title(f'Distribuição da Nota Final (G3) - {course_name}')
    plt.xlabel('Nota Final (G3)')
    plt.ylabel('Frequência')
    plot_path_g3_hist = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_G3_distribution.png"
    plt.savefig(plot_path_g3_hist)
    plt.close()
    print(f"Histograma de G3 salvo em: {plot_path_g3_hist}")

    # Boxplots para detectar outliers em colunas numéricas chave
    numerical_cols_for_outliers = ['age', 'absences', 'G1', 'G2', 'G3', 'Medu', 'Fedu', 'traveltime', 'studytime', 'failures', 'famrel', 'freetime', 'goout', 'Dalc', 'Walc', 'health']
    for col in numerical_cols_for_outliers:
        if col in df_processed.columns:
            plt.figure(figsize=(6, 4))
            sns.boxplot(x=df_processed[col])
            plt.title(f'Boxplot de {col} - {course_name}')
            plot_path_boxplot = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_{col}_boxplot.png"
            plt.savefig(plot_path_boxplot)
            plt.close()
            print(f"Boxplot de {col} salvo em: {plot_path_boxplot}")
        else:
            print(f"Coluna {col} não encontrada para boxplot em {course_name}.")

    # Matriz de Correlação (apenas para colunas numéricas)
    # Selecionar apenas colunas numéricas para a matriz de correlação
    numeric_df = df_processed.select_dtypes(include=np.number)
    plt.figure(figsize=(20, 15))
    correlation_matrix = numeric_df.corr()
    sns.heatmap(correlation_matrix, annot=False, cmap='coolwarm', linewidths=0.5)
    plt.title(f'Matriz de Correlação - {course_name}')
    plot_path_corr = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_correlation_matrix.png"
    plt.savefig(plot_path_corr)
    plt.close()
    print(f"Matriz de correlação salva em: {plot_path_corr}")

    # Relação de algumas variáveis categóricas (originais) com G3
    categorical_eda_cols = ['sex', 'address', 'studytime', 'schoolsup', 'famsup', 'paid', 'activities', 'higher', 'internet', 'romantic']
    # Mapeamento reverso para legendas mais claras nos gráficos (antes do encoding)
    # Para esta parte da EDA, vamos usar o df original para as colunas categóricas que foram mapeadas para 0/1
    # E o df_processed para G3
    original_df_for_eda = df.copy()
    original_df_for_eda['G3'] = df_processed['G3'] # Usar G3 do df processado (caso haja alguma alteração, embora não haja neste script)

    for col in categorical_eda_cols:
        if col in original_df_for_eda.columns:
            plt.figure(figsize=(8, 5))
            sns.boxplot(x=original_df_for_eda[col], y=original_df_for_eda['G3'])
            plt.title(f'G3 vs {col} - {course_name}')
            plot_path_cat_eda = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_G3_vs_{col}.png"
            plt.savefig(plot_path_cat_eda)
            plt.close()
            print(f"Boxplot G3 vs {col} salvo em: {plot_path_cat_eda}")

    print(f"\nPré-processamento e EDA inicial para {course_name} concluídos.")
    return df_processed

# Carregar os datasets
try:
    df_mat_orig = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-mat.csv", sep=";")
    df_por_orig = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-por.csv", sep=";")
    print("Datasets originais student-mat.csv e student-por.csv carregados.")
except FileNotFoundError:
    print("Erro: Um ou ambos os arquivos CSV originais não foram encontrados.")
    exit()

df_mat_processed = preprocess_and_eda(df_mat_orig, "Matematica")
df_por_processed = preprocess_and_eda(df_por_orig, "Portugues")

# Salvar os dataframes processados (opcional, mas bom para checkpoints)
df_mat_processed.to_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-mat_processed.csv", index=False)
df_por_processed.to_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-por_processed.csv", index=False)
print("\nDataframes processados salvos em student-mat_processed.csv e student-por_processed.csv")

print("\nScript de pré-processamento e EDA concluído.")



Datasets originais student-mat.csv e student-por.csv carregados.

--- Pré-processamento e EDA para: Matematica ---

1. Encoding de Variáveis Categóricas...
Coluna 'schoolsup' mapeada para numérico.
Coluna 'famsup' mapeada para numérico.
Coluna 'paid' mapeada para numérico.
Coluna 'activities' mapeada para numérico.
Coluna 'nursery' mapeada para numérico.
Coluna 'higher' mapeada para numérico.
Coluna 'internet' mapeada para numérico.
Coluna 'romantic' mapeada para numérico.
Colunas 'school', 'sex', 'address', 'famsize', 'Pstatus' mapeadas para numérico.
Variáveis nominais ['Mjob', 'Fjob', 'reason', 'guardian'] convertidas com One-Hot Encoding.

Shape após encoding: (395, 42)
Tipos de dados após encoding:
school               int64
sex                  int64
age                  int64
address              int64
famsize              int64
Pstatus              int64
Medu                 int64
Fedu                 int64
traveltime           int64
studytime            int64
failures         


**Resumo do Output Esperado (ver `05_eda_preprocessing_output.txt` para detalhes):**
* Confirmação do encoding de variáveis categóricas.
* Shape dos datasets após encoding.
* Geração e salvamento de diversos gráficos (histogramas, boxplots, matrizes de correlação) na pasta `/content/drive/MyDrive/Colab Notebooks/dataset/plots/`.
* Salvamento dos dataframes processados (`student-mat_processed.csv` e `student-por_processed.csv`).


## Fase 3: Modelagem e Avaliação

### Script: 06_linear_modeling.py

Este script realiza a seleção de características (Pearson, F-ANOVA) e treina modelos de Regressão Linear para prever G3. Avalia os modelos usando MSE e R² e gera plots de resíduos.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.feature_selection import f_regression, SelectKBest
import matplotlib.pyplot as plt
import seaborn as sns

# Criar diretório para salvar gráficos se não existir
import os
if not os.path.exists("/content/drive/MyDrive/Colab Notebooks/dataset/plots"):
    os.makedirs("/content/drive/MyDrive/Colab Notebooks/dataset/plots")

def linear_modeling_analysis(df_processed, course_name):
    print(f"\n--- Análise de Modelagem Linear para: {course_name} ---")

    if df_processed.empty:
        print(f"Dataset processado para {course_name} está vazio. Pulando modelagem.")
        return None, None

    # 1. Seleção de Características
    print("\n1. Seleção de Características...")

    # Separar features (X) e target (y)
    X = df_processed.drop("G3", axis=1)
    y = df_processed["G3"]

    # Garantir que todas as colunas em X são numéricas (bool para int)
    for col in X.columns:
        if X[col].dtype == bool:
            X[col] = X[col].astype(int)

    # Pearson Correlation (para G3 com outras features numéricas)
    # Re-calcular correlação com G3 no dataframe processado e numérico
    numeric_df_for_corr = df_processed.select_dtypes(include=np.number)
    if not numeric_df_for_corr.empty:
        correlations_with_g3 = numeric_df_for_corr.corr()["G3"].sort_values(ascending=False)
        print("\nCorrelação de Pearson das features numéricas com G3:")
        print(correlations_with_g3)

        # Plotar as correlações mais fortes com G3
        plt.figure(figsize=(10, 8))
        top_corr_features = correlations_with_g3[abs(correlations_with_g3) > 0.1] # Arbitrário, pegar correlações > 0.1
        sns.barplot(x=top_corr_features.values, y=top_corr_features.index)
        plt.title(f"Correlação de Pearson com G3 (>0.1) - {course_name}")
        plt.xlabel("Coeficiente de Correlação")
        plot_path_pearson = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_G3_pearson_correlation.png"
        plt.savefig(plot_path_pearson)
        plt.close()
        print(f"Gráfico de correlação de Pearson salvo em: {plot_path_pearson}")
    else:
        print("Não foi possível calcular a correlação de Pearson, dataframe numérico vazio.")

    # F-ANOVA para seleção de features (para regressão)
    # Selecionar k melhores features. Vamos pegar as top 10 para este exemplo.
    # SelectKBest requer que X não tenha NaNs. Já verificamos que não há NaNs.
    # No entanto, X pode conter colunas não numéricas se o encoding não foi completo ou se algo deu errado.
    # Vamos garantir que X seja totalmente numérico antes de aplicar SelectKBest.
    X_numeric_for_anova = X.select_dtypes(include=np.number)
    if not X_numeric_for_anova.empty:
        # Tentar selecionar um k razoável, por exemplo, metade das features ou um máximo de 15-20
        k_features = min(15, X_numeric_for_anova.shape[1] // 2 if X_numeric_for_anova.shape[1] > 1 else 1)
        if k_features < 1: k_features = 1 # Garantir pelo menos 1 feature

        selector_f_anova = SelectKBest(score_func=f_regression, k=k_features)
        try:
            X_selected_anova = selector_f_anova.fit_transform(X_numeric_for_anova, y)
            selected_features_anova_indices = selector_f_anova.get_support(indices=True)
            selected_features_anova_names = X_numeric_for_anova.columns[selected_features_anova_indices]
            print(f"\nTop {k_features} features selecionadas por F-ANOVA (para regressão):")
            print(selected_features_anova_names.tolist())

            # Salvar scores F-ANOVA
            f_scores_df = pd.DataFrame({
                "Feature": X_numeric_for_anova.columns,
                "F_Score": selector_f_anova.scores_,
                "P_Value": selector_f_anova.pvalues_
            }).sort_values(by="F_Score", ascending=False)
            print("\nScores F-ANOVA:")
            print(f_scores_df.head(k_features))
            f_scores_df.to_csv(f"/content/drive/MyDrive/Colab Notebooks/dataset/plots{course_name}_f_anova_scores.csv", index=False)
            print(f"Scores F-ANOVA salvos em /content/drive/MyDrive/Colab Notebooks/dataset/plots{course_name}_f_anova_scores.csv")

        except ValueError as e:
            print(f"Erro ao aplicar F-ANOVA para {course_name}: {e}")
            print("Verifique se há NaNs ou Infs nas features numéricas ou no target.")
            selected_features_anova_names = X_numeric_for_anova.columns # Usar todas as features numéricas se a seleção falhar
    else:
        print("Não foi possível aplicar F-ANOVA, dataframe numérico de features vazio.")
        selected_features_anova_names = X.columns # Usar todas as features se a seleção falhar

    # Usar as features selecionadas pelo F-ANOVA para o modelo linear, se disponíveis e válidas
    # Se a seleção F-ANOVA falhou ou resultou em poucas features, podemos usar um conjunto diferente ou todas as numéricas.
    # Por simplicidade, vamos usar as features numéricas que tiveram correlação com G3 > 0.1 (ou todas se nenhuma)
    if not numeric_df_for_corr.empty and not top_corr_features.empty:
        features_for_model = top_corr_features.index.tolist()
        if "G3" in features_for_model: # Remover G3 se estiver presente (é o target)
            features_for_model.remove("G3")
        if not features_for_model: # Se a lista ficar vazia
             print("Nenhuma feature com correlação > 0.1 encontrada, usando todas as numéricas.")
             features_for_model = X_numeric_for_anova.columns.tolist()
    elif not X_numeric_for_anova.empty:
        print("Usando todas as features numéricas para o modelo linear devido a problemas na seleção.")
        features_for_model = X_numeric_for_anova.columns.tolist()
    else:
        print("Não há features numéricas para o modelo linear. Pulando modelagem.")
        return None, None

    if not features_for_model:
        print(f"Nenhuma feature selecionada para o modelo linear de {course_name}. Pulando modelagem.")
        return None, None

    print(f"\nFeatures selecionadas para o modelo linear ({course_name}): {features_for_model}")
    X_model = X[features_for_model]

    # 2. Treinamento do Modelo de Regressão Linear
    print("\n2. Treinamento do Modelo de Regressão Linear...")
    X_train, X_test, y_train, y_test = train_test_split(X_model, y, test_size=0.2, random_state=42)

    linear_model = LinearRegression()
    linear_model.fit(X_train, y_train)

    # 3. Avaliação do Modelo
    print("\n3. Avaliação do Modelo Linear...")
    y_pred_linear = linear_model.predict(X_test)

    mse_linear = mean_squared_error(y_test, y_pred_linear)
    r2_linear = r2_score(y_test, y_pred_linear)

    print(f"Mean Squared Error (MSE) - Linear: {mse_linear}")
    print(f"R-squared (R2) - Linear: {r2_linear}")

    results_summary = {
        "course": course_name,
        "model_type": "Linear Regression",
        "features_used": features_for_model,
        "mse": mse_linear,
        "r2": r2_linear
    }

    # Plot de Resíduos
    residuals = y_test - y_pred_linear
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=y_pred_linear, y=residuals)
    plt.axhline(0, color='red', linestyle='--')
    plt.xlabel("Valores Preditos")
    plt.ylabel("Resíduos")
    plt.title(f"Plot de Resíduos - Regressão Linear - {course_name}")
    plot_path_residuals = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_linear_residuals.png"
    plt.savefig(plot_path_residuals)
    plt.close()
    print(f"Plot de resíduos salvo em: {plot_path_residuals}")

    print(f"\nAnálise de modelagem linear para {course_name} concluída.")
    return linear_model, results_summary

# Carregar os dataframes processados
try:
    df_mat_processed = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/plotsstudent-mat_processed.csv")
    df_por_processed = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/plotsstudent-por_processed.csv")
    print("Datasets processados student-mat_processed.csv e student-por_processed.csv carregados.")
except FileNotFoundError:
    print("Erro: Um ou ambos os arquivos CSV processados não foram encontrados.")
    exit()

all_results = []

model_mat, results_mat = linear_modeling_analysis(df_mat_processed, "Matematica")
if results_mat: all_results.append(results_mat)

model_por, results_por = linear_modeling_analysis(df_por_processed, "Portugues")
if results_por: all_results.append(results_por)

# Salvar resumo dos resultados
if all_results:
    results_df = pd.DataFrame(all_results)
    results_df.to_csv("/content/drive/MyDrive/Colab Notebooks/dataset/plots06_linear_modeling_results.csv", index=False)
    print("\nResultados da modelagem linear salvos em /content/drive/MyDrive/Colab Notebooks/dataset/plots06_linear_modeling_results.csv")
else:
    print("\nNenhum resultado de modelagem linear para salvar.")

print("\nScript de modelagem linear concluído.")



Erro: Um ou ambos os arquivos CSV processados não foram encontrados.

--- Análise de Modelagem Linear para: Matematica ---

1. Seleção de Características...

Correlação de Pearson das features numéricas com G3:
G3            1.000000
G2            0.904868
G1            0.801468
Medu          0.217147
higher        0.182465
Fedu          0.152457
sex           0.103456
paid          0.101996
internet      0.098483
studytime     0.097820
Pstatus       0.058009
nursery       0.051568
famrel        0.051363
absences      0.034247
activities    0.016100
freetime      0.011307
famsup       -0.039157
school       -0.045017
Walc         -0.051939
Dalc         -0.054660
health       -0.061335
famsize      -0.081407
schoolsup    -0.082788
address      -0.105756
traveltime   -0.117142
romantic     -0.129970
goout        -0.132791
age          -0.161579
failures     -0.360415
Name: G3, dtype: float64
Gráfico de correlação de Pearson salvo em: /content/drive/MyDrive/Colab Notebooks/dataset/plots/M


**Resumo do Output Esperado (ver `06_linear_modeling_output.txt` para detalhes):**
* Resultados da correlação de Pearson com G3.
* Lista das features selecionadas por F-ANOVA e seus scores.
* Features selecionadas para os modelos lineares.
* Métricas MSE e R² para os modelos de Matemática e Português.
* Salvamento dos plots de resíduos e gráficos de correlação na pasta `/content/drive/MyDrive/Colab Notebooks/dataset/plots/`.
* Salvamento dos resultados da modelagem em `06_linear_modeling_results.csv`.


### Script: 07_nonlinear_modeling.py

Este script treina modelos não lineares (Árvore de Decisão Regressor, Random Forest Regressor) para prever G3. Avalia os modelos e gera plots de resíduos e importância das features.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

# Criar diretório para salvar gráficos se não existir
import os
if not os.path.exists("/content/drive/MyDrive/Colab Notebooks/dataset/plots"):
    os.makedirs("/content/drive/MyDrive/Colab Notebooks/dataset/plots")

def nonlinear_modeling_analysis(df_processed, course_name, existing_results_df=None):
    print(f"\n--- Análise de Modelagem Não Linear para: {course_name} ---")

    if df_processed.empty:
        print(f"Dataset processado para {course_name} está vazio. Pulando modelagem não linear.")
        return []

    model_results = []

    # 1. Preparação dos Dados
    print("\n1. Preparação dos Dados...")
    X = df_processed.drop("G3", axis=1)
    y = df_processed["G3"]

    # Garantir que todas as colunas em X são numéricas (bool para int)
    for col in X.columns:
        if X[col].dtype == bool:
            X[col] = X[col].astype(int)

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # --- Modelo: Árvore de Decisão (Regressão) ---
    print("\n2. Treinamento do Modelo: Árvore de Decisão (Regressão)...")
    dt_model = DecisionTreeRegressor(random_state=42)
    dt_model.fit(X_train, y_train)
    y_pred_dt = dt_model.predict(X_test)
    mse_dt = mean_squared_error(y_test, y_pred_dt)
    r2_dt = r2_score(y_test, y_pred_dt)
    print(f"Árvore de Decisão - MSE: {mse_dt}, R2: {r2_dt}")
    model_results.append({
        "course": course_name,
        "model_type": "Decision Tree Regressor",
        "features_used": "All after encoding",
        "mse": mse_dt,
        "r2": r2_dt
    })

    # Plot de Resíduos para Árvore de Decisão
    residuals_dt = y_test - y_pred_dt
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=y_pred_dt, y=residuals_dt)
    plt.axhline(0, color='red', linestyle='--')
    plt.xlabel("Valores Preditos (Árvore de Decisão)")
    plt.ylabel("Resíduos")
    plt.title(f"Plot de Resíduos - Árvore de Decisão - {course_name}")
    plot_path_residuals_dt = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_dt_residuals.png"
    plt.savefig(plot_path_residuals_dt)
    plt.close()
    print(f"Plot de resíduos da Árvore de Decisão salvo em: {plot_path_residuals_dt}")

    # --- Modelo: Random Forest (Regressão) ---
    print("\n3. Treinamento do Modelo: Random Forest (Regressão)...")
    rf_model = RandomForestRegressor(random_state=42, n_estimators=100) # n_estimators é um hiperparâmetro comum
    rf_model.fit(X_train, y_train)
    y_pred_rf = rf_model.predict(X_test)
    mse_rf = mean_squared_error(y_test, y_pred_rf)
    r2_rf = r2_score(y_test, y_pred_rf)
    print(f"Random Forest - MSE: {mse_rf}, R2: {r2_rf}")
    model_results.append({
        "course": course_name,
        "model_type": "Random Forest Regressor",
        "features_used": "All after encoding",
        "mse": mse_rf,
        "r2": r2_rf
    })

    # Plot de Resíduos para Random Forest
    residuals_rf = y_test - y_pred_rf
    plt.figure(figsize=(10, 6))
    sns.scatterplot(x=y_pred_rf, y=residuals_rf)
    plt.axhline(0, color='red', linestyle='--')
    plt.xlabel("Valores Preditos (Random Forest)")
    plt.ylabel("Resíduos")
    plt.title(f"Plot de Resíduos - Random Forest - {course_name}")
    plot_path_residuals_rf = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_rf_residuals.png"
    plt.savefig(plot_path_residuals_rf)
    plt.close()
    print(f"Plot de resíduos do Random Forest salvo em: {plot_path_residuals_rf}")

    # Feature Importance para Random Forest
    importances = rf_model.feature_importances_
    feature_names = X_train.columns
    forest_importances = pd.Series(importances, index=feature_names).sort_values(ascending=False)

    plt.figure(figsize=(12, 8))
    sns.barplot(x=forest_importances.head(15), y=forest_importances.head(15).index) # Top 15 features
    plt.title(f"Importância das Features (Random Forest) - {course_name}")
    plt.xlabel("Importância")
    plt.ylabel("Feature")
    plot_path_rf_importance = f"/content/drive/MyDrive/Colab Notebooks/dataset/plots/{course_name}_rf_feature_importance.png"
    plt.savefig(plot_path_rf_importance)
    plt.close()
    print(f"Gráfico de importância das features do Random Forest salvo em: {plot_path_rf_importance}")
    print("\nImportância das Features (Random Forest):")
    print(forest_importances.head(15))

    print(f"\nAnálise de modelagem não linear para {course_name} concluída.")
    return model_results

# Carregar os dataframes processados
try:
    df_mat_processed = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-mat_processed.csv")
    df_por_processed = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/dataset/student-por_processed.csv")
    print("Datasets processados student-mat_processed.csv e student-por_processed.csv carregados.")
except FileNotFoundError:
    print("Erro: Um ou ambos os arquivos CSV processados não foram encontrados.")
    exit()

# Carregar resultados da modelagem linear para concatenar
linear_results_path = "/content/drive/MyDrive/Colab Notebooks/dataset/06_linear_modeling_results.csv"
if os.path.exists(linear_results_path):
    df_linear_results = pd.read_csv(linear_results_path)
else:
    df_linear_results = pd.DataFrame()

all_model_results = []
if not df_linear_results.empty:
    all_model_results.extend(df_linear_results.to_dict("records"))

results_mat_nl = nonlinear_modeling_analysis(df_mat_processed, "Matematica")
all_model_results.extend(results_mat_nl)

results_por_nl = nonlinear_modeling_analysis(df_por_processed, "Portugues")
all_model_results.extend(results_por_nl)

# Salvar resumo de todos os resultados
if all_model_results:
    results_df_combined = pd.DataFrame(all_model_results)
    results_df_combined.to_csv("/content/drive/MyDrive/Colab Notebooks/dataset/07_all_modeling_results.csv", index=False)
    print("\nResultados combinados de todas as modelagens salvos em /content/drive/MyDrive/Colab Notebooks/dataset/07_all_modeling_results.csv")
else:
    print("\nNenhum resultado de modelagem para salvar.")

print("\nScript de modelagem não linear concluído.")



Datasets processados student-mat_processed.csv e student-por_processed.csv carregados.

--- Análise de Modelagem Não Linear para: Matematica ---

1. Preparação dos Dados...

2. Treinamento do Modelo: Árvore de Decisão (Regressão)...
Árvore de Decisão - MSE: 8.08860759493671, R2: 0.6055308973838027
Plot de resíduos da Árvore de Decisão salvo em: /content/drive/MyDrive/Colab Notebooks/dataset/plots/Matematica_dt_residuals.png

3. Treinamento do Modelo: Random Forest (Regressão)...
Random Forest - MSE: 3.6961620253164544, R2: 0.8197437939549277
Plot de resíduos do Random Forest salvo em: /content/drive/MyDrive/Colab Notebooks/dataset/plots/Matematica_rf_residuals.png
Gráfico de importância das features do Random Forest salvo em: /content/drive/MyDrive/Colab Notebooks/dataset/plots/Matematica_rf_feature_importance.png

Importância das Features (Random Forest):
G2                 0.793063
absences           0.109782
reason_home        0.021284
age                0.011109
G1                 


**Resumo do Output Esperado (ver `07_nonlinear_modeling_output.txt` para detalhes):**
* Métricas MSE e R² para os modelos de Árvore de Decisão e Random Forest (Matemática e Português).
* Salvamento dos plots de resíduos e gráficos de importância das features na pasta `/content/drive/MyDrive/Colab Notebooks/dataset/plots/`.
* Salvamento dos resultados combinados de todas as modelagens em `07_all_modeling_results.csv`.


## Fase 4: Conclusões, Respostas às Perguntas e Recomendações

# Conclusões, Respostas às Perguntas e Recomendações

Este documento apresenta as conclusões da análise de dados sobre o desempenho de estudantes, responde às perguntas formuladas inicialmente e discute as limitações do estudo, além de sugerir trabalhos futuros.

## Análise Comparativa dos Modelos

Com base nos resultados consolidados no arquivo `07_all_modeling_results.csv`, podemos comparar o desempenho dos modelos de Regressão Linear, Árvore de Decisão (Regressor) e Random Forest (Regressor) para prever as notas finais (G3) dos alunos nas disciplinas de Matemática e Português.

**Para a disciplina de Matemática:**

*   **Regressão Linear:** MSE = 4.84, R² = 0.764
*   **Árvore de Decisão:** MSE = 8.09, R² = 0.606
*   **Random Forest:** MSE = 3.70, R² = 0.820

Observa-se que o modelo **Random Forest Regressor** apresentou o melhor desempenho para prever as notas de Matemática, com o menor MSE (3.70) e o maior R² (0.820). A Regressão Linear teve um desempenho razoável, enquanto a Árvore de Decisão teve o pior desempenho entre os três.

**Para a disciplina de Português:**

*   **Regressão Linear:** MSE = 1.40, R² = 0.856
*   **Árvore de Decisão:** MSE = 2.75, R² = 0.718
*   **Random Forest:** MSE = 1.58, R² = 0.838

Para Português, a **Regressão Linear** ligeiramente superou o Random Forest em termos de R² (0.856 vs 0.838) e MSE (1.40 vs 1.58), embora ambos tenham apresentado um desempenho muito bom e significativamente superior à Árvore de Decisão. O Random Forest ainda é uma excelente alternativa, especialmente considerando sua capacidade de capturar relações não lineares e fornecer insights sobre a importância das features.

**Importância das Features (Random Forest):**

*   **Matemática:** As features mais importantes identificadas pelo Random Forest foram `G2` (nota do segundo período), `absences` (número de faltas) e `reason_home` (razão para escolher a escola ser perto de casa). `G1` (nota do primeiro período) também apareceu, mas com menor importância que `absences`.
*   **Português:** Similarmente, `G2` foi a feature mais importante, seguida por `absences` e `G1`. Outras features como `age`, `Dalc` (consumo de álcool durante a semana) e `Medu` (educação da mãe) também mostraram alguma relevância.

A forte influência de `G1` e `G2` nas previsões de `G3` é esperada, pois são notas sequenciais do mesmo aluno na mesma disciplina. A importância de `absences` destaca o impacto negativo da frequência irregular nas notas finais.

## Respostas às Perguntas do Problema

Com base na Análise Exploratória de Dados (EDA) e nos resultados da modelagem, podemos responder às perguntas formuladas inicialmente (ver `02_problema_perguntas.md`):

1.  **Quais são os principais fatores demográficos (sexo, idade) que afetam o desempenho dos alunos em Matemática e Português?**
    *   **Sexo:** Para Matemática, a Regressão Linear incluiu `sex` como uma feature relevante, e a correlação de Pearson mostrou uma leve correlação positiva (0.103) com G3, sugerindo que alunos do sexo masculino (codificado como 1) podem ter notas ligeiramente superiores em média, embora essa correlação seja fraca. Para Português, a correlação de Pearson com G3 foi negativa (-0.129), sugerindo que alunas do sexo feminino (codificado como 0) podem ter notas ligeiramente melhores. A importância da feature `sex` no Random Forest não foi proeminente em nenhum dos casos.
    *   **Idade:** Para Matemática, a correlação de Pearson com G3 foi de -0.162, e a Regressão Linear incluiu `age`. No Random Forest, `age` teve alguma importância. Para Português, a correlação foi de -0.107, e `age` também apareceu como relevante no Random Forest. Isso sugere que alunos mais velhos (potencialmente com repetências) tendem a ter notas ligeiramente inferiores em ambas as disciplinas.

2.  **Como as características socioeconômicas da família do estudante (educação dos pais, tamanho da família, status de coabitação dos pais) se relacionam com suas notas finais?**
    *   **Educação dos Pais (Medu, Fedu):** `Medu` (educação da mãe) mostrou correlação positiva com G3 em Matemática (0.217) e Português (0.240). `Fedu` (educação do pai) também teve correlação positiva (Matemática: 0.152, Português: 0.212). Ambos foram selecionados pela Regressão Linear para Matemática e Português, e `Medu` apareceu com alguma importância no Random Forest para Português. Isso indica que um maior nível de educação dos pais está associado a melhores notas dos alunos.
    *   **Tamanho da Família (famsize):** A correlação com G3 foi ligeiramente negativa (Matemática: -0.081, Português: -0.045), sugerindo que alunos de famílias menores (`LE3`) podem ter um desempenho um pouco melhor, mas o efeito é fraco.
    *   **Status de Coabitação dos Pais (Pstatus):** A correlação com G3 foi muito próxima de zero para ambas as disciplinas, indicando pouco impacto direto isolado.

3.  **Qual é o impacto dos hábitos de estudo (tempo de estudo semanal, falhas em classes anteriores) no desempenho final dos alunos?**
    *   **Tempo de Estudo (studytime):** Para Matemática, a correlação com G3 foi de 0.098. Para Português, foi mais forte, 0.250, e foi selecionada pela Regressão Linear e teve alguma importância no Random Forest. Mais tempo de estudo parece beneficiar mais as notas de Português.
    *   **Falhas Anteriores (failures):** Esta variável mostrou uma correlação negativa forte e consistente com G3 em ambas as disciplinas (Matemática: -0.360, Português: -0.393). Foi uma feature importante em todos os modelos, indicando que o histórico de reprovações é um forte preditor de notas mais baixas.

4.  **Atividades extracurriculares (pagas ou não) e o uso da internet (para fins não escolares) influenciam positivamente ou negativamente as notas?**
    *   **Atividades Extracurriculares (activities):** A correlação com G3 foi muito baixa e positiva (Matemática: 0.016, Português: 0.060), sugerindo um impacto mínimo ou ligeiramente positivo.
    *   **Aulas Extras Pagas (paid):** Para Matemática, a correlação com G3 foi de 0.102 e foi selecionada pela Regressão Linear. Para Português, a correlação foi ligeiramente negativa (-0.055). O impacto parece depender da disciplina.
    *   **Uso da Internet (internet):** A correlação com G3 foi positiva (Matemática: 0.098, Português: 0.150) e foi selecionada pela Regressão Linear para Português. Ter acesso à internet em casa parece estar associado a notas ligeiramente melhores.

5.  **Fatores comportamentais como o consumo de álcool (durante a semana e fim de semana) e a frequência de saídas com amigos estão associados a um menor desempenho acadêmico?**
    *   **Consumo de Álcool (Dalc, Walc):** `Dalc` (durante a semana) teve correlação negativa com G3 (Matemática: -0.055, Português: -0.205). `Walc` (fim de semana) também (Matemática: -0.052, Português: -0.177). Para Português, ambas foram selecionadas pela Regressão Linear e `Dalc` teve alguma importância no Random Forest, sugerindo que maior consumo de álcool está associado a notas piores, especialmente em Português.
    *   **Saídas com Amigos (goout):** Correlação negativa com G3 (Matemática: -0.133, Português: -0.088). Foi selecionada pela Regressão Linear para Matemática. Saídas frequentes podem estar associadas a notas ligeiramente inferiores.

6.  **A qualidade das relações familiares e o apoio educacional fornecido pela escola ou família têm um papel significativo nas notas dos estudantes?**
    *   **Qualidade das Relações Familiares (famrel):** Correlação muito baixa e positiva com G3 (Matemática: 0.051, Português: 0.063), sugerindo um impacto positivo, mas fraco, quando isolado.
    *   **Apoio Educacional da Escola (schoolsup):** Correlação negativa com G3 (Matemática: -0.083, Português: -0.066). Isso pode ser contraintuitivo, mas talvez alunos que já têm dificuldades (e notas menores) são os que mais procuram ou recebem esse apoio.
    *   **Apoio Educacional Familiar (famsup):** Correlação muito baixa com G3 (Matemática: -0.039, Português: 0.059).

7.  **Existem diferenças significativas no desempenho e nos fatores influenciadores entre as disciplinas de Matemática e Português?**
    *   Sim. Embora muitas tendências sejam similares (ex: impacto de G1, G2, `failures`, educação dos pais), a força de algumas correlações e a seleção de features pelos modelos variaram. Por exemplo, `studytime` e consumo de álcool (`Dalc`, `Walc`) pareceram ter um impacto mais pronunciado em Português. O desempenho geral dos modelos também variou, com a Regressão Linear tendo um R² melhor para Português do que para Matemática, enquanto o Random Forest foi melhor para Matemática.

8.  **É possível construir um modelo de regressão preciso para prever a nota final (G3) dos alunos com base nas características disponíveis? Quais variáveis são mais preditivas?**
    *   Sim, é possível. O modelo Random Forest para Matemática alcançou um R² de 0.820, e a Regressão Linear para Português alcançou um R² de 0.856. Isso indica que uma grande proporção da variância nas notas finais pode ser explicada pelos modelos.
    *   As variáveis mais preditivas consistentemente foram `G1` e `G2`. `failures` e `absences` também se destacaram. Fatores socioeconômicos como `Medu` e `Fedu`, e comportamentais como `studytime` e consumo de álcool, também contribuíram, mas com menor peso que as notas anteriores e o histórico de falhas/faltas.

9.  **É possível desenvolver um modelo de classificação eficaz para categorizar os alunos em diferentes níveis de desempenho (ex: aprovado/reprovado, ou baixo/médio/alto rendimento) com base em seus atributos? Quais variáveis são mais discriminantes?**
    *   Esta análise focou em regressão para prever a nota exata (G3). Para responder a esta pergunta, seria necessário definir limiares para as categorias de desempenho e treinar modelos de classificação. No entanto, com base na importância das features identificadas na regressão, é provável que `G1`, `G2`, `failures` e `absences` também sejam altamente discriminantes para tarefas de classificação.

10. **Quais são as implicações práticas das descobertas para educadores, pais e formuladores de políticas educacionais visando a melhoria do desempenho estudantil?**
    *   **Intervenção Precoce:** O forte poder preditivo das notas anteriores (G1, G2) e do histórico de `failures` sugere a importância da intervenção precoce para alunos que demonstram dificuldades iniciais.
    *   **Combate à Infrequência:** O impacto negativo das `absences` reforça a necessidade de políticas e práticas para promover a assiduidade.
    *   **Apoio Socioeconômico e Familiar:** A influência da educação dos pais (`Medu`, `Fedu`) sugere que programas de apoio a famílias com menor background educacional podem ser benéficos.
    *   **Conscientização sobre Hábitos:** O impacto de `studytime` e do consumo de álcool (`Dalc`, `Walc`) pode ser usado em campanhas de conscientização para alunos e pais.
    *   **Personalização do Ensino:** As diferenças sutis entre os fatores que influenciam Matemática e Português podem indicar a necessidade de abordagens pedagógicas ligeiramente diferenciadas.

## Limitações do Estudo

*   **Causalidade vs. Correlação:** A análise identifica correlações e associações, mas não pode estabelecer relações de causa e efeito diretas.
*   **Dados de Duas Escolas:** Os resultados são baseados em dados de apenas duas escolas portuguesas e podem não ser generalizáveis para outros contextos.
*   **Variáveis Auto-Reportadas:** Algumas informações (ex: tempo de estudo, consumo de álcool) são auto-reportadas pelos alunos e podem estar sujeitas a vieses.
*   **Outliers:** Embora identificados via boxplots, o tratamento de outliers não foi aprofundado neste conjunto de scripts. Uma análise mais robusta de outliers poderia ser realizada.
*   **Hiperparâmetros dos Modelos:** Os modelos não lineares (Árvore de Decisão, Random Forest) foram treinados com hiperparâmetros padrão ou minimamente ajustados. Uma otimização de hiperparâmetros (tuning) poderia melhorar ainda mais seus desempenhos.
*   **Interpretabilidade de Modelos Complexos:** Modelos como Random Forest são mais difíceis de interpretar diretamente em comparação com a Regressão Linear, embora a análise de importância das features ajude.

## Trabalhos Futuros

*   **Modelagem de Classificação:** Desenvolver e avaliar modelos para classificar os alunos em categorias de desempenho (ex: aprovado/reprovado, ou baixo/médio/alto).
*   **Análise de Interação entre Features:** Investigar como diferentes variáveis interagem para influenciar o desempenho.
*   **Otimização de Hiperparâmetros:** Realizar um tuning mais rigoroso dos modelos de machine learning.
*   **Análise Longitudinal:** Se dados de múltiplos anos estivessem disponíveis, uma análise longitudinal poderia fornecer insights mais profundos sobre a progressão do desempenho.
*   **Coleta de Dados Adicionais:** Incluir outras variáveis que possam influenciar o desempenho, como fatores psicológicos (motivação, autoeficácia) ou qualidade do ensino percebida.
*   **Comparação com Outros Contextos:** Replicar o estudo em diferentes escolas ou países para verificar a generalidade dos achados.

Este conjunto de conclusões e respostas visa fornecer uma visão abrangente dos resultados obtidos e direcionar os próximos passos para a finalização do trabalho prático.


### Link para o Conjunto de Dados Original

O conjunto de dados original "Student Performance" pode ser encontrado no UCI Machine Learning Repository: [https://archive.ics.uci.edu/dataset/320/student+performance](https://archive.ics.uci.edu/dataset/320/student+performance)