<a href="https://colab.research.google.com/github/ADRIANATORREZANI/ADRIANATORREZANI/blob/main/An%C3%A1lise_e_Previs%C3%A3o_de_Rendimento_de_Estudantes_em_Portugal_Adriana.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Projeto: Análise e Previsão de Rendimento de Estudantes em Portugal

# --- 1. Importação de bibliotecas ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.metrics import r2_score, mean_squared_error, accuracy_score, precision_score, recall_score, confusion_matrix

# --- 2. Carregamento dos dados ---
matematica = pd.read_csv('https://docs.google.com/spreadsheets/d/e/2PACX-1vQmEm4SuBKE2_dXddpxAM38P7YbLWcRIAcb5lqql9nKlw4pbNd4sZS__a6oK1mI3MDfQu8PvHEUJVMC/pub?gid=1209425280&single=true&output=csv')
portugues = pd.read_csv('https://docs.google.com/spreadsheets/d/e/2PACX-1vQmEm4SuBKE2_dXddpxAM38P7YbLWcRIAcb5lqql9nKlw4pbNd4sZS__a6oK1mI3MDfQu8PvHEUJVMC/pub?gid=998950341&single=true&output=csv')
matematica.info()
portugues.info()
# --- 3. Tratamento de valores nulos ---
for col in matematica.columns:
    if matematica[col].dtype == 'object':
        matematica[col] = matematica[col].fillna('não informado')
    else:
        matematica[col] = matematica[col].fillna(matematica[col].median())

for col in portugues.columns:
    if portugues[col].dtype == 'object':
        portugues[col] = portugues[col].fillna('não informado')
    else:
        portugues[col] = portugues[col].fillna(portugues[col].median())
# --- 4. Pré-processamento ---
def preprocessamento(df):
    df_proc = df.copy()
    le = LabelEncoder()
    for col in df_proc.columns:
        if df_proc[col].dtype == 'object':
            df_proc[col] = le.fit_transform(df_proc[col].astype(str))
    df_proc = df_proc.fillna(0)
    return df_proc
matematica_proc = preprocessamento(matematica)
portugues_proc = preprocessamento(portugues)

### --- 5. Análise e Modelagem: Matemática ---
print("\n===== ANÁLISE - MATEMÁTICA =====")

# Regressão
X_math = matematica_proc.drop(['nota_final'], axis=1)
y_math = matematica_proc['nota_final']
X_train_m, X_test_m, y_train_m, y_test_m = train_test_split(X_math, y_math, test_size=0.3, random_state=42)

lr = LinearRegression()
lr.fit(X_train_m, y_train_m)
y_pred_lr = lr.predict(X_test_m)

print("\nRegressão Linear - Matemática")
print("R²:", r2_score(y_test_m, y_pred_lr))
print("RMSE:", np.sqrt(mean_squared_error(y_test_m, y_pred_lr)))

dtr = DecisionTreeRegressor(random_state=42)
dtr.fit(X_train_m, y_train_m)
y_pred_dtr = dtr.predict(X_test_m)

print("\nÁrvore de Decisão Regressora - Matemática")
print("R²:", r2_score(y_test_m, y_pred_dtr))
print("RMSE:", np.sqrt(mean_squared_error(y_test_m, y_pred_dtr)))

# Classificação
matematica_proc['Aprovado'] = np.where(matematica_proc['nota_final'] >= 10, 1, 0)
X_class = matematica_proc.drop(['nota_final', 'Aprovado'], axis=1)
y_class = matematica_proc['Aprovado']
X_train_c, X_test_c, y_train_c, y_test_c = train_test_split(X_class, y_class, test_size=0.3, random_state=42)

logr = LogisticRegression(max_iter=1000)
logr.fit(X_train_c, y_train_c)
y_pred_logr = logr.predict(X_test_c)

print("\nRegressão Logística - Matemática")
print("Acurácia:", accuracy_score(y_test_c, y_pred_logr))
print("Precisão:", precision_score(y_test_c, y_pred_logr))
print("Recall:", recall_score(y_test_c, y_pred_logr))
print("Matriz de Confusão:\n", confusion_matrix(y_test_c, y_pred_logr))

dtc = DecisionTreeClassifier(random_state=42)
dtc.fit(X_train_c, y_train_c)
y_pred_dtc = dtc.predict(X_test_c)

print("\nÁrvore de Decisão Classificadora - Matemática")
print("Acurácia:", accuracy_score(y_test_c, y_pred_dtc))
print("Precisão:", precision_score(y_test_c, y_pred_dtc))
print("Recall:", recall_score(y_test_c, y_pred_dtc))
print("Matriz de Confusão:\n", confusion_matrix(y_test_c, y_pred_dtc))

### --- 6. Análise e Modelagem: Português ---
print("\n===== ANÁLISE - PORTUGUÊS =====")

# Regressão
X_port = portugues_proc.drop(['nota_final'], axis=1)
y_port = portugues_proc['nota_final']
X_train_p, X_test_p, y_train_p, y_test_p = train_test_split(X_port, y_port, test_size=0.3, random_state=42)

lr_p = LinearRegression()
lr_p.fit(X_train_p, y_train_p)
y_pred_lr_p = lr_p.predict(X_test_p)

print("\nRegressão Linear - Português")
print("R²:", r2_score(y_test_p, y_pred_lr_p))
print("RMSE:", np.sqrt(mean_squared_error(y_test_p, y_pred_lr_p)))

dtr_p = DecisionTreeRegressor(random_state=42)
dtr_p.fit(X_train_p, y_train_p)
y_pred_dtr_p = dtr_p.predict(X_test_p)

print("\nÁrvore de Decisão Regressora - Português")
print("R²:", r2_score(y_test_p, y_pred_dtr_p))
print("RMSE:", np.sqrt(mean_squared_error(y_test_p, y_pred_dtr_p)))

# Classificação
portugues_proc['Aprovado'] = np.where(portugues_proc['nota_final'] >= 10, 1, 0)
X_class_p = portugues_proc.drop(['nota_final', 'Aprovado'], axis=1)
y_class_p = portugues_proc['Aprovado']
X_train_cp, X_test_cp, y_train_cp, y_test_cp = train_test_split(X_class_p, y_class_p, test_size=0.3, random_state=42)

logr_p = LogisticRegression(max_iter=1000)
logr_p.fit(X_train_cp, y_train_cp)
y_pred_logr_p = logr_p.predict(X_test_cp)

print("\nRegressão Logística - Português")
print("Acurácia:", accuracy_score(y_test_cp, y_pred_logr_p))
print("Precisão:", precision_score(y_test_cp, y_pred_logr_p))
print("Recall:", recall_score(y_test_cp, y_pred_logr_p))
print("Matriz de Confusão:\n", confusion_matrix(y_test_cp, y_pred_logr_p))

dtc_p = DecisionTreeClassifier(random_state=42)
dtc_p.fit(X_train_cp, y_train_cp)
y_pred_dtc_p = dtc_p.predict(X_test_cp)

print("\nÁrvore de Decisão Classificadora - Português")
print("Acurácia:", accuracy_score(y_test_cp, y_pred_dtc_p))
print("Precisão:", precision_score(y_test_cp, y_pred_dtc_p))
print("Recall:", recall_score(y_test_cp, y_pred_dtc_p))
print("Matriz de Confusão:\n", confusion_matrix(y_test_cp, y_pred_dtc_p))

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 33 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   escola                        395 non-null    object
 1   sexo                          395 non-null    object
 2   idade                         395 non-null    int64 
 3   tipo_endereco                 395 non-null    object
 4   tamanho_familia               395 non-null    object
 5   status_pais                   395 non-null    object
 6   educ_mae                      395 non-null    int64 
 7   educ_pai                      395 non-null    int64 
 8   trab_mae                      395 non-null    object
 9   trab_pai                      395 non-null    object
 10  motivo_escolha                395 non-null    object
 11  responsavel                   395 non-null    object
 12  tempo_viagem                  395 non-null    int64 
 13  tempo_estudo        

In [None]:
print("\n===== AVALIAÇÃO DE OVERFITTING E UNDERFITTING =====")

def avaliar_over_underfitting(modelo, X_train, y_train, X_test, y_test, tipo="regressao"):
    if tipo == "regressao":
        y_train_pred = modelo.predict(X_train)
        y_test_pred = modelo.predict(X_test)
        r2_train = r2_score(y_train, y_train_pred)
        r2_test = r2_score(y_test, y_test_pred)
        print(f"\nModelo: {modelo.__class__.__name__}")
        print(f"R² Treino: {r2_train:.2f}")
        print(f"R² Teste: {r2_test:.2f}")
        if r2_train > 0.85 and (r2_train - r2_test) > 0.2:
            print("Indício de OVERFITTING")
        elif r2_train < 0.5 and r2_test < 0.5:
            print("Indício de UNDERFITTING")
        else:
            print("Modelo parece equilibrado")

    elif tipo == "classificacao":
        acc_train = modelo.score(X_train, y_train)
        acc_test = modelo.score(X_test, y_test)
        print(f"\nModelo: {modelo.__class__.__name__}")
        print(f"Acurácia Treino: {acc_train:.2f}")
        print(f"Acurácia Teste: {acc_test:.2f}")
        if acc_train > 0.9 and (acc_train - acc_test) > 0.2:
            print("Indício de OVERFITTING")
        elif acc_train < 0.6 and acc_test < 0.6:
            print("Indício de UNDERFITTING")
        else:
            print("Modelo parece equilibrado")

# Avaliação Matemática - Regressão
avaliar_over_underfitting(lr, X_train_m, y_train_m, X_test_m, y_test_m, tipo="regressao")
avaliar_over_underfitting(dtr, X_train_m, y_train_m, X_test_m, y_test_m, tipo="regressao")

# Avaliação Matemática - Classificação
avaliar_over_underfitting(logr, X_train_c, y_train_c, X_test_c, y_test_c, tipo="classificacao")
avaliar_over_underfitting(dtc, X_train_c, y_train_c, X_test_c, y_test_c, tipo="classificacao")

# Avaliação Português - Regressão
avaliar_over_underfitting(lr_p, X_train_p, y_train_p, X_test_p, y_test_p, tipo="regressao")
avaliar_over_underfitting(dtr_p, X_train_p, y_train_p, X_test_p, y_test_p, tipo="regressao")

# Avaliação Português - Classificação
avaliar_over_underfitting(logr_p, X_train_cp, y_train_cp, X_test_cp, y_test_cp, tipo="classificacao")
avaliar_over_underfitting(dtc_p, X_train_cp, y_train_cp, X_test_cp, y_test_cp, tipo="classificacao")


===== AVALIAÇÃO DE OVERFITTING E UNDERFITTING =====

Modelo: LinearRegression
R² Treino: 0.86
R² Teste: 0.79
Modelo parece equilibrado

Modelo: DecisionTreeRegressor
R² Treino: 1.00
R² Teste: 0.79
Indício de OVERFITTING

Modelo: LogisticRegression
Acurácia Treino: 0.95
Acurácia Teste: 0.92
Modelo parece equilibrado

Modelo: DecisionTreeClassifier
Acurácia Treino: 1.00
Acurácia Teste: 0.84
Modelo parece equilibrado

Modelo: LinearRegression
R² Treino: 0.85
R² Teste: 0.87
Modelo parece equilibrado

Modelo: DecisionTreeRegressor
R² Treino: 1.00
R² Teste: 0.56
Indício de OVERFITTING

Modelo: LogisticRegression
Acurácia Treino: 0.95
Acurácia Teste: 0.92
Modelo parece equilibrado

Modelo: DecisionTreeClassifier
Acurácia Treino: 1.00
Acurácia Teste: 0.93
Modelo parece equilibrado
