📊  Desafio 47 — Previsão de Evasão Escolar

📂 Dataset: dia_47_evasao_escolar.csv
Este conjunto de dados traz informações de estudantes de uma instituição pública, como frequência, desempenho acadêmico, envolvimento em atividades extracurriculares e se houve evasão (abandono escolar).

🔍 Tarefas:

Qual é a taxa geral de evasão?

Há diferença de evasão entre os cursos (Ex: Técnico, Ensino Médio, EJA)?

Os estudantes com notas mais baixas têm maior taxa de evasão?

Qual a média de frequência entre alunos que evadiram e os que permaneceram?

Treine um modelo de classificação para prever a evasão. Sugestões:

Use LogisticRegression ou RandomForestClassifier.

Aplique train_test_split, depois avalie com accuracy_score e classification_report.

Quais variáveis mais influenciam o modelo?

In [25]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

In [37]:
df = pd.read_csv("dia_47_evasao_escolar.csv")
df.head()

Unnamed: 0,id_aluno,curso,frequencia_percentual,nota_media,atividade_extracurricular,evadiu
0,1,Ensino Médio,48.8,8.7,Sim,Não
1,2,Técnico,55.6,6.1,Sim,Não
2,3,Técnico,49.6,4.0,Sim,Não
3,4,Ensino Médio,91.6,5.1,Não,Não
4,5,Técnico,87.8,1.5,Sim,Não


In [6]:
#Qual é a taxa geral de evasão?
taxaEvasao = df["evadiu"].value_counts(normalize=True) * 100
print(taxaEvasao)

evadiu
Não    81.0
Sim    19.0
Name: proportion, dtype: float64


In [14]:
#Há diferença de evasão entre os cursos (Ex: Técnico, Ensino Médio, EJA)?
evasaoCursos = df.groupby("curso")["evadiu"].value_counts(normalize=True).unstack() * 100
print(evasaoCursos)

evadiu              Não        Sim
curso                             
EJA           77.227723  22.772277
Ensino Médio  83.962264  16.037736
Técnico       81.720430  18.279570


In [16]:
#Os estudantes com notas mais baixas têm maior taxa de evasão?
NotaEvasao = df.groupby("evadiu")["nota_media"].mean()
print(NotaEvasao)

evadiu
Não    4.602881
Sim    5.552632
Name: nota_media, dtype: float64


In [20]:
#Qual a média de frequência entre alunos que evadiram e os que permaneceram?
freqAlunosEvasao = df.groupby("evadiu")["frequencia_percentual"].mean().round(2)
print(freqAlunosEvasao)

evadiu
Não    71.26
Sim    71.53
Name: frequencia_percentual, dtype: float64


In [46]:
#Treine um modelo de classificação para prever a evasão.
le_curso = LabelEncoder()
le_atividade = LabelEncoder()
le_evadiu = LabelEncoder()

df['curso'] = le_curso.fit_transform(df['curso'])
df['atividade_extracurricular'] = le_atividade.fit_transform(df['atividade_extracurricular'])
df['evadiu'] = le_evadiu.fit_transform(df['evadiu'])

X = df.drop(columns=['evadiu'])
y = df['evadiu']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

modelo = RandomForestClassifier(random_state=42)
modelo.fit(X_train, y_train)

y_pred = modelo.predict(X_test)
print(f"Acurácia: {accuracy_score(y_test, y_pred)}\n")
importances = pd.Series(modelo.feature_importances_, index=X.columns).sort_values(ascending=False).round(2) * 100
print(importances)

Acurácia: 0.8555555555555555

nota_media                   33.0
frequencia_percentual        31.0
id_aluno                     26.0
curso                         6.0
atividade_extracurricular     4.0
dtype: float64
