# Prever a evasão e o sucesso acadêmico dos alunos

Um conjunto de dados criado a partir de uma instituição de ensino superior (adquirido de várias bases de dados desconexas) relacionado a alunos matriculados em diferentes cursos de graduação, como agronomia, design, educação, enfermagem, jornalismo, gestão, serviço social e tecnologias. O conjunto de dados inclui informações conhecidas no momento da matrícula do aluno (percurso acadêmico, demografia e fatores socioeconômicos) e o desempenho acadêmico dos alunos no final do primeiro e segundo semestres. Os dados são usados para construir modelos de classificação para prever a evasão e o sucesso acadêmico dos alunos. O problema é formulado como uma tarefa de classificação de três categorias, na qual há um forte desequilíbrio em relação a uma das classes.

https://archive-beta.ics.uci.edu/ml/datasets/predict+students+dropout+and+academic+success

O conjunto de dados foi criado num projeto que visa contribuir para a redução do abandono e insucesso académico no ensino superior, através da utilização de técnicas de aprendizagem automática para identificar alunos em risco numa fase inicial do seu percurso académico, para que estratégias de apoio possam ser postas em prática. O conjunto de dados inclui informações conhecidas no momento da matrícula do aluno – trajetória acadêmica, demografia e fatores socioeconômicos. O problema é formulado como uma tarefa de classificação de três categorias (abandonado, matriculado e graduado) ao final da duração normal do curso.

### Importando bibliotecas

In [1]:
## Ignorando avisos
import warnings
warnings.filterwarnings('ignore')

import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

import numpy as np

### Importando dataset

In [2]:
dados = pd.read_csv('Predict students dropout and academic success.csv', sep=',')

In [3]:
dados

Unnamed: 0,Marital status,Application mode,Application order,Course,Daytime/evening attendance\t,Previous qualification,Previous qualification (grade),Nacionality,Mothers qualification,Fathers qualification,...,Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
0,1,17,5,171,1,1,122.0,1,19,12,...,0,0,0,0,0.000000,0,10.8,1.4,1.74,Dropout
1,1,15,1,9254,1,1,160.0,1,1,3,...,0,6,6,6,13.666667,0,13.9,-0.3,0.79,Graduate
2,1,1,5,9070,1,1,122.0,1,37,37,...,0,6,0,0,0.000000,0,10.8,1.4,1.74,Dropout
3,1,17,2,9773,1,1,122.0,1,38,37,...,0,6,10,5,12.400000,0,9.4,-0.8,-3.12,Graduate
4,2,39,1,8014,0,1,100.0,1,37,38,...,0,6,6,6,13.000000,0,13.9,-0.3,0.79,Graduate
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4419,1,1,6,9773,1,1,125.0,1,1,1,...,0,6,8,5,12.666667,0,15.5,2.8,-4.06,Graduate
4420,1,1,2,9773,1,1,120.0,105,1,1,...,0,6,6,2,11.000000,0,11.1,0.6,2.02,Dropout
4421,1,1,1,9500,1,1,154.0,1,37,37,...,0,8,9,1,13.500000,0,13.9,-0.3,0.79,Dropout
4422,1,1,1,9147,1,1,180.0,1,37,37,...,0,5,6,5,12.000000,0,9.4,-0.8,-3.12,Graduate


### Ajustando os dados

In [4]:
#ajustando nomes das colunas para PT-BR

dados = dados.rename(columns = {'Marital status':'Estado Civil',
                                'Application mode' :'Modelo de aplicação',
                                'Application order' :'Pedido de inscrição',
                                'Course' :'Curso',
                                'Daytime/evening attendance\t' :'Atendimento diurno/noturno',
                                'Previous qualification' :'Qualificação anterior',
                                'Previous qualification (grade)' :'Qualificação anterior (nota)',
                                'Nacionality' :'Nacionalidade',
                                'Mothers qualification' :'Nota mãe',
                                'Fathers qualification' :'Nota pai',
                                'Mothers occupation' :'Ocupação da mãe',
                                'Fathers occupation' :'Ocupação do pai',
                                'Admission grade' :'Grau de admissão',
                                'Displaced' :'Deslocado',
                                'Educational special needs' :'Necessidades Educacionais Especiais',
                                'Debtor' :'Devedor',
                                'Tuition fees up to date' :'Mensalidades em dia',
                                'Gender' :'Genero',
                                'Scholarship holder' :'Bolsista',
                                'Age at enrollment' :'Idade na inscrição',
                                'International' :'Internacional',
                                'Curricular units 1st sem (credited)' :'Unidades curriculares 1º semestre (creditado)',
                                'Curricular units 1st sem (enrolled)' :'Unidades curriculares 1º semestre (inscritos)',
                                'Curricular units 1st sem (evaluations)' :'Unidades curriculares 1º semestre (avaliações)',
                                'Curricular units 1st sem (approved)' :'Unidades curriculares 1º semestre (aprovado)',
                                'Curricular units 1st sem (grade)' :'Unidades curriculares 1º semestre (série)',
                                'Curricular units 1st sem (without evaluations)' :'Unidades curriculares 1º semestre (sem avaliações)',
                                'Curricular units 2nd sem (credited)' :'Unidades curriculares 2º sem (creditado)',
                                'Curricular units 2nd sem (enrolled)' :'Unidades curriculares 2º sem (inscritos)',
                                'Curricular units 2nd sem (evaluations)' :'Unidades curriculares 2º semestre (avaliações)',
                                'Curricular units 2nd sem (approved)' :'Unidades curriculares 2º sem (aprovado)',
                                'Curricular units 2nd sem (grade)' :'Unidades curriculares 2º sem (série)',
                                'Curricular units 2nd sem (without evaluations)' :'Unidades curriculares 2º semestre (sem avaliações)',
                                'Unemployment rate':'Taxa de desemprego',
                                'Inflation rate' :'Taxa de inflação',
                                'GDP' :'PIB',
                                'Target' :'Objetivo'})

dados.head()

Unnamed: 0,Estado Civil,Modelo de aplicação,Pedido de inscrição,Curso,Atendimento diurno/noturno,Qualificação anterior,Qualificação anterior (nota),Nacionalidade,Nota mãe,Nota pai,...,Unidades curriculares 2º sem (creditado),Unidades curriculares 2º sem (inscritos),Unidades curriculares 2º semestre (avaliações),Unidades curriculares 2º sem (aprovado),Unidades curriculares 2º sem (série),Unidades curriculares 2º semestre (sem avaliações),Taxa de desemprego,Taxa de inflação,PIB,Objetivo
0,1,17,5,171,1,1,122.0,1,19,12,...,0,0,0,0,0.0,0,10.8,1.4,1.74,Dropout
1,1,15,1,9254,1,1,160.0,1,1,3,...,0,6,6,6,13.666667,0,13.9,-0.3,0.79,Graduate
2,1,1,5,9070,1,1,122.0,1,37,37,...,0,6,0,0,0.0,0,10.8,1.4,1.74,Dropout
3,1,17,2,9773,1,1,122.0,1,38,37,...,0,6,10,5,12.4,0,9.4,-0.8,-3.12,Graduate
4,2,39,1,8014,0,1,100.0,1,37,38,...,0,6,6,6,13.0,0,13.9,-0.3,0.79,Graduate


In [5]:
dados['Objetivo'].head()

0     Dropout
1    Graduate
2     Dropout
3    Graduate
4    Graduate
Name: Objetivo, dtype: object

In [6]:
print(dados['Objetivo'].unique())

['Dropout' 'Graduate' 'Enrolled']


In [7]:
#traduzindo resultados na coluna objetivo
Tradução_objetivo = {'Dropout':'Desistência','Graduate':'Graduado', 'Enrolled':'Inscrito'}
dados['Objetivo'] = dados['Objetivo'].map(Tradução_objetivo)
dados.head()

Unnamed: 0,Estado Civil,Modelo de aplicação,Pedido de inscrição,Curso,Atendimento diurno/noturno,Qualificação anterior,Qualificação anterior (nota),Nacionalidade,Nota mãe,Nota pai,...,Unidades curriculares 2º sem (creditado),Unidades curriculares 2º sem (inscritos),Unidades curriculares 2º semestre (avaliações),Unidades curriculares 2º sem (aprovado),Unidades curriculares 2º sem (série),Unidades curriculares 2º semestre (sem avaliações),Taxa de desemprego,Taxa de inflação,PIB,Objetivo
0,1,17,5,171,1,1,122.0,1,19,12,...,0,0,0,0,0.0,0,10.8,1.4,1.74,Desistência
1,1,15,1,9254,1,1,160.0,1,1,3,...,0,6,6,6,13.666667,0,13.9,-0.3,0.79,Graduado
2,1,1,5,9070,1,1,122.0,1,37,37,...,0,6,0,0,0.0,0,10.8,1.4,1.74,Desistência
3,1,17,2,9773,1,1,122.0,1,38,37,...,0,6,10,5,12.4,0,9.4,-0.8,-3.12,Graduado
4,2,39,1,8014,0,1,100.0,1,37,38,...,0,6,6,6,13.0,0,13.9,-0.3,0.79,Graduado


### Análise exploratória dos dados

In [8]:
dados.shape

(4424, 37)

In [9]:
dados.describe().round(2)

Unnamed: 0,Estado Civil,Modelo de aplicação,Pedido de inscrição,Curso,Atendimento diurno/noturno,Qualificação anterior,Qualificação anterior (nota),Nacionalidade,Nota mãe,Nota pai,...,Unidades curriculares 1º semestre (sem avaliações),Unidades curriculares 2º sem (creditado),Unidades curriculares 2º sem (inscritos),Unidades curriculares 2º semestre (avaliações),Unidades curriculares 2º sem (aprovado),Unidades curriculares 2º sem (série),Unidades curriculares 2º semestre (sem avaliações),Taxa de desemprego,Taxa de inflação,PIB
count,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,...,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0
mean,1.18,18.67,1.73,8856.64,0.89,4.58,132.61,1.87,19.56,22.28,...,0.14,0.54,6.23,8.06,4.44,363.28,0.15,11.57,1.23,0.0
std,0.61,17.48,1.31,2063.57,0.31,10.22,13.19,6.91,15.6,15.34,...,0.69,1.92,2.2,3.95,3.01,2152.55,0.75,2.66,1.38,2.27
min,1.0,1.0,0.0,33.0,0.0,1.0,95.0,1.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7.6,-0.8,-4.06
25%,1.0,1.0,1.0,9085.0,1.0,1.0,125.0,1.0,2.0,3.0,...,0.0,0.0,5.0,6.0,2.0,10.79,0.0,9.4,0.3,-1.7
50%,1.0,17.0,1.0,9238.0,1.0,1.0,133.1,1.0,19.0,19.0,...,0.0,0.0,6.0,8.0,5.0,12.25,0.0,11.1,1.4,0.32
75%,1.0,39.0,2.0,9556.0,1.0,1.0,140.0,1.0,37.0,37.0,...,0.0,0.0,7.0,10.0,6.0,13.44,0.0,13.9,2.6,1.79
max,6.0,57.0,9.0,9991.0,1.0,43.0,190.0,109.0,44.0,44.0,...,12.0,19.0,23.0,33.0,20.0,16575.0,12.0,16.2,3.7,3.51


In [10]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4424 entries, 0 to 4423
Data columns (total 37 columns):
 #   Column                                              Non-Null Count  Dtype  
---  ------                                              --------------  -----  
 0   Estado Civil                                        4424 non-null   int64  
 1   Modelo de aplicação                                 4424 non-null   int64  
 2   Pedido de inscrição                                 4424 non-null   int64  
 3   Curso                                               4424 non-null   int64  
 4   Atendimento diurno/noturno                          4424 non-null   int64  
 5   Qualificação anterior                               4424 non-null   int64  
 6   Qualificação anterior (nota)                        4424 non-null   float64
 7   Nacionalidade                                       4424 non-null   int64  
 8   Nota mãe                                            4424 non-null   int64  
 9

In [11]:
dados.describe()

Unnamed: 0,Estado Civil,Modelo de aplicação,Pedido de inscrição,Curso,Atendimento diurno/noturno,Qualificação anterior,Qualificação anterior (nota),Nacionalidade,Nota mãe,Nota pai,...,Unidades curriculares 1º semestre (sem avaliações),Unidades curriculares 2º sem (creditado),Unidades curriculares 2º sem (inscritos),Unidades curriculares 2º semestre (avaliações),Unidades curriculares 2º sem (aprovado),Unidades curriculares 2º sem (série),Unidades curriculares 2º semestre (sem avaliações),Taxa de desemprego,Taxa de inflação,PIB
count,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,...,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0,4424.0
mean,1.178571,18.669078,1.727848,8856.642631,0.890823,4.577758,132.613314,1.873192,19.561935,22.275316,...,0.137658,0.541817,6.232143,8.063291,4.435805,363.283219,0.150316,11.566139,1.228029,0.001969
std,0.605747,17.484682,1.313793,2063.566416,0.311897,10.216592,13.188332,6.914514,15.603186,15.343108,...,0.69088,1.918546,2.195951,3.947951,3.014764,2152.554678,0.753774,2.66385,1.382711,2.269935
min,1.0,1.0,0.0,33.0,0.0,1.0,95.0,1.0,1.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,7.6,-0.8,-4.06
25%,1.0,1.0,1.0,9085.0,1.0,1.0,125.0,1.0,2.0,3.0,...,0.0,0.0,5.0,6.0,2.0,10.7875,0.0,9.4,0.3,-1.7
50%,1.0,17.0,1.0,9238.0,1.0,1.0,133.1,1.0,19.0,19.0,...,0.0,0.0,6.0,8.0,5.0,12.25,0.0,11.1,1.4,0.32
75%,1.0,39.0,2.0,9556.0,1.0,1.0,140.0,1.0,37.0,37.0,...,0.0,0.0,7.0,10.0,6.0,13.442857,0.0,13.9,2.6,1.79
max,6.0,57.0,9.0,9991.0,1.0,43.0,190.0,109.0,44.0,44.0,...,12.0,19.0,23.0,33.0,20.0,16575.0,12.0,16.2,3.7,3.51


In [12]:
df[column_].replace([old_value1, old_value2, old_value3],[new_value1, new_value2, new_value3])


dados[column_label]

NameError: name 'df' is not defined