#### Análise da Retenção e Sucesso Acadêmico dos Estudantes em Cursos Universitários

<p>
O objetivo desta análise é compreender os fatores que levam estudantes a abandonar ou atrasar sua trajetória acadêmica. Identificar as causas subjacentes a esses desafios permite desenvolver estratégias eficazes para melhorar a retenção, apoiar o sucesso acadêmico e otimizar a experiência educacional dos alunos.
</p> 


### Informações do conjunto de dados

1. **Marital Status**: estado civil do estudante [1 – solteiro, 2 – casado, 3 – viúvo, 4 – divorciado, 5 – união de fato, 6 – separado legalmente] 

2. **Application mode**: modo de aplicação [diferentes códigos numéricos indicando fases e contingentes específicos de candidatura] 

3. **Application order**: ordem de aplicação [0 - primeira escolha; 9 - última escolha] 

4. **Course**: curso [diferentes códigos numéricos para cursos, como Tecnologias de Produção de Biocombustíveis, Design de Animação e Multimídia, entre outros] 

5. **Daytime/evening attendance**: turno de frequência [1 – diurno, 0 – noturno] 

6. **Previous qualification**: nível de educação anterior [códigos numéricos indicando diferentes níveis de escolaridade, como ensino secundário, bacharelado, mestrado, etc.] 

7. **Previous qualification (grade)**: nota da qualificação anterior [entre 0 e 200] 

8. **Nacionality**: nacionalidade do estudante [1 – Português, 2 – Alemão, 6 – Espanhol, entre outros] 

9. **Mother's qualification**: qualificação educacional da mãe [códigos numéricos indicando níveis de escolaridade, como ensino secundário, bacharelado, mestrado, etc.] 

10. **Father's qualification**: qualificação educacional do pai [códigos numéricos indicando níveis de escolaridade, como ensino secundário, bacharelado, mestrado, etc.] 

11. **Mother's occupation**: ocupação da mãe [códigos numéricos indicando profissões, como estudante, professores, trabalhadores da saúde, etc.] 

12. **Father's occupation**: ocupação do pai [códigos numéricos indicando profissões, como estudante, professores, trabalhadores da saúde, etc.] 

13. **Admission grade**: nota de admissão [entre 0 e 200] 

14. **Displaced**: deslocado (estudante mora fora de casa) [1 – sim, 0 – não] 

15. **Educational special needs**: necessidades educacionais especiais [1 – sim, 0 – não] 

16. **Debtor**: devedor (estudante em dívida) [1 – sim, 0 – não] 

17. **Tuition fees up to date**: mensalidades em dia [1 – sim, 0 – não] 

18. **Gender**: gênero do estudante [1 – masculino, 0 – feminino] 

19. **Scholarship holder**: bolsista [1 – sim, 0 – não] 

20. **Age at enrollment**: idade do estudante na matrícula [anos] 

21. **International**: estudante internacional [1 – sim, 0 – não] 

22. **Curricular units 1st sem (credited)**: número de unidades curriculares creditadas no 1º semestre 

23. **Curricular units 1st sem (enrolled)**: número de unidades curriculares inscritas no 1º semestre 

24. **Curricular units 1st sem (evaluations)**: número de avaliações realizadas nas unidades curriculares no 1º semestre 

25. **Curricular units 1st sem (approved)**: número de unidades curriculares aprovadas no 1º semestre 

26. **Curricular units 1st sem (grade)**: média de notas no 1º semestre [entre 0 e 20] 

27. **Curricular units 1st sem (without evaluations)**: número de unidades curriculares sem avaliações no 1º semestre 

28. **Curricular units 2nd sem (credited)**: número de unidades curriculares creditadas no 2º semestre 

29. **Curricular units 2nd sem (enrolled)**: número de unidades curriculares inscritas no 2º semestre 

30. **Curricular units 2nd sem (evaluations)**: número de avaliações realizadas nas unidades curriculares no 2º semestre 

31. **Curricular units 2nd sem (approved)**: número de unidades curriculares aprovadas no 2º semestre 

32. **Curricular units 2nd sem (grade)**: média de notas no 2º semestre [entre 0 e 20] 

33. **Curricular units 2nd sem (without evaluations)**: número de unidades curriculares sem avaliações no 2º semestre 

34. **Unemployment rate**: taxa de desemprego [%] 

35. **Inflation rate**: taxa de inflação [%] 

36. **GDP**: Produto Interno Bruto (PIB) 

37. **Target**: resultado final do estudante [categorias: 0 - desistência, 1 - matrícula continuada, 2 - graduação] no final da duração normal do curso 

In [8]:
# import libraries
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from ucimlrepo import fetch_ucirepo

In [9]:
# set pandas options

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
pd.options.display.float_format = '{:.2f}'.format

In [10]:
data = pd.read_csv(filepath_or_buffer='data.csv', delimiter=';')

##### 1º - Avaliar o conjunto de dados de forma macro para compreender os dados

In [None]:
# verificando as primeiras linhas
data.head()

In [12]:
# verificando o formato do dataset. return (rows, columns)
data.shape

(4424, 37)

In [None]:
# verificando os tipos de dados
data.info()

##### 2º - Verificar se existe valores nulos

In [None]:
# verificando a existência de valores nulos
data.isnull().sum()

##### 3º - Verificando os valores únicos de cada coluna

In [None]:
# total de valores unicos

valores_unicos = data.nunique()
valores_unicos

In [16]:
# tratando a coluna TARGET

data['Target'] = data['Target'].map({'Dropout': 0, 'Enrolled': 1, 'Graduate': 2})

##### 4º - Visualizar as medidas estatisticas principais.
##### Média | Mediana | Desvio Padrão | Quartis | Valores mínimos e máximos. 

In [None]:
# visualizando os valores estatísticos
data.describe()

##### 5º - Avaliar as variáveis de forma individual por meio de gráficos.

In [None]:
# analisando a variavel Gender

data.groupby('Gender').size()

In [None]:
data.Gender.value_counts().plot(
    kind='bar',
    title='Distribuição de Gênero',
    color=['blue', 'red']
)

In [None]:
# analisando a variavel Nacionality

data.groupby('Nacionality').size()

In [None]:
# gerando um gráfico de barras para a variável Nacionality

data.Nacionality.value_counts().plot(
    kind='bar',
    title='Distribuição de Nacionalidade',
    color=['blue', 'red']
)

In [None]:
# analisando a variavel Mother's qualification
data.groupby('Mother\'s qualification').size()

In [None]:
# gerando um gráfico de barras para a variável Mother's qualification
data['Mother\'s qualification'].value_counts().plot(
    kind='bar',
    title='Distribuição de Qualificação da Mãe',
    color=['blue', 'red']
)

In [None]:
# analisando a variavel Father's qualification
data.groupby('Father\'s qualification').size()

In [None]:
# gerando um gráfico de barras para a variável Father's qualification
data['Father\'s qualification'].value_counts().plot(
    kind='bar',
    title='Distribuição de Qualificação do Pai',
    color=['blue', 'red']
)

In [None]:
# analisando a variavel Mother's occupation
data.groupby('Mother\'s occupation').size()

In [None]:
# gerando um gráfico de barras para a variável Mother's job
data['Mother\'s occupation'].value_counts().plot(
    kind='bar',
    title='Distribuição de Profissão da Mãe',
    color=['blue', 'red']
)

In [None]:
# analisando a variavel Father's occupation

data.groupby('Father\'s occupation').size()

In [None]:
# gerando um gráfico de barras para a variável Father's qualification
data['Father\'s occupation'].value_counts().plot(
    kind='bar',
    title='Distribuição de Profissão do Pai',
    color=['blue', 'red']
)

In [None]:
# analisando a variavel Debtor
data.groupby('Debtor').size()

In [None]:
# gerando um gráfico de barras para a variável Debtor

data.Debtor.value_counts().plot(
    kind='bar',
    title='Distribuição de Devedores',
    color=['blue', 'red']
)

In [None]:
data.groupby('Target').size()

In [None]:
# analisando a distribuição da variável TARGET. Podemos observar que a classe 'Graduate' é a que possui menos registros.
data.Target.value_counts().plot(
    kind='bar',
    color=['blue', 'green', 'red'],
    title='Distribuição da Variável TARGET'
)

##### 6º - Analisar a relação das variaveis x target.

In [None]:
# analisando a distribuição da variável TARGET x GENDER
sns.countplot(data = data, x = 'Gender', hue = 'Target')
plt.title('Gender x Target')

In [None]:
# analisando a distribuição da variável TARGET x NACIONALITY
sns.countplot(data = data, x = 'Nacionality', hue = 'Target')
plt.title('Gender x Nacionality')

In [None]:
# analisando a distribuição da variável TARGET x MOTHER'S QUALIFICATION
sns.countplot(data = data, x = 'Mother\'s qualification', hue = 'Target')
plt.title('Mother\'s qualification x Target')

In [None]:
# analisando a distribuição da variável TARGET x FATHER'S QUALIFICATION
sns.countplot(data = data, x = 'Father\'s qualification', hue = 'Target')
plt.title('Father\'s qualification x Target')

In [None]:
# analisando a distribuição da variável TARGET x MOTHER'S OCCUPATION
sns.countplot(data = data, x = 'Mother\'s occupation', hue = 'Target')
plt.title('Mother\'s occupation x Target')

In [None]:
# analisando a distribuição da variável TARGET x FATHER'S JOB
sns.countplot(data = data, x = 'Father\'s occupation', hue = 'Target')
plt.title('Father\'s occupation x Target')

In [None]:
# analisando a distribuição da variável TARGET x DEBTOR

sns.countplot(data = data, x = 'Debtor', hue = 'Target')
plt.title('Debtor x Target')

##### 7º - Verificar outliers

In [None]:
# verificar se existe colunas dos tipos não numéricas

varNumericas = []
for col in data.columns:
    if data[col].dtype != 'object':
        varNumericas.append(col)

varNumericas, len(varNumericas)

In [None]:
# Gerar boxplot para as variáveis numéricas

plt.rcParams['figure.figsize'] = [30, 285]
plt.rcParams['figure.autolayout'] = True
plt.rcParams.update({'font.size': 22})
f, axes = plt.subplots(19, 2)

row = 0
col = 0

for i in varNumericas:
    sns.boxplot(data = data, y=i, ax=axes[row][col])
    col += 1
    if col == 2:
        row += 1
        col = 0

plt.show()

##### 8º - Analisar a distribuição dos dados

In [None]:
#avaliar se os dados abaixo são outliers

plt.rcParams['figure.figsize'] = [30, 285]
plt.rcParams['figure.autolayout'] = True
plt.rcParams.update({'font.size': 22})
f, axes = plt.subplots(19, 2)

row = 0
col = 0


for i in varNumericas:
    sns.histplot(data = data, y=i, ax=axes[row][col])
    col += 1
    if col == 2:
        row += 1
        col = 0

plt.show()