# Obtenção e tratamento de dados


## Obtenção e carregamento de dados


In [None]:
#importação de bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [None]:
#Carregamento de dados limpos da pasta ../data/
df = pd.read_csv('../Data/dataset.csv')

## Informações sobre o dataset


In [None]:
#Exibição dos dados
df.head()

In [None]:
#Exibição de informações sobre os dados
df.info()

In [None]:
#Exibição de estatísticas descritivas
df.describe()

## Ajuste de tipos


In [None]:
#Matricula
df['dt_matricula'] = pd.to_datetime(df['dt_matricula'])
#Saida
df['dt_saida'] = pd.to_datetime(df['dt_saida'])
#Primeiro login
df['primeiro_login'] = pd.to_datetime(df['primeiro_login'])
#Ultimo login
df['ultimo_login'] = pd.to_datetime(df['ultimo_login'])

#Idade
df['idade'] = df['idade'].astype('int64')
#Total de logins
df['total_logins'] = df['total_logins'].astype('int64')
#Dias desde o primeiro login
df['dias_desde_primeiro_login'] = df['dias_desde_primeiro_login'].astype('int64')
# Quantidade Mestrado
df['qtd_professores_mestrado'] = df['qtd_professores_mestrado'].astype('int64')
# Quantidade Doutorado
df['qtd_professores_doutorado'] = df['qtd_professores_doutorado'].astype('int64')
# Quantidade Especialização
df['qtd_professores_especialista'] = df['qtd_professores_especialista'].astype('int64')
# Quantidade Graduado
df['qtd_professores_graduado'] = df['qtd_professores_graduado'].astype('int64')
# Quantidade de professores Masculino
df['qtd_professores_M'] = df['qtd_professores_M'].astype('int64')
# Quantidade de professores Feminino
df['qtd_professores_F'] = df['qtd_professores_F'].astype('int64')
# Menor idade de um professor
df['idade_min_professores'] = df['idade_min_professores'].astype('int64')
# Maior idade de um professor
df['idade_max_professores'] = df['idade_max_professores'].astype('int64')

#Data de registro para string
df['dt_registro'] = df['dt_registro'].astype(object)
#Data de inauguração do curso
df['dt_inauguracao_curso'] = df['dt_inauguracao_curso'].astype(object)

#Exibição de informações sobre os dados
df.info()
#Exibição de estatísticas descritivas
df.head()


## Tratamento de valores ausentes


In [None]:
#preenche com o texto "Abandono" os valores nulos da coluna 'categoria_motivo_cancelamento'
df['categoria_motivo_cancelamento'] = df['categoria_motivo_cancelamento'].fillna('Abandono').where(df['evasao'] == 1, 'NA')

#Exibe os valores unicos da coluna 'categoria_motivo_cancelamento'
df['categoria_motivo_cancelamento'].unique()

Exibição dos dados


In [None]:
#Exibe as informações sobre os dados
df.info()
#Exibe as estatísticas descritivas
df.head()

# Visualização


## Amostra dos dados


In [None]:
df.head()

## Análise descritiva


In [None]:
#Exibe as informações sobre os dados
df.describe()

In [None]:
#Calcula o total de alunos
total_alunos = df['cd_aluno'].unique().shape[0]
print("Total de alunos: ", total_alunos)

#Calcula o numero total de matrículas no primeiro semestre
total_matriculas_primeiro_semestre = df['dt_registro'].value_counts()[20231]
print("Total de matrículas no primeiro semestre: ", total_matriculas_primeiro_semestre)

#Calcula o numero total de matrículas no segundo semestre
total_matriculas_segundo_semestre = df['dt_registro'].value_counts()[20232]
print("Total de matrículas no segundo semestre: ", total_matriculas_segundo_semestre)

#Calcula o total de matriculas
total_matriculas = df.shape[0]
print("Total de matriculas no ano: ", total_matriculas)

#Calcula o numero total de alunos evadidos cuja data de registro é 20231
total_alunos_evadidos_primeiro_semestre = df[(df['evasao'] == 1) & (df['dt_registro'] == 20231)]['cd_aluno'].shape[0]
print("Total de alunos evadidos no primeiro semestre: ", total_alunos_evadidos_primeiro_semestre)

#Calcula o numero total de alunos evadidos cuja data de registro é 20232
total_alunos_evadidos_segundo_semestre = df[(df['evasao'] == 1) & (df['dt_registro'] == 20232)]['cd_aluno'].shape[0]
print("Total de alunos evadidos no segundo semestre: ", total_alunos_evadidos_segundo_semestre)

#Calcula o total de alunos evadidos
total_alunos_evadidos = df[df['evasao'] == 1]['cd_aluno'].shape[0]
print("Total de alunos evadidos no ano: ", total_alunos_evadidos)

#Calcula o percentual de alunos evadidos no primeiro semestre
percentual_alunos_evadidos_primeiro_semestre = ((total_alunos_evadidos_primeiro_semestre / total_matriculas_primeiro_semestre) * 100)
print("Percentual de alunos evadidos no primeiro semestre: ", round(percentual_alunos_evadidos_primeiro_semestre, 2),"%")

#Calcula o percentual de alunos evadidos no segundo semestre
percentual_alunos_evadidos_segundo_semestre = ((total_alunos_evadidos_segundo_semestre / total_matriculas_segundo_semestre) * 100)
print("Percentual de alunos evadidos no segundo semestre: ", round(percentual_alunos_evadidos_segundo_semestre, 2),"%")

#Calcula o percentual de alunos evadidos
percentual_alunos_evadidos = ((total_alunos_evadidos / total_matriculas) * 100)
print("Percentual de alunos evadidos no ano: ", round(percentual_alunos_evadidos, 2),"%")

## Analise geral


### Correlação entre as variáveis

In [None]:
# Seleciona apenas as colunas numéricas
df_numerico = df.select_dtypes(include=[np.number])

# Calcula a matriz de correlação
correlacao = df_numerico.corr()

#Exibe a matriz de correlação
correlacao.corr()

In [None]:
# Cria uma figura
plt.figure(figsize=(10,10))

# Exibe a matriz de correlação como uma imagem colorida
plt.matshow(correlacao, fignum=1)

# Adiciona um colorbar para a legenda das cores
plt.colorbar(label='Correlação')

# Adiciona os nomes das colunas
plt.xticks(range(len(correlacao.columns)), correlacao.columns, rotation=90)
plt.yticks(range(len(correlacao.columns)), correlacao.columns)

# Mostra o gráfico
plt.title('Tabela de correlações entre as variáveis numéricas')
plt.show()

### Idade dos alunos


In [None]:
df[df['evasao'] == 0]['idade'].plot.kde(figsize=(10, 6), label='Não evadidos')
df[df['evasao'] == 1]['idade'].plot.kde(figsize=(10, 6), label='Evadidos')
df['idade'].plot.kde(figsize=(10, 6), label='Todos')

plt.title('Distribuição da idade dos alunos em relação a evasão')
plt.xlabel('Idade')
plt.ylabel('Densidade')

plt.legend()

### Gênero dos alunos


In [None]:
# Criar uma tabela de contingência com os dados necessários
contingency_table = pd.crosstab(df['genero'], df['evasao'])

#Altera o texto da coluna genero para Feminino, quando for F, Masculino, quando for M e Não Informado, quando for NF
contingency_table.index = contingency_table.index.map({'F': 'Feminino', 'M': 'Masculino', 'NF': 'Não Informado'})

#Altera a legenda da evasão de 0 para não evadido e 1 para evadido
contingency_table.rename(columns={0: 'Não evadidos', 1: 'Evadidos'}, inplace=True)

#Remove o nome da coluna evasão
contingency_table.columns.name = None

# Plotar o gráfico de barras agrupadas
contingency_table.plot(kind='bar', stacked=False, figsize=(10, 6))
plt.title('Distribuição do gênero dos alunos conforme a evasão')
plt.xlabel('Gênero')
plt.ylabel('Alunos')
plt.xticks(rotation=0)
plt.show()

### Ensino médio

In [None]:
# Criar uma tabela de contingência com os dados necessários
contingency_table = pd.crosstab(df['ds_ensino_medio'], df['evasao'])

#Altera a legenda da evasão de 0 para não evadido e 1 para evadido
contingency_table.rename(columns={0: 'Não evadidos', 1: 'Evadidos'}, inplace=True)

#Remove o nome da coluna evasão
contingency_table.columns.name = None

# Plotar o gráfico de barras agrupadas
contingency_table.plot(kind='bar', stacked=False, figsize=(10, 6))
plt.title('Distribuição do tipo de IE conforme a evasão')
plt.xlabel('Tipo da Instituição do Ensino Médio')
plt.ylabel('Alunos')
plt.xticks(rotation=0)
plt.show()

### Forma de Ingresso

In [None]:
# Criar uma tabela de contingência com os dados necessários
contingency_table = pd.crosstab(df['ds_ingresso'], df['evasao'])

#Altera a legenda da evasão de 0 para não evadido e 1 para evadido
contingency_table.rename(columns={0: 'Não evadidos', 1: 'Evadidos'}, inplace=True)

#Remove o nome da coluna evasão
contingency_table.columns.name = None

# Plotar o gráfico de barras agrupadas
contingency_table.plot(kind='bar', stacked=False, figsize=(10, 6))
plt.title('Distribuição da forma de ingresso conforme a evasão')
plt.xlabel('Forma de ingresso')
plt.ylabel('Alunos')
plt.xticks(rotation=0)
plt.show()

### Curso

In [None]:
# Criar uma tabela de contingência com os dados necessários
contingency_table = pd.crosstab(df['curso'], df['evasao'])

#Altera a legenda da evasão de 0 para não evadido e 1 para evadido
contingency_table.rename(columns={0: 'Não evadidos', 1: 'Evadidos'}, inplace=True)

#Remove o nome da coluna evasão
contingency_table.columns.name = None

# Plotar o gráfico de barras agrupadas
contingency_table.plot(kind='bar', stacked=True, figsize=(20, 6))
plt.title('Distribuição dos cursos conforme a evasão')
plt.xlabel('Curso')
plt.ylabel('Alunos')
plt.show()

### Titulação

In [None]:
# Criar uma tabela de contingência com os dados necessários
contingency_table = pd.crosstab(df['titulacao'], df['evasao'])

#Altera a legenda da evasão de 0 para não evadido e 1 para evadido
contingency_table.rename(columns={0: 'Não evadidos', 1: 'Evadidos'}, inplace=True)

#Remove o nome da coluna evasão
contingency_table.columns.name = None

# Plotar o gráfico de barras agrupadas
contingency_table.plot(kind='bar', stacked=False, figsize=(10, 6))
plt.title('Distribuição da titulação conforme a evasão')
plt.xlabel('Titulação')
plt.ylabel('Alunos')
plt.xticks(rotation=0)
plt.show()

### Mensalidade

In [None]:
# Calcula Q1, Q2 e IQR
Q1 = df['valor_mensalidade_liquido'].quantile(0.25)
Q3 = df['valor_mensalidade_liquido'].quantile(0.75)
IQR = Q3 - Q1

# Define os limites para os outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Remove os outliers
df_filtered = df[(df['valor_mensalidade_liquido'] >= lower_bound) & (df['valor_mensalidade_liquido'] <= upper_bound)]

df_filtered[df_filtered['evasao'] == 0]['valor_mensalidade_liquido'].plot.kde(figsize=(10, 6), label='Não evadidos')
df_filtered[df_filtered['evasao'] == 1]['valor_mensalidade_liquido'].plot.kde(figsize=(10, 6), label='Evadidos')

plt.title('Distribuição do valor da mensalidade em relação a evasão')
plt.xlabel('Valor da mensalidade')
plt.ylabel('Densidade')

plt.legend()
plt.show()


### Pagamentos em atraso

In [None]:
# Calcula Q1, Q2 e IQR
Q1 = df['qtd_mensalidade_paga_atraso'].quantile(0.25)
Q3 = df['qtd_mensalidade_paga_atraso'].quantile(0.75)
IQR = Q3 - Q1

# Define os limites para os outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Remove os outliers
df_filtered = df[(df['qtd_mensalidade_paga_atraso'] >= lower_bound) & (df['qtd_mensalidade_paga_atraso'] <= upper_bound)]

df_filtered[df_filtered['evasao'] == 0]['qtd_mensalidade_paga_atraso'].plot.kde(figsize=(10,6), label='Não evadidos')
df_filtered[df_filtered['evasao'] == 1]['qtd_mensalidade_paga_atraso'].plot.kde(figsize=(10,6), label='Evadidos')

plt.title('Distribuição do mensalidades atrasadas em relação a evasão')
plt.xlabel('Mensalidades pagas com atraso')
plt.ylabel('Densidade')

plt.legend()
plt.grid(False)
plt.show()


### Duração do curso

In [None]:
df[df['evasao'] == 0]['qtd_semestres_curso'].plot.kde( figsize=(10, 6), label='Não evadidos')
df[df['evasao'] == 1]['qtd_semestres_curso'].plot.kde( figsize=(10, 6), label='Evadidos')

plt.title('Distribuição da evasão por duração do curso')
plt.xlabel('Duração em semestres')
plt.ylabel('Densidade')

plt.grid(False)
plt.legend()
plt.show()


### Semestre atual

In [None]:
df[df['evasao'] == 0]['semestre_atual'].plot.kde(figsize=(10,6), label='Não evadidos')
df[df['evasao'] == 1]['semestre_atual'].plot.kde(figsize=(10,6), label='Evadidos')

plt.title('Distribuição do semestre atual do aluno em relação a evasão')
plt.xlabel('Semestre atual')
plt.ylabel('Densidade')

plt.grid(False)
plt.legend()
plt.show()

### Datas de Matricula e Cancelamento X Status da evasão

In [None]:
# Cria uma cópia do DataFrame original
df_aux = df.copy()

# Converte as datas para o formato correto
df_aux['dt_matricula'] = pd.to_datetime(df_aux['dt_matricula'])
df_aux['dt_saida'] = pd.to_datetime(df_aux['dt_saida'])

# Cria uma nova coluna para o mês da matrícula e da saída
df_aux['mes_matricula'] = df_aux['dt_matricula'].dt.month
df_aux['mes_saida'] = df_aux['dt_saida'].dt.month

# Desconsidera os alunos não evadidos com saída em 2023-12-31
df_aux = df_aux[~((df_aux['evasao'] == 0) & (df_aux['dt_saida'] == '2023-12-31'))]

# Agrupa os dados por mês
grouped_matricula = df_aux.groupby('mes_matricula').size()
grouped_saida = df_aux.groupby('mes_saida').size()
grouped_evadidos = (df_aux[df_aux['evasao'] == 1].groupby('mes_matricula').size()).reindex(np.arange(1, 13), fill_value=0)

# Cria uma figura e um conjunto de subtramas
fig, ax = plt.subplots(figsize=(10, 6))

# Plota as barras para matrículas e saídas
bar_width = 0.25
index = np.arange(1, 13)  # Meses do ano

rects1 = ax.bar(index - bar_width, grouped_matricula, bar_width, label='Matrículas')
rects2 = ax.bar(index, grouped_saida, bar_width, label='Cancelamentos')
rects3 = ax.bar(index + bar_width, grouped_evadidos, bar_width, label='Evasão')

# Adiciona títulos e rótulos
ax.set_xlabel('Mês')
ax.set_ylabel('Quantidade de Alunos')
ax.set_title('Distribuição de matrículas, cancelamentos e evasão ao longo do ano')
ax.set_xticks(index)
ax.set_xticklabels(index)

# Adiciona uma legenda
ax.legend()

plt.show()

### Dias matrículados

In [None]:
# Calcula Q1, Q2 e IQR
Q1 = df['dias_matriculado_semestre'].quantile(0.25)
Q3 = df['dias_matriculado_semestre'].quantile(0.75)
IQR = Q3 - Q1

# Define os limites para os outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Remove os outliers
df_filtered = df[(df['dias_matriculado_semestre'] >= lower_bound) & (df['dias_matriculado_semestre'] <= upper_bound)]

df_filtered[df_filtered['evasao'] == 0]['dias_matriculado_semestre'].plot.kde(figsize=(10,6), label='Não evadidos')
df_filtered[df_filtered['evasao'] == 1]['dias_matriculado_semestre'].plot.kde(figsize=(10,6), label='Evadidos')

plt.title('Distribuição dos dias matriculados no semestre relação a evasão')
plt.xlabel('Dias matriculados')
plt.ylabel('Densidade')

plt.grid(False)
plt.legend()
plt.show()

### Aprovações

In [None]:
df[df['evasao'] == 0]['qtd_aprovacoes'].plot.kde( figsize=(10, 6), label='Não evadidos')
df[df['evasao'] == 1]['qtd_aprovacoes'].plot.kde( figsize=(10, 6), label='Evadidos')

plt.title('Distribuição das aprovações em relação a evasão')
plt.xlabel('Quantidade de disciplinas')
plt.ylabel('Densidade')

plt.grid(False)
plt.legend()
plt.show()

### Reprovações

In [None]:
df[df['evasao'] == 0]['qtd_reprovacoes'].plot.kde( figsize=(10, 6), label='Não evadidos')
df[df['evasao'] == 1]['qtd_reprovacoes'].plot.kde( figsize=(10, 6), label='Evadidos')

plt.title('Distribuição das reprovações em relação a evasão')
plt.xlabel('Quantidade de disciplinas')
plt.ylabel('Densidade')

plt.grid(False)
plt.legend()
plt.show()

### Acesso a plataforma de ensino

In [None]:
# Calcula Q1, Q2 e IQR
Q1 = df['total_logins'].quantile(0.25)
Q3 = df['total_logins'].quantile(0.75)
IQR = Q3 - Q1

# Define os limites para os outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Remove os outliers
df_filtered = df[(df['total_logins'] >= lower_bound) & (df['total_logins'] <= upper_bound)]

df_filtered[df_filtered['evasao'] == 0]['total_logins'].plot.kde(figsize=(10,6), label='Não evadidos')
df_filtered[df_filtered['evasao'] == 1]['total_logins'].plot.kde(figsize=(10,6), label='Evadidos')

plt.title('Distribuição do total de logins em relação a evasão')
plt.xlabel('Quantidade de logins')
plt.ylabel('Densidade')

plt.grid(False)
plt.legend()
plt.show()

### Maturidade do curso

In [None]:
# Calcula Q1, Q2 e IQR
Q1 = df['semestres_existencia_curso'].quantile(0.25)
Q3 = df['semestres_existencia_curso'].quantile(0.75)
IQR = Q3 - Q1

# Define os limites para os outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Remove os outliers
df_filtered = df[(df['semestres_existencia_curso'] >= lower_bound) & (df['semestres_existencia_curso'] <= upper_bound)]

df_filtered[df_filtered['evasao'] == 0]['semestres_existencia_curso'].plot.kde(figsize=(10,6), label='Não evadidos')
df_filtered[df_filtered['evasao'] == 1]['semestres_existencia_curso'].plot.kde(figsize=(10,6), label='Evadidos')

plt.title('Distribuição da maturidade do curso em relação a evasão')
plt.xlabel('Quantidade de semestres existentes')
plt.ylabel('Densidade')

plt.grid(False)
plt.legend()
plt.show()

### Motivos

In [None]:
# Apenas alunos evadidos tem motivos indicados, por isso estamos filtrando apenas estes casos
df_motivos = df[(df['evasao'] == 1)]

# Contar as ocorrências de cada motivo
contagem_motivos = df_motivos['categoria_motivo_cancelamento'].value_counts()

# Plotar o gráfico de barras horizontais
ax = contagem_motivos.plot.barh()

# Definir as propriedades
ax.set_title('Distribuição de Evasões por Motivos')
ax.set_ylabel('Motivos')
ax.set_xlabel('Quantidade de Evasões')

# Mostrar o gráfico
plt.show()

### Média de Idade (Professores)

In [None]:
# Calcula Q1, Q3 e IQR para a média de idade dos professores
Q1_media = df['idade_media_professores'].quantile(0.25)
Q3_media = df['idade_media_professores'].quantile(0.75)
IQR_media = Q3_media - Q1_media

# Define os limites para os outliers
lower_bound_media = Q1_media - 1.5 * IQR_media
upper_bound_media = Q3_media + 1.5 * IQR_media

# Remove os outliers
idade_media_prof_evadidos = df[df['evasao'] == 1]['idade_media_professores']
idade_media_prof_nao_evadidos = df[df['evasao'] == 0]['idade_media_professores']
idade_media_prof_todos = df['idade_media_professores']

idade_media_prof_evadidos_clean = idade_media_prof_evadidos[(idade_media_prof_evadidos >= lower_bound_media) & (idade_media_prof_evadidos <= upper_bound_media)]
idade_media_prof_nao_evadidos_clean = idade_media_prof_nao_evadidos[(idade_media_prof_nao_evadidos >= lower_bound_media) & (idade_media_prof_nao_evadidos <= upper_bound_media)]
idade_media_prof_todos_clean = idade_media_prof_todos[(idade_media_prof_todos >= lower_bound_media) & (idade_media_prof_todos <= upper_bound_media)]

# Plotando o KDE
idade_media_prof_nao_evadidos_clean.plot.kde(figsize=(10, 6), label='Não Evadidos')
idade_media_prof_evadidos_clean.plot.kde(figsize=(10, 6),label='Evadidos')
idade_media_prof_todos_clean.plot.kde(figsize=(10, 6),label='Todos')

# Configurações do gráfico
plt.title('Distribuição da Média de Idade dos Professores em Relação à Evasão')
plt.xlabel('Média de Idade')
plt.ylabel('Densidade')
plt.legend()

# Exibindo o gráfico
plt.show()

### Idade Máxima (Professores)

In [None]:
# Calcula Q1, Q3 e IQR
Q1 = df['idade_max_professores'].quantile(0.25)
Q3 = df['idade_max_professores'].quantile(0.75)
IQR = Q3 - Q1

# Define os limites para os outliers
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Remove os outliers
idade_max_prof_evadidos = df[df['evasao'] == 1]['idade_max_professores']
idade_max_prof_nao_evadidos = df[df['evasao'] == 0]['idade_max_professores']
idade_max_prof_todos = df['idade_max_professores']

# monta novos DataFrames após a limpeza, usando limites calculados
idade_max_prof_evadidos_clean = idade_max_prof_evadidos[(idade_max_prof_evadidos >= lower_bound) & (idade_max_prof_evadidos <= upper_bound)]
idade_max_prof_nao_evadidos_clean = idade_max_prof_nao_evadidos[(idade_max_prof_nao_evadidos >= lower_bound) & (idade_max_prof_nao_evadidos <= upper_bound)]
idade_max_prof_todos_clean = idade_max_prof_todos[(idade_max_prof_todos >= lower_bound) & (idade_max_prof_todos <= upper_bound)]

# Plotando o KDE
idade_max_prof_nao_evadidos_clean.plot.kde(figsize=(10, 6),label='Não evadidos')
idade_max_prof_evadidos_clean.plot.kde(figsize=(10, 6), label='Evadidos')
idade_max_prof_todos_clean.plot.kde(figsize=(10, 6),label='Todos')


# Configurações do gráfico
plt.title('Distribuição da Idade Máxima dos Professores em Relação à Evasão')
plt.xlabel('Idade Máxima')
plt.ylabel('Densidade')
plt.legend()

# Exibindo o gráfico
plt.show()

### Idade Mínima (Professores)

In [None]:
# Calcula Q1, Q3 e IQR para a idade mínima dos professores
Q1_min = df['idade_min_professores'].quantile(0.25)
Q3_min = df['idade_min_professores'].quantile(0.75)
IQR_min = Q3_min - Q1_min

# Define os limites para os outliers
lower_bound_min = Q1_min - 1.5 * IQR_min
upper_bound_min = Q3_min + 1.5 * IQR_min

# Remove os outliers
idade_min_prof_evadidos = df[df['evasao'] == 1]['idade_min_professores']
idade_min_prof_nao_evadidos = df[df['evasao'] == 0]['idade_min_professores']
idade_min_prof_todos = df['idade_min_professores']

# monta novos DataFrames após a limpeza, usando limites calculados
idade_min_prof_evadidos_clean = idade_min_prof_evadidos[(idade_min_prof_evadidos >= lower_bound_min) & (idade_min_prof_evadidos <= upper_bound_min)]
idade_min_prof_nao_evadidos_clean = idade_min_prof_nao_evadidos[(idade_min_prof_nao_evadidos >= lower_bound_min) & (idade_min_prof_nao_evadidos <= upper_bound_min)]
idade_min_prof_todos_clean = idade_min_prof_todos[(idade_min_prof_todos >= lower_bound_min) & (idade_min_prof_todos <= upper_bound_min)]

# Plotando o KDE
plt.figure(figsize=(10, 6))
idade_min_prof_nao_evadidos_clean.plot.kde(figsize=(10, 6), label='Não evadidos')
idade_min_prof_evadidos_clean.plot.kde(figsize=(10, 6), label='Evadidos')
idade_min_prof_todos_clean.plot.kde(figsize=(10, 6), label='Todos')

# Configurações do gráfico
plt.title('Distribuição da Idade Mínima dos Professores em Relação à Evasão')
plt.xlabel('Idade Mínima')
plt.ylabel('Densidade')
plt.legend()

# Exibindo o gráfico
plt.show()

### Titulação (Professores)

In [None]:
# Variáveis
categories = ['Doutorado', 'Mestrado',  'Especialista', 'Graduado']

# Calculando a média de todas as observações
values_todos = df.loc[df['evasao'] >= 0, ['qtd_professores_doutorado', 'qtd_professores_mestrado',  
                                           'qtd_professores_especialista', 'qtd_professores_graduado']].sum().values

# Calculando a média para 'evasao = 0'
values_evasao_0 = df.loc[df['evasao'] == 0, ['qtd_professores_doutorado', 'qtd_professores_mestrado',  
                                               'qtd_professores_especialista', 'qtd_professores_graduado']].sum().values

# Calculando a média para 'evasao = 1'
values_evasao_1 = df.loc[df['evasao'] == 1, ['qtd_professores_doutorado', 'qtd_professores_mestrado',  
                                               'qtd_professores_especialista', 'qtd_professores_graduado']].sum().values

# Número de variáveis
num_vars = len(categories)

# Ângulo do eixo x
angles = np.linspace(0, 2 * np.pi, num_vars, endpoint=False).tolist()

# Fechar o gráfico
values_todos = np.concatenate((values_todos,[values_todos[0]]))
values_evasao_0 = np.concatenate((values_evasao_0,[values_evasao_0[0]]))
values_evasao_1 = np.concatenate((values_evasao_1,[values_evasao_1[0]]))
angles += angles[:1]

# Plotar
fig, ax = plt.subplots(figsize=(8, 8), subplot_kw=dict(polar=True))

# Plotar a média de todas as observações primeiro
ax.fill(angles, values_todos, color='blue', alpha=0.5, label='Todos')

# Plotar a média para 'evasao = 0' em seguida
ax.fill(angles, values_evasao_0, color='green', alpha=0.5, label='Evasão = 0')

# Plotar a média para 'evasao = 1' por último
ax.fill(angles, values_evasao_1, color='red', alpha=0.5, label='Evasão = 1')

# Definir o ângulo de deslocamento para as etiquetas das categorias
ax.set_theta_offset(np.pi / 4)

# Adicionar linhas radiais para indicar a quantidade e as representações numéricas
for value in np.linspace(0, max(values_todos), 5):
    ax.text(np.pi / 4, value, str(round(value, 2)), color='gray', ha='center', va='center')

ax.set_yticklabels([])
plt.xticks(angles[:-1], categories, color='black', size=10)
plt.title('Distribuição da Influência da Titulação dos Professores na Evasão', size=20, color='black', y=1.1)
ax.legend(loc='upper right', bbox_to_anchor=(1.2, 1.1))
plt.show()

### Gênero (Professores)

In [None]:
# Calculando a soma das colunas qtd_professores_M e qtd_professores_F para evadidos e não evadidos
evadidos_M = df[df['evasao'] == 1]['qtd_professores_M'].sum()
evadidos_F = df[df['evasao'] == 1]['qtd_professores_F'].sum()
nao_evadidos_M = df[df['evasao'] == 0]['qtd_professores_M'].sum()
nao_evadidos_F = df[df['evasao'] == 0]['qtd_professores_F'].sum()
todos_M = df['qtd_professores_M'].sum()
todos_F = df['qtd_professores_F'].sum()

# Definindo as categorias e valores para o gráfico de barras
categorias = ['Evadidos (Masculino)', 'Evadidos (Femininos)', 'Não Evadidos (Masculinos)', 'Não Evadidos (Femininos)', 'Todos (Masculinos)', 'Todos (Femininos)']
valores = [evadidos_M, evadidos_F, nao_evadidos_M, nao_evadidos_F, todos_M, todos_F]

# Definindo as cores das barras
cores = ['orange', 'blue', 'orange', 'blue', 'orange', 'blue']

# Plotando o gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(categorias, valores, color=cores)
plt.title('Distribuição da Influência do Gênero na Evasão')
plt.xlabel('')
plt.ylabel('Influência de Gênero')
plt.xticks(rotation=45, ha='right')

# Exibindo o gráfico
plt.tight_layout()
plt.show()