# Tabela Alunos

## Obtenção e carregamento de dados

In [None]:
#importação de bibliotecas
from sqlalchemy import create_engine
import pandas as pd

In [None]:
# Conexão conexão com o banco de dados
engine = create_engine('mysql+pymysql://evasao:evasao2023@localhost:3306/evasao_ead')

In [None]:
# Lendo dados da tabela alunos
df_alunos = pd.read_sql_query("SELECT * FROM alunos ORDER BY cd_pessoa ASC", engine)

# Impressão das 5 primeiras linhas do dataframe de alunos
df_alunos.head(100)

## Informações sobre o dataset

In [None]:
#Exibir informações sobre o dataframe
df_alunos.info()

#Exibir estatísticas descritivas do dataframe
df_alunos.describe()

## Limpeza e Tratamento de dados

### Data de saída (Desligamento)

Como estamos analisando apenas o ano de 2023, vamos considerar que todos os alunos possuem data de saída no ultimo dia do ano de 2023.

In [None]:
#Seta a data de saída para 31/12/2023 caso seja nula
df_alunos['dt_saida'].fillna(pd.to_datetime('2023-12-31'), inplace=True)

#Formata a data de saída ('YYYY-MM-DD')
df_alunos['dt_saida'] = pd.to_datetime(df_alunos['dt_saida']).dt.normalize()

df_alunos.head()

### Data de emissão (Matrícula)

In [None]:
#Formata a data de emissão ('YYYY-MM-DD')
df_alunos['dataemissao'] = pd.to_datetime(df_alunos['dataemissao']).dt.normalize()

#Renomeia a coluna 'dataemissao' para 'dt_matricula'
df_alunos.rename(columns={'dataemissao': 'dt_matricula'}, inplace=True)

df_alunos.head()

### Semestre

In [None]:
#Renomeia a coluna 'ano_semestre' para 'periodo_registro'
df_alunos.rename(columns={'ano_semestre': 'dt_registro'}, inplace=True)

df_alunos.head()

### Classificação de evasão

Para facilitar a identificação do alunos evasores vamos criar uma nova variavel chamada evasor, que será preenchida com 1 para os alunos que evadiram (_Abandono_ e _Desistência_) e 0 para os alunos que não evadiram (Demais casos).

In [None]:
#Cria a coluna 'evasao' com valores 1 para 'ABANDONO' e 'DESISTENCIA' e 0 para os demais valores.
evasao = df_alunos['ds_situacao'].apply(lambda x: 1 if x in ['ABANDONO', 'DESISTENCIA'] else 0)

# Adiciona a coluna 'evasao' ao dataframe.
df_alunos.insert(1, 'evasao', evasao)

df_alunos.head()

### Tipo (Títulação)

In [None]:
#Renomeia a coluna tipo para ds_titulacao
df_alunos.rename(columns={'tipo': 'titulacao'}, inplace=True)

df_alunos.head()

### Quantidade de séries do curso (Duração do curso)

In [None]:
#Renomeia a coluna qtd_series_curso para qtd_semestres_curso
df_alunos.rename(columns={'qtd_series_curso': 'qtd_semestres_curso'}, inplace=True)

df_alunos.head()

### Forma de ingresso

In [None]:
#Renomeia a coluna Forma de Ingresso para ds_ingresso
df_alunos.rename(columns={'Forma de Ingresso': 'ds_ingresso'}, inplace=True)

#Preencher valores nulos da coluna ds_ingresso com Vestibular
df_alunos['ds_ingresso'].fillna('Vestibular', inplace=True)

#Exibe os valores unicos da coluna  ds_ingresso
df_alunos['ds_ingresso'].unique()

### Tipo de instituição do ensino médio (Pública ou Privada)

In [None]:
#Renomeia a coluna tipo_ies para ds_ensino_medio
df_alunos.rename(columns={'tipo_ies': 'ds_ensino_medio'}, inplace=True)

#altera os valores da coluna ds_ensino_medio para 'Escola Pública' onde é Pub, para 'Escola Privada' onde é Priv e para 'Não informado' onde é vazio
df_alunos['ds_ensino_medio'] = df_alunos['ds_ensino_medio'].apply(lambda x: 'Escola Pública' if x == 'Pub' else 'Escola Privada' if x == 'Pri' else 'Não informado')

#Exibe os valores únicos da coluna ds_ensino_medio
df_alunos['ds_ensino_medio'].unique()


### Valor bruto (Valor da mensalidade)

In [None]:
#Renomeia a coluna valorbruto para valor_mensalidade_bruto
df_alunos.rename(columns={'valorbruto': 'valor_mensalidade_bruto'}, inplace=True)

#Preenche com a média dos valores da coluna valor_mensalidade_bruto onde é nulo
df_alunos['valor_mensalidade_bruto'].fillna(df_alunos['valor_mensalidade_bruto'].mean(), inplace=True)

#Exibe os valores nulos ou vazios da coluna valor_mensalidade_bruto
df_alunos['valor_mensalidade_bruto'].isnull().sum()


### Percentual de desconto

In [None]:
#Preenche com 0 os valores nulos ou vazios da coluna percentual_desconto
df_alunos['percentual_desconto'].fillna(0, inplace=True)

#Imprime valores vazios ou nulos da coluna percentual_desconta
df_alunos['percentual_desconto'].isnull().sum()

### Valor real pago na mensalidade

In [None]:
#Adiciona a coluna valor_mensalidade_liquido (valor da mensalidade bruta menos o percentual  do percentual_desconto)
df_alunos['valor_mensalidade_liquido'] = df_alunos['valor_mensalidade_bruto'] - (df_alunos['valor_mensalidade_bruto']*df_alunos['percentual_desconto'] / 100)

#Exibe apenas 2 casas decimais para valores float
pd.options.display.float_format = '{:.2f}'.format

df_alunos.head()

### Código Pessoa (Aluno)

In [None]:
#Renomeia a coluna cd_pessoa para cd_aluno
df_alunos.rename(columns={'cd_pessoa': 'cd_aluno'}, inplace=True)

df_alunos.head()

### Idade

In [None]:
#Preenche os valores nulos com a média da coluna idade
df_alunos['idade'].fillna(df_alunos['idade'].mean(), inplace=True)

#Imprime valores nulos da coluna
df_alunos['idade'].isnull().sum()

### Localidade

In [None]:
#Renomeia a coluna ds_cidade para cidade
df_alunos.rename(columns={'ds_cidade': 'cidade'}, inplace=True)

#Renomeia a coluna ds_estado para estado
df_alunos.rename(columns={'ds_estado': 'estado'}, inplace=True)

df_alunos.head()

### Genero

In [None]:
#Renomeia a coluna ds_sexo para genero
df_alunos.rename(columns={'ds_sexo': 'genero'}, inplace=True)

#Substitui os valores None da coluna genero por NF
df_alunos['genero'].fillna('NF', inplace=True)

#Imprime valores unicos da coluna genero
df_alunos['genero'].unique()


### Situação

In [None]:
#Renomeia a coluna ds_situacao para situacao
df_alunos.rename(columns={'ds_situacao': 'situacao'}, inplace=True)

df_alunos.head()

### Mensalidades pagas em atraso

In [None]:
#Renomeia a coluna pagas_atraso para qtd_mensalidades_pagas_atraso
df_alunos.rename(columns={'pagas_atraso': 'qtd_mensalidade_paga_atraso'}, inplace=True)

df_alunos.head()

### Média de notas (Coeficiente de Rendimento)

In [None]:
#Renomeia a coluna media_notas para coeficiente_rendimento
df_alunos.rename(columns={'media_notas': 'coeficiente_rendimento'}, inplace=True)

df_alunos.head()

### Curso

In [None]:
#Renomeia a coluna ds_curso para curso
df_alunos.rename(columns={'ds_curso': 'curso'}, inplace=True)

df_alunos.head()

### Série (Semestre atual)

In [None]:
#Renomeia a coluna serie para semestre_atual
df_alunos.rename(columns={'serie': 'semestre_atual'}, inplace=True)

df_alunos.head()

### Ordenação dos dados

In [None]:
#Ordena as colunas do dataframe na ordem desejada
df_alunos = df_alunos[['cd_aluno', 'nome', 'idade', 'genero', 'cidade', 'estado', 'ds_ensino_medio', 'ds_ingresso', 'cd_curso', 'curso', 'titulacao', 'valor_mensalidade_bruto', 'percentual_desconto','valor_mensalidade_liquido', 'qtd_mensalidade_paga_atraso', 'qtd_semestres_curso','semestre_atual', 'dt_matricula', 'dt_saida','dias_matriculado_semestre', 'qtd_aprovacoes', 'qtd_reprovacoes', 'coeficiente_rendimento', 'dt_registro', 'situacao', 'evasao'    ]]

df_alunos.head()

## Verificação e Exportação

### Verificação

In [None]:
#Exibir informações sobre o dataframe
df_alunos.info()

#Exibir estatísticas descritivas do dataframe
df_alunos.describe()

### Exportação

In [None]:
#Exporta o dataframe para um arquivo CSV
df_alunos.to_csv('../Data/tab_Alunos.csv', index=False)