# Tabela Professores

## Obtenção e carregamento de dados  

In [None]:
#importação de bibliotecas
from sqlalchemy import create_engine
import pandas as pd

In [None]:
# Conexão conexão com o banco de dados
engine = create_engine('mysql+pymysql://evasao:evasao2023@localhost:3306/evasao_ead')

In [None]:
# Lendo dados da tabela professores
df_professores = pd.read_sql_query("SELECT * FROM professores", engine)

# Impressão das 5 primeiras linhas do dataframe de professores
df_professores.head()

## Informações sobre o dataset

In [None]:
#Exibir informações sobre o dataframe
df_professores.info()

#Exibir estatísticas descritivas do dataframe
df_professores.describe()

# Exibir linhas com a coluna em branco, para a fase de tratamento
df_professores[df_professores.isna().any(axis=1)]

## Limpeza e Tratatamento de Dados

### MEC (Código)

Remover a coluna cd_mec pois não será utilizada na análise visto que não possui informações relevantes para a análise.

In [None]:
#Remover a coluna cd_mec
df_professores.drop('cd_mec', axis=1, inplace=True)
df_professores.head()

### Tipo

In [None]:
#Remover coluna tipo
df_professores.drop('tipo', axis=1, inplace=True)
df_professores.head()

### Titulação (Código)

In [None]:
#Remover coluna titulação
df_professores.drop('cd_titulacao', axis=1, inplace=True)
df_professores.head()

### Forma de Tratamento (Ms., Dr. etc)

In [None]:
# Adequando a coluna tratamento para quando não preenchida, colocar Gr, pois vamos entender que no mínimo a Graduação o professor/tutor possui
df_professores['ds_tratamento'] = df_professores['ds_tratamento'].fillna("Gr")

#Remove a coluna ds_tratamento
df_professores.drop('ds_tratamento', axis=1, inplace=True)

df_professores.head()

### Titulação

In [None]:
#Renomeia a coluna ds_titulacao para nivel_formacao_professor
df_professores.rename(columns={'ds_titulacao': 'nivel_formacao_professor'}, inplace=True)

df_professores['nivel_formacao_professor'].unique()

#Adequa a coluna ds_titulação para considerar os valores iniciados com 'Mestrado', removendo o restante do texto
df_professores['nivel_formacao_professor'] = df_professores['nivel_formacao_professor'].apply(lambda x: 'Mestrado' if 'Mestrado' in x else x)

df_professores['nivel_formacao_professor'].unique()

### Código Pessoa (Professor)

In [None]:
#Renomeia a coluna cd_pessoa para cd_professor
df_professores.rename(columns={'cd_pessoa': 'cd_professor'}, inplace=True)

df_professores.head()

### Gênero

In [None]:
#Renomeia a coluna ds_sexo para genero
df_professores.rename(columns={'ds_sexo': 'genero'}, inplace=True)

#Substitui os valores None da coluna genero por NF
df_professores['genero'].fillna('NF', inplace=True)

#Imprime valores unicos da coluna genero
df_professores['genero'].unique()

### Semestre

In [None]:
#Renomeia a coluna serie para semestre_que_leciona
df_professores.rename(columns={'serie': 'semestre_que_leciona'}, inplace=True)

df_professores.head()

### Ordenação dos dados

In [None]:
#Ordena as colunas do dataframe na ordem desejada
df_professores = df_professores[['cd_professor', 'nm_professor', 'idade','genero','nivel_formacao_professor', 'cd_curso','semestre_que_leciona']]

df_professores.head()

## Verificação e Exportação

### Verificação

In [None]:
#Exibir informações sobre o dataframe
df_professores.info()

#Exibir estatísticas descritivas do dataframe
df_professores.describe()

### Exportação

In [None]:
### Exporta o dataframe para um arquivo CSV
df_professores.to_csv('../Data/tab_Professores.csv', index=False)