<a href="https://colab.research.google.com/github/rmendesl/TCC/blob/master/01_DataCollectingAndCleaning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Coleta e Limpeza dos Dados

A origem desses dados são provenientes de fontes internas (coletados dentro da organização, gerados por colaboradores, gestores, sistemas e stakeholders em geral). Por isso mesmo, o conjunto de dados precisa ter todas as variáveis necessárias para que o problema em questão seja resolvido.

Para realizar essa tarefa, são necessárias habilidades técnicas. Por exemplo, para gerenciamento de banco de dados é importante o conhecimento em bancos de dados não-relacionais e relacionais. Se o projeto envolve dados provenientes de arquivos em diversos formatos como CSV (Comma Separated Value) ou TSV (Tab Separated Values), o domínio de bibliotecas Python e R são requisitos. Além disso, se o conjunto de dados utilizado for em grande escala, é necessário usar de tecnologias Big Data (Apache Hadoop, Spark ou Flink). Em nosso caso em particular, os dados já foram nos enviados por meio de uma planilha no formato Excel.

A limpeza de dados também inclui a tarefa de extrair e substituir valores, principalmente os relacionados a dados faltantes no conjunto de informações. Pode-se pensar neste processo como o responsável por organizar os dados, remover o que não é mais necessário, substituir o que está faltando e padronizar o formato em todas as informações coletadas.

Fonte: https://awari.com.br/fases-projeto-data-science/


## Bibliotecas Utilizadas

Referência para a bibioteca Pandas: https://pandas.pydata.org/docs/user_guide/index.html

Referência para a biblioteca Numpy: https://numpy.org/doc/

In [None]:
# Importando os pacotes necessários
import pandas as pd
import numpy as np

## Obtenção dos dados

### Montando o Drive do Google Drive

In [None]:
# Execute apenas se desejar fazer o upload do arquivo local para o seu Google Drive
from google.colab import files
files.upload()

In [None]:
# Montando o drive do seu Google Drive
from google.colab import drive
drive.mount('/content/drive',  force_remount=True)

Mounted at /content/drive


### Carregando o arquivo para o dataframe

Use apenas uma das duas opções abaixo:

1.   Carregando direto do seu Google Drive;
2.   Carregando direto do link compartilhado;

Os dados foram enviados pela instituição no formato XLSX (Excel). Foram eliminados os dados considerados sensíveis.

Para esta análise exploratória inicial, será usado apenas o seguinte arquivo:

* `BASE_RENOVAVEL.xlsx`

In [None]:
# Troque o caminho root_path caso seu arquivo esteja em outra pasta em seu drive
root_path = 'drive/My Drive/TCC/'
data = 'BASE_RENOVAVEL.xlsx'



---


1. Carregando direto do seu Google Drive

In [None]:
# Carregando os dados da planilha excel para o dataframe
df_renovacao = pd.read_excel(root_path + data, sheet_name=0)



---


2. Carregando direto do link compartilhado

In [None]:
# Use o link abaixo para ter acesso direto ao arquivo
link = "https://drive.google.com/uc?export=download&id=1aBR_Dt4NxSoUzUlOTCwzGh9vpqqzvjms"

# Carregando os dados do arquivo CSV para o dataframe
df_renovacao = pd.read_excel(link, sheet_name=0)

## Análise inicial dos dados

Esta etapa tem por objetivo criar uma consciência situacional inicial e permitir um entendimento de como os dados estão estruturados.

**Dicionário de variáveis:**

* `COD_MATRICULA` - Código da matrícula do aluno.
* `NOM_SITUACAO_PROX_PERIODO` - Nome da situação do aluno no próximo semestre.
* `ALUNO_MATRICULADO_PROX_PERIODO` - Indica a situação do aluno no próximo semestre. ***(essa será a nossa variável alvo)***
* `NOM_SITUACAO_PERIODO_ATUAL` - Nome da situação do aluno no semestre atual.
* `ALUNO_MATRICULADO` - Indica a situação do aluno no semestre atual.
* `CONDICAO_GERENCIAL` - Indica a condição do aluno no processo de renovação de matrícula.
* `CONDICAO_IMPEDE_RENOVACAO` - Indica a condição do aluno que pode impedir a renovação de matrícula, porém existem a matrícula financeira e a matrícula acadêmica.
* `TIPO_INADIMPLENCIA` - Indica a condição de inadimplência do aluno.
* `RISCO_INADIMPLENCIA` - Indica a condição de risco relacionada ao valor em aberto.
* `MODALIDADE_PP_PC` - Indica a modalidade do curso.
* `COD_CURSO` - Código do curso do aluno.
* `NOM_CURSO` - Nome do curso do aluno.
* `NOM_TURNO` - Nome do turno em que o aluno frequenta.
* `COD_TIPO_CURSO` - Código do tipo de curso do aluno.
* `NOM_TIPO_CURSO`- Nome do tipo do curso do aluno.
* `CLASSE_PAGANTE_ANT` - Indica o tipo do aluno em relação a condição como pagante no semestre anterior.
* `CLASSE_PAGANTE_ATU` - Indica o tipo do aluno em relação a condição como pagante no semestre atual.
* `NOVO_FIES` - Indica se o aluno faz parte a nova modalidade de FIES (Financiamento Estudantil).
* `PERDA_FINANCIAMENTO` - Indica o motivo da perda de financiamento do aluno.
* `PRV_ANT` - Indica se o aluno faz parte do Programa de Crédito Estudantil (PRAVALER) no semestre anterior.
* `PRV_ATU` - Indica se o aluno faz parte do Programa de Crédito Estudantil (PRAVALER)  no semestre atual.
* `LATE_COMER` - Indica se o aluno começou atrasado no semestre.
* `NOM_SITUACAO_ALUNO` - Indica a situação do aluno no semestre atual.
* `NOM_SITUACAO_ALUNO_ANT` - Indica a situação do aluno no semestre anterior.
* `VAL_A_PAGAR` - Valor a pagar do boleto de renovação de matrícula.
* `VAL_A_PAGAR_PAR` - Valor a pagar do parcelamento da instituição.
* `VAL_DIVIDA_MENS` - Valor a pagar de mensalidades.
* `VAL_DIVIDA_TOTAL` - Valor total a pagar de dívidas.
* `ADIMP_N_REN` - Indica se o aluno está adimplente, porém ainda não foi renovado.
* `CR_PER_ANT` - Coeficiente de Rendimento, indica a média geral do aluno no semestre anterior.
* `FAIXA_APROVACAO` - Percentual de aprovação em disciplinas cursadas no semestre anterior.
* `QTD_ACESSOS_19_2` - Quantidade de acessos ao Portal Acadêmico até uma determinada data.
* `QTD_ACESSOS_20_1` - Quantidade de acessos ao Portal Acadêmico até uma determinada data.
* `IND_INDICIO_EVASAO` - Indica o indício de evasão do aluno.
* `CLASSIFICACAO_PROP_EVASAO` - Indica o índice de propensão a evasão.
* `CLASSIFICACAO_PROP_RENOVACAO` - Indica o índice de propensão a renovação.
* `ACEITE_CONTRATO` - Indica se o aluno deu aceite no contrato virtual.
* `PASTA_VERMELHA` - Indica se o aluno está pendente de alguma entrega de documentos.
* `REQ_AGEND_TRANC` - Indica se o aluno abriu algum requerimento de trancamento de matrícula.
* `SAFRA` - Indica se o aluno é Calouro ou Veterano.
* `DATA_SAFRA_ENTRADA` - Data de ingresso no curso.
* `SAFRA_ENTRADA` - Código da safra de ingresso do aluno.

In [None]:
# Listar os primeiros 10 registros do DataFrame
df_renovacao.head(10)

Unnamed: 0,COD_MATRICULA,NOM_SITUACAO_PROX_PERIODO,ALUNO_MATRICULADO_PROX_PERIODO,NOM_SITUACAO_PERIODO_ATUAL,ALUNO_MATRICULADO,CONDICAO_GERENCIAL,CONDICAO_IMPEDE_RENOVACAO,TIPO_INADIMPLENCIA,RISCO_INADIMPLENCIA,MODALIDADE_PP_PC,COD_CURSO,NOM_CURSO,COD_TURNO,NOM_TURNO,COD_TIPO_CURSO,NOM_TIPO_CURSO,CLASSE_PAGANTE_ANT,CLASSE_PAGANTE_ATU,NOVO_FIES,PERDA_FINANCIAMENTO,PRV_ANT,PRV_ATU,LATE_COMER,NOM_SITUACAO_ALUNO,NOM_SITUACAO_PERIODO_ANT,VAL_A_PAGAR,VAL_A_PAGAR_PAR,VAL_DIVIDA_MENS,VAL_DIVIDA_TOTAL,FAIXA_DE_DIVIDA,ADIMP_N_REN,CR_PER_ANT,FAIXA_APROVACAO,QTD_ACESSOS_19_2,QTD_ACESSOS_20_1,IND_INDICIO_EVASAO,CLASSIFICACAO_PROP_EVASAO,CLASSIFICACAO_PROP_RENOVACAO,ACEITE_CONTRATO,PASTA_VERMELHA,REQ_AGEND_TRANC,SAFRA,DATA_SAFRA_ENTRADA,SAFRA_ENTRADA
0,200701339023,Aguardando Renovação,0,Aguardando Renovação,0,9 - ALTO PROPENSO,BOLETO RENOVACAO NAO PAGO,ADIMPLENTE,,PRESENCIAL,1,DIREITO,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,Aluno não Apto a Renovação,0,0,ON TIME COMER,Ativo,Cursado,51.18,,,,,1,9.0,7 - 100%,32.0,21.0,0,1 - Alto,3 - Médio Baixo,0,0,0,VETERANO,2018-07-01,3
1,200702198245,Aguardando Renovação,0,Aguardando Renovação,0,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,PRESENCIAL,4004,EDUCAÇÃO FÍSICA - BACHARELADO,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,,,3111.2,3111.2,> 1500,0,5.91,4 - 41% A 60%,48.0,48.0,0,3 - Médio Baixo,4 - Baixo,1,0,0,CALOURO,2019-07-01,1
2,200702198679,Aguardando Renovação,0,Aguardando Renovação,0,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,PRESENCIAL,29,FISIOTERAPIA,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,,,3238.77,3238.77,> 1500,0,5.27,3 - 21% A 40%,53.0,46.0,0,4 - Baixo,4 - Baixo,0,0,0,VETERANO,2018-07-01,3
3,200801431011,Matriculado,1,Matriculado,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,,PRESENCIAL,29,FISIOTERAPIA,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,2521.12,,,,,0,9.89,7 - 100%,130.0,119.0,0,4 - Baixo,2 - Médio Alto,1,0,0,VETERANO,2015-01-01,10
4,200901402225,Matriculado,1,Matriculado,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,PRESENCIAL,1,DIREITO,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,170.96,,,,,0,3.5,4 - 41% A 60%,125.0,70.0,0,00 - Não Escorado,00 - Não Escorado,1,0,0,VETERANO,2015-01-01,10
5,201001152832,Matriculado,1,Matriculado,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,PRESENCIAL,2,ADMINISTRAÇÃO,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,663.66,,,,,0,6.0,7 - 100%,87.0,76.0,0,4 - Baixo,3 - Médio Baixo,1,0,0,VETERANO,2019-01-01,2
6,201001153693,Aguardando Renovação,0,Aguardando Renovação,0,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,BAIXO RISCO,PRESENCIAL,1,DIREITO,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,,,1013.56,1013.56,1000-1500,0,7.75,7 - 100%,11.0,9.0,0,3 - Médio Baixo,4 - Baixo,1,0,0,CALOURO,2019-07-01,1
7,201001211669,Matriculado,1,Matriculado,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,,PRESENCIAL,2,ADMINISTRAÇÃO,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,883.8,,,,,0,6.8,5 - 61% A 80%,158.0,82.0,0,2 - Médio Alto,3 - Médio Baixo,1,0,0,VETERANO,2015-01-01,10
8,201001462891,Matriculado,1,Matriculado,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,,PRESENCIAL,166,ENFERMAGEM,3,NOITE,11,GRADUAÇÃO,PROUNI,PROUNI,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,0.0,,,,,0,8.48,7 - 100%,102.0,111.0,0,4 - Baixo,2 - Médio Alto,1,0,0,VETERANO,2017-01-01,6
9,201002224454,Aguardando Renovação,0,Aguardando Renovação,0,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,PRESENCIAL,2,ADMINISTRAÇÃO,3,NOITE,11,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,0,0,ON TIME COMER,Ativo,Cursado,,,4523.0,4523.0,> 1500,0,5.8,3 - 21% A 40%,83.0,52.0,0,4 - Baixo,4 - Baixo,1,0,0,VETERANO,2015-01-01,10


## Quantidade de colunas e linhas que o nosso conjunto de dados possui e quais os tipos das variáveis.

Vamos prosseguir e identificar a quantidade de observações que nosso conjunto de dados possui e ver os tipos de cada coluna. O tipo de cada coluna é importante para sabermos se temos que realizar algum mapeamento ou transformação nos valores.

In [None]:
# Verificar a quantidade de observações/variáveis e seus devidos tipos
print("Observações:\t {}".format(df_renovacao.shape[0]))
print("Variáveis:\t {}\n".format(df_renovacao.shape[1]))

df_renovacao.info()

Observações:	 2143
Variáveis:	 47

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2143 entries, 0 to 2142
Data columns (total 47 columns):
 #   Column                          Non-Null Count  Dtype         
---  ------                          --------------  -----         
 0   COD_MATRICULA                   2143 non-null   int64         
 1   NOM_SITUACAO_PROX_PERIODO       2143 non-null   object        
 2   ALUNO_MATRICULADO_PROX_PERIODO  2143 non-null   int64         
 3   NOM_SITUACAO_PERIODO_ATUAL      2143 non-null   object        
 4   ALUNO_MATRICULADO               2143 non-null   int64         
 5   CONDICAO_GERENCIAL              2143 non-null   object        
 6   CONDICAO_IMPEDE_RENOVACAO       2143 non-null   object        
 7   TIPO_INADIMPLENCIA              2143 non-null   object        
 8   RISCO_INADIMPLENCIA             1248 non-null   object        
 9   MODALIDADE_PP_PC                2143 non-null   object        
 10  COD_CURSO                       2143 

## Verificando os dados de acordo com o tipo de variável.

Nesse momento pode-se observar que os tipos de dados estão bem divididos em 02(dois):

* `NUMBER` - 24 colunas
* `OBJECT` - 22 colunas
* `DATETIME` - 1 coluna

In [None]:
# Somente os dados de tipo number
df_renovacao.select_dtypes(include=['number'])

Unnamed: 0,COD_MATRICULA,ALUNO_MATRICULADO_PROX_PERIODO,ALUNO_MATRICULADO,COD_CURSO,COD_TURNO,COD_TIPO_CURSO,PRV_ANT,PRV_ATU,V_AC,V_BR,V_EV,VAL_A_PAGAR,VAL_A_PAGAR_PAR,VAL_DIVIDA_MENS,VAL_DIVIDA_TOTAL,ADIMP_N_REN,CR_PER_ANT,QTD_ACESSOS_19_2,QTD_ACESSOS_20_1,IND_INDICIO_EVASAO,ACEITE_CONTRATO,PASTA_VERMELHA,REQ_AGEND_TRANC,SAFRA_ENTRADA
0,200701339023,0,0,1,3,11,0,0,0,1,0,51.18,,,,1,9.00,32.0,21.0,0,0,0,0,3
1,200702198245,0,0,4004,3,11,0,0,0,1,0,,,3111.20,3111.20,0,5.91,48.0,48.0,0,1,0,0,1
2,200702198679,0,0,29,3,11,0,0,0,1,0,,,3238.77,3238.77,0,5.27,53.0,46.0,0,0,0,0,3
3,200801431011,1,1,29,3,11,0,0,1,1,0,2521.12,,,,0,9.89,130.0,119.0,0,1,0,0,10
4,200901402225,1,1,1,3,11,0,0,1,1,0,170.96,,,,0,3.50,125.0,70.0,0,1,0,0,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,201912030837,1,1,4004,3,11,0,0,1,1,0,534.38,,,,0,7.54,143.0,133.0,0,1,0,0,2
2139,201912030853,1,1,4004,3,11,0,0,1,1,0,1157.48,5.16,,5.16,0,6.31,64.0,42.0,0,1,0,0,2
2140,201912030861,0,0,2,3,11,0,0,0,1,0,,4.88,,,0,7.43,154.0,109.0,1,1,0,0,2
2141,201912030934,1,1,29,3,11,0,0,1,1,0,1486.82,606.04,,489.79,0,6.14,154.0,147.0,0,1,0,0,2


In [None]:
# Somente os dados de tipo object
df_renovacao.select_dtypes(include=['object'])

Unnamed: 0,NOM_SITUACAO_PROX_PERIODO,NOM_SITUACAO_PERIODO_ATUAL,CONDICAO_GERENCIAL,CONDICAO_IMPEDE_RENOVACAO,TIPO_INADIMPLENCIA,RISCO_INADIMPLENCIA,MODALIDADE_PP_PC,NOM_CURSO,NOM_TURNO,NOM_TIPO_CURSO,CLASSE_PAGANTE_ANT,CLASSE_PAGANTE_ATU,NOVO_FIES,PERDA_FINANCIAMENTO,LATE_COMER,NOM_SITUACAO_ALUNO,NOM_SITUACAO_PERIODO_ANT,FAIXA_DE_DIVIDA,FAIXA_APROVACAO,CLASSIFICACAO_PROP_EVASAO,CLASSIFICACAO_PROP_RENOVACAO,SAFRA
0,Aguardando Renovação,Aguardando Renovação,9 - ALTO PROPENSO,BOLETO RENOVACAO NAO PAGO,ADIMPLENTE,,PRESENCIAL,DIREITO,NOITE,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,Aluno não Apto a Renovação,ON TIME COMER,Ativo,Cursado,,7 - 100%,1 - Alto,3 - Médio Baixo,VETERANO
1,Aguardando Renovação,Aguardando Renovação,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,PRESENCIAL,EDUCAÇÃO FÍSICA - BACHARELADO,NOITE,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,ON TIME COMER,Ativo,Cursado,> 1500,4 - 41% A 60%,3 - Médio Baixo,4 - Baixo,CALOURO
2,Aguardando Renovação,Aguardando Renovação,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,PRESENCIAL,FISIOTERAPIA,NOITE,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,ON TIME COMER,Ativo,Cursado,> 1500,3 - 21% A 40%,4 - Baixo,4 - Baixo,VETERANO
3,Matriculado,Matriculado,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,,PRESENCIAL,FISIOTERAPIA,NOITE,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,ON TIME COMER,Ativo,Cursado,,7 - 100%,4 - Baixo,2 - Médio Alto,VETERANO
4,Matriculado,Matriculado,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,PRESENCIAL,DIREITO,NOITE,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,ON TIME COMER,Ativo,Cursado,,4 - 41% A 60%,00 - Não Escorado,00 - Não Escorado,VETERANO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,Matriculado,Matriculado,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,PRESENCIAL,EDUCAÇÃO FÍSICA - BACHARELADO,NOITE,GRADUAÇÃO,MENSALISTA,MENSALISTA,NÃO,,ON TIME COMER,Ativo,Cursado,,7 - 100%,4 - Baixo,3 - Médio Baixo,VETERANO
2139,Matriculado,Matriculado,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,PRESENCIAL,EDUCAÇÃO FÍSICA - BACHARELADO,NOITE,GRADUAÇÃO,PAR,PAR,NÃO,,ON TIME COMER,Ativo,Cursado,,5 - 61% A 80%,2 - Médio Alto,3 - Médio Baixo,VETERANO
2140,TRANCADO,TRANCADO,2 - ALUNO EVADIDO,ALUNO EVADIDO SEM RENOVAR,ADIMPLENTE,MEDIO RISCO,PRESENCIAL,ADMINISTRAÇÃO,NOITE,GRADUAÇÃO,PAR,PAR,NÃO,,ON TIME COMER,Trancado,Cursado,,7 - 100%,3 - Médio Baixo,3 - Médio Baixo,VETERANO
2141,Matriculado,Matriculado,1 - ALUNO RENOVADO,ALUNO RENOVADO,INADIMPLENTE COM NEGOCIACAO,BAIXO RISCO,PRESENCIAL,FISIOTERAPIA,NOITE,GRADUAÇÃO,PAR,PAR,NÃO,,ON TIME COMER,Ativo,Cursado,,7 - 100%,4 - Baixo,3 - Médio Baixo,VETERANO


In [None]:
# Somente os dados de tipo datetime
df_renovacao.select_dtypes(include=['datetime'])

Unnamed: 0,DATA_SAFRA_ENTRADA
0,2018-07-01
1,2019-07-01
2,2018-07-01
3,2015-01-01
4,2015-01-01
...,...
2138,2019-01-01
2139,2019-01-01
2140,2019-01-01
2141,2019-01-01


## Percentual de valores ausentes *(missing values)* do nosso conjunto de dados

A qualidade de um *dataset* pode estar diretamente relacionada à quantidade de valores ausentes. É importante entender logo no início se esses valores nulos são significativos comparados ao total de observações.

As colunas que identifiquei são:

* `PERDA_FINANCIAMENTO` (96.27%)
* `VAL_A_PAGAR_PAR` (93.84%)
* `FAIXA_DE_DIVIDA` (90.67%)
* `VAL_DIVIDA_MENS` (87.54%)
* `VAL_DIVIDA_TOTAL` (80.63%)
* `RISCO_INADIMPLENCIA` (41.76%)
* `VAL_A_PAGAR` (11.76%)
* `QTD_ACESSOS_20_1` (0.70%)
* `CR_PER_ANT` (0.37%)
* `QTD_ACESSOS_19_2` (0.23%)

A coluna `PERDA_FINANCIAMENTO` será excluída do *dataset* pelo percentual de valores ausentes.

A coluna `RISCO_INADIMPLENCIA` terá seus valores ausentes preenchidos com  o valor **'SEM RISCO'** de acordo com a orientação do *stakeholder*.

A coluna `FAIXA_DE_DIVIDA` terá seus valores ausentes preenchidos com o valor **'SEM DIVIDA'** pois o Pandas identificou o valor 'N/A' do arquivo XLSX como sendo do tipo **NaN**.

As demais colunas, apesar do percentual elevado, são situações normais que podem ocorrer, pelo fato de, em sua maioria, tratarem de valores monetários ou numéricos, ou seja, não configura nenhum tipo de erro nos dados e terão seus valores ausentes preenchidos com 0(zeros).

Iremos tratar essas situações mais abaixo.

In [None]:
# Verificar percentual de valores ausentes (missing values)
(df_renovacao.isnull().sum() / df_renovacao.shape[0] * 100).sort_values(ascending=False)

PERDA_FINANCIAMENTO               96.266916
VAL_A_PAGAR_PAR                   93.840411
FAIXA_DE_DIVIDA                   90.667289
VAL_DIVIDA_MENS                   87.540831
VAL_DIVIDA_TOTAL                  80.634624
RISCO_INADIMPLENCIA               41.763882
VAL_A_PAGAR                       11.759216
QTD_ACESSOS_20_1                   0.699953
CR_PER_ANT                         0.373308
QTD_ACESSOS_19_2                   0.233318
CLASSE_PAGANTE_ATU                 0.000000
CLASSE_PAGANTE_ANT                 0.000000
NOM_TIPO_CURSO                     0.000000
COD_TIPO_CURSO                     0.000000
NOM_TURNO                          0.000000
COD_TURNO                          0.000000
NOM_CURSO                          0.000000
COD_CURSO                          0.000000
ALUNO_MATRICULADO_PROX_PERIODO     0.000000
NOM_SITUACAO_PROX_PERIODO          0.000000
NOM_SITUACAO_PERIODO_ATUAL         0.000000
NOVO_FIES                          0.000000
MODALIDADE_PP_PC                

## Preenchendo os valores ausentes

In [None]:
# Preenche os valores das variáveiS ausentes com 0 (zeros)
df_renovacao['VAL_A_PAGAR'] = df_renovacao['VAL_A_PAGAR'].fillna(0)
df_renovacao['VAL_A_PAGAR_PAR'] = df_renovacao['VAL_A_PAGAR_PAR'].fillna(0)
df_renovacao['VAL_DIVIDA_MENS'] = df_renovacao['VAL_DIVIDA_MENS'].fillna(0)
df_renovacao['VAL_DIVIDA_TOTAL'] = df_renovacao['VAL_DIVIDA_TOTAL'].fillna(0)
df_renovacao['CR_PER_ANT'] = df_renovacao['CR_PER_ANT'].fillna(0)
df_renovacao['QTD_ACESSOS_19_2'] = df_renovacao['QTD_ACESSOS_19_2'].fillna(0)
df_renovacao['QTD_ACESSOS_20_1'] = df_renovacao['QTD_ACESSOS_20_1'].fillna(0)

# Preenche os valores das variáveis com o um valor padrão de acordo com a situação adequada
df_renovacao['RISCO_INADIMPLENCIA'] = df_renovacao['RISCO_INADIMPLENCIA'].fillna('SEM RISCO')
df_renovacao['FAIXA_DE_DIVIDA'] = df_renovacao['FAIXA_DE_DIVIDA'].fillna('SEM DIVIDA')

## Selecionando e excluindo colunas desnecessárias

Foi identificado que algumas colunas categóricas já possuíam uma outra coluna numérica como referência.

São elas:

* `NOM_SITUACAO_PROX_PERIODO`
* `NOM_SITUACAO_PERIODO_ATUAL`
* `NOM_CURSO`
* `NOM_TURNO`
* `NOM_TIPO_CURSO`

In [None]:
# Seleciona as variáveis qualitativas nominais e ordinais desnecessárias e/ou já mapeadas.
drop_columns = ['NOM_SITUACAO_PROX_PERIODO', 'NOM_SITUACAO_PERIODO_ATUAL', 'MODALIDADE_PP_PC', 'NOM_CURSO', 'NOM_TURNO', 'NOM_TIPO_CURSO', 'PERDA_FINANCIAMENTO', 'DATA_SAFRA_ENTRADA', 'SAFRA_ENTRADA']

In [None]:
# Exclui as variáveis e cria um novo dataframe limpo
df_renovacao_limpo = df_renovacao.drop(drop_columns, axis=1)
df_renovacao_limpo = df_renovacao_limpo.reset_index(drop=True)

# Listar os primeiros e últimos registros do dataframe limpo
df_renovacao_limpo

Unnamed: 0,COD_MATRICULA,ALUNO_MATRICULADO_PROX_PERIODO,ALUNO_MATRICULADO,CONDICAO_GERENCIAL,CONDICAO_IMPEDE_RENOVACAO,TIPO_INADIMPLENCIA,RISCO_INADIMPLENCIA,COD_CURSO,COD_TURNO,COD_TIPO_CURSO,CLASSE_PAGANTE_ANT,CLASSE_PAGANTE_ATU,NOVO_FIES,PRV_ANT,PRV_ATU,LATE_COMER,NOM_SITUACAO_ALUNO,NOM_SITUACAO_PERIODO_ANT,VAL_A_PAGAR,VAL_A_PAGAR_PAR,VAL_DIVIDA_MENS,VAL_DIVIDA_TOTAL,FAIXA_DE_DIVIDA,ADIMP_N_REN,CR_PER_ANT,FAIXA_APROVACAO,QTD_ACESSOS_19_2,QTD_ACESSOS_20_1,IND_INDICIO_EVASAO,CLASSIFICACAO_PROP_EVASAO,CLASSIFICACAO_PROP_RENOVACAO,ACEITE_CONTRATO,PASTA_VERMELHA,REQ_AGEND_TRANC,SAFRA
0,200701339023,0,0,9 - ALTO PROPENSO,BOLETO RENOVACAO NAO PAGO,ADIMPLENTE,SEM RISCO,1,3,11,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,Cursado,51.18,0.00,0.00,0.00,SEM DIVIDA,1,9.00,7 - 100%,32.0,21.0,0,1 - Alto,3 - Médio Baixo,0,0,0,VETERANO
1,200702198245,0,0,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,4004,3,11,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,Cursado,0.00,0.00,3111.20,3111.20,> 1500,0,5.91,4 - 41% A 60%,48.0,48.0,0,3 - Médio Baixo,4 - Baixo,1,0,0,CALOURO
2,200702198679,0,0,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,29,3,11,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,Cursado,0.00,0.00,3238.77,3238.77,> 1500,0,5.27,3 - 21% A 40%,53.0,46.0,0,4 - Baixo,4 - Baixo,0,0,0,VETERANO
3,200801431011,1,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,SEM RISCO,29,3,11,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,Cursado,2521.12,0.00,0.00,0.00,SEM DIVIDA,0,9.89,7 - 100%,130.0,119.0,0,4 - Baixo,2 - Médio Alto,1,0,0,VETERANO
4,200901402225,1,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,1,3,11,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,Cursado,170.96,0.00,0.00,0.00,SEM DIVIDA,0,3.50,4 - 41% A 60%,125.0,70.0,0,00 - Não Escorado,00 - Não Escorado,1,0,0,VETERANO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,201912030837,1,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,4004,3,11,MENSALISTA,MENSALISTA,NÃO,0,0,ON TIME COMER,Ativo,Cursado,534.38,0.00,0.00,0.00,SEM DIVIDA,0,7.54,7 - 100%,143.0,133.0,0,4 - Baixo,3 - Médio Baixo,1,0,0,VETERANO
2139,201912030853,1,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,4004,3,11,PAR,PAR,NÃO,0,0,ON TIME COMER,Ativo,Cursado,1157.48,5.16,0.00,5.16,SEM DIVIDA,0,6.31,5 - 61% A 80%,64.0,42.0,0,2 - Médio Alto,3 - Médio Baixo,1,0,0,VETERANO
2140,201912030861,0,0,2 - ALUNO EVADIDO,ALUNO EVADIDO SEM RENOVAR,ADIMPLENTE,MEDIO RISCO,2,3,11,PAR,PAR,NÃO,0,0,ON TIME COMER,Trancado,Cursado,0.00,4.88,0.00,0.00,SEM DIVIDA,0,7.43,7 - 100%,154.0,109.0,1,3 - Médio Baixo,3 - Médio Baixo,1,0,0,VETERANO
2141,201912030934,1,1,1 - ALUNO RENOVADO,ALUNO RENOVADO,INADIMPLENTE COM NEGOCIACAO,BAIXO RISCO,29,3,11,PAR,PAR,NÃO,0,0,ON TIME COMER,Ativo,Cursado,1486.82,606.04,0.00,489.79,SEM DIVIDA,0,6.14,7 - 100%,154.0,147.0,0,4 - Baixo,3 - Médio Baixo,1,0,0,VETERANO


## Resultado final do conjunto de dados 

Após a limpeza não foi mais observado valores ausentes no conjunto de dados.

In [None]:
# Verificar a quantidade de observações/variáveis e seus devidos tipos após os mapeamentos e limpeza dos dados
print("Observações:\t {}".format(df_renovacao_limpo.shape[0]))
print("Variáveis:\t {}\n".format(df_renovacao_limpo.shape[1]))

df_renovacao_limpo.info()

Observações:	 2143
Variáveis:	 35

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2143 entries, 0 to 2142
Data columns (total 35 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   COD_MATRICULA                   2143 non-null   int64  
 1   ALUNO_MATRICULADO_PROX_PERIODO  2143 non-null   int64  
 2   ALUNO_MATRICULADO               2143 non-null   int64  
 3   CONDICAO_GERENCIAL              2143 non-null   object 
 4   CONDICAO_IMPEDE_RENOVACAO       2143 non-null   object 
 5   TIPO_INADIMPLENCIA              2143 non-null   object 
 6   RISCO_INADIMPLENCIA             2143 non-null   object 
 7   COD_CURSO                       2143 non-null   int64  
 8   COD_TURNO                       2143 non-null   int64  
 9   COD_TIPO_CURSO                  2143 non-null   int64  
 10  CLASSE_PAGANTE_ANT              2143 non-null   object 
 11  CLASSE_PAGANTE_ATU              2143 non-null   object 
 12 

In [None]:
# Verificar se ainda exitem valores ausentes (missing values)
(df_renovacao_limpo.isnull().sum() / df_renovacao_limpo.shape[0] * 100).sort_values(ascending=False)

SAFRA                             0.0
COD_TURNO                         0.0
PRV_ATU                           0.0
PRV_ANT                           0.0
NOVO_FIES                         0.0
CLASSE_PAGANTE_ATU                0.0
CLASSE_PAGANTE_ANT                0.0
COD_TIPO_CURSO                    0.0
COD_CURSO                         0.0
NOM_SITUACAO_ALUNO                0.0
RISCO_INADIMPLENCIA               0.0
TIPO_INADIMPLENCIA                0.0
CONDICAO_IMPEDE_RENOVACAO         0.0
CONDICAO_GERENCIAL                0.0
ALUNO_MATRICULADO                 0.0
ALUNO_MATRICULADO_PROX_PERIODO    0.0
LATE_COMER                        0.0
NOM_SITUACAO_PERIODO_ANT          0.0
REQ_AGEND_TRANC                   0.0
QTD_ACESSOS_19_2                  0.0
PASTA_VERMELHA                    0.0
ACEITE_CONTRATO                   0.0
CLASSIFICACAO_PROP_RENOVACAO      0.0
CLASSIFICACAO_PROP_EVASAO         0.0
IND_INDICIO_EVASAO                0.0
QTD_ACESSOS_20_1                  0.0
FAIXA_APROVA

Nesse momento pode-se observar que os tipos de dados objects foram reduzidos:

* `NUMBER` - 20 colunas
* `OBJECT` - 15 colunas

In [None]:
# Somente os dados de tipo number
df_renovacao_limpo.select_dtypes(include=['number'])

Unnamed: 0,COD_MATRICULA,ALUNO_MATRICULADO_PROX_PERIODO,ALUNO_MATRICULADO,COD_CURSO,COD_TURNO,COD_TIPO_CURSO,PRV_ANT,PRV_ATU,VAL_A_PAGAR,VAL_A_PAGAR_PAR,VAL_DIVIDA_MENS,VAL_DIVIDA_TOTAL,ADIMP_N_REN,CR_PER_ANT,QTD_ACESSOS_19_2,QTD_ACESSOS_20_1,IND_INDICIO_EVASAO,ACEITE_CONTRATO,PASTA_VERMELHA,REQ_AGEND_TRANC
0,200701339023,0,0,1,3,11,0,0,51.18,0.00,0.00,0.00,1,9.00,32.0,21.0,0,0,0,0
1,200702198245,0,0,4004,3,11,0,0,0.00,0.00,3111.20,3111.20,0,5.91,48.0,48.0,0,1,0,0
2,200702198679,0,0,29,3,11,0,0,0.00,0.00,3238.77,3238.77,0,5.27,53.0,46.0,0,0,0,0
3,200801431011,1,1,29,3,11,0,0,2521.12,0.00,0.00,0.00,0,9.89,130.0,119.0,0,1,0,0
4,200901402225,1,1,1,3,11,0,0,170.96,0.00,0.00,0.00,0,3.50,125.0,70.0,0,1,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,201912030837,1,1,4004,3,11,0,0,534.38,0.00,0.00,0.00,0,7.54,143.0,133.0,0,1,0,0
2139,201912030853,1,1,4004,3,11,0,0,1157.48,5.16,0.00,5.16,0,6.31,64.0,42.0,0,1,0,0
2140,201912030861,0,0,2,3,11,0,0,0.00,4.88,0.00,0.00,0,7.43,154.0,109.0,1,1,0,0
2141,201912030934,1,1,29,3,11,0,0,1486.82,606.04,0.00,489.79,0,6.14,154.0,147.0,0,1,0,0


In [None]:
# Somente os dados de tipo object
df_renovacao_limpo.select_dtypes(include=['object'])

Unnamed: 0,CONDICAO_GERENCIAL,CONDICAO_IMPEDE_RENOVACAO,TIPO_INADIMPLENCIA,RISCO_INADIMPLENCIA,CLASSE_PAGANTE_ANT,CLASSE_PAGANTE_ATU,NOVO_FIES,LATE_COMER,NOM_SITUACAO_ALUNO,NOM_SITUACAO_PERIODO_ANT,FAIXA_DE_DIVIDA,FAIXA_APROVACAO,CLASSIFICACAO_PROP_EVASAO,CLASSIFICACAO_PROP_RENOVACAO,SAFRA
0,9 - ALTO PROPENSO,BOLETO RENOVACAO NAO PAGO,ADIMPLENTE,SEM RISCO,MENSALISTA,MENSALISTA,NÃO,ON TIME COMER,Ativo,Cursado,SEM DIVIDA,7 - 100%,1 - Alto,3 - Médio Baixo,VETERANO
1,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,MENSALISTA,MENSALISTA,NÃO,ON TIME COMER,Ativo,Cursado,> 1500,4 - 41% A 60%,3 - Médio Baixo,4 - Baixo,CALOURO
2,8 - BAIXO PROPENSO,INADIMPLENTE,INADIMPLENTE SEM NEGOCIACAO,MEDIO RISCO,MENSALISTA,MENSALISTA,NÃO,ON TIME COMER,Ativo,Cursado,> 1500,3 - 21% A 40%,4 - Baixo,4 - Baixo,VETERANO
3,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,SEM RISCO,MENSALISTA,MENSALISTA,NÃO,ON TIME COMER,Ativo,Cursado,SEM DIVIDA,7 - 100%,4 - Baixo,2 - Médio Alto,VETERANO
4,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,MENSALISTA,MENSALISTA,NÃO,ON TIME COMER,Ativo,Cursado,SEM DIVIDA,4 - 41% A 60%,00 - Não Escorado,00 - Não Escorado,VETERANO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2138,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,MENSALISTA,MENSALISTA,NÃO,ON TIME COMER,Ativo,Cursado,SEM DIVIDA,7 - 100%,4 - Baixo,3 - Médio Baixo,VETERANO
2139,1 - ALUNO RENOVADO,ALUNO RENOVADO,ADIMPLENTE,BAIXO RISCO,PAR,PAR,NÃO,ON TIME COMER,Ativo,Cursado,SEM DIVIDA,5 - 61% A 80%,2 - Médio Alto,3 - Médio Baixo,VETERANO
2140,2 - ALUNO EVADIDO,ALUNO EVADIDO SEM RENOVAR,ADIMPLENTE,MEDIO RISCO,PAR,PAR,NÃO,ON TIME COMER,Trancado,Cursado,SEM DIVIDA,7 - 100%,3 - Médio Baixo,3 - Médio Baixo,VETERANO
2141,1 - ALUNO RENOVADO,ALUNO RENOVADO,INADIMPLENTE COM NEGOCIACAO,BAIXO RISCO,PAR,PAR,NÃO,ON TIME COMER,Ativo,Cursado,SEM DIVIDA,7 - 100%,4 - Baixo,3 - Médio Baixo,VETERANO


## Salvando o conjunto de dados em um novo arquivo

Foi salvo o dataframe limpo em um novo arquivo do tipo CSV. Isso reduziu significativamente o tamanho do arquivo final para a próxima etapa de ***Análise Exploratória dos Dados (EDA)***

In [None]:
# Salva os dados do dataframe limpo em um arquivo CSV
df_renovacao_limpo.to_csv( root_path + 'base_clean.csv', sep='|', index=False)