# Modelo para ETL

## Objetivos:

- Remover as colunas desnecessárias para a análise;
- Filtrar o dataset considerando somente o município de Curitiba e ensino fundamental;
- Tratamento de duplicatas e NAs;
- Comparação de dois anos consecutivos para criação da coluna target evasão.

Carregar a biblioteca Pandas

In [1]:
import pandas as pd

Carregar os dados do primeiro ano de análise, já filtrando as colunas de interesse

In [2]:
matr_2015 = pd.read_csv('MATRICULA_SUL_2015.CSV', sep='|', usecols=
                        ['CO_PESSOA_FISICA',
                        'NU_IDADE',
                        'TP_SEXO',
                        'TP_COR_RACA',
                        'TP_NACIONALIDADE',
                        'TP_ZONA_RESIDENCIAL',
                        'TP_OUTRO_LOCAL_AULA',
                        'IN_NECESSIDADE_ESPECIAL',
                        'IN_CEGUEIRA',
                        'IN_BAIXA_VISAO',
                        'IN_SURDEZ',
                        'IN_DEF_AUDITIVA',
                        'IN_SURDOCEGUEIRA',
                        'IN_DEF_FISICA',
                        'IN_DEF_INTELECTUAL',
                        'IN_DEF_MULTIPLA',
                        'IN_AUTISMO',
                        'IN_SINDROME_ASPERGER',
                        'IN_SINDROME_RETT',
                        'IN_TRANSTORNO_DI',
                        'IN_SUPERDOTACAO',
                        'TP_ETAPA_ENSINO',
                        'TP_UNIFICADA',
                        'TP_TIPO_TURMA',
                        'CO_ENTIDADE',
                        'TP_DEPENDENCIA',
                        'TP_LOCALIZACAO',
                        'CO_MUNICIPIO_END'])

Filtro para o município de Curitiba (cód 4106902)

In [3]:
matr_2015 = matr_2015.query('CO_MUNICIPIO_END == 4106902')

Filtro para ensino fundamental (1° a 7° série e 1° ao 8° ano)

In [4]:
filtro = [4, 5, 6, 7, 8, 9, 10, 14, 15, 16, 17, 18, 19, 20,
                21]

In [5]:
matr_2015 = matr_2015[matr_2015.TP_ETAPA_ENSINO.isin(filtro)]

Conferindo a dimensão resultante dos filtros

In [6]:
matr_2015.shape

(159952, 28)

Verificando registros duplicados

In [7]:
matr_2015[matr_2015.duplicated(subset='CO_PESSOA_FISICA', keep=False)]

Unnamed: 0,CO_PESSOA_FISICA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_END,TP_ZONA_RESIDENCIAL,TP_OUTRO_LOCAL_AULA,IN_NECESSIDADE_ESPECIAL,IN_CEGUEIRA,...,IN_SINDROME_ASPERGER,IN_SINDROME_RETT,IN_TRANSTORNO_DI,IN_SUPERDOTACAO,TP_ETAPA_ENSINO,TP_UNIFICADA,TP_TIPO_TURMA,CO_ENTIDADE,TP_DEPENDENCIA,TP_LOCALIZACAO
46531,114347605454,13.0,1.0,0.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,21.0,0.0,0.0,41602919.0,4.0,1.0
443227,126159622721,7.0,2.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,14.0,0.0,0.0,41131878.0,4.0,1.0
479279,127757175789,6.0,2.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,14.0,0.0,0.0,41358864.0,3.0,1.0
626957,122693560712,10.0,1.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,17.0,0.0,0.0,41130820.0,3.0,1.0
628191,114356709909,10.0,2.0,0.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,18.0,0.0,0.0,41377460.0,4.0,1.0
635076,119985714830,13.0,1.0,3.0,1.0,4106902.0,1.0,3.0,1.0,0.0,...,0.0,0.0,0.0,0.0,15.0,0.0,0.0,41132319.0,3.0,1.0
888185,114356709909,10.0,2.0,0.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,18.0,0.0,0.0,41148169.0,4.0,1.0
981173,124023380830,7.0,2.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,15.0,0.0,0.0,41129466.0,3.0,1.0
987659,126159622721,7.0,2.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,15.0,0.0,0.0,41130839.0,3.0,1.0
2666913,124023380830,7.0,2.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,,,15.0,0.0,0.0,41354117.0,3.0,1.0


Como os registros duplicados representam uma quantidade muito pequena dos dados, optamos por fazer a remoção dessas linhas

In [8]:
matr_2015.drop_duplicates(subset=['CO_PESSOA_FISICA'], keep=False, inplace=True, ignore_index=True)

Dimensão final da tabela do primeiro ano de análise

In [9]:
matr_2015.shape

(159938, 28)

Recodificando os anos escolares para facilitar a análise posterior

In [10]:
matr_2015['TP_ETAPA_ENSINO'].replace(14, 1, inplace=True) # 1° ano
matr_2015['TP_ETAPA_ENSINO'].replace([4, 15], 2, inplace=True) # 2° ano
matr_2015['TP_ETAPA_ENSINO'].replace([5, 16], 3, inplace=True) # 3° ano
matr_2015['TP_ETAPA_ENSINO'].replace([6, 17], 4, inplace=True) # 4° ano
matr_2015['TP_ETAPA_ENSINO'].replace([7, 18], 5, inplace=True) # 5° ano
matr_2015['TP_ETAPA_ENSINO'].replace([8, 19], 6, inplace=True) # 6° ano
matr_2015['TP_ETAPA_ENSINO'].replace([9, 20], 7, inplace=True) # 7° ano
matr_2015['TP_ETAPA_ENSINO'].replace([10, 21], 8, inplace=True) # 8° ano
matr_2015['TP_ETAPA_ENSINO'].replace([11, 41], 9, inplace=True) # 9° ano

Carregando a base do segundo ano de análise

In [11]:
matr_2016 = pd.read_csv('MATRICULA_SUL_2016.CSV', sep='|', usecols=
                                ['CO_PESSOA_FISICA', 'TP_ETAPA_ENSINO'])

Filtrando para somente ensino fundamental

In [12]:
filtro2 = [4, 5, 6, 7, 8, 9, 10, 11, 14, 15, 16, 17, 18, 19, 20,
                21, 41]

In [13]:
matr_2016 = matr_2016[matr_2016.TP_ETAPA_ENSINO.isin(filtro2)]

Conferindo a dimensão da base de dados

In [14]:
matr_2016.shape

(3624079, 2)

Verificando duplicatas de alunos

In [15]:
matr_2016.sort_values(by='CO_PESSOA_FISICA', ignore_index=True, inplace=True)
matr_2016[matr_2016.duplicated(subset='CO_PESSOA_FISICA', keep=False)]

Unnamed: 0,CO_PESSOA_FISICA,TP_ETAPA_ENSINO
1991,1.100302e+11,20.0
1992,1.100302e+11,20.0
4496,1.100457e+11,21.0
4497,1.100457e+11,21.0
4896,1.100503e+11,19.0
...,...,...
3506640,1.446265e+11,14.0
3546867,1.446920e+11,14.0
3546868,1.446920e+11,14.0
3556360,1.447023e+11,19.0


Remoção dos valores duplicados

In [16]:
matr_2016.drop_duplicates(subset=['CO_PESSOA_FISICA'], keep=False, inplace=True, ignore_index=True)

Recodificando os anos escolares para facilitar a análise posterior

In [17]:
matr_2016['TP_ETAPA_ENSINO'].replace(14, 1, inplace=True) # 1° ano
matr_2016['TP_ETAPA_ENSINO'].replace([4, 15], 2, inplace=True) # 2° ano
matr_2016['TP_ETAPA_ENSINO'].replace([5, 16], 3, inplace=True) # 3° ano
matr_2016['TP_ETAPA_ENSINO'].replace([6, 17], 4, inplace=True) # 4° ano
matr_2016['TP_ETAPA_ENSINO'].replace([7, 18], 5, inplace=True) # 5° ano
matr_2016['TP_ETAPA_ENSINO'].replace([8, 19], 6, inplace=True) # 6° ano
matr_2016['TP_ETAPA_ENSINO'].replace([9, 20], 7, inplace=True) # 7° ano
matr_2016['TP_ETAPA_ENSINO'].replace([10, 21], 8, inplace=True) # 8° ano
matr_2016['TP_ETAPA_ENSINO'].replace([11, 41], 9, inplace=True) # 9° ano

Unificando os datasets pelo código do aluno, usando o primeiro dataset como referência e renomeando as colunas com os anos respectivos

In [18]:
matr = pd.merge(matr_2015, matr_2016, how='left', on='CO_PESSOA_FISICA', suffixes=('', '_2016'))

Substituindo NA na etapa de ensino do segundo ano para zeros

In [19]:
matr.TP_ETAPA_ENSINO_2016.fillna(value=0, inplace=True)

Dimensão final do dataset (deve ser igual à dimensão do primeiro dataset tratado)

In [20]:
matr.shape

(159938, 29)

Verificando se sobraram duplicatas no dataset unificado

In [21]:
matr.sort_values(by='CO_PESSOA_FISICA', ignore_index=True, inplace=True)
matr[matr.duplicated(subset='CO_PESSOA_FISICA', keep=False)].shape

(0, 29)

Excluir as bases iniciais para aliviar a memória

In [22]:
del matr_2015
del matr_2016

Função lambda para classificação do status de cada aluno (repetente, evadido, aprovado ou erro)

In [23]:
matr['Status'] = matr.apply(lambda x: 'repetente' if (x['TP_ETAPA_ENSINO'] == x['TP_ETAPA_ENSINO_2016']) 
                            else ('aprovado' if x['TP_ETAPA_ENSINO_2016'] == x['TP_ETAPA_ENSINO']+1 
                                  else ('evadido' if x['TP_ETAPA_ENSINO_2016'] == 0 else 'erro')), axis=1)
matr.head()

Unnamed: 0,CO_PESSOA_FISICA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_END,TP_ZONA_RESIDENCIAL,TP_OUTRO_LOCAL_AULA,IN_NECESSIDADE_ESPECIAL,IN_CEGUEIRA,...,IN_TRANSTORNO_DI,IN_SUPERDOTACAO,TP_ETAPA_ENSINO,TP_UNIFICADA,TP_TIPO_TURMA,CO_ENTIDADE,TP_DEPENDENCIA,TP_LOCALIZACAO,TP_ETAPA_ENSINO_2016,Status
0,110002891173,15.0,2.0,0.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,8.0,0.0,0.0,41127340.0,2.0,1.0,0.0,evadido
1,110017448025,15.0,2.0,0.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,7.0,0.0,0.0,41130901.0,2.0,1.0,0.0,evadido
2,110019915674,16.0,2.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,8.0,0.0,0.0,41130634.0,2.0,1.0,0.0,evadido
3,110020051246,14.0,1.0,0.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,8.0,0.0,0.0,41133463.0,4.0,1.0,8.0,repetente
4,110022545580,11.0,2.0,3.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,5.0,0.0,0.0,41129180.0,3.0,1.0,7.0,erro


Contagem de dados das categorias criadas acima

In [24]:
matr.value_counts(subset='Status')

Status
aprovado     125782
evadido       21574
repetente      8048
erro           4534
dtype: int64

Valores classificados como erro são inconsistências dos dados que devem removidas da análise:
- Aluno que pulou 1 etapa de ensino;
- Aluno que regrediu etapa de ensino.

In [25]:
matr[matr.Status=='erro']

Unnamed: 0,CO_PESSOA_FISICA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_END,TP_ZONA_RESIDENCIAL,TP_OUTRO_LOCAL_AULA,IN_NECESSIDADE_ESPECIAL,IN_CEGUEIRA,...,IN_TRANSTORNO_DI,IN_SUPERDOTACAO,TP_ETAPA_ENSINO,TP_UNIFICADA,TP_TIPO_TURMA,CO_ENTIDADE,TP_DEPENDENCIA,TP_LOCALIZACAO,TP_ETAPA_ENSINO_2016,Status
4,110022545580,11.0,2.0,3.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,5.0,0.0,0.0,41129180.0,3.0,1.0,7.0,erro
17,110025988696,13.0,1.0,3.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,6.0,0.0,0.0,41146174.0,3.0,1.0,8.0,erro
20,110025989820,13.0,1.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,7.0,0.0,0.0,41133340.0,3.0,1.0,9.0,erro
39,110025996443,12.0,2.0,3.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,7.0,0.0,0.0,41133340.0,3.0,1.0,9.0,erro
57,110026002867,11.0,2.0,1.0,1.0,4106902.0,1.0,3.0,1.0,0.0,...,0.0,0.0,5.0,0.0,0.0,41131681.0,3.0,1.0,7.0,erro
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
158397,127858528938,10.0,1.0,3.0,3.0,4106902.0,1.0,3.0,0.0,,...,,,5.0,0.0,0.0,41131924.0,3.0,1.0,7.0,erro
158399,127858529152,10.0,1.0,3.0,3.0,4106902.0,1.0,3.0,0.0,,...,,,5.0,0.0,0.0,41131924.0,3.0,1.0,7.0,erro
159713,128226301512,12.0,2.0,2.0,3.0,4106902.0,1.0,3.0,0.0,,...,,,7.0,0.0,0.0,41531876.0,2.0,1.0,9.0,erro
159802,128295361189,7.0,2.0,1.0,1.0,4106902.0,1.0,3.0,0.0,,...,,,1.0,0.0,0.0,41156072.0,4.0,1.0,3.0,erro


Removendo as linhas com erros

In [26]:
matr = matr[matr.Status!='erro']

Conferindo o resultado final

In [27]:
matr.value_counts(subset='Status')

Status
aprovado     125782
evadido       21574
repetente      8048
dtype: int64

Removendo os dados do segundo ano e a coluna de município que não serão mias úteis.

In [28]:
matr.drop(columns=['CO_MUNICIPIO_END', 'TP_ETAPA_ENSINO_2016'], inplace=True)

Renomeando colunas para facilitar a análise posterior

In [29]:
matr.rename(columns={'CO_PESSOA_FISICA': 'ID',
                         'NU_IDADE': 'Idade',
                         'TP_SEXO': 'Sexo',
                         'TP_COR_RACA': 'Etnia',
                         'TP_NACIONALIDADE': 'Nacionalidade',
                         'TP_ZONA_RESIDENCIAL': 'Zona_res',
                         'TP_OUTRO_LOCAL_AULA': 'Outro_local_aula',
                         'IN_NECESSIDADE_ESPECIAL': 'Necessidade_especial',
                         'IN_CEGUEIRA': 'Cegueira',
                         'IN_BAIXA_VISAO': 'Baixa_visao',
                         'IN_SURDEZ': 'Surdez',
                         'IN_DEF_AUDITIVA': 'Def_auditiva',
                         'IN_SURDOCEGUEIRA': 'Surdocegueira',
                         'IN_DEF_FISICA': 'Def_fisica',
                         'IN_DEF_INTELECTUAL': 'Def_intelectual',
                         'IN_DEF_MULTIPLA': 'Def_multipla',
                         'IN_AUTISMO': 'Autismo',
                         'IN_SINDROME_ASPERGER': 'Asperger',
                         'IN_SINDROME_RETT': 'Rett',
                         'IN_TRANSTORNO_DI': 'Transtorno_DI',
                         'IN_SUPERDOTACAO': 'Superdotacao',
                         'TP_ETAPA_ENSINO': 'Etapa_ensino',
                         'TP_UNIFICADA': 'Unificada',
                         'TP_TIPO_TURMA': 'Tipo_turma',
                         'CO_ENTIDADE': 'ID_escola',
                         'TP_LOCALIZACAO': 'Localizacao',
                         'TP_DEPENDENCIA': 'Administracao'}, inplace=True)

Aplicando os labels nos dados codificados

In [30]:
matr.Sexo = matr.Sexo.map({1:'M', 2:'F'})
matr.Etnia = matr.Etnia.map({0:'Não Declarada', 1:'Branca', 2:'Preta', 3:'Parda', 4:'Amarela', 5:'Indígena'})
matr.Nacionalidade = matr.Nacionalidade.map({1:'Brasileiro', 2:'Naturalizado', 3:'Extrangeiro'})
matr.Zona_res = matr.Zona_res.map({1:'Urbana', 2:'Rural'})
matr.Outro_local_aula = matr.Outro_local_aula.map({1:'Hospital', 2:'Domicilio', 3:'Não recebe'})
matr.Unificada = matr.Unificada.map({0:'Não', 1:'Unificada', 2:'Multietapa', 3:'Multi', 4:'Correção de fluxo', 5:'Mista'})
matr.Tipo_turma = matr.Tipo_turma.map({0:'Não se aplica', 1:'Classe Hospitalar', 2:'Unidade Socioeducativa',
                                           3:'Unidade prisional', 4:'Atividade complementar', 5:'At educacional especializado'})
matr.Localizacao = matr.Localizacao.map({1:'Urbana', 2:'Rural'})
matr.Administracao = matr.Administracao.map({1:'Federal', 2:'Estadual', 3:'Municipal', 4:'Privada'})

As colunas de necessidade especial específicas deixaram de ser preenchidos quando o aluno não possui necessidade especial, também algumas linhas da etnia não tem informação.
Dessa maneira vamos preencher etnia como não declarada (valor 0) e as necessidades especiais também como ausentes (valor 0).

In [31]:
matr = matr.fillna(0)

Aplicando one hot encoding

In [32]:
matr = pd.get_dummies(matr, columns=
                        ['Sexo', 'Etnia', 'Nacionalidade', 'Zona_res', 'Outro_local_aula', 
                         'Unificada', 'Tipo_turma', 'Localizacao', 'Administracao'], 
                        drop_first=True)

Gerando arquivo CSV do resultado

In [33]:
matr.to_csv('evasão_15.csv')