# Modelo para ETL

## Objetivos:

- Remover as colunas desnecessárias para a análise;
- Filtrar o dataset considerando somente o município de Curitiba e ensino fundamental;
- Tratamento de duplicatas e NAs;
- Comparação de dois anos consecutivos para criação da coluna target evasão.

Carregar a biblioteca Pandas

In [1]:
import pandas as pd

Carregar os dados do primeiro ano de análise, já filtrando as colunas de interesse

In [2]:
matr_2012 = pd.read_csv('MATRICULA_SUL_2012.CSV', sep='|', usecols=
                        ['FK_COD_ALUNO',
                        'NUM_IDADE',
                        'TP_SEXO',
                        'TP_COR_RACA',
                        'TP_NACIONALIDADE',
                        'ID_ZONA_RESIDENCIAL',
                        'ID_TIPO_ATENDIMENTO',
                        'ID_POSSUI_NEC_ESPECIAL',
                        'ID_TIPO_NEC_ESP_CEGUEIRA',
                        'ID_TIPO_NEC_ESP_BAIXA_VISAO',
                        'ID_TIPO_NEC_ESP_SURDEZ',
                        'ID_TIPO_NEC_ESP_DEF_AUDITIVA',
                        'ID_TIPO_NEC_ESP_SURDO_CEGUEIRA',
                        'ID_TIPO_NEC_ESP_DEF_FISICA',
                        'ID_TIPO_NEC_ESP_DEF_MENTAL',
                        'ID_TIPO_NEC_ESP_DEF_MULTIPLAS',
                        'ID_TIPO_NEC_ESP_AUTISMO',
                        'ID_TIPO_NEC_ESP_ASPERGER',
                        'ID_TIPO_NEC_ESP_RETT',
                        'ID_TIPO_NEC_ESP_TDI',
                        'ID_TIPO_NEC_ESP_SUPERDOTACAO',
                        'FK_COD_ETAPA_ENSINO',
                        'COD_UNIFICADA',
                        'FK_COD_TIPO_TURMA',
                        'PK_COD_ENTIDADE',
                        'ID_DEPENDENCIA_ADM_ESC',
                        'ID_LOCALIZACAO_ESC',
                        'FK_COD_MUNICIPIO_END'])

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


In [3]:
matr_2012.rename(columns={'FK_COD_ALUNO': 'CO_PESSOA_FISICA',
                        'NUM_IDADE': 'NU_IDADE',
                        'TP_SEXO': 'TP_SEXO',
                        'TP_COR_RACA': 'TP_COR_RACA',
                        'TP_NACIONALIDADE': 'TP_NACIONALIDADE',
                        'ID_ZONA_RESIDENCIAL': 'TP_ZONA_RESIDENCIAL',
                        'ID_TIPO_ATENDIMENTO': 'TP_OUTRO_LOCAL_AULA',
                        'ID_POSSUI_NEC_ESPECIAL': 'IN_NECESSIDADE_ESPECIAL',
                        'ID_TIPO_NEC_ESP_CEGUEIRA': 'IN_CEGUEIRA',
                        'ID_TIPO_NEC_ESP_BAIXA_VISAO': 'IN_BAIXA_VISAO',
                        'ID_TIPO_NEC_ESP_SURDEZ': 'IN_SURDEZ',
                        'ID_TIPO_NEC_ESP_DEF_AUDITIVA': 'IN_DEF_AUDITIVA',
                        'ID_TIPO_NEC_ESP_SURDO_CEGUEIRA': 'IN_SURDOCEGUEIRA',
                        'ID_TIPO_NEC_ESP_DEF_FISICA': 'IN_DEF_FISICA',
                        'ID_TIPO_NEC_ESP_DEF_MENTAL': 'IN_DEF_INTELECTUAL',
                        'ID_TIPO_NEC_ESP_DEF_MULTIPLAS': 'IN_DEF_MULTIPLA',
                        'ID_TIPO_NEC_ESP_AUTISMO': 'IN_AUTISMO',
                        'ID_TIPO_NEC_ESP_ASPERGER': 'IN_SINDROME_ASPERGER',
                        'ID_TIPO_NEC_ESP_RETT': 'IN_SINDROME_RETT',
                        'ID_TIPO_NEC_ESP_TDI': 'IN_TRANSTORNO_DI',
                        'ID_TIPO_NEC_ESP_SUPERDOTACAO': 'IN_SUPERDOTACAO',
                        'FK_COD_ETAPA_ENSINO': 'TP_ETAPA_ENSINO',
                        'COD_UNIFICADA': 'TP_UNIFICADA',
                        'FK_COD_TIPO_TURMA': 'TP_TIPO_TURMA',
                        'PK_COD_ENTIDADE': 'CO_ENTIDADE',
                        'ID_DEPENDENCIA_ADM_ESC': 'TP_DEPENDENCIA',
                        'ID_LOCALIZACAO_ESC': 'TP_LOCALIZACAO',
                        'FK_COD_MUNICIPIO_END': 'CO_MUNICIPIO_END'}, inplace=True)

Filtro para o município de Curitiba (cód 4106902)

In [4]:
matr_2012 = matr_2012.query('CO_MUNICIPIO_END == 4106902')

Filtro para ensino fundamental (1° a 7° série e 1° ao 8° ano)

In [5]:
filtro = [4, 5, 6, 7, 8, 9, 10, 14, 15, 16, 17, 18, 19, 20,
                21]

In [6]:
matr_2012 = matr_2012[matr_2012.TP_ETAPA_ENSINO.isin(filtro)]

Conferindo a dimensão resultante dos filtros

In [7]:
matr_2012.shape

(177939, 28)

Verificando registros duplicados

In [8]:
matr_2012[matr_2012.duplicated(subset='CO_PESSOA_FISICA', keep=False)]

Unnamed: 0,CO_PESSOA_FISICA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_END,TP_ZONA_RESIDENCIAL,TP_OUTRO_LOCAL_AULA,IN_NECESSIDADE_ESPECIAL,IN_CEGUEIRA,...,IN_SINDROME_ASPERGER,IN_SINDROME_RETT,IN_TRANSTORNO_DI,IN_SUPERDOTACAO,TP_ETAPA_ENSINO,TP_UNIFICADA,TP_TIPO_TURMA,CO_ENTIDADE,TP_LOCALIZACAO,TP_DEPENDENCIA
42171,116653558087,7,M,0,1,4106900.0,1.0,3,1,0,...,0,0.0,0.0,0.0,14.0,0.0,0,41384474.0,1,3.0
693050,112019449888,17,M,0,1,4106900.0,1.0,3,0,0,...,0,0.0,0.0,0.0,10.0,0.0,0,41127463.0,1,3.0
1308518,121251552659,10,F,3,1,4106900.0,1.0,3,0,0,...,0,0.0,0.0,0.0,17.0,0.0,0,41385977.0,1,3.0
1622789,116685702701,7,M,0,1,4106900.0,1.0,3,1,0,...,0,0.0,0.0,0.0,15.0,0.0,0,41129946.0,1,3.0
1646780,121254057500,6,M,0,1,4106900.0,1.0,3,1,0,...,0,0.0,0.0,0.0,14.0,0.0,0,41129180.0,1,3.0
2565521,121251552659,10,F,3,1,4106900.0,1.0,3,0,0,...,0,0.0,0.0,0.0,17.0,0.0,0,41139909.0,1,3.0
2626331,116674500851,6,M,0,1,4106900.0,1.0,3,1,0,...,0,0.0,0.0,0.0,14.0,0.0,0,41377036.0,1,4.0
2626332,116653756202,7,F,0,1,4106900.0,1.0,3,1,0,...,0,0.0,0.0,0.0,14.0,0.0,0,41377036.0,1,4.0
2626334,121254057500,6,M,0,1,4106900.0,1.0,3,1,0,...,0,0.0,0.0,0.0,14.0,0.0,0,41377036.0,1,4.0
2626335,121277069270,6,M,0,1,4106900.0,1.0,3,1,0,...,0,0.0,0.0,0.0,14.0,0.0,0,41377036.0,1,4.0


Como os registros duplicados representam uma quantidade muito pequena dos dados, optamos por fazer a remoção dessas linhas

In [9]:
matr_2012.drop_duplicates(subset=['CO_PESSOA_FISICA'], keep=False, inplace=True, ignore_index=True)

Dimensão final da tabela do primeiro ano de análise

In [10]:
matr_2012.shape

(177913, 28)

Recodificando os anos escolares para facilitar a análise posterior

In [11]:
matr_2012['TP_ETAPA_ENSINO'].replace(14, 1, inplace=True) # 1° ano
matr_2012['TP_ETAPA_ENSINO'].replace([4, 15], 2, inplace=True) # 2° ano
matr_2012['TP_ETAPA_ENSINO'].replace([5, 16], 3, inplace=True) # 3° ano
matr_2012['TP_ETAPA_ENSINO'].replace([6, 17], 4, inplace=True) # 4° ano
matr_2012['TP_ETAPA_ENSINO'].replace([7, 18], 5, inplace=True) # 5° ano
matr_2012['TP_ETAPA_ENSINO'].replace([8, 19], 6, inplace=True) # 6° ano
matr_2012['TP_ETAPA_ENSINO'].replace([9, 20], 7, inplace=True) # 7° ano
matr_2012['TP_ETAPA_ENSINO'].replace([10, 21], 8, inplace=True) # 8° ano
matr_2012['TP_ETAPA_ENSINO'].replace([11, 41], 9, inplace=True) # 9° ano

Carregando a base do segundo ano de análise

In [12]:
matr_2013 = pd.read_csv('MATRICULA_SUL_2013.CSV', sep='|', usecols=
                                ['FK_COD_ALUNO', 'FK_COD_ETAPA_ENSINO'])

In [13]:
matr_2013.rename(columns={'FK_COD_ALUNO': 'CO_PESSOA_FISICA',
                        'FK_COD_ETAPA_ENSINO': 'TP_ETAPA_ENSINO'}, inplace=True)

Filtrando para somente ensino fundamental

In [14]:
filtro2 = [4, 5, 6, 7, 8, 9, 10, 11, 14, 15, 16, 17, 18, 19, 20,
                21, 41]

In [15]:
matr_2013 = matr_2013[matr_2013.TP_ETAPA_ENSINO.isin(filtro2)]

Conferindo a dimensão da base de dados

In [16]:
matr_2013.shape

(3770832, 2)

Verificando duplicatas de alunos

In [17]:
matr_2013.sort_values(by='CO_PESSOA_FISICA', ignore_index=True, inplace=True)
matr_2013[matr_2013.duplicated(subset='CO_PESSOA_FISICA', keep=False)]

Unnamed: 0,CO_PESSOA_FISICA,TP_ETAPA_ENSINO
689,110019664221,41.0
690,110019664221,19.0
709,110019679504,41.0
710,110019679504,21.0
3520,110021221390,18.0
...,...,...
3730928,124191165428,14.0
3737675,124248628936,18.0
3737676,124248628936,18.0
3740490,124254254708,14.0


Remoção dos valores duplicados

In [18]:
matr_2013.drop_duplicates(subset=['CO_PESSOA_FISICA'], keep=False, inplace=True, ignore_index=True)

Recodificando os anos escolares para facilitar a análise posterior

In [19]:
matr_2013['TP_ETAPA_ENSINO'].replace(14, 1, inplace=True) # 1° ano
matr_2013['TP_ETAPA_ENSINO'].replace([4, 15], 2, inplace=True) # 2° ano
matr_2013['TP_ETAPA_ENSINO'].replace([5, 16], 3, inplace=True) # 3° ano
matr_2013['TP_ETAPA_ENSINO'].replace([6, 17], 4, inplace=True) # 4° ano
matr_2013['TP_ETAPA_ENSINO'].replace([7, 18], 5, inplace=True) # 5° ano
matr_2013['TP_ETAPA_ENSINO'].replace([8, 19], 6, inplace=True) # 6° ano
matr_2013['TP_ETAPA_ENSINO'].replace([9, 20], 7, inplace=True) # 7° ano
matr_2013['TP_ETAPA_ENSINO'].replace([10, 21], 8, inplace=True) # 8° ano
matr_2013['TP_ETAPA_ENSINO'].replace([11, 41], 9, inplace=True) # 9° ano

Unificando os datasets pelo código do aluno, usando o primeiro dataset como referência e renomeando as colunas com os anos respectivos

In [20]:
matr = pd.merge(matr_2012, matr_2013, how='left', on='CO_PESSOA_FISICA', suffixes=('', '_2013'))

Substituindo NA na etapa de ensino do segundo ano para zeros

In [21]:
matr.TP_ETAPA_ENSINO_2013.fillna(value=0, inplace=True)

Dimensão final do dataset (deve ser igual à dimensão do primeiro dataset tratado)

In [22]:
matr.shape

(177913, 29)

Verificando se sobraram duplicatas no dataset unificado

In [23]:
matr.sort_values(by='CO_PESSOA_FISICA', ignore_index=True, inplace=True)
matr[matr.duplicated(subset='CO_PESSOA_FISICA', keep=False)].shape

(0, 29)

Excluir as bases iniciais para aliviar a memória

In [24]:
del matr_2012
del matr_2013

Função lambda para classificação do status de cada aluno (repetente, evadido, aprovado ou erro)

In [25]:
matr['Status'] = matr.apply(lambda x: 'repetente' if (x['TP_ETAPA_ENSINO'] == x['TP_ETAPA_ENSINO_2013']) 
                            else ('aprovado' if x['TP_ETAPA_ENSINO_2013'] == x['TP_ETAPA_ENSINO']+1 
                                  else ('evadido' if x['TP_ETAPA_ENSINO_2013'] == 0 else 'erro')), axis=1)
matr.head()

Unnamed: 0,CO_PESSOA_FISICA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_END,TP_ZONA_RESIDENCIAL,TP_OUTRO_LOCAL_AULA,IN_NECESSIDADE_ESPECIAL,IN_CEGUEIRA,...,IN_TRANSTORNO_DI,IN_SUPERDOTACAO,TP_ETAPA_ENSINO,TP_UNIFICADA,TP_TIPO_TURMA,CO_ENTIDADE,TP_LOCALIZACAO,TP_DEPENDENCIA,TP_ETAPA_ENSINO_2013,Status
0,110003605638,13,F,3,1,4106900.0,1.0,3,0,0,...,0.0,0.0,8.0,0.0,0,41130170.0,1,2.0,9.0,aprovado
1,110011029594,14,M,1,1,4106900.0,1.0,3,0,0,...,0.0,0.0,6.0,0.0,0,41130669.0,1,2.0,0.0,evadido
2,110016658999,12,F,1,1,4106900.0,1.0,3,0,0,...,0.0,0.0,7.0,0.0,0,41370627.0,1,2.0,8.0,aprovado
3,110017448025,12,M,1,1,4106900.0,1.0,3,0,0,...,0.0,0.0,5.0,0.0,0,41132696.0,1,3.0,0.0,evadido
4,110019238206,11,F,0,1,4106900.0,1.0,3,0,0,...,0.0,0.0,6.0,0.0,0,41132602.0,1,4.0,7.0,aprovado


Contagem de dados das categorias criadas acima

In [26]:
matr.value_counts(subset='Status')

Status
aprovado     151681
repetente     14789
evadido       10593
erro            850
dtype: int64

Valores classificados como erro são inconsistências dos dados que devem removidas da análise:
- Aluno que pulou 1 etapa de ensino;
- Aluno que regrediu etapa de ensino.

In [27]:
matr[matr.Status=='erro']

Unnamed: 0,CO_PESSOA_FISICA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,CO_MUNICIPIO_END,TP_ZONA_RESIDENCIAL,TP_OUTRO_LOCAL_AULA,IN_NECESSIDADE_ESPECIAL,IN_CEGUEIRA,...,IN_TRANSTORNO_DI,IN_SUPERDOTACAO,TP_ETAPA_ENSINO,TP_UNIFICADA,TP_TIPO_TURMA,CO_ENTIDADE,TP_LOCALIZACAO,TP_DEPENDENCIA,TP_ETAPA_ENSINO_2013,Status
45,110025949607,13,F,1,1,4.1069e+06,1.0,3,0,0,...,0.0,0.0,7.0,0.0,0,41139976.0,1,2.0,9.0,erro
46,110025980369,22,M,0,1,4.1069e+06,1.0,3,1,0,...,0.0,0.0,3.0,0.0,0,41146131.0,1,3.0,2.0,erro
69,110025992103,8,M,1,1,4.1069e+06,1.0,3,0,0,...,0.0,0.0,3.0,0.0,0,41130022.0,1,3.0,1.0,erro
324,110045036100,21,F,0,1,4.1069e+06,1.0,3,1,0,...,0.0,0.0,3.0,4.0,0,41387171.0,1,3.0,2.0,erro
325,110045065623,18,F,0,1,4.1069e+06,1.0,3,1,0,...,0.0,0.0,3.0,4.0,0,41387171.0,1,3.0,2.0,erro
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172439,123302213718,6,M,0,1,4.1069e+06,1.0,3,0,0,...,0.0,0.0,1.0,0.0,0,41128370.0,1,4.0,3.0,erro
173064,123324046865,7,M,1,1,4.1069e+06,1.0,3,0,0,...,0.0,0.0,1.0,0.0,0,41129121.0,1,3.0,3.0,erro
176801,123603430920,15,F,0,1,4.1069e+06,1.0,3,0,0,...,0.0,0.0,6.0,0.0,0,41126386.0,1,2.0,8.0,erro
177620,123624473750,10,F,1,1,4.1069e+06,1.0,3,0,0,...,0.0,0.0,5.0,0.0,0,41547896.0,1,4.0,7.0,erro


Removendo as linhas com erros

In [28]:
matr = matr[matr.Status!='erro']

Conferindo o resultado final

In [29]:
matr.value_counts(subset='Status')

Status
aprovado     151681
repetente     14789
evadido       10593
dtype: int64

Removendo os dados do segundo ano e a coluna de município que não serão mias úteis.

In [30]:
matr.drop(columns=['CO_MUNICIPIO_END', 'TP_ETAPA_ENSINO_2013'], inplace=True)

Renomeando colunas para facilitar a análise posterior

In [31]:
matr.rename(columns={'CO_PESSOA_FISICA': 'ID',
                         'NU_IDADE': 'Idade',
                         'TP_SEXO': 'Sexo',
                         'TP_COR_RACA': 'Etnia',
                         'TP_NACIONALIDADE': 'Nacionalidade',
                         'TP_ZONA_RESIDENCIAL': 'Zona_res',
                         'TP_OUTRO_LOCAL_AULA': 'Outro_local_aula',
                         'IN_NECESSIDADE_ESPECIAL': 'Necessidade_especial',
                         'IN_CEGUEIRA': 'Cegueira',
                         'IN_BAIXA_VISAO': 'Baixa_visao',
                         'IN_SURDEZ': 'Surdez',
                         'IN_DEF_AUDITIVA': 'Def_auditiva',
                         'IN_SURDOCEGUEIRA': 'Surdocegueira',
                         'IN_DEF_FISICA': 'Def_fisica',
                         'IN_DEF_INTELECTUAL': 'Def_intelectual',
                         'IN_DEF_MULTIPLA': 'Def_multipla',
                         'IN_AUTISMO': 'Autismo',
                         'IN_SINDROME_ASPERGER': 'Asperger',
                         'IN_SINDROME_RETT': 'Rett',
                         'IN_TRANSTORNO_DI': 'Transtorno_DI',
                         'IN_SUPERDOTACAO': 'Superdotacao',
                         'TP_ETAPA_ENSINO': 'Etapa_ensino',
                         'TP_UNIFICADA': 'Unificada',
                         'TP_TIPO_TURMA': 'Tipo_turma',
                         'CO_ENTIDADE': 'ID_escola',
                         'TP_LOCALIZACAO': 'Localizacao',
                         'TP_DEPENDENCIA': 'Administracao'}, inplace=True)

Aplicando os labels nos dados codificados

In [32]:
matr.Sexo = matr.Sexo.map({1:'M', 2:'F'})
matr.Etnia = matr.Etnia.map({0:'Não Declarada', 1:'Branca', 2:'Preta', 3:'Parda', 4:'Amarela', 5:'Indígena'})
matr.Nacionalidade = matr.Nacionalidade.map({1:'Brasileiro', 2:'Naturalizado', 3:'Extrangeiro'})
matr.Zona_res = matr.Zona_res.map({1:'Urbana', 2:'Rural'})
matr.Outro_local_aula = matr.Outro_local_aula.map({1:'Hospital', 2:'Domicilio', 3:'Não recebe'})
matr.Unificada = matr.Unificada.map({0:'Não', 1:'Unificada', 2:'Multietapa', 3:'Multi', 4:'Correção de fluxo', 5:'Mista'})
matr.Tipo_turma = matr.Tipo_turma.map({0:'Não se aplica', 1:'Classe Hospitalar', 2:'Unidade Socioeducativa',
                                           3:'Unidade prisional', 4:'Atividade complementar', 5:'At educacional especializado'})
matr.Localizacao = matr.Localizacao.map({1:'Urbana', 2:'Rural'})
matr.Administracao = matr.Administracao.map({1:'Federal', 2:'Estadual', 3:'Municipal', 4:'Privada'})

As colunas de necessidade especial específicas deixaram de ser preenchidos quando o aluno não possui necessidade especial, também algumas linhas da etnia não tem informação.
Dessa maneira vamos preencher etnia como não declarada (valor 0) e as necessidades especiais também como ausentes (valor 0).

In [33]:
matr = matr.fillna(0)

Aplicando one hot encoding

In [34]:
matr = pd.get_dummies(matr, columns=
                        ['Sexo', 'Etnia', 'Nacionalidade', 'Zona_res', 'Outro_local_aula', 
                         'Unificada', 'Tipo_turma', 'Localizacao', 'Administracao'], 
                        drop_first=True)

Gerando arquivo CSV do resultado

In [35]:
matr.to_csv('evasão_12.csv')