# Tratamento dos dados

In [1]:
#Importando dependências
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
#Lendo os dados
matriculas = pd.read_csv("data/matricula.csv")

In [3]:
matriculas.shape

(1987896, 34)

### Selecionado features
Feature|Tipo|Selecionada|Descrição
--|--|--|--
**categoria_situacao**|**Categórica**|**Sim**|**Traget**
ano|Discreta|Sim|
carga_horaria|Discreta|Sim|
carga_minima|Discreta|Sim|
cod_matricula|Discreta|Não|
cor_raca|Categórica|Sim|
fim_ciclo|Discreta|Não|
inicio_ciclo|Discreta|Não
data_matricula|Discreta|Não
eixo_tecnologico|Categórica|Sim
fator_esforco_curso|Contínuo|Sim
mes_ocorrencia|Discreta|Não
modalidade_ensino|Categórica|Sim
nome_curso|Categórica|Não
fonte_financiamento|Categórica|Sim
renda_familiar|Categórica|Sim
instituicao|Categórica|Sim
sexo|Categórica|Sim
situacao_matricula|Categórica|Não
sub_eixo_tecnologico|Categórica|Sim
tipo_curso|Categórica|Sim
tipo_oferta|Categórica|Sim
total_inscritos|Discreta|Sim
turno|Categórica|Sim
codigo_unidade_ensino_sistec|Discreta|Não
vagas_ofertadas|Discreta|Sim
idade|Discreta|Não
faixa_etaria|Categórica|Sim
codigo_ciclo_matricula|Discreta|Não
unidade_ensino|Categórica|Sim
codigo_municipio_dv|Discreta|Sim
municipio|Categórica|Não
uf|Categórica|Sim
regiao|Categórica|Sim

### Quantidade de dados nulos

In [4]:
matriculas.isnull().sum()

ano                                0
carga_horaria                      0
carga_minima                       0
categoria_situacao                 0
codigo_ciclo_matricula             0
cod_matricula                      0
codigo_unidade_ensino_sistec      42
cor_raca                           0
inicio_ciclo                       0
fim_ciclo                          0
data_matricula                     0
eixo_tecnologico                   0
faixa_etaria                       0
fator_esforco_curso                0
fonte_financiamento                0
idade                              4
total_inscritos                    0
instituicao                        0
mes_ocorrencia                     1
modalidade_ensino                  0
codigo_municipio_dv                0
municipio                          0
vagas_ofertadas                 1874
nome_curso                         0
regiao                             0
renda_familiar                     0
sexo                               0
s

### Transformações
Removendo as instâncias que apresentam a **categoria_situação** em curso. <br/>
Removendo as instâncias com **idade** inferior a 10 e superior a 90 anos.

In [5]:
#Removendo instâncias em curso
x = matriculas.loc[matriculas['categoria_situacao'] != 'Em curso']
#Removendo idades inforieres a 10 anos
x = x.loc[x['idade'] >= 10]
#Removendo idades superiores a 90 anos
x = x.loc[x['idade'] <= 90]

In [6]:
#Removendo vagas_ofertadas nulas
x = x.loc[x['vagas_ofertadas'].notnull()]
#Removendo tipo_oferta nulas
x = x.loc[x['tipo_oferta'].notnull()]

### Selecionando o Tipo de Curso

In [7]:
tipos_cursos = x.groupby('tipo_curso')
tipos_cursos['tipo_curso'].count()

tipo_curso
Bacharelado                         31910
Doutorado                             108
Ensino Fundamental I                 1126
Ensino Fundamental II                2031
Ensino Médio                         3616
Especialização (Lato Sensu)         22690
Licenciatura                        36842
Mestrado                             1348
Mestrado Profissional                1781
Qualificação Profissional (FIC)    272987
Tecnologia                          41961
Técnico                            307324
Name: tipo_curso, dtype: int64

In [8]:
# Bacharelado, licenciatura e Tecnologia
x = x.loc[
    (x['tipo_curso'] == 'Bacharelado') | 
    (x['tipo_curso'] == 'Licenciatura') |
    (x['tipo_curso'] == 'Tecnologia')
]
# Técnico
# x = x.loc[
#     (x['tipo_curso'] == 'Técnico') 
# ]

In [9]:
x = x[['categoria_situacao',
    'ano',
    'carga_horaria',
    'carga_minima',
#     'cod_matricula',
    'cor_raca',
    'fim_ciclo',
    'inicio_ciclo',
    'data_matricula',
    'eixo_tecnologico',
    'fator_esforco_curso',
    'mes_ocorrencia',
    'modalidade_ensino',
    'nome_curso',
    'fonte_financiamento',
    'renda_familiar',
    'instituicao',
    'sexo',
#     'situacao_matricula',
    'sub_eixo_tecnologico',
    'tipo_curso',
    'tipo_oferta',
    'total_inscritos',
    'turno',
    'codigo_unidade_ensino_sistec',
    'vagas_ofertadas',
    'idade',
    'faixa_etaria',
#    'codigo_ciclo_matricula',
    'unidade_ensino',
    'codigo_municipio_dv',
    'municipio',
    'uf',
    'regiao']]

In [10]:
x.isnull().sum()

categoria_situacao              0
ano                             0
carga_horaria                   0
carga_minima                    0
cor_raca                        0
fim_ciclo                       0
inicio_ciclo                    0
data_matricula                  0
eixo_tecnologico                0
fator_esforco_curso             0
mes_ocorrencia                  0
modalidade_ensino               0
nome_curso                      0
fonte_financiamento             0
renda_familiar                  0
instituicao                     0
sexo                            0
sub_eixo_tecnologico            0
tipo_curso                      0
tipo_oferta                     0
total_inscritos                 0
turno                           0
codigo_unidade_ensino_sistec    0
vagas_ofertadas                 0
idade                           0
faixa_etaria                    0
unidade_ensino                  0
codigo_municipio_dv             0
municipio                       0
uf            

In [11]:
x.shape

(110713, 31)

### Salvado base de dados modificada

In [12]:
x.to_csv('./data/out.csv', index=False)