# Tratamento de dados - Censo INEP

Neste arquivo é realizada uma filtragem do arquivo de alunos do INEP, referente a estudantes do ensino superior. Esta base de dados foi selecionada para demonstrar algoritmos de previsão de evasão de alunos. Assim, uma prova de conceito pode ser obtida através de uma base de dados externa para a sprint da Gerência de Educação. Muitas das ferramentas apresentadas aqui, assim como as ferramentas de análise apresentadas nos outros arquivos desenvolvidos pelos residentes, poderão ser adaptadas e utilizadas em arquivos do SENAI.

Ao verificar que os dados de alunos do SENAI constam neste dataset, filtros foram aplicados para limitar a análise aos cursos e alunos do SENAI.

**Objetivos do notebook**:
* Filtrar o arquivo "DM_ALUNOS.CSV" para obter somente as linhas com alunos do SENAI-PR;
* Diminuir a quantidade de colunas (manter somente aquelas que possam ter utilidade).

# Descrição do dataset

O dataset selecionado é do "Censo da Educação Superior", conduzido pelo INEP. O arquivo compactado está presente na página de "microdados" do INEP.

Página de microdados do INEP: [http://portal.inep.gov.br/microdados](http://download.inep.gov.br/microdados/microdados_educacao_superior_2018.zip)

Link direto para download do dataset: [Censo da Educação Superior - INEP](http://download.inep.gov.br/microdados/microdados_educacao_superior_2018.zip)

O arquivo compactado tem diferentes datasets, além de arquivos com explicações dos datasets, dicionário de atributos, etc. Os arquivos estão no diretório "dados" e são os seguintes:
* DM_ALUNO.CSV
* DM_CURSO.CSV
* DM_IES.CSV

O arquivo de maior interesse é o arquivo DM_ALUNO.CSV, porém os demais arquivos serão utilizados para a obtenção de informação sobre as instituições e cursos relacionados aos alunos.

Um dicionário explicando cada atributo dos arquivos está presente no diretório de arquivos descarregado do site do INEP. Aqui nos limitaremos a explicar colunas de interesse, pois há uma grande quantidade de colunas nos arquivos, e várias destas serão descartadas.

É válido observar que não são todas as IES que constam no censo.

# Bibliotecas

In [1]:
# Básicas
import pandas as pd

# Apresentação do dataset

O arquivo em si contém muitas linhas e um tamanho total superior a 3 GB. A amostra será selecionada considerando todos os alunos do SENAI-PR.

O dataframe dados_alunos.csv contém somente as primeiras 10 mil linhas do arquivo DM_ALUNO.CSV. Foi carregado para apresentar as colunas contidas no dataset.

In [279]:
path = '/home/alexandremarcondes/sprints/sprint_gde_01/sprint_git/analise_dados_inep/'
file_alunos = 'DM_ALUNO.CSV'
alunos_amostra = 'dados_alunos.csv'
file_cursos = 'DM_CURSO.CSV'
file_ies = 'DM_IES.CSV'
file_dici = 'dicionario_inep.csv'


In [3]:
df_alunos = pd.read_csv(path+alunos_amostra, sep='|', encoding = "utf-8")
df_cursos = pd.read_csv(path+file_cursos, sep='|', encoding = "cp1252")
df_ies = pd.read_csv(path+file_ies, sep='|', encoding = "cp1252")
df_dici = pd.read_csv(path+file_dici, sep=';', encoding = "utf-8")

In [4]:
df_alunos.head()

Unnamed: 0,NU_ANO_CENSO,CO_IES,TP_CATEGORIA_ADMINISTRATIVA,TP_ORGANIZACAO_ACADEMICA,CO_CURSO,CO_CURSO_POLO,TP_TURNO,TP_GRAU_ACADEMICO,TP_MODALIDADE_ENSINO,TP_NIVEL_ACADEMICO,...,TP_MOBILIDADE_ACADEMICA,TP_MOBILIDADE_ACADEMICA_INTERN,CO_IES_DESTINO,CO_PAIS_DESTINO,IN_MATRICULA,IN_CONCLUINTE,IN_INGRESSO_TOTAL,IN_INGRESSO_VAGA_NOVA,IN_INGRESSO_PROCESSO_SELETIVO,NU_ANO_INGRESSO
0,2018,1,1,1,1,,3.0,1.0,1,1,...,,,,,1,0,0,0,,2017
1,2018,1,1,1,1,,3.0,1.0,1,1,...,,,,,0,0,0,0,,2016
2,2018,1,1,1,1,,3.0,1.0,1,1,...,,,,,1,0,0,0,,2012
3,2018,1,1,1,1,,3.0,1.0,1,1,...,,,,,0,0,0,0,,2015
4,2018,1,1,1,1,,3.0,1.0,1,1,...,,,,,1,0,0,0,,2013


In [5]:
df_cursos.head()

Unnamed: 0,NU_ANO_CENSO,CO_IES,TP_CATEGORIA_ADMINISTRATIVA,TP_ORGANIZACAO_ACADEMICA,CO_LOCAL_OFERTA,CO_UF,CO_MUNICIPIO,IN_CAPITAL,CO_CURSO,NO_CURSO,...,QT_VAGAS_ANUAL_VESPERTINO,QT_VAGAS_ANUAL_NOTURNO,QT_VAGAS_ANUAL_EAD,QT_MATRICULA_TOTAL,QT_CONCLUINTE_TOTAL,QT_INGRESSO_TOTAL,QT_INGRESSO_VAGA_NOVA,QT_INGRESSO_PROCESSO_SELETIVO,QT_VAGA_TOTAL,QT_INSCRITO_TOTAL
0,2018,1,1,1,105340.0,51.0,5103403.0,1.0,1,DIREITO,...,,,,445,76,99,92,,95,3144
1,2018,1,1,1,105340.0,51.0,5103403.0,1.0,2,CIÊNCIAS ECONÔMICAS,...,,,,344,38,120,119,,121,945
2,2018,1,1,1,105340.0,51.0,5103403.0,1.0,3,ENGENHARIA CIVIL,...,,,,266,34,53,53,,55,637
3,2018,1,1,1,105340.0,51.0,5103403.0,1.0,6,PEDAGOGIA,...,,,,326,49,98,98,,100,1461
4,2018,1,1,1,105340.0,51.0,5103403.0,1.0,7,SERVIÇO SOCIAL,...,,,,253,23,81,81,,83,1449


In [6]:
df_ies.head()

Unnamed: 0,NU_ANO_CENSO,CO_IES,NO_IES,SG_IES,CO_MANTENEDORA,NO_MANTENEDORA,TP_CATEGORIA_ADMINISTRATIVA,TP_ORGANIZACAO_ACADEMICA,CO_REGIAO,CO_UF,...,VL_RECEITA_PROPRIA,VL_RECEITA_TRANSFERENCIA,VL_RECEITA_OUTRA,VL_DESPESA_PESSOAL_DOCENTE,VL_DESPESA_PESSOAL_TECNICO,VL_DESPESA_PESSOAL_ENCARGO,VL_DESPESA_CUSTEIO,VL_DESPESA_INVESTIMENTO,VL_DESPESA_PESQUISA,VL_DESPESA_OUTRA
0,2018,1,UNIVERSIDADE FEDERAL DE MATO GROSSO,UFMT,1,FUNDACAO UNIVERSIDADE FEDERAL DE MATO GROSSO,1,1,5,51,...,6608299.0,915210500.0,0.0,292614500.0,111169600.0,108135600.0,121572900.0,2149791.8,14695633.36,271480700.0
1,2018,2,UNIVERSIDADE DE BRASÍLIA,UNB,2,FUNDACAO UNIVERSIDADE DE BRASILIA,1,1,5,53,...,51938375.89,86443060.0,48953220.0,1093876000.0,0.0,1093876000.0,211907400.0,19066763.45,11047477.83,446147200.0
2,2018,3,UNIVERSIDADE FEDERAL DE SERGIPE,UFS,3,FUNDACAO UNIVERSIDADE FEDERAL DE SERGIPE,1,1,2,28,...,2534563.26,780691800.0,2048284.0,230345000.0,124031900.0,93794320.0,129449200.0,16413516.13,1030610.47,181187400.0
3,2018,4,UNIVERSIDADE FEDERAL DO AMAZONAS,UFAM,4,FUNDACAO UNIVERSIDADE DO AMAZONAS,1,1,1,13,...,4266650.55,918344300.0,107244700.0,383335700.0,0.0,115699200.0,155155700.0,15579015.27,1640089.82,134704800.0
4,2018,6,UNIVERSIDADE FEDERAL DE OURO PRETO,UFOP,6,UNIVERSIDADE FEDERAL DE OURO PRETO,1,1,3,31,...,5137227.39,480029400.0,5793707.0,179174300.0,71774690.0,39850390.0,55064400.0,1061751.7,733199.99,143301600.0


In [7]:
df_dici[['NOME DA VARIÁVEL', 'DESCRIÇÃO DA VARIÁVEL', 'DESCRIÇÃO DAS CATEGORIAS']]

Unnamed: 0,NOME DA VARIÁVEL,DESCRIÇÃO DA VARIÁVEL,DESCRIÇÃO DAS CATEGORIAS
0,,,
1,,,
2,NU_ANO_CENSO,Ano de referência do Censo Superior,
3,CO_IES,Código único de identificação da IES,
4,TP_CATEGORIA_ADMINISTRATIVA,Tipo da Categoria Administrativa da IES,1. Pública Federal\n2. Pública Estadual\n3. Pú...
...,...,...,...
105,IN_CONCLUINTE,Informa se o aluno é concluinte,0. Situação diferente de concluinte\n1. Situaç...
106,IN_INGRESSO_TOTAL,"Informa se o aluno é ingressante no curso, não...",0. Situação diferente de ingresso total\n1. Si...
107,IN_INGRESSO_VAGA_NOVA,Informa se o aluno é ingressante no curso por ...,0. Situação diferente de ingresso por processo...
108,IN_INGRESSO_PROCESSO_SELETIVO,Informa se o aluno ingressou no curso por meio...,0. Situação diferente de ingresso por processo...


# Limitação do escopo

### Obtenção dos códigos das IES do SENAI-PR

Vamos limitar o escopo da análise ao SENAI-PR. A planilha "DM_ALUNOS.CSV" não contém os nomes da IES, o que identifica a IES é a coluna "CO_IES", que determina um código para cada IES existente. Devemos utilizar a planilha "DM_IES.CSV" para identificar o código de IES do SENAI-PR.

A coluna 'CO_UF' determina o estado da IES. Segundo o dicionário de variáveis, o código da UF é o código para as UFs do Brasil padronizados pelo IBGE. **Consultando o site do IBGE verificou-se que o código de UF do Paraná é 41**.

Definiu-se um novo dataframe denominado "df_iespr" para as IES do estado do Paraná.

In [8]:
df_ies['CO_UF'].value_counts(sort=True)

35    612
31    301
41    196
29    146
33    136
43    121
26    117
52     98
42     97
23     83
32     77
53     66
51     61
15     57
21     53
25     45
22     45
11     35
50     33
27     29
24     29
17     24
13     23
28     19
16     15
12     11
14      8
Name: CO_UF, dtype: int64

São no total 196 IES no Paraná, terceiro lugar no ranking entre UFs.

In [130]:
df_iespr = df_ies[df_ies.CO_UF==41]

In [131]:
df_ies.shape


(2537, 48)

In [132]:
df_iespr.shape

(196, 48)

Agora limita-se o dataset somente ao SENAI. Para isso se utiliza a coluna "NO_IES", que determina o nome da IES. Para garantir que todos as IES do "Sistema S" estejam no dataframe filtrado, as seguintes strings foram pesquisadas:

* senai;
* sesi;
* fiep;
* iel;
* indústria (de "faculdade da insútria").

Porém, verificou-se que somente o termo "senai" consta nas IES que constam no dataset.

In [133]:
print('***********************************************')
print('UNIDADES DO SENAI PRESENTES NO CENSO')
print('***********************************************')
for item in df_iespr.NO_IES:
    if 'senai' in str(item).lower():
        print(item)
    if 'sesi' in str(item).lower():
        print(item)
    if 'fiep' in str(item).lower():
        print(item)
    if 'iel' in str(item).lower():
        print(item)
    if 'indústria' in str(item).lower():
        print(item)

***********************************************
UNIDADES DO SENAI PRESENTES NO CENSO
***********************************************
FACULDADE DE TECNOLOGIA SENAI TOLEDO
FACULDADE DE TECNOLOGIA SENAI CASCAVEL
FACULDADE DE TECNOLOGIA SENAI CIC
FACULDADE DE TECNOLOGIA SENAI TELÊMACO BORBA
FACULDADE DE TECNOLOGIA SENAI LONDRINA
FACULDADE DE TECNOLOGIA SENAI CURITIBA
FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
FACULDADE DA INDÚSTRIA CURITIBA


In [134]:
df_senai_nomes = df_iespr[['CO_IES','NO_IES']][df_iespr.NO_IES.str.contains('INDÚSTRIA|SENAI')]

In [135]:
df_senai_nomes.shape

(8, 2)

In [136]:
print('***********************************************')
print('CÓDIGOS UNIDADES DO SENAI PRESENTES NO CENSO')
print('***********************************************')
df_senai_nomes

***********************************************
CÓDIGOS UNIDADES DO SENAI PRESENTES NO CENSO
***********************************************


Unnamed: 0,CO_IES,NO_IES
1846,14783,FACULDADE DE TECNOLOGIA SENAI TOLEDO
1847,14782,FACULDADE DE TECNOLOGIA SENAI CASCAVEL
1848,13677,FACULDADE DE TECNOLOGIA SENAI CIC
1849,13674,FACULDADE DE TECNOLOGIA SENAI TELÊMACO BORBA
1850,14786,FACULDADE DE TECNOLOGIA SENAI LONDRINA
1851,14784,FACULDADE DE TECNOLOGIA SENAI CURITIBA
2228,1400,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
2229,15445,FACULDADE DA INDÚSTRIA CURITIBA


In [137]:
# Gera uma lista com os códigos das unidades SENAI-PR presentes no censo
senai_code = []
for item in df_senai_nomes.CO_IES:
    senai_code.append(item)
senai_code

[14783, 14782, 13677, 13674, 14786, 14784, 1400, 15445]

Nota-se, então, que 6 unidades do SENAI-PR estão presentes no censo do ensino superior do INEP. Pode ser que as demais unidades do SENAI não tem curso superior, ou, por algum motivo, não entraram dos levantamentos realizados pelo INEP.

Da mesma forma, podemos filtrar o dataframe referente ao arquivo "DM_CURSO.CSV" (df_cursos), para obter um novo dataframe somente com os cursos ofertados no SENAI-PR. Este dataframe será útil posteriormente, para gerar o dataframe final que reune as informações do SENAI-PR presentes no censo do ensino superior.

In [138]:
filtro_cursos_senai = df_cursos['CO_IES'].isin(senai_code)

In [192]:
df_senai_cursos = df_cursos[['CO_CURSO', 'NO_CURSO']][filtro_cursos_senai]

In [193]:
df_senai_cursos.shape

(21, 2)

In [194]:
df_senai_cursos

Unnamed: 0,CO_CURSO,NO_CURSO
22164,20516,ADMINISTRAÇÃO
22165,59822,CIÊNCIAS CONTÁBEIS
22166,68440,DIREITO
22167,68594,PEDAGOGIA
22168,68597,SISTEMA DE INFORMAÇÃO
22169,1168331,GESTÃO DE RECURSOS HUMANOS
22170,1185336,PROCESSOS GERENCIAIS
22171,1185915,LOGÍSTICA
22172,1365303,GESTÃO DA PRODUÇÃO INDUSTRIAL
35757,1068536,AUTOMAÇÃO INDUSTRIAL


Adiciona-se agora a coluna com o nome da IES no dataframe acima, para melhor visualização.

In [187]:
pd.merge(df_senai_cursos, df_senai_nomes, on='CO_IES')
#cursos_senai.merge(df_senai_nomes)

Unnamed: 0,CO_IES,CO_CURSO,NO_CURSO,NO_IES
0,1400,20516,ADMINISTRAÇÃO,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
1,1400,59822,CIÊNCIAS CONTÁBEIS,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
2,1400,68440,DIREITO,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
3,1400,68594,PEDAGOGIA,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
4,1400,68597,SISTEMA DE INFORMAÇÃO,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
5,1400,1168331,GESTÃO DE RECURSOS HUMANOS,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
6,1400,1185336,PROCESSOS GERENCIAIS,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
7,1400,1185915,LOGÍSTICA,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
8,1400,1365303,GESTÃO DA PRODUÇÃO INDUSTRIAL,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS
9,13674,1068536,AUTOMAÇÃO INDUSTRIAL,FACULDADE DE TECNOLOGIA SENAI TELÊMACO BORBA


Observa-se que 21 cursos estão presentes nas 6 unidades presentes no censo.

Provavelmente existem mais cursos atualmente no SENAI. Algumas hipóteses podem ser levantadas sobre a ausência destes cursos no censo:

* Os cursos não participaram do censo por algum motivo;
* Os cursos são novos, portanto não entraram no censo de 2018;
* Alguma unidade do SENAI-PR foi cadastrada com um nome que não foi identificado em nossas buscas.

Porém, os dados que foram encontrados já são numerosos e valiosos para as análises que serão desenvolvidas.

### Filtragem dos alunos do SENAI-PR

O arquivo 'DM_ALUNOS.CSV' é bastante grande (3 GB), portanto selecionaremos algumas colunas de interesse antes de gerar o dataframe. Podemos verificar o número de linhas do dataframe original carregando somente uma coluna.

In [280]:
path = '/home/alexandremarcondes/sprints/sprint_gde_01/sprint_git/analise_dados_inep/'
file_alunos = 'DM_ALUNO.CSV'
df_test = pd.read_csv(path+file_alunos, usecols=['CO_IES'], sep='|')

In [16]:
df_test.shape

(12043993, 1)

Ou seja, são 12 milhões de linhas. Temos que diminuir o dataset antes mesmo de carregá-lo. Como não há forma de sele

Assim, analisando o dicionário de atributos, as seguintes colunas foram selecionadas para nossa análise:
* CO_IES: código de identificação da IES;
* CO_CURSO: código de identificação do curso;
* TP_TURNO: turno do curso;
* TP_GRAU_ACADEMICO: grau conferido  ao diplomado pelo curso;
* TP_MODALIDADE_ENSINO: tipo da modadelidade (EAD ou PRESENCIAL);
* ID_ALUNO: código de identificação do aluno gerado pelo INEP;
* TP_COR_RACA: tipo da cor/raça do aluno;
* TP_SEXO: tipo do sexo do aluno;
* NU_IDADE: idade do aluno no ano do censo;
* TP_NACIONALIDADE: nacionalidade do aluno;
* TP_SITUACAO: situação do vínculo do aluno ao curso;
* IN_DEFICIENCIA: informa se o aluno é portador de alguma deficiência;

Os seguintes parâmetros indicam se o aluno tem determinado tipo de deficiência:

* IN_DEFICIENCIA_AUDITIVA
* IN_DEFICIENCIA_FISICA
* IN_DEFICIENCIA_INTELECTUAL
* IN_DEFICIENCIA_MULTIPLA
* IN_DEFICIENCIA_SURDEZ
* IN_DEFICIENCIA_SURDOCEGUEIRA
* IN_DEFICIENCIA_BAIXA_VISAO
* IN_DEFICIENCIA_CEGUEIRA
* IN_DEFICIENCIA_SUPERDOTACAO
* IN_TGD_AUTISMO
* IN_TGD_SINDROME_ASPERGER
* IN_TGD_SINDROME_RETT
* IN_TGD_TRANSTOR_DESINTEGRATIVO

Continuação:
* DT_INGRESSO_CURSO: data de ingresso do aluno no curso;
* IN_RESERVA_VAGAS
* IN_RESERVA_ETNICO
* IN_RESERVA_DEFICIENCIA
* IN_RESERVA_ENSINO_PUBLICO
* IN_RESERVA_RENDA_FAMILIAR
* IN_RESERVA_OUTRA
* IN_FINANCIAMENTO_ESTUDANTIL
* IN_FIN_REEMB_FIES
* IN_FIN_REEMB_ESTADUAL
* IN_FIN_REEMB_MUNICIPAL
* IN_FIN_REEMB_PROG_IES
* IN_FIN_REEMB_ENT_EXTERNA
* IN_FIN_REEMB_OUTRA
* IN_FIN_NAOREEMB_PROUNI_INTEGR
* IN_FIN_NAOREEMB_PROUNI_PARCIAL
* IN_FIN_NAOREEMB_ESTADUAL
* IN_FIN_NAOREEMB_MUNICIPAL
* IN_FIN_NAOREEMB_PROG_IES
* IN_FIN_NAOREEMB_ENT_EXTERNA
* IN_FIN_NAOREEMB_OUTRA
* IN_APOIO_SOCIAL
* IN_APOIO_ALIMENTACAO
* IN_APOIO_BOLSA_PERMANENCIA
* IN_APOIO_BOLSA_TRABALHO
* IN_APOIO_MATERIAL_DIDATICO
* IN_APOIO_MORADIA
* IN_APOIO_TRANSPORTE
* IN_ATIVIDADE_EXTRACURRICULAR
* IN_COMPLEMENTAR_ESTAGIO
* IN_COMPLEMENTAR_EXTENSAO
* IN_COMPLEMENTAR_MONITORIA
* IN_COMPLEMENTAR_PESQUISA
* IN_BOLSA_ESTAGIO
* IN_BOLSA_EXTENSAO
* IN_BOLSA_MONITORIA
* IN_BOLSA_PESQUISA
* TP_ESCOLA_CONCLUSAO_ENS_MEDIO
* IN_MATRICULA
* IN_CONCLUINTE
* NU_ANO_INGRESSO

Estas são, portantos, as colunas que utilizaremos em nosso novo dataframe.

Para que não ocorram problemas com memória, devido ao grande volume de dados, três dataframes serão carregados separadamente. Após isso, dentro de cada dataframe serão feitas filtragens referentes ao SENAI-PR e, após isso, os dataframes serão concatenados.

In [18]:
use_cols_1 = ['CO_IES','CO_CURSO','TP_TURNO','TP_GRAU_ACADEMICO','TP_MODALIDADE_ENSINO','ID_ALUNO', 'TP_COR_RACA',
            'TP_SEXO','NU_IDADE','TP_NACIONALIDADE','TP_SITUACAO','IN_DEFICIENCIA']
use_cols_2 = ['IN_DEFICIENCIA_AUDITIVA','IN_DEFICIENCIA_FISICA','IN_DEFICIENCIA_INTELECTUAL',
              'IN_DEFICIENCIA_MULTIPLA','IN_DEFICIENCIA_SURDEZ','IN_DEFICIENCIA_SURDOCEGUEIRA',
              'IN_DEFICIENCIA_BAIXA_VISAO','IN_DEFICIENCIA_CEGUEIRA','IN_DEFICIENCIA_SUPERDOTACAO',
              'IN_TGD_AUTISMO','IN_TGD_SINDROME_ASPERGER','IN_TGD_SINDROME_RETT','IN_TGD_TRANSTOR_DESINTEGRATIVO']
use_cols_3 = ['DT_INGRESSO_CURSO','IN_RESERVA_VAGAS','IN_RESERVA_ETNICO','IN_RESERVA_DEFICIENCIA',
              'IN_RESERVA_ENSINO_PUBLICO','IN_RESERVA_RENDA_FAMILIAR','IN_RESERVA_OUTRA',
              'IN_FINANCIAMENTO_ESTUDANTIL','IN_FIN_REEMB_FIES','IN_FIN_REEMB_ESTADUAL','IN_FIN_REEMB_MUNICIPAL',
              'IN_FIN_REEMB_PROG_IES','IN_FIN_REEMB_ENT_EXTERNA','IN_FIN_REEMB_OUTRA']
use_cols_4 = ['IN_FIN_NAOREEMB_PROUNI_INTEGR','IN_FIN_NAOREEMB_PROUNI_PARCIAL','IN_FIN_NAOREEMB_ESTADUAL',
              'IN_FIN_NAOREEMB_MUNICIPAL','IN_FIN_NAOREEMB_PROG_IES','IN_FIN_NAOREEMB_ENT_EXTERNA',
              'IN_FIN_NAOREEMB_OUTRA','IN_APOIO_SOCIAL','IN_APOIO_ALIMENTACAO','IN_APOIO_BOLSA_PERMANENCIA',
              'IN_APOIO_BOLSA_TRABALHO','IN_APOIO_MATERIAL_DIDATICO','IN_APOIO_MORADIA','IN_APOIO_TRANSPORTE']
use_cols_5 = ['IN_ATIVIDADE_EXTRACURRICULAR','IN_COMPLEMENTAR_ESTAGIO','IN_COMPLEMENTAR_EXTENSAO',
              'IN_COMPLEMENTAR_MONITORIA','IN_COMPLEMENTAR_PESQUISA','IN_BOLSA_ESTAGIO','IN_BOLSA_EXTENSAO',
              'IN_BOLSA_MONITORIA','IN_BOLSA_PESQUISA','TP_ESCOLA_CONCLUSAO_ENS_MEDIO','IN_MATRICULA',
              'IN_CONCLUINTE','NU_ANO_INGRESSO']

In [19]:
df_alunos_1 = pd.read_csv(file_alunos, sep='|', usecols=use_cols_1)

In [20]:
df_alunos_1.head()

Unnamed: 0,CO_IES,CO_CURSO,TP_TURNO,TP_GRAU_ACADEMICO,TP_MODALIDADE_ENSINO,ID_ALUNO,TP_COR_RACA,TP_SEXO,NU_IDADE,TP_NACIONALIDADE,IN_DEFICIENCIA,TP_SITUACAO
0,1,1,3.0,1.0,1,2ECD7C9BEA7DCEBC31B9F2874D454F71,2,1,26,1,9,2
1,1,1,3.0,1.0,1,2A9470AC3FC03AD130954809A84BC7D4,3,2,31,1,9,3
2,1,1,3.0,1.0,1,3EA3DF175677D93C4FDD47865E89B92A,3,2,30,1,9,2
3,1,1,3.0,1.0,1,E535A93D94430667B67D180C506CCB66,2,1,30,1,9,3
4,1,1,3.0,1.0,1,EF1C01E9B84BEB8D6AA9702F59A90410,3,2,41,1,9,2


In [21]:
df_alunos_2 = pd.read_csv(file_alunos, sep='|', usecols=use_cols_2)
df_alunos_2['CO_IES']  = df_alunos_1.CO_IES

In [23]:
df_alunos_3 = pd.read_csv(file_alunos, sep='|', usecols=use_cols_3)
df_alunos_3['CO_IES']  = df_alunos_1.CO_IES

In [22]:
df_alunos_4 = pd.read_csv(file_alunos, sep='|', usecols=use_cols_4)
df_alunos_4['CO_IES']  = df_alunos_1.CO_IES

In [24]:
df_alunos_5 = pd.read_csv(file_alunos, sep='|', usecols=use_cols_5)
df_alunos_5['CO_IES']  = df_alunos_1.CO_IES

In [143]:
senai_code = []
for item in df_senai_nomes.CO_IES:
    senai_code.append(item)
senai_code

[14783, 14782, 13677, 13674, 14786, 14784, 1400, 15445]

In [144]:
senai_filter = df_alunos_1['CO_IES'].isin(senai_code)

In [145]:
df_senai_1 = df_alunos_1[senai_filter]

In [146]:
df_senai_2 = df_alunos_2[senai_filter]

In [147]:
df_senai_3 = df_alunos_3[senai_filter]

In [148]:
df_senai_4 = df_alunos_4[senai_filter]

In [149]:
df_senai_5 = df_alunos_5[senai_filter]

In [150]:
df_senai_5.shape

(3309, 14)

In [201]:
df_senai = pd.concat([df_senai_1, df_senai_2, df_senai_3, df_senai_4, df_senai_5], sort=False, axis=1)
df_senai = df_senai.loc[:,~df_senai.columns.duplicated()]  # Remove as colunas duplicadas

In [202]:
df_senai.shape

(3309, 66)

O dataframe "df_senai" é o dataframe final filtrado, com as colunas de interesse especificadas acima. Porém, para ficar mais claro, temos que buscar os nomes das instituições, associadas ao código da IES (CO_IES), e os nomes dos cursos, associados ao código do curso (CO_CURSO), pois neste dataframe constam somente os códigos. Assim, podemos fazer a análise exploratória considerando as diferentes unidades do SENAI-PR presentes no censo e com os cursos presentes nesta unidade.

Para fazer esta associação, serão utilizados os arquivos csv "DM_CURSO.CSV" e "DM_IES.CSV".

In [205]:
df_senai_cursos.head()

Unnamed: 0,CO_CURSO,NO_CURSO
22164,20516,ADMINISTRAÇÃO
22165,59822,CIÊNCIAS CONTÁBEIS
22166,68440,DIREITO
22167,68594,PEDAGOGIA
22168,68597,SISTEMA DE INFORMAÇÃO


In [206]:
df_senai_nomes.head()

Unnamed: 0,CO_IES,NO_IES
1846,14783,FACULDADE DE TECNOLOGIA SENAI TOLEDO
1847,14782,FACULDADE DE TECNOLOGIA SENAI CASCAVEL
1848,13677,FACULDADE DE TECNOLOGIA SENAI CIC
1849,13674,FACULDADE DE TECNOLOGIA SENAI TELÊMACO BORBA
1850,14786,FACULDADE DE TECNOLOGIA SENAI LONDRINA


In [207]:
df_senai = pd.merge(df_senai, df_senai_nomes, on='CO_IES')
df_senai = pd.merge(df_senai, df_senai_cursos, on='CO_CURSO')
df_senai = df_senai.loc[:,~df_senai.columns.duplicated()]  # Remove as colunas duplicadas
#cursos_senai.merge(df_senai_nomes)

In [266]:
df_senai.head()

Unnamed: 0,CO_IES,CO_CURSO,TP_TURNO,TP_GRAU_ACADEMICO,TP_MODALIDADE_ENSINO,ID_ALUNO,TP_COR_RACA,TP_SEXO,NU_IDADE,TP_NACIONALIDADE,...,IN_BOLSA_ESTAGIO,IN_BOLSA_EXTENSAO,IN_BOLSA_MONITORIA,IN_BOLSA_PESQUISA,TP_ESCOLA_CONCLUSAO_ENS_MEDIO,IN_MATRICULA,IN_CONCLUINTE,NU_ANO_INGRESSO,NO_IES,NO_CURSO
0,1400,20516,3.0,1.0,1,C2E870F652B2299ED62D4AA8038A9422,1,1,30,1,...,,,,,1,0,0,2009,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,ADMINISTRAÇÃO
1,1400,20516,3.0,1.0,1,81A4D85417E7123C8DF075A0A2629E8E,0,1,57,1,...,,,,,1,1,1,2009,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,ADMINISTRAÇÃO
2,1400,20516,3.0,1.0,1,77F900FA4B592D61029032DCA66D9F55,2,2,29,1,...,,,,,1,1,1,2014,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,ADMINISTRAÇÃO
3,1400,20516,3.0,1.0,1,4D21A9481680ED505C359CE9A0F8F212,0,2,38,1,...,,,,,9,0,0,2006,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,ADMINISTRAÇÃO
4,1400,20516,3.0,1.0,1,63341AACBCB526FE3A929666DE581731,0,1,31,1,...,,,,,1,0,0,2010,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,ADMINISTRAÇÃO


Reordenando as colunas para uma melhor apresentação:

In [267]:
cols = df_senai.columns.tolist()

In [268]:
len(cols)

68

In [269]:
new_cols = cols[0:1]+cols[-2:-1]+cols[1:2]+cols[-1:]+cols[2:-2]

In [270]:
len(new_cols)

68

In [272]:
df_senai = df_senai[new_cols]

In [273]:
df_senai.head()

Unnamed: 0,CO_IES,NO_IES,CO_CURSO,NO_CURSO,TP_TURNO,TP_GRAU_ACADEMICO,TP_MODALIDADE_ENSINO,ID_ALUNO,TP_COR_RACA,TP_SEXO,...,IN_COMPLEMENTAR_MONITORIA,IN_COMPLEMENTAR_PESQUISA,IN_BOLSA_ESTAGIO,IN_BOLSA_EXTENSAO,IN_BOLSA_MONITORIA,IN_BOLSA_PESQUISA,TP_ESCOLA_CONCLUSAO_ENS_MEDIO,IN_MATRICULA,IN_CONCLUINTE,NU_ANO_INGRESSO
0,1400,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,20516,ADMINISTRAÇÃO,3.0,1.0,1,C2E870F652B2299ED62D4AA8038A9422,1,1,...,,,,,,,1,0,0,2009
1,1400,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,20516,ADMINISTRAÇÃO,3.0,1.0,1,81A4D85417E7123C8DF075A0A2629E8E,0,1,...,,,,,,,1,1,1,2009
2,1400,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,20516,ADMINISTRAÇÃO,3.0,1.0,1,77F900FA4B592D61029032DCA66D9F55,2,2,...,,,,,,,1,1,1,2014
3,1400,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,20516,ADMINISTRAÇÃO,3.0,1.0,1,4D21A9481680ED505C359CE9A0F8F212,0,2,...,,,,,,,9,0,0,2006
4,1400,FACULDADE DA INDÚSTRIA SÃO JOSÉ DOS PINHAIS,20516,ADMINISTRAÇÃO,3.0,1.0,1,63341AACBCB526FE3A929666DE581731,0,1,...,,,,,,,1,0,0,2010


In [283]:
csv_out = 'senai_filtered_data.csv'

In [284]:
df_senai.to_csv(path+csv_out)

O dataframe "df_senai" é a saída desejada deste kernel (foi enviado também para o csv "senai_filtered_data.csv".

Para melhor organização, o tratamento deste csv e análise exploratória será realizada em outro notebook.