## Enade transformacao pt1

In [1]:
# Importar as libs necessarias

import pandas as pd
import numpy as np
import os
import csv

In [2]:
enade = pd.read_csv(
    "./enade2019/microdados_enade_2019/2019/3.DADOS/microdados_enade_2019.txt",
    sep = ";", decimal = ','
)

In [None]:
enade.head()

In [None]:
# Verificando schema da tabela

dict(enade.dtypes)

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE

Mais alguns itens

- 01: Estado Civil
* 02: Cor ou raça
- 04: Escolaridade do pai
- 05: Escolaridade da mae
- 08: Renda Familiar
- 10: Situacao de trabalho
- 11: Situacao de bolsa
- 14: Intercambio
- 15: Cotas
- 23: Horas de estudo / semana
- 25: M otivo de escolha do curso
- 26: Motivo de escolha da IES

In [None]:
# NTP_GER
enade.NT_GER.describe()

In [None]:
# Contar numero de nulos
enade.NT_GER.isnull().sum()

In [None]:
enade.shape

In [None]:
# Quantidade relativa de nulos
enade.NT_GER.isnull().sum()/enade.shape[0]

In [None]:
# Acessando estatitisticas descritivas da Nota geral
# apenas da regiao Centro oeste 5
enade.loc[
    enade.CO_REGIAO_CURSO == 5
].NT_GER.describe()

In [None]:
# Removendo notas de alunos zerados
enade.loc[
    enade.NT_GER > 0
].NT_GER.describe()

In [None]:
# Filtrando apenas alunos entre 20 e 50 anos
enade.loc[
    (enade.NU_IDADE >= 20) &
    (enade.NU_IDADE <= 50)
].NT_GER.describe()

In [None]:
# Tabela cruzada 
# Quantos homens e mulheres

enade.TP_SEXO.value_counts() / enade.shape[0]

In [None]:
# Quero comparar regioes do brasil em relacao a nota
# Vamos agregar media 
enade[['NT_GER', 'NT_FG', "NT_CE"]].describe()

In [None]:
# VAMOS COMPARAR  médias de notas para cada regiao do Brasil
enade.groupby('CO_REGIAO_CURSO').agg({
    'NT_GER': 'mean',
    'NT_FG': 'mean',
    'NT_CE': 'mean'
})

- CO_IES
- CO_CATEGAD
- CO_GRUPO
- CO_MODALIDADE
- CO_UF_CURSO
- CO_REGIAO_CURSO
- NU_IDADE
- TP_SEXO
- NT_GER
- NT_FG
- NT_CE


In [9]:
# Criando nova coluna e convertendo codigos para descricao
enade['DESC_PUBLICA'] = ''
enade.loc[
    enade.CO_CATEGAD.isin([118, 120, 121, 10005, 10006, 10007, 10008, 10009, 17634]),
    "DESC_PUBLICA"
] = "Privado"

In [10]:
enade.loc[
    enade.CO_CATEGAD.isin([93,115,116,10001,10002,10003])
    , "DESC_PUBLICA"
] = "Publica"

In [11]:
enade.DESC_PUBLICA.value_counts() / enade.shape[0]

Privado    0.767126
Publica    0.232874
Name: DESC_PUBLICA, dtype: float64

In [12]:
# Transformar modalidade
enade["CO_MODALIDADE"] = enade.CO_MODALIDADE.replace({
    0 : 'EAD',
    1 : "Presencial"
})

In [13]:
enade.CO_MODALIDADE.value_counts()

Presencial    410542
EAD            23388
Name: CO_MODALIDADE, dtype: int64

In [14]:
# Transforma regiao

enade["CO_REGIAO_CURSO"] = enade.CO_REGIAO_CURSO.replace({
    1: 'Norte',
    2: 'Nordeste',
    3: 'Sudeste',
    4: 'Sul',
    5: 'Centro-oeste'
})

In [15]:
enade.CO_REGIAO_CURSO.value_counts()

Sudeste         202505
Nordeste         91742
Sul              76788
Centro-oeste     34192
Norte            28703
Name: CO_REGIAO_CURSO, dtype: int64

In [16]:
# Transformando cor Raça
enade['DESC_COR'] = enade.QE_I02.replace({
    'A' : "Branca",
    'B' : 'Preta',
    'C' : 'Amarela',
    'D' : 'Parda',
    'E' : 'Indigena',
    'F' : pd.NA,
    ' ' : pd.NA
})

In [17]:
dict(enade.DESC_COR.value_counts())

{'Branca': 220386,
 'Parda': 135770,
 'Preta': 32869,
 'Amarela': 10093,
 'Indigena': 1300}

# Algumas perguntas para responder

1. Qual é a nota geral média dos alunos da região Nordeste

In [18]:
enade.loc[
    enade.CO_REGIAO_CURSO == "Nordeste",
    'NT_GER'
].mean()

43.78855492862657

2. Qual é a média da nota do componente especifico dos alunos do rio grande do sul de cursos de Eng eletrica

In [19]:
enade.loc[
    (enade.CO_UF_CURSO == 43) &
    (enade.CO_GRUPO == 5806),
    'NT_CE'
].mean()

34.79692671394829

3. Qual é a média da nota do componente de formacao de alunas do sexo feminino, pardas, de minas gerais, em cursos presenciais de enge de produção

In [26]:
enade.loc[
    (enade.TP_SEXO == 'F') &
    (enade.DESC_COR == 'Parda') &
    (enade.CO_UF_CURSO == 31) &
    (enade.CO_MODALIDADE == 'Presencial') &
    (enade.CO_GRUPO == 6208),
    'NT_FG'
].mean()

40.19142394822005