# Projeto Final Módulo 4 
### Trabalho final Módulo 4 | Técnicas de Programação I | Phyton | Degree Let´s Code, turma 814

* `Objetivo`: **Realizar uma EDA (Exploratory Data Analysis) utilizando as bibliotecas do numpy e pandas.**
    * O grupo poderá escolher uma base entre as fornecidas pelos professores ou escolherem uma outra base de dados que possa ser compartilhada.
    * Teremos 10 grupos com 4 pessoas e 3 grupos com 5 pessoas.
    * Grupos devem preencher o nome do participante e a base de dados escolhida no [link](https://docs.google.com/spreadsheets/d/1lWuWHb_d0_rz2wZaPPfDIwdFG3Xn2tf5CywFBhheI38/edit?usp=sharing)
    * Sugestão de [base de dados](https://docs.google.com/spreadsheets/d/1C5KinYE4wAuKvM_Vc1t5HK16n92B_7zoeT8v7ASVP6A/edit?usp=sharing)
    * A apresentação poderá ser construída em um jupyter notebook ou em slides
    * Storytelling
    * **Cada grupo terá no máximo 10 minutos para apresentar a EDA.**


* `Pontos esperados`:
    * Apresente as características do conjunto de dados fornecido, destacando sua visão geral acerca do conjunto de dados e tecendo críticas e comentários;
    * Faça uma análise detalhada das variáveis numéricas e categóricas da base de dados, discutindo sua distribuição e outras características relevantes;
    * Limpeza de dados: Considere a avaliação da existência de valores ausentes e de possíveis outliers, discutindo como estes podem ser tratados ou eliminados;
    * Feature engineering: Quais variáveis você poderia criar para enriquecer a análise?
    * Enriquecimento da base: Inclua qualquer outra informação/análise que achar importante.
    * Que outras bases externas ou internas voce buscaria para enriquecer as análises?

* `Integrantes`:
    * Carlos Eduardo Gomes
    * Diego Delfino
    * Felipe Wakami
    * Leonardo Kerkhoff
    
    
* `Base escolhida`: **Microdados do Enem 2019** (Atualizado em 20/05/2021). 
    * Disponível em [enem 2019](https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enem), extraído em 25/jan/2022.    

## Etapa 1 - ANÁLISE POPULANDO OS NaN's

#### Instalando as bibliotecas necessárias: pandas, numpy e pandas_profiling

In [1]:
#!pip install pandas
#!pip install numpy
#!pip install pandas-profiling

#### Importando as bibliotecas e selecionando as colunas no dataframe com o import

In [2]:
import pandas as pd
import numpy as np
pd.options.display.float_format= "{:,.2f}".format

#### Selecionamos 19 colunas das 136 disponíveis na base Enem 2019. O df de estudo possui 5.095.270 de linhas e 19 linhas.

In [3]:
# selecionando as colunas na variável cols 
# lendo o csv pelo read_csv, separados ; usecols pela variável cols, enconding do alfabeto latino

cols=['SG_UF_RESIDENCIA','SG_UF_NASCIMENTO','NU_IDADE','TP_SEXO','TP_COR_RACA','TP_ESCOLA','CO_ESCOLA','TP_PRESENCA_CN','TP_PRESENCA_CH',
     'TP_PRESENCA_LC','TP_PRESENCA_MT','NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT','TP_LINGUA','NU_NOTA_REDACAO','Q006','Q025']
df = pd.read_csv('./microdados_enem_2019/DADOS/MICRODADOS_ENEM_2019.csv', encoding='latin-1', sep=";", usecols=cols)

In [4]:
df

Unnamed: 0,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,SG_UF_NASCIMENTO,TP_ESCOLA,CO_ESCOLA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,TP_LINGUA,NU_NOTA_REDACAO,Q006,Q025
0,SP,36.00,M,3,BA,1,,0,0,0,0,,,,,0,,A,B
1,BA,23.00,M,1,BA,1,,0,0,0,0,,,,,0,,C,B
2,CE,39.00,F,3,CE,1,,0,0,0,0,,,,,1,,B,B
3,TO,25.00,F,1,TO,1,,1,1,1,1,483.80,503.60,537.30,392.00,1,460.00,E,B
4,MG,22.00,F,1,MG,1,,1,1,1,1,513.60,575.50,570.70,677.00,0,860.00,G,B
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5095265,DF,41.00,F,3,PA,1,,0,0,0,0,,,,,0,,C,B
5095266,AM,20.00,M,3,AM,1,,0,1,1,0,,578.90,555.50,,1,500.00,C,B
5095267,RS,21.00,M,0,RS,1,,0,0,0,0,,,,,0,,C,B
5095268,RS,22.00,M,0,RS,1,,0,0,0,0,,,,,0,,A,B


### Etapa 1.1 - TRATANDO OS DADOS:

#### Verificando os dados vazios

In [5]:
# utilizando a função isna para detectar valores ausentes
df.isna().sum()

SG_UF_RESIDENCIA          0
NU_IDADE                 69
TP_SEXO                   0
TP_COR_RACA               0
SG_UF_NASCIMENTO     145249
TP_ESCOLA                 0
CO_ESCOLA           3947858
TP_PRESENCA_CN            0
TP_PRESENCA_CH            0
TP_PRESENCA_LC            0
TP_PRESENCA_MT            0
NU_NOTA_CN          1384837
NU_NOTA_CH          1172125
NU_NOTA_LC          1172125
NU_NOTA_MT          1384837
TP_LINGUA                 0
NU_NOTA_REDACAO     1172126
Q006                      0
Q025                      0
dtype: int64

#### Notas
Os vazios em notas são as abstenções e serão mantidos para a análise. 

    * NU_NOTA_CN	    Nota da prova de Ciências da Natureza
    * NU_NOTA_CH	    Nota da prova de Ciências Humanas
    * NU_NOTA_LC	    Nota da prova de Linguagens e Códigos
    * NU_NOTA_MT	    Nota da prova de Matemática
    * NU_NOTA_REDACAO   Nota da prova de redação

#### Código da Escola: CO_ESCOLA 
Os vazios no campo de escolas são escolas sem cadastro ou com informações erradas, e devido à grande quantidade a coluna vai ser dropada.

###  Feature engineering
#### Idade: NU_IDADE 
Apresentou 69 campos não populados. Neste caso, os dados faltantes na idade podem ser tratados, pela baixa quantidade em relação à base (será utilizada a mediana, pela interferência dos outliers na média). 

In [6]:
# a mediana da idade é 19, ou seja, é o valor que está exatamente no meio do conjunto de dados.
df.NU_IDADE.median()

19.0

In [7]:
# dropando a coluna Código da Escola
# substituindo os valores NaN em Idade com função fillna a partir da mediana obtido pelo median()

df.drop(['CO_ESCOLA'], axis=1, inplace=True)
df['NU_IDADE']=df.NU_IDADE.fillna(df.NU_IDADE.median())
df.isna().sum()

SG_UF_RESIDENCIA          0
NU_IDADE                  0
TP_SEXO                   0
TP_COR_RACA               0
SG_UF_NASCIMENTO     145249
TP_ESCOLA                 0
TP_PRESENCA_CN            0
TP_PRESENCA_CH            0
TP_PRESENCA_LC            0
TP_PRESENCA_MT            0
NU_NOTA_CN          1384837
NU_NOTA_CH          1172125
NU_NOTA_LC          1172125
NU_NOTA_MT          1384837
TP_LINGUA                 0
NU_NOTA_REDACAO     1172126
Q006                      0
Q025                      0
dtype: int64

#### Candidatos eliminados
Serão verificados os candidatos eliminados nas provas. Estes serão dropados. 0: Faltou à prova, 1: Presente na prova e 2: Eliminado na prova

    * TP_PRESENCA_CN: Presença na prova objetiva de Ciências da Natureza
    * TP_PRESENCA_CH: Presença na prova objetiva de Ciências Humanas
    * TP_PRESENCA_LC: Presença na prova objetiva de Linguagens e Códigos
    * TP_PRESENCA_MT: Presença na prova objetiva de Matemática

In [8]:
df.drop(df[df.TP_PRESENCA_CN == 2].index, inplace=True)
df.drop(df[df.TP_PRESENCA_CH == 2].index, inplace=True)
df.drop(df[df.TP_PRESENCA_LC == 2].index, inplace=True)
df.drop(df[df.TP_PRESENCA_MT == 2].index, inplace=True)

## Enriquecimento da base
#### Cálculo da nota final: Total
 
* `Memória de Cálculo`: Basta somar as 5 notas (Ciências da Natureza, Ciências Humanas, Linguagens e Códigos, Matemática e Redação) e depois dividir o resultado por 5.

Será criada uma coluna com a nota total dos alunos, e após isso as notas individuais por prova e as colunas de presença serão dropadas

In [9]:
df['Total']=(df['NU_NOTA_CN']+df['NU_NOTA_CH']+df['NU_NOTA_LC']+df['NU_NOTA_MT']+df['NU_NOTA_REDACAO'])/5
df.drop(['TP_PRESENCA_CN','TP_PRESENCA_CH','TP_PRESENCA_LC','TP_PRESENCA_MT','NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC',
         'NU_NOTA_MT','NU_NOTA_REDACAO'], axis=1, inplace=True)

In [10]:
df.head(10)
df

Unnamed: 0,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,SG_UF_NASCIMENTO,TP_ESCOLA,TP_LINGUA,Q006,Q025,Total
0,SP,36.00,M,3,BA,1,0,A,B,
1,BA,23.00,M,1,BA,1,0,C,B,
2,CE,39.00,F,3,CE,1,1,B,B,
3,TO,25.00,F,1,TO,1,1,E,B,475.34
4,MG,22.00,F,1,MG,1,0,G,B,639.36
...,...,...,...,...,...,...,...,...,...,...
5095265,DF,41.00,F,3,PA,1,0,C,B,
5095266,AM,20.00,M,3,AM,1,1,C,B,
5095267,RS,21.00,M,0,RS,1,0,C,B,
5095268,RS,22.00,M,0,RS,1,0,A,B,


#### Dados ausentes no estado de nascimento

Serão verificados os impactos dos dados faltantes no estado de nascimento:

In [11]:
df.isna().sum()

SG_UF_RESIDENCIA          0
NU_IDADE                  0
TP_SEXO                   0
TP_COR_RACA               0
SG_UF_NASCIMENTO     145072
TP_ESCOLA                 0
TP_LINGUA                 0
Q006                      0
Q025                      0
Total               1387283
dtype: int64

In [12]:
# utilizando a função describe() que informa sobre os dados estatísticos da coluna SG_UF_NASCIMENTO: Sigla da Unidade da Federação de nascimento
df[df.SG_UF_NASCIMENTO.isna()]['Total'].describe()

count   106,197.00
mean        492.01
std          72.85
min           0.00
25%         444.72
50%         485.50
75%         533.18
max         806.24
Name: Total, dtype: float64

In [13]:
# utilizando a função describe() que informa sobre os dados estatísticos do dataframe
df['Total'].describe()

count   3,702,007.00
mean          522.62
std            83.65
min             0.00
25%           464.04
50%           515.02
75%           576.76
max           850.82
Name: Total, dtype: float64

* `Conclusão`: 
A nota máxima no grupo selecionado (estado de nascimento) não está entre as máximas do data frame total. Assim, é possível dropar os nulos desta coluna, sem que isso modifique as análises posteriores.

In [14]:
# dropando a coluna SG_UF_NASCIMENTO
df.dropna(subset=['SG_UF_NASCIMENTO'], inplace=True)

#### DataFrame sem dados ausentes, mas com campos populados com dados não declarados

#### Cor/raça: TP_COR_RACA
    * 0	Não declarado
    * 1	Branca
    * 2	Preta
    * 3	Parda
    * 4	Amarela
    * 5	Indígena 
    
#### Tipo de escola do Ensino Médio: TP_ESCOLA  
    * 1	Não Respondeu
    * 2	Pública
    * 3	Privada
    * 4	Exterior

In [15]:
df.isna().sum()

SG_UF_RESIDENCIA          0
NU_IDADE                  0
TP_SEXO                   0
TP_COR_RACA               0
SG_UF_NASCIMENTO          0
TP_ESCOLA                 0
TP_LINGUA                 0
Q006                      0
Q025                      0
Total               1348408
dtype: int64

In [16]:
# organizando os dados pela nota final 'Total' de forma decrescente
df.sort_values(by='Total', ascending=False).head(10)

Unnamed: 0,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,SG_UF_NASCIMENTO,TP_ESCOLA,TP_LINGUA,Q006,Q025,Total
2610914,MG,17.0,M,1,MG,3,0,N,B,850.82
2406179,MG,17.0,M,1,MG,2,0,N,B,846.26
494733,PI,18.0,M,1,PI,3,0,J,B,845.0
1813970,MA,18.0,M,3,PI,1,0,J,B,843.28
2184026,GO,17.0,F,1,GO,3,0,P,B,842.7
2464215,GO,18.0,M,3,GO,3,0,H,B,840.56
3048302,GO,17.0,F,1,GO,3,0,N,B,838.56
2250347,MG,19.0,M,1,MG,1,0,Q,B,837.48
2689723,SP,22.0,F,1,SP,1,0,J,B,835.9
3140139,GO,18.0,M,1,GO,1,0,K,B,833.58


## Feature engineering
#### Cor/raça: TP_COR_RACA

Para o tratamento dos dados faltantes no campo de cor/raça, serão considerados os estados de nascimento para a estimativa.

In [17]:
# copiando o dataframe para df2
# dropando os que não declararam Cor/raça
# groupby por Estado de Nascimento x Cor/raça
# reapresentado os valores em dados relativos (%).

df2=df.copy()
df2.drop(df2[df2.TP_COR_RACA == 0].index, inplace=True)
porcentagens=df2.groupby(['SG_UF_NASCIMENTO','TP_COR_RACA']).agg({'TP_COR_RACA':'count'}).groupby(level=0).apply(lambda x:100*x/float(x.sum()))

In [18]:
porcentagens

Unnamed: 0_level_0,Unnamed: 1_level_0,TP_COR_RACA
SG_UF_NASCIMENTO,TP_COR_RACA,Unnamed: 2_level_1
AC,1,15.33
AC,2,11.27
AC,3,69.34
AC,4,3.26
AC,5,0.80
...,...,...
TO,1,18.52
TO,2,16.52
TO,3,60.72
TO,4,3.58


In [19]:
# copiando o dataframe para df3
# dropando os que declararam Cor/raça (dif 0: Não declarado)
# groupby por Estado de Nascimento x Cor/raça e count
# reapresentado os valores em dados absolutos 

df3=df.copy()
df3.drop(df3[df3.TP_COR_RACA != 0].index, inplace=True)
nulos=df3.groupby(['SG_UF_NASCIMENTO'])[['TP_COR_RACA']].count()
nulos

Unnamed: 0_level_0,TP_COR_RACA
SG_UF_NASCIMENTO,Unnamed: 1_level_1
AC,705
AL,2096
AM,2414
AP,660
BA,9563
CE,8059
DF,2430
ES,1453
GO,4227
MA,3812


### Concatenando os data frames

Mesclando os data frames com merge() entre o df2 (porcentagens) e df3 (nulos) com o OUTER Merger()

In [20]:
# a mesclagem “OUTER” combina todas as linhas dos dataframes esquerdo e direito 
# com NaN quando não há valores correspondentes nas linhas
# apresenta o total de não declarados de Cor/raça e a representatividade das raças em % por estado de nascimento 
merged=porcentagens.merge(nulos, how="outer", on="SG_UF_NASCIMENTO")

# adicionando a coluna DISTRIBUICAO e populando os não declarados pela representatividade das raças em %
merged['DISTRIBUICAO']=round(merged['TP_COR_RACA_y']*(merged['TP_COR_RACA_x']/100)).astype('int32')

# adicionando a coluna COR_RACA indicando as 5 categorias de cor/raça
merged['COR_RACA']=((merged.groupby('SG_UF_NASCIMENTO').cumcount()%5)+1)

# DONE para posterior validação dos dados populados
# dropando as colunas adicionadas na DISTRIBUICAO
merged['DONE']=0
merged.drop(['TP_COR_RACA_x','TP_COR_RACA_y'], axis=1, inplace=True)

In [21]:
# antes da execução
merged

Unnamed: 0_level_0,DISTRIBUICAO,COR_RACA,DONE
SG_UF_NASCIMENTO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,108,1,0
AC,79,2,0
AC,489,3,0
AC,23,4,0
AC,6,5,0
...,...,...,...
TO,146,1,0
TO,130,2,0
TO,478,3,0
TO,28,4,0


In [22]:
# criando o df4 e utilizando a função itertuples() iterando em cada linha
# populando as 5 categorias de raças ao total de não declarados, a partir da representatividade dos declarados

df4=df.copy()
for row in df4.itertuples():   
    if row[4]==0:
        count=1
        while True:
            state=row[5]
            if (merged.loc[(merged.index == state) & (merged['COR_RACA'] == count)]['DISTRIBUICAO'] > merged.loc[(merged.index == state) & (merged['COR_RACA'] == count)]['DONE']).all():
                df4.at[row.Index,'TP_COR_RACA'] = count
                merged.loc[(merged.index == state) & (merged['COR_RACA'] == count),'DONE']+=1
                break
            else:
                count+=1
            if count>5:
                df4.at[row.Index,'TP_COR_RACA'] = 3
                break

In [23]:
# após a execucução
merged

Unnamed: 0_level_0,DISTRIBUICAO,COR_RACA,DONE
SG_UF_NASCIMENTO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,108,1,108
AC,79,2,79
AC,489,3,489
AC,23,4,23
AC,6,5,6
...,...,...,...
TO,146,1,146
TO,130,2,130
TO,478,3,478
TO,28,4,28


#### Comparando total absoluto de Cor/raça entre os dados originais e os populados

In [24]:
# original
df['TP_COR_RACA'].value_counts()

3    2286853
1    1790822
2     626954
4     109961
0      99676
5      29952
Name: TP_COR_RACA, dtype: int64

In [25]:
# populado cor/raça
df4['TP_COR_RACA'].value_counts()

3    2334750
1    1826479
2     640140
4     112273
5      30576
Name: TP_COR_RACA, dtype: int64

## Feature engineering
#### Tipo de escola do Ensino Médio: TP_ESCOLA

Tratados os dados de cor/raça, faremos o mesmo procedimento para tratar os dados de escola. Para o tratamento dos dados faltantes no campo Tipo de escola, serão considerados os estados de residência.

In [26]:
# copiando o dataframe para df5
# dropando os que não declararam tipo da escola
# groupby por Estado da residência x Tipo de escola
# reapresentado os valores em dados relativos (%).

df5=df.copy()
df5.drop(df5[df5.TP_ESCOLA == 1].index, inplace=True)
porcentagens2=df5.groupby(['SG_UF_RESIDENCIA','TP_ESCOLA']).agg({'TP_ESCOLA':'count'}).groupby(level=0).apply(lambda x:100*x/float(x.sum()))

In [27]:
porcentagens2

Unnamed: 0_level_0,Unnamed: 1_level_0,TP_ESCOLA
SG_UF_RESIDENCIA,TP_ESCOLA,Unnamed: 2_level_1
AC,2,94.42
AC,3,5.58
AL,2,81.16
AL,3,18.84
AM,2,94.5
AM,3,5.5
AP,2,92.1
AP,3,7.9
BA,2,85.37
BA,3,14.63


In [28]:
# copiando o dataframe para df6
# dropando os que declararam Tipo da escola (dif 1: Não Respondeu)
# groupby por Estado da residência x Tipo de escola e count
# reapresentado os valores em dados absolutos 

df6=df.copy()
df6.drop(df6[df6.TP_ESCOLA != 1].index, inplace=True)
nulos2=df6.groupby(['SG_UF_RESIDENCIA'])[['TP_ESCOLA']].count()
nulos2

Unnamed: 0_level_0,TP_ESCOLA
SG_UF_RESIDENCIA,Unnamed: 1_level_1
AC,30436
AL,67129
AM,84453
AP,33109
BA,295670
CE,173008
DF,65932
ES,70827
GO,117126
MA,159606


### Concatenando os data frames

Mesclando os data frames com merge() entre o df5 (porcentagens2) e df6 (nulos2) com o OUTER Merger()

In [29]:
# a mesclagem “OUTER” combina todas as linhas dos dataframes esquerdo e direito 
# com NaN quando não há valores correspondentes nas linhas
# apresenta o total de não declarados de Cor/raça e a representatividade das raças em % por estado de nascimento 
merged2=porcentagens2.merge(nulos2, how="outer", on="SG_UF_RESIDENCIA")

# adicionando a coluna DISTRIBUICAO e populando os não declarados pela representatividade dos Tipos de escola em %
merged2['DISTRIBUICAO']=round(merged2['TP_ESCOLA_y']*(merged2['TP_ESCOLA_x']/100)).astype('int64')

# adicionando a coluna ESCOLA indicando as categorias de Tipos de escola Pública ou Privada
merged2['ESCOLA']=((merged2.groupby('SG_UF_RESIDENCIA').cumcount()%2)+2)

# DONE para posterior validação dos dados populados
# dropando as colunas adicionadas na DISTRIBUICAO
merged2['DONE']=0
merged2.drop(['TP_ESCOLA_x','TP_ESCOLA_y'], axis=1, inplace=True)

In [30]:
# antes da execução
merged2

Unnamed: 0_level_0,DISTRIBUICAO,ESCOLA,DONE
SG_UF_RESIDENCIA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AC,28738,2,0
AC,1698,3,0
AL,54485,2,0
AL,12644,3,0
AM,79808,2,0
AM,4645,3,0
AP,30494,2,0
AP,2615,3,0
BA,252422,2,0
BA,43248,3,0


In [31]:
import time
tempo_inicial = time.time()

In [None]:
# no df4 já criado, utilizando a função itertuples() iterando em cada linha
# populando as categorias de Tipos de escola Pública ou Privada ao total de não respondeu, 
# a partir da representatividade dos respondidos

df7=df4.copy()
for row in df7.itertuples():   
    if row[6]==1:
        count=2
        while True:
            state=row[1]
            if (merged2.loc[(merged2.index == state) & (merged2['ESCOLA'] == count)]['DISTRIBUICAO'] > merged2.loc[(merged2.index == state) & (merged2['ESCOLA'] == count)]['DONE']).all():
                df7.at[row.Index,'TP_ESCOLA'] = count
                merged2.loc[(merged2.index == state) & (merged2['ESCOLA'] == count),'DONE']+=1
                break
            else:
                count+=1
            if count>3:
                df7.at[row.Index,'TP_ESCOLA'] = 2
                break

In [None]:
# analisando o tempo de processamento
tempo_final = time.time()
tempo_final - tempo_inicial

In [None]:
# após a execucução
merged2

In [None]:
#### Comparando total absoluto de Tipos de escola entre os dados originais e os populados

In [None]:
# original
df['TP_ESCOLA'].value_counts()

In [None]:
# populado Tipo de escola
df4['TP_COR_RACA'].value_counts()

## Novo DataFrame

#### Após todo o tratamento, disponibilizando o novo DataFrame em formato CSV via output.

In [None]:
df4.to_csv('dados_populados.csv')

DADOS TRATADOS

Importando as bibliotecas:

In [None]:
import pandas as pd
import numpy as np
pd.options.display.float_format= "{:,.2f}".format

Carregando os dados já pré-tratados (final da parte 1 > dados_populados.csv):

In [None]:
df = pd.read_csv("./dados_populados.csv")
df

In [None]:
df.isna().sum()

As notas NaN são as abstenções e serão mantidos para a análise.

Alterando os nomes das colunas:

In [None]:
df.columns = ["UF_RESIDENCIA", "IDADE", "SEXO", "COR", "UF_NASCIMENTO", "TIPO_ESCOLA", "LINGUA_ESTRANGEIRA", "RENDA_MENSAL_FAMILIAR", "INTERNET", "NOTA"]
df.columns

In [None]:
df.head(10)

Substituindo os valores originais para facilitar a leitura do DataFrame:

In [None]:
df.COR.replace({1:"Branco (a)", 2:"Preto (a)", 3: "Pardo (a)",  4: "Amarelo (a)", 5: "Indígena"}, inplace = True)
df.TIPO_ESCOLA.replace({2:"Pública", 3:"Privada", 4: "Exterior"}, inplace = True)
df.LINGUA_ESTRANGEIRA.replace({0:'Inglês', 1:'Espanhol'}, inplace = True)
df.RENDA_MENSAL_FAMILIAR.replace({'A':"classe_E", 'B':"classe_E", 'C':"classe_E", 'D':"classe_E", 'E':"classe_D", 'F':"classe_D", 'G':"classe_D", 'H':"classe_C", 'I':"classe_C", 'J':"classe_C", 'K':"classe_C", 'L':"classe_C", 'M':"classe_C", 'N':"classe_B", 'O':"classe_B", 'P':"classe_B", 'Q':"classe_A"}, inplace = True)
df.INTERNET.replace({'A':'Não', 'B':'Sim'}, inplace = True)

df.head(5)

Acrescentando a coluna "REGIAO_BR"

In [None]:
df["REGIAO_BR"] = df.UF_RESIDENCIA

In [None]:
df.head(10)

Repopulando os valores da nova coluna com as regiões correspondentes de cada Estado:

In [None]:
df.REGIAO_BR.replace({'PR': "Sul", 'SP': "Sudeste", 'PA': "Norte", 'TO': "Norte", 'RS': "Sul", 'AL': "Nordeste", 'BA': "Nordeste", 'AP': "Norte", 'MG': "Sudeste", 'AM': "Norte", 'GO': "Centro-Oeste",
       'MA': "Nordeste", 'RJ': "Sudeste", 'CE': "Nordeste", 'RO': "Norte", 'MT': "Centro-Oeste", 'PE': "Nordeste", 'RN': "Nordeste", 'AC': "Norte", 'ES': "Sudeste", 'PI': "Nordeste", 'SE': "Nordeste",
       'DF': "Centro-Oeste", 'SC': "Sul", 'PB': "Nordeste", 'MS': "Centro-Oeste", 'RR': "Norte"}, inplace = True)
df

**ANÁLISES**

In [None]:
# Quantidade de pessoas do sexo masculino e feminino que tiveram nota final do Enem 2019

In [None]:
df.SEXO.value_counts()

In [None]:
fem = (2930229 / (2930229 + 2013989)) * 100
fem

In [None]:
masc = (2013989 / (2930229 + 2013989)) * 100
masc

In [None]:
# Pessoas do sexo feminino são maioria, representando quase 60%;
# Enquanto indivíduos do sexo masculino representam pouco mais de 40%.

In [None]:
# Média de idade

In [None]:
df.IDADE.mean()

In [None]:
# Média de idades das pessoas que fizeram Enem em 2019 é de 22,18 anos.

In [None]:
# Média de idade por sexo:

In [None]:
df.groupby(['SEXO']).IDADE.mean()

In [None]:
# Idades médias muito próximas (meninos 22,20 e meninas 22,06).

In [None]:
# Média de idade por sexo, cor e tipo de escola:

In [None]:
df.groupby(['SEXO', "COR", "TIPO_ESCOLA"]).IDADE.mean()

In [None]:
# Tanto pessoas do sexo feminino, quanto masculino, 
# percebe-se que entre os índigenas e pessoas pretas possuem 
# média de idade maior.
# Isso pode indicar algum tipo de dificuldade de acesso a educação e 
# melhores qualidades de vida por # parte dessas pessoas e, talvez, 
# até algum tipo de discriminação (podendo ser vividas por ele ou por seus ascendentes).

Pretos(as), Pardos(as) e Indígenas com médias levemente superiores comparadas às médias de Brancos(as) e Amarelos(as).

**Análise: Nota final do Enem 2019 por sexo e tipo de escola**

In [None]:
df.groupby(['SEXO', "TIPO_ESCOLA"])['NOTA'].mean()

In [None]:
df.groupby(['SEXO', "TIPO_ESCOLA"])['NOTA'].min()

In [None]:
df.groupby(['SEXO', "TIPO_ESCOLA"])['NOTA'].max()

In [None]:
df.groupby(['SEXO', "TIPO_ESCOLA"])['NOTA'].std()

In [None]:
# Em relação a média, percebe-se que as médias dos alunos de escolas privadas
# são maiores quando comparados com alunos de escolas públicas.
# Isso pode indicar problemas na educação.

# Ao olhar a maior nota, mais uma vez, os alunos de escola particular
# apresentaram notas maiores quando comparados com os alunos da escola pública.

In [None]:
# Nota final do Enem 2019 por sexo, cor e tipo de escola:

In [None]:
df.groupby(['SEXO', 'COR', "TIPO_ESCOLA"])['NOTA'].mean()

In [None]:
# Mais uma vez, os indígenas e pessoas da cor preta possuem as menores notas.
# Indivíduos de escolas particulares evidenciam as maiores notas.

In [None]:
# Média da nota final por classe:

In [None]:
df.groupby(["RENDA_MENSAL_FAMILIAR"])[["NOTA"]].mean().sort_values(ascending = False, by = "NOTA")

In [None]:
# Pessoas de classes mais altas, apresentaram as maiores médias.
# Isso pode evidenciar melhores condições de acesso a N fatores.

In [None]:
# Média da nota final por classe e sexo:

In [None]:
df.groupby(["RENDA_MENSAL_FAMILIAR", "SEXO"])['NOTA'].mean()

In [None]:
# Mais uma vez, rendas maiores permitem acesso a educação de melhor qualidade.
# As notas dos meninos e das meninas, para cada faixa de renda, são bem parecidas.

In [None]:
# Média da nota final comparando candidatos que têm e os que não têm internet em casa:

In [None]:
df.groupby(["INTERNET"])[["NOTA"]].mean().sort_values(ascending = False, by = "NOTA")

In [None]:
# Percebe-se que quem possui acesso à internet apresenta um desempenho melhor na nota.
# Isso pode ser explicado pelo fato de melhores condições de estudo.

In [None]:
# Tipo escola vs Renda mensal familiar vs Nota final:

In [None]:
df.groupby(["TIPO_ESCOLA", "RENDA_MENSAL_FAMILIAR"])['NOTA'].mean()

In [None]:
# Quem possui maior renda, tende a apresentar notas maiores,
# especialmente quando estudam em colégios privados.
# Além disso, pessoas que possuem rendas maiores e que estudam 
# em colégios públicos, também possuem um desempenho melhor,
# quando comparados com demais alunos de colégios públicos.
# Um dos motivos que podem explicar esse fato, é que pessoas
# com maiores poderes aquisitivos possuem melhores condições e, tendem
# a possuir famílias mais estruturadas.

In [None]:
# Nota final na prova por região brasileira

In [None]:
df.groupby(["REGIAO_BR"])[["NOTA"]].mean().sort_values(ascending = False, by = "NOTA")

In [None]:
# A região Sudeste apresenta a maior nota final, seguida pela região Sul.
# Isso pode evidenciar disparidades na educação entre as regiões brasileiras.
# Além disso, dependendo da localidade, o acesso a educação
# tende a ser mais difícil, principalmente na região norte,
# que apresentou a menor nota.

In [None]:
# Nota final na prova por região brasileira e tipo de escola:

In [None]:
df.groupby(["REGIAO_BR", "TIPO_ESCOLA"])['NOTA'].mean()

In [None]:
# Quando analisamos as notas por região e tipo de escola, 
# é possível verificar que, novamente, as notas de alunos
# de escola pública tendem a ser menores quando comparados com colégios particulares.
# A nota da região Sudeste segue liderando, seguido
# pelas regiões sul e centro-oeste.

In [None]:
# Preferência de língua estrangeira por tipo de escola:

In [None]:
df.groupby(["TIPO_ESCOLA", "LINGUA_ESTRANGEIRA"])[["LINGUA_ESTRANGEIRA"]].count()

In [None]:
# Podemos observar que nas escolas particulares temos uma preferência pela prova de Inglês,
# enquanto que nas escolas públicas, a preferência é pelo Espanhol.
# Uma hipótese é que o ensino do Inglês nas escolas particulares é contínuo e presente desde cedo,
# enquanto que nas escolas públicas o ensino do Inglês seja falho e a preferência pelo Espanhol
# dá-se pela similaridade com a língua Portuguesa, induzindo os alunos de escolas públicas a optarem
# pelo Espanhol

In [None]:
# Análise de candidatos por tipo de escola e renda:

In [None]:
df[["TIPO_ESCOLA", "RENDA_MENSAL_FAMILIAR" ]].value_counts()

In [None]:
# Candidatos das classes C, D e E são maioria analisando o todo. Entre escolas públicas e privadas,
# notamos que as mesmas classes de escolas públicas são maioria em relação às escolas privadas.

In [None]:
# Quantidade de alunos em escolas públicas e particulares:

In [None]:
df[["TIPO_ESCOLA"]].value_counts()

In [None]:
# Quantidade de alunos em escolas públicas e particulares, separados por sexo:

In [None]:
df.groupby(['SEXO'])['TIPO_ESCOLA'].value_counts()

In [None]:
# Como esperado, temos mais pessoas de escolas públicas, tanto do sexo masculino
# quanto do sexo feminino.

In [None]:
# Análise de estudandes classe A:

In [None]:
df.groupby(['TIPO_ESCOLA'])['RENDA_MENSAL_FAMILIAR'].value_counts()

In [None]:
# temos mais indivíduos da classe A em colégios privados
# quanto comparados em escola pública.

**Análise: Qual Estado possui maior quantidade de abstenções?**

In [None]:
# criando uma cópia do df1 e selecionando apenas as linhas com "Nota" == NaN
df_2 = df.copy()
df_2 = df_2[df_2["NOTA"].isna()]
df_2

In [None]:
df_2 = df_2[['UF_RESIDENCIA']].value_counts()

In [None]:
df_3 = df[['UF_RESIDENCIA']].value_counts()

In [None]:
df_3

In [None]:
# criando um df4 (auxiliar) para comparar totalidade vs abstenções:
df_4 = pd.concat([df_3, df_2], axis = 1, join = "outer")

In [None]:
df_4

In [None]:
# renoamenado as colunas:
df_4.columns = ["TOTAL_CANDIDATOS", "ABSTENCOES"]
df_4

In [None]:
# calculando as abstenções em percentual:
df_4["PERCENTUAL"] = (df_4.ABSTENCOES / df_4.TOTAL_CANDIDATOS) * 100
df_4

In [None]:
# ordenando descending:
df_4[["PERCENTUAL"]].sort_values(ascending = False, by = "PERCENTUAL")

In [None]:
# calculando a média de abstenções:
df_4["PERCENTUAL"].mean()

In [None]:
# TEMOS UMA MÉDIA GERAL DE 27,72% DE ABSTENÇÕES

**Análise: Qual Estado (residência) possui a maior nota (na média)?**

In [None]:
df.groupby(["UF_RESIDENCIA"])[["NOTA"]].mean().sort_values(ascending = False, by = "NOTA")

**Análise: Qual Estado (nascimento) possui a maior nota (na média)?**

In [None]:
df.groupby(["UF_NASCIMENTO"])[["NOTA"]].mean().sort_values(ascending = False, by = "NOTA")

In [None]:
# podemos perceber que SP lidera nas duas ocasiões, com algumas alterações de posição
# no decorrer da tabela

# 2 - ANÁLISE REMOVENDO OS NaN's

# PARTE I

In [None]:
# Importação
import numpy as pd
import pandas as pd
import pandas_profiling as pp
import warnings

In [None]:
# Formatando para 2 casas após a vírgula
pd.options.display.float_format= "{:,.2f}".format
# Ignorando warnings
warnings.filterwarnings("ignore")

In [None]:
# Carregando os dados e viualizando
df = pd.read_csv("MICRODADOS_ENEM_2019.csv", encoding='latin-1', sep=";")
df

In [None]:
# Tipo
type(df)

In [None]:
# Dimensões
print(df.ndim)

In [None]:
print(df.shape)

In [None]:
print(df.size)

In [None]:
# ìndice
df.index

In [None]:
# Tipo de variáveis
df.dtypes

In [None]:
# Visualização de dados
df.head(10)

In [None]:
df.tail(10)

In [None]:
# Análise
df.describe()

In [None]:
df.describe(include='all')

In [None]:
df.info()

In [None]:
# Nome das colunas
df.columns

In [None]:
# Verificando total de valores NA (missing) por variável
df.isna().sum()

In [None]:
# Drop de colunas que não interessam
df.drop(["TP_ANO_CONCLUIU", "IN_TREINEIRO", "CO_UF_NASCIMENTO", "SG_UF_NASCIMENTO", "CO_MUNICIPIO_RESIDENCIA", "CO_UF_RESIDENCIA", "CO_ESCOLA", "CO_UF_ESC", "CO_UF_PROVA", 'NU_INSCRICAO', 'NU_ANO', 'TP_NACIONALIDADE', 'CO_MUNICIPIO_NASCIMENTO', 'NO_MUNICIPIO_NASCIMENTO', 'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC', 'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC', "IN_SURDEZ", 'IN_BAIXA_VISAO', 'IN_CEGUEIRA', "IN_DEFICIENCIA_AUDITIVA", "IN_SURDO_CEGUEIRA", "IN_DEFICIENCIA_FISICA", "IN_DEFICIENCIA_MENTAL", "IN_DEFICIT_ATENCAO", "IN_DISLEXIA", "IN_DISCALCULIA", "IN_AUTISMO", "IN_VISAO_MONOCULAR", "IN_OUTRA_DEF", "IN_GESTANTE", "IN_LACTANTE", "IN_IDOSO", "IN_ESTUDA_CLASSE_HOSPITALAR", "IN_SEM_RECURSO", "IN_BRAILLE", "IN_AMPLIADA_24", "IN_AMPLIADA_18", "IN_LEDOR", "IN_ACESSO", "IN_TRANSCRICAO", "IN_LIBRAS", "IN_TEMPO_ADICIONAL", "IN_LEITURA_LABIAL", "IN_MESA_CADEIRA_RODAS", "IN_MESA_CADEIRA_SEPARADA", "IN_APOIO_PERNA", "IN_GUIA_INTERPRETE", "IN_COMPUTADOR", "IN_CADEIRA_ESPECIAL", "IN_CADEIRA_CANHOTO", "IN_CADEIRA_ACOLCHOADA", "IN_PROVA_DEITADO", "IN_MOBILIARIO_OBESO", "IN_LAMINA_OVERLAY", "IN_PROTETOR_AURICULAR", "IN_MEDIDOR_GLICOSE", "IN_MAQUINA_BRAILE", "IN_SOROBAN", "IN_MARCA_PASSO", "IN_SONDA", "IN_MEDICAMENTOS", "IN_SALA_INDIVIDUAL", "IN_SALA_ESPECIAL", "IN_SALA_ACOMPANHANTE", "IN_MOBILIARIO_ESPECIFICO", "IN_MATERIAL_ESPECIFICO", "CO_MUNICIPIO_PROVA", "NO_MUNICIPIO_PROVA", "CO_UF_PROVA", "CO_PROVA_CN", "CO_PROVA_CH", "CO_PROVA_LC", "CO_PROVA_MT", "TX_RESPOSTAS_CN", "TX_RESPOSTAS_CH", "TX_RESPOSTAS_LC", "TX_RESPOSTAS_MT", "TX_GABARITO_CN", "TX_GABARITO_CH", "TX_GABARITO_LC", "TX_GABARITO_MT", "NU_NOTA_COMP1", "NU_NOTA_COMP2", "NU_NOTA_COMP3", "NU_NOTA_COMP4", "NU_NOTA_COMP5", "Q007", "Q010", "Q011", "Q013", "Q014", "Q015", "Q016", "Q017", "Q018", "Q020", "Q021", "Q023", "TP_ENSINO", "TP_PRESENCA_CN", "TP_PRESENCA_CH", "TP_PRESENCA_LC", "TP_PRESENCA_MT", "TP_STATUS_REDACAO", "TP_ST_CONCLUSAO"], axis=1, inplace = True)
df
# TP_ANO_CONCLUIU
# IN_TREINEIRO

In [None]:
df.memory_usage()

In [None]:
df.info()

In [None]:
# Renomeando colunas
df.columns = [ "nom_mun_res", "sig_uf_res", "idade", "sexo", "est_civil", "cor", "tip_esc", "nom_social", "uf_esc", "nota_cien_nat", "nota_cien_hum", "nota_ling", "nota_mat", "idioma", "nota_red", "pai_esc", "mae_esc", "ocup_pai", "ocup_mae", "qtde_pes_casa", "renda_men", "tem_wc", "tem_quartos", "tem_geladeira", "tem_tv", "tem_cel", "tem_pc", "tem_net"]
df.columns
# "cor", "ano_concl_em", "tip_esc"
# "tip_esc", "treino", "nom_social"

In [None]:
df

In [None]:
df.isna()

In [None]:
# Verificando total de valores NA (missing) por variável
df.isna().sum()

In [None]:
# Em idade, temos poucos valores ausentes. 
# Dessa forma, vamos verificar a média e mediana para imputar valores.
# Optou-se pela mediana devido aos "outliers".
# Além de ter poucos NAs.

In [None]:
df.idade.max()

In [None]:
df.idade.min()

In [None]:
df.idade.mean()

In [None]:
df.idade.median()

In [None]:
mediana = df.idade.median()
media = df.idade.mean()

In [None]:
df['idade'].fillna(mediana, inplace = True)
df.isna().sum()

In [None]:
# Criando as regiões do Brasil
df["regiao_br"] = df.sig_uf_res

In [None]:
df["regiao_br"].unique()

In [None]:
df.regiao_br.replace({'PR': "sul", 'SP': "sudeste", 'PA': "norte", 'TO': "norte", 'RS': "sul", 'AL': "nordeste", 'BA': "nordeste", 'AP': "norte", 'MG': "sudeste", 'AM': "norte", 'GO': "centro-oeste",
       'MA': "nordeste", 'RJ': "sudeste", 'CE': "nordeste", 'RO': "norte", 'MT': "centro-oeste", 'PE': "nordeste", 'RN': "nordeste", 'AC': "norte", 'ES': "sudeste", 'PI': "nordeste", 'SE': "nordeste",
       'DF': "centro-oeste", 'SC': "sul", 'PB': "nordeste", 'MS': "centro-oeste", 'RR': "norte"}, inplace = True)

In [None]:
df["regiao_br"].unique()

In [None]:
# Criando a nota final do Enem
df["nota_final"] = ((df.nota_red + df.nota_cien_nat + df.nota_cien_hum + df.nota_ling + df.nota_mat) / 5)
df

In [None]:
df.isna().sum()

In [None]:
# Verificando número de faltosos/eliminados:
# Total de dados: 5,095,270
# Total de nota_final = nan: 1,393,263
# Em termos %: (1,393,263 / 5,095,270) * 100 = 27.344242797732015 %
faltosos = (1393263 / 5095270) * 100
faltosos

In [None]:
df.reset_index(inplace = True)
df

In [None]:
df.drop(['index'], axis = 1, inplace = True)
df

# Verificar de imputar valores nas provas!

In [None]:
# Agora, salvando os dados:
# Salvando em csv
df.to_csv('df_trabalhando_I.csv', sep=';', index=False)

# PARTE II

In [None]:
# Importação
import numpy as pd
import pandas as pd
import pandas_profiling as pp
import warnings

In [None]:
# Formatando para 2 casas após a vírgula
pd.options.display.float_format= "{:,.2f}".format
# Ignorando warnings
warnings.filterwarnings("ignore")

In [None]:
df = pd.read_csv("df_trabalhando_I.csv", encoding='utf-8', sep=";")
df

In [None]:
# Removendo linhas que não interessam:
# Estado civil "não informado"
index_names = df[df['est_civil'] == 0 ].index
index_names
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)
df.head(25)

In [None]:
# Cor "não declarado"
index_names = df[df['cor'] == 0 ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
# Tipo de escola "não respondeu"
index_names = df[df['tip_esc'] == 0 ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
# Escolaridade da mãe "não sei"
index_names = df[df['mae_esc'] == "H" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
# Escolaridade do pai "não sei"
index_names = df[df['pai_esc'] == "H" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
# Ocupação do pai "não sei"
index_names = df[df['ocup_pai'] == "F" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
# Ocupação da mãe "não sei"
index_names = df[df['ocup_mae'] == "F" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
# Problemático - Excluir: muitos NAs
# Ano de conclusão do ensino médio "não informado"
# index_names = df[df['ano_concl_em'] == 0 ].index
# Deletando as linhas com esses índices do DataFrame
# df.drop(index_names , inplace=True)

In [None]:
# Excluindo a escolaridade incompleta dos pais
index_names = df[df['pai_esc'] == "B" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
index_names = df[df['pai_esc'] == "C" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
index_names = df[df['mae_esc'] == "B" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
index_names = df[df['mae_esc'] == "C" ].index
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
index_names = df[df['tip_esc'] == 1 ].index
index_names
# Deletando as linhas com esses índices do DataFrame
df.drop(index_names , inplace=True)

In [None]:
# Criando classes pela renda mensal, ocupação e escolaridade (completa) dos pais
df.renda_men.replace({'A':"classe_E", 'B':"classe_E", 'C':"classe_E", 'D':"classe_E", 'E':"classe_D", 'F':"classe_D", 'G':"classe_D", 'H':"classe_C", 'I':"classe_C", 'J':"classe_C", 'K':"classe_C", 'L':"classe_C", 'M':"classe_C", 'N':"classe_B", 'O':"classe_B", 'P':"classe_B", 'Q':"classe_A"}, inplace = True)
df.ocup_mae.replace({'A':"ocup_mae_bai_qua", 'B':"ocup_mae_bai_qua", 'C':"ocup_mae_med_qual", 'D':"ocup_mae_med_qual", 'E':"ocup_mae_alt_qual"}, inplace = True)
df.ocup_pai.replace({'A':"ocup_pai_bai_qua", 'B':"ocup_pai_bai_qua", 'C':"ocup_pai_med_qual", 'D':"ocup_pai_med_qual", 'E':"ocup_pai_alt_qual"}, inplace = True)
df.mae_esc.replace({'A':"mae_analf", 'D':"mae_fund_compl", 'E':"mae_med_compl", 'F':"mae_grad_compl", 'G':"mae_pos_compl"}, inplace = True)
df.pai_esc.replace({'A':"pai_analf", 'D':"pai_fund_compl", 'E':"pai_med_compl", 'F':"pai_grad_compl", 'G':"pai_pos_compl"}, inplace = True)
df

In [None]:
# Transformando diversas variáveis
df.idioma.replace({0:"ingles", 1:"espanhol" }, inplace = True)
# df.treino.replace({1:"sim", 0:"não" }, inplace = True)
df.cor.replace({1:"branca", 2:"preta", 3: "parda",  4: "amarela", 5: "indígena"}, inplace = True)
df.est_civil.replace({1:"solteiro", 2:"casado", 3: "separado",  4: "viúvo"}, inplace = True)
df.nom_social.replace({1:"sim", 0:"não"}, inplace = True)
df.tip_esc.replace({2:"pública", 3:"privada", 4: "exterior"}, inplace = True)
df

In [None]:
# Transformando mais variáveis
df.tem_net.replace({'A':0, 'B':1}, inplace = True)
df.tem_pc.replace({'A':0, 'B':1, 'C':1, 'D':1, 'E':1}, inplace = True)
df.tem_cel.replace({'A':0, 'B':1, 'C':1, 'D':1, 'E':1}, inplace = True)
df.tem_tv.replace({'A':0, 'B':1, 'C':1, 'D':1, 'E':1}, inplace = True)
df.tem_geladeira.replace({'A':0, 'B':1, 'C':1, 'D':1, 'E':1}, inplace = True)
df.tem_quartos.replace({'A':0, 'B':1, 'C':1, 'D':1, 'E':1}, inplace = True)
df.tem_wc.replace({'A':0, 'B':1, 'C':1, 'D':1, 'E':1}, inplace = True)
df

In [None]:
df.tem_net.replace({0: "não", 1: "sim"}, inplace = True)
df.tem_pc.replace({0: "não", 1: "sim"}, inplace = True)
df.tem_cel.replace({0: "não", 1: "sim"}, inplace = True)
df.tem_tv.replace({0: "não", 1: "sim"}, inplace = True)
df.tem_geladeira.replace({0: "não", 1: "sim"}, inplace = True)
df.tem_quartos.replace({0: "não", 1: "sim"}, inplace = True)
df.tem_wc.replace({0: "não", 1: "sim"}, inplace = True)
df

In [None]:
df.isna().sum()

In [None]:
# Dropando valores NAs (linhas)
df.dropna(axis = 0, inplace = True)
df

In [None]:
df.isna().sum()

In [None]:
df.reset_index(inplace = True)
df

In [None]:
df.drop(['index'], axis = 1, inplace = True)
df

In [None]:
# Agora, salvando os dados:
# Salvando em csv
df.to_csv('df_trabalhando_II.csv', sep=';', index=False)

# PARTE III

Análises.

In [None]:
# Importação
import numpy as pd
import pandas as pd
import pandas_profiling as pp
import warnings

In [None]:
# Formatando para 2 casas após a vírgula
pd.options.display.float_format= "{:,.2f}".format
# Ignorando warnings
warnings.filterwarnings("ignore")

In [None]:
df = pd.read_csv("df_trabalhando_II.csv", encoding='utf-8', sep=";")
df

# ANÁLISES INICIAIS: RÁPIDAS

1) Dividir os dados em grupos utilizando um critério

2) Aplicar uma função em cada um dos grupos separadamente

3) Combinar o resultado em uma estrutura de dados

Funções

mean, std, max, min, count, sum, var

In [None]:
df.corr()

In [None]:
# Por mais que algumas variáveis possam estar correlacionadas com outras, como a intenção é 
# realizar uma análise exploratória, não tem problema em ter "resultados" parecidos.

In [None]:
pp.ProfileReport(df, explorative=True)

In [None]:
df

In [None]:
df.isna().sum()

In [None]:
df.info()

In [None]:
# Quantidade de pessoas do sexo masculino e feminino que tiveram nota final do Enem 2019

# Pessoas do sexo feminino são maioria, representando quase 56%;
# Enquanto indivíduos do sexo masculino representam pouco mais de 44%.

In [None]:
df.sexo.value_counts()

In [None]:
fem = (295808 / (295808 + 235827)) * 100
fem

In [None]:
masc = (235827 / (295808 + 235827)) * 100
masc

In [None]:
# Média de idade

# Média de idades das pessoas que fizeram Enem em 2019 é de 17,69 anos.

In [None]:
df.idade.mean()

In [None]:
# Média de idade por sexo:

# Idades médias muito próximas (meninos (17,72) e meninas (17,67)).

In [None]:
df.groupby(['sexo']).idade.mean()

In [None]:
# Média de idade por sexo, cor e tipo de escola:

# Tanto pessoas do sexo feminino, quanto masculino, 
# percebe-se que entre os índigenas e pessoas pretas possuem 
# média de idade maior.
# Isso pode indicar algum tipo de dificuldade de acesso a educação e 
# melhores qualidades de vida por # parte dessas pessoas e, talvez, 
# até algum tipo de discriminação (podendo ser vividas por ele ou por seus ascendentes).

In [None]:
df.groupby(['sexo', "cor", "tip_esc"]).idade.mean()

In [None]:
# Nota final do Enem 2019 por sexo e tipo de escola:

# Em relação a média, percebe-se que as médias dos alunos de escolas privadas
# são maiores quando comparados com alunos de escolas públicas.
# Isso pode indicar problemas na educação.

# Quando olhamos para a menor nota dos alunos, novamente
# os discentes da escola particular possuem notas maiores.
# Novamente, pode indicar problemas na educação.

# Ao olhar a maior nota, mais uma vez, os alunos de escola particular
# apresentaram notas maiores quando comparados com os alunos da escola pública.
# Vale ressaltar que, entre os meninos, essa diferença foi bem menor, quando 
# comparado com as meninas.

# Já o desvio padrão evidencia que existe uma maior variabilidade das notas
# dos alunos da escola pública (ao se comparar com discentes de escolas particulares).

In [None]:
df.groupby(['sexo', "tip_esc"])['nota_final'].mean()

In [None]:
df.groupby(['sexo', "tip_esc"])['nota_final'].min()

In [None]:
df.groupby(['sexo', "tip_esc"])['nota_final'].max()

In [None]:
df.groupby(['sexo', "tip_esc"])['nota_final'].std()

In [None]:
# Nota final do Enem 2019 por sexo, cor e tipo de escola:

# Mais uma vez, os indígenas e pessoas da cor preta possuem as menores notas.
# Indivíduos de escolas particulares evidenciam as maiores notas.

In [None]:
df.groupby(['sexo', 'cor', "tip_esc"])['nota_final'].mean()

In [None]:
# Média da nota final por classe:

# Pessoas de classes mais altas, apresentaram as maiores médias.
# Isso pode evidenciar melhores condições de acesso a n fatores.

In [None]:
df.groupby(["renda_men"])['nota_final'].mean()

In [None]:
# Média da nota final por classe e sexo:

# Mais uma vez, rendas maiores permitem acesso a educação de melhor qualidade.
# As notas dos meninos e das meninas, para cada faixa de renda, são bem parecidas.

In [None]:
df.groupby(["renda_men", "sexo"])['nota_final'].mean()

In [None]:
# Desagregando por notas
# Nota média por prova do Enem 2019 por sexo e tipo de escola:

# Mais uma vez, verificou-se que as notas dos alunos de escolas privadas são maiores
# que a dos alunos de escola públicas.
# Isso corrobora com as análises anteriores.

In [None]:
df.groupby(['sexo', "tip_esc"])['nota_red', "nota_cien_nat", "nota_cien_hum", "nota_ling", "nota_mat"].mean()

In [None]:
# Considerando acesso a lazer, saneamento, local adequado para dormir e acesso a geladeira,
# na nota média final do Enem 2019.

# Percebeu-se que quem possui acesso a esses itens, apresenta um desempenho melhor na nota.
# Isso pode ser explicado pelo fato de uma melhor qualidade de vida, além de contribuir 
# para o capital humano.

In [None]:
df.groupby(["tem_wc"])['nota_final'].mean()

In [None]:
df.groupby(["tem_quartos"])['nota_final'].mean()

In [None]:
df.groupby(["tem_geladeira"])['nota_final'].mean()

In [None]:
df.groupby(["tem_tv"])['nota_final'].mean()

In [None]:
df.groupby(["tem_cel"])['nota_final'].mean()

In [None]:
df.groupby([ "tem_pc"])['nota_final'].mean()

In [None]:
df.groupby(["tem_net"])['nota_final'].mean()

In [None]:
df.groupby(["tem_pc", "tem_net"])['nota_final'].mean()

In [None]:
df.groupby(["tem_cel", "tem_net"])['nota_final'].mean()

In [None]:
# Ocupação dos pais e a nota final

# Comparando a ocupação dos pais, levando em consideração o seu nível educacional,
# é possível verificar que, quanto maior a escolaridade da mãe, maior tende a ser
# o desempenho dos filhos na nota do Enem.
# Isso pode ser explicado pelo fato das mães incentivarem mais os filhos no campo
# educacional.
# Além disso, utilizar a escolaridade da mãe como proxy para a escolaridade dos
# filhos, é uma prática muito utilizada nas pesquisas científicas. 

In [None]:
df.groupby(["ocup_pai"])['nota_final'].mean()

In [None]:
df.groupby(["ocup_mae"])['nota_final'].mean()

In [None]:
# Nome social e nota do final

# Uma pessoa que adota o nome social, a chance dela ter sofrido algum tipo de 
# bullying na escola deve ter sido grande.
# Dessa forma, quando a pessoa adota o nome social, a mesma tende a se sentir melhor,
# um sentimento de pertencimento, pois agora ela começa a ser vista como ela desejou ser.
# Psicologicamente, a adoção desse nome social, permite uma espécie de ânimo
# para a pessoa e, por isso, ela tende a fazer uma prova melhor.
# O mesmo ocorre quando desagregamos a nota final por tipo de prova.

In [None]:
df.groupby(["nom_social"])['nota_final'].mean()

In [None]:
df.groupby(["nom_social"])['nota_red', "nota_cien_nat", "nota_cien_hum", "nota_ling", "nota_mat"].mean()

In [None]:
# Quem possui maior renda, tende a apresentar notas maiores,
# especialmente quando estudam em colégios privados.
# Além disso, pessoas que possuem rendas maiores e que estudam 
# em colégios públicos, também possuem um desempenho melhor,
# quando comparados com demais alunos de colégios públicos.
# Um dos motivos que podem explicar esse fato, é que pessoas
# com maiores poderes aquisitivos possuem melhores condições e, tendem
# a possuir famílias mais estruturadas.

In [None]:
df.groupby(["tip_esc", "renda_men"])['nota_final'].mean()

In [None]:
# Nota final na prova por região brasileira

# A região Sudeste apresenta a maior nota final, seguida pela região Sul.
# Isso pode evidenciar disparidades na educação entre as regiões brasileiras.
# Além disso, dependendo da localidade, o acesso a educação
# tende a ser mais difícil, principalmente na região norte,
# que apresentou a menor nota.

In [None]:
df.groupby(["regiao_br"])['nota_final'].mean()

In [None]:
# Quando analisamos as notas por região e tipo de escola, 
# é possível verificar que, novamente, as notas de alunos
# de escola pública tendem a ser menores quando comparados com colégios particulares.
# Porém, agora, a nota da região centro-oeste torna-se maior, seguidos
# pelas regiões sul e sudeste - notas muito próximas.

In [None]:
df.groupby(["regiao_br", "tip_esc"])['nota_final'].mean()

In [None]:
# Língua estrangeira escolhida:

In [None]:
df[["idioma" ]].value_counts()

In [None]:
# Temos uma maior quantidade de pessoas realizando a prova de inglês,
# quando comparado com o espanhol.

In [None]:
# Candidatos das classes C, D e E são maioria analisando o todo. Entre escolas públicas e privadas,
# notamos que as mesmas classes de escolas públicas são maioria em relação às escolas privadas.

In [None]:
df[["sexo", "tip_esc", "renda_men" ]].value_counts()

In [None]:
# Como esperado, temos mais pessoas solteiras fazendo a prova.
# Isso ainda é corroborado pela idade média.

In [None]:
df[["est_civil" ]].value_counts()

In [None]:
# Quantidade de candidatos vindos de escolas públicas vs escolas privadas

In [None]:
df[["tip_esc" ]].value_counts()

In [None]:
# Quantidade de alunos em escolas públicas, separados por sexo:

# Como esperado, temos mais pessoas de escolas públicas, tanto do sexo masculino
# quanto do sexo feminino.

In [None]:
df.groupby(['sexo'])['tip_esc'].value_counts()

In [None]:
# Também esperado, existem mais pessoas de classe mais baixa, quando comparado com classes 
# mais altas.

In [None]:
df.groupby(['sexo'])['renda_men'].value_counts()

In [None]:
# Em porcentagem:

In [None]:
pes_e = ((93761 + 137568 ) / 531635) * 100
pes_d = ((62561 + 75585 ) / 531635) * 100
pes_c = ((53607 + 57628 ) / 531635) * 100
pes_b = ((18038 + 18035 ) / 531635) * 100
pes_a = ((7860 + 6992 ) / 531635) * 100
print(pes_e, pes_d, pes_c, pes_b, pes_a)

43.5127484082124 + 25.98512137086535 + 20.923189782463535 + 6.785294421924817 + 2.7936460165339003


In [None]:
# Em termos percentuais, temos mais indivíduos da classe A em colégios privados
# quanto comparados em escola pública.

In [None]:
df.groupby(['tip_esc'])['renda_men'].value_counts()