## Importação das bibliotecas

In [2]:
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

pd.set_option('display.max_columns', None)
plt.style.use('ggplot')

## Importação e Visualização da base de dados

In [4]:
df_null = pd.read_csv('df_null.csv', sep=';', encoding='iso-8859-1')
df_null.head()

Unnamed: 0,NU_INSCRICAO,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,NO_MUNICIPIO_PROVA,TP_PRESENCA_CN,TP_PRESENCA_CH,TP_PRESENCA_LC,TP_PRESENCA_MT,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,IDIOMA,STATUS DA REDAÇÃO,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO,RENDA,INTERNET,PRESENCA,NOTAS
0,210051567969,18 anos,M,Preta,Estou cursando e concluirei o EM em 2021,Público,Urbana,Caruaru,1,1,1,1,554.2,524.7,456.4,649.5,Inglês,Sem problemas,120.0,120.0,120.0,140.0,140.0,640.0,"Até R$ 998,00",Sim,4,2824.8
1,210054292437,18 anos,M,Branca,Estou cursando e concluirei o EM em 2021,Público,Não Consta,Brejo da Madre de Deus,0,1,1,0,,453.8,421.4,,Inglês,Sem problemas,80.0,120.0,80.0,140.0,120.0,540.0,"Até R$ 998,00",Sim,2,1415.2
2,210051340033,18 anos,F,Parda,Estou cursando e concluirei o EM em 2021,Público,Urbana,Salgueiro,1,1,1,1,410.5,498.3,459.2,606.0,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,20.0,500.0,"De R$ 1.497,01 até R$ 1.996,00",Sim,4,2474.0
3,210051891394,19 anos,F,Parda,Já concluí o EM,Não respondeu,Não Consta,Caruaru,1,1,1,1,400.9,480.8,458.0,472.0,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,100.0,580.0,"De R$ 2.994,01 até R$ 3.992,00",Sim,4,2391.7
4,210053720446,Entre 31 e 35 anos,F,Branca,Já concluí o EM,Não respondeu,Não Consta,Jaboatão dos Guararapes,1,1,1,1,552.0,595.1,541.9,446.9,Espanhol,Sem problemas,120.0,120.0,120.0,120.0,60.0,540.0,"De R$ 1.497,01 até R$ 1.996,00",Sim,4,2675.9


In [5]:
df_knn = pd.read_csv('df_knn.csv', sep=';', encoding='ISO-8859-1')
df_knn.head()

Unnamed: 0,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO
0,554.2,524.7,456.4,649.5,120.0,120.0,120.0,140.0,140.0,640.0
1,405.269967,453.8,421.4,482.724891,80.0,120.0,80.0,140.0,120.0,540.0
2,410.5,498.3,459.2,606.0,120.0,120.0,120.0,120.0,20.0,500.0
3,400.9,480.8,458.0,472.0,120.0,120.0,120.0,120.0,100.0,580.0
4,552.0,595.1,541.9,446.9,120.0,120.0,120.0,120.0,60.0,540.0


## Tratamento e Limpeza de Dados

In [6]:
df_null.drop(columns=['NU_INSCRICAO','TP_PRESENCA_CN','TP_PRESENCA_CH','TP_PRESENCA_LC','TP_PRESENCA_MT', 'NOTA_CN', 'NOTA_CH', 'NOTA_LC', 'NOTA_MT', 'NOTA_COMP1', 'NOTA_COMP2','NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5', 'NOTA_REDACAO'],inplace=True)
df_null.head()

Unnamed: 0,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,NO_MUNICIPIO_PROVA,IDIOMA,STATUS DA REDAÇÃO,RENDA,INTERNET,PRESENCA,NOTAS
0,18 anos,M,Preta,Estou cursando e concluirei o EM em 2021,Público,Urbana,Caruaru,Inglês,Sem problemas,"Até R$ 998,00",Sim,4,2824.8
1,18 anos,M,Branca,Estou cursando e concluirei o EM em 2021,Público,Não Consta,Brejo da Madre de Deus,Inglês,Sem problemas,"Até R$ 998,00",Sim,2,1415.2
2,18 anos,F,Parda,Estou cursando e concluirei o EM em 2021,Público,Urbana,Salgueiro,Espanhol,Sem problemas,"De R$ 1.497,01 até R$ 1.996,00",Sim,4,2474.0
3,19 anos,F,Parda,Já concluí o EM,Não respondeu,Não Consta,Caruaru,Espanhol,Sem problemas,"De R$ 2.994,01 até R$ 3.992,00",Sim,4,2391.7
4,Entre 31 e 35 anos,F,Branca,Já concluí o EM,Não respondeu,Não Consta,Jaboatão dos Guararapes,Espanhol,Sem problemas,"De R$ 1.497,01 até R$ 1.996,00",Sim,4,2675.9


In [7]:
df = pd.concat([df_null, df_knn], axis=1)
df.head()

Unnamed: 0,FAIXA ETÁRIA,SEXO,COR/RAÇA,SITUAÇÃO DE CONCLUSÃO,TIPO DE ESCOLA,LOCALIZAÇÃO DA ESCOLA,NO_MUNICIPIO_PROVA,IDIOMA,STATUS DA REDAÇÃO,RENDA,INTERNET,PRESENCA,NOTAS,NOTA_CN,NOTA_CH,NOTA_LC,NOTA_MT,NOTA_COMP1,NOTA_COMP2,NOTA_COMP3,NOTA_COMP4,NOTA_COMP5,NOTA_REDACAO
0,18 anos,M,Preta,Estou cursando e concluirei o EM em 2021,Público,Urbana,Caruaru,Inglês,Sem problemas,"Até R$ 998,00",Sim,4,2824.8,554.2,524.7,456.4,649.5,120.0,120.0,120.0,140.0,140.0,640.0
1,18 anos,M,Branca,Estou cursando e concluirei o EM em 2021,Público,Não Consta,Brejo da Madre de Deus,Inglês,Sem problemas,"Até R$ 998,00",Sim,2,1415.2,405.269967,453.8,421.4,482.724891,80.0,120.0,80.0,140.0,120.0,540.0
2,18 anos,F,Parda,Estou cursando e concluirei o EM em 2021,Público,Urbana,Salgueiro,Espanhol,Sem problemas,"De R$ 1.497,01 até R$ 1.996,00",Sim,4,2474.0,410.5,498.3,459.2,606.0,120.0,120.0,120.0,120.0,20.0,500.0
3,19 anos,F,Parda,Já concluí o EM,Não respondeu,Não Consta,Caruaru,Espanhol,Sem problemas,"De R$ 2.994,01 até R$ 3.992,00",Sim,4,2391.7,400.9,480.8,458.0,472.0,120.0,120.0,120.0,120.0,100.0,580.0
4,Entre 31 e 35 anos,F,Branca,Já concluí o EM,Não respondeu,Não Consta,Jaboatão dos Guararapes,Espanhol,Sem problemas,"De R$ 1.497,01 até R$ 1.996,00",Sim,4,2675.9,552.0,595.1,541.9,446.9,120.0,120.0,120.0,120.0,60.0,540.0


In [8]:
df.columns

Index(['FAIXA ETÁRIA', 'SEXO', 'COR/RAÇA', 'SITUAÇÃO DE CONCLUSÃO',
       'TIPO DE ESCOLA', 'LOCALIZAÇÃO DA ESCOLA', 'NO_MUNICIPIO_PROVA',
       'IDIOMA', 'STATUS DA REDAÇÃO', 'RENDA', 'INTERNET', 'PRESENCA', 'NOTAS',
       'NOTA_CN', 'NOTA_CH', 'NOTA_LC', 'NOTA_MT', 'NOTA_COMP1', 'NOTA_COMP2',
       'NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5', 'NOTA_REDACAO'],
      dtype='object')

In [9]:
df = df[['FAIXA ETÁRIA', 'SEXO', 'COR/RAÇA', 'SITUAÇÃO DE CONCLUSÃO', 'TIPO DE ESCOLA', 'LOCALIZAÇÃO DA ESCOLA', 'NO_MUNICIPIO_PROVA', 'IDIOMA', 'STATUS DA REDAÇÃO', 'RENDA', 'INTERNET',
       'NOTA_CN', 'NOTA_MT', 'NOTA_CH', 'NOTA_LC', 'NOTA_COMP1', 'NOTA_COMP2', 'NOTA_COMP3', 'NOTA_COMP4', 'NOTA_COMP5', 'NOTA_REDACAO', 'NOTAS', 'PRESENCA']]

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5038 entries, 0 to 5037
Data columns (total 23 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   FAIXA ETÁRIA           5038 non-null   object 
 1   SEXO                   5038 non-null   object 
 2   COR/RAÇA               5038 non-null   object 
 3   SITUAÇÃO DE CONCLUSÃO  5038 non-null   object 
 4   TIPO DE ESCOLA         5038 non-null   object 
 5   LOCALIZAÇÃO DA ESCOLA  5038 non-null   object 
 6   NO_MUNICIPIO_PROVA     5038 non-null   object 
 7   IDIOMA                 5038 non-null   object 
 8   STATUS DA REDAÇÃO      5038 non-null   object 
 9   RENDA                  5038 non-null   object 
 10  INTERNET               5038 non-null   object 
 11  NOTA_CN                5038 non-null   float64
 12  NOTA_MT                5038 non-null   float64
 13  NOTA_CH                5038 non-null   float64
 14  NOTA_LC                5038 non-null   float64
 15  NOTA

In [11]:
df.isnull().sum()

FAIXA ETÁRIA             0
SEXO                     0
COR/RAÇA                 0
SITUAÇÃO DE CONCLUSÃO    0
TIPO DE ESCOLA           0
LOCALIZAÇÃO DA ESCOLA    0
NO_MUNICIPIO_PROVA       0
IDIOMA                   0
STATUS DA REDAÇÃO        0
RENDA                    0
INTERNET                 0
NOTA_CN                  0
NOTA_MT                  0
NOTA_CH                  0
NOTA_LC                  0
NOTA_COMP1               0
NOTA_COMP2               0
NOTA_COMP3               0
NOTA_COMP4               0
NOTA_COMP5               0
NOTA_REDACAO             0
NOTAS                    0
PRESENCA                 0
dtype: int64

## Análise Exploratória dos Dados

In [None]:
df.describe()

In [None]:
df.isnull().sum()

## Perguntas - Enem 2021

### 1. Qual a faixa etária que mais participou do Enem 2021?

In [None]:
print(df['FAIXA ETÁRIA'].value_counts().head())
print(df['FAIXA ETÁRIA'].value_counts(normalize=True).head()*100)

In [None]:
df['FAIXA ETÁRIA'].value_counts().sort_index().head().plot(kind='barh')
plt.show()

> A faixa etária que mais participou do Enem 2021 foi a de 17-19 anos, representando cerca de 62,61% da base de dados dos vestibulandos.

### 2. De quais cidades esses vestibulandos com idades 17 e 19 anos são provenientes?

In [None]:
df[df['FAIXA ETÁRIA'] < '20 anos'].groupby('NO_MUNICIPIO_PROVA')['FAIXA ETÁRIA'].value_counts().sort_values(ascending=False).head()

In [None]:
df[df['FAIXA ETÁRIA'] < '20 anos'].groupby('NO_MUNICIPIO_PROVA')['FAIXA ETÁRIA'].value_counts().sort_values(ascending=False).head(10).plot(kind='barh')
plt.show()

> A grande parte dos jovens vestibulandos são da cidade do Recife.

### 3. Qual o tipo de escola que esses vestibulandos estudam?

In [None]:
df[df['FAIXA ETÁRIA'] < '20 anos'].groupby('TIPO DE ESCOLA')['ID'].count().sort_values()

In [None]:
df[df['FAIXA ETÁRIA'] < '20 anos'].groupby('TIPO DE ESCOLA')['ID'].count().sort_values().plot(kind='bar')
plt.xticks(rotation=0)
plt.show()

> A maioria dos estudantes que possuem idade menor do que 20 anos e que participaram do Enem 2021, são da escola pública. Uma quantidade considerável de estudantes não responderam ao formulário acerca do tipo de escola.

### 4. Qual a média das notas de matemática de acordo com a cor/raça?

In [None]:
df.groupby('COR/RAÇA')['NOTA_MT'].mean()

In [None]:
df.groupby('COR/RAÇA')['NOTA_MT'].mean().describe()

In [None]:
df.groupby('COR/RAÇA')['NOTA_MT'].mean().plot.density()
plt.show()

In [None]:
# Teste de normalidade da distribuicao das notas de matematicas por cor/raca
stats.shapiro(df.groupby('COR/RAÇA')['NOTA_MT'].mean())

> Através da análise gráfica e a confirmação pelo teste de normalidade de Shapiro-Wilk, pode-se dizer que as notas de matemática dos vestibulandos do Enem 2021 tem uma tendência a seguir uma distribuição normal.

### 5. Qual a média das notas de redação de acordo com a situação de conclusão do Ensino Médio?

In [None]:
df.groupby('SITUAÇÃO DE CONCLUSÃO')['NOTA_REDACAO'].mean()

In [None]:
df.groupby('SITUAÇÃO DE CONCLUSÃO')['NOTA_REDACAO'].mean().plot(kind='barh')
plt.show()

> Pode-se observar que os vestibulandos que concluíram o ensino médio teve uma média maior do que os vestibulandos que ainda estavam cursando o ensino médio ou que terminariam no ano de 2021.

### 6. Qual a faixa etária mais comum nos vestibulandos que ja concluíram o Ensino Médio?

In [None]:
df[df['SITUAÇÃO DE CONCLUSÃO'] == 'Já concluí o EM'].groupby('SITUAÇÃO DE CONCLUSÃO')['FAIXA ETÁRIA'].value_counts()

In [None]:
df[df['SITUAÇÃO DE CONCLUSÃO'] == 'Já concluí o EM'].groupby('SITUAÇÃO DE CONCLUSÃO')['FAIXA ETÁRIA'].value_counts().plot(kind='bar')
plt.show()