In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings


In [None]:
warnings.filterwarnings("ignore")

In [None]:
plt.rcParams['figure.figsize'] = (17, 10) # Tamanho das figuras em Polegadas 
plt.rcParams['axes.titlepad'] = 30 # Padding do Titulo 

In [None]:
sns.set_palette("Accent") # Paleta de Cores 
sns.set_style("whitegrid") # Estilo de gráficos
sns.set(font_scale=1.5) # Configurando o tamanho da fonte 

In [None]:
pd.set_option('display.float_format', lambda x: '%.2f' % x) # Formatando para  1000000.00 por exemplo 

In [None]:
#data_path = "/content/drive/MyDrive/Semantix_Projeto_Final_Big_Data_Science/microdados_enem_2019/DADOS/MICRODADOS_ENEM_2019.csv"
# https://www.kaggle.com/saraivaufc/enem-2019
# ../input/microdados-enem-2019
data_path = "../input/microdados-enem-2019/DADOS/MICRODADOS_ENEM_2019.csv"
df = pd.read_csv(data_path, sep=';', encoding = "ISO-8859-1", chunksize=1000000)

df = pd.concat(df, ignore_index=True)

df.head()

In [None]:
df

In [None]:
df.shape

In [None]:
df.columns

In [None]:
df.describe()

In [None]:
data_crosstab = pd.crosstab(df['NO_MUNICIPIO_RESIDENCIA'],  
                            df['TP_SEXO'], 
                                margins = False) 
print(data_crosstab) 

In [None]:
(df.TP_SEXO.value_counts() *100)/ df.TP_SEXO.count() 

In [None]:
enem_por_sexo = df.TP_SEXO.value_counts() # Contabilizamos os registros por cada sexo.

_, ax = plt.subplots() # Criamos a figura onde exibiremos o Gráfico

patches, texts, autotexts = ax.pie( # configuramos o gráfico de Pizza.
    enem_por_sexo, 
    colors = ['red','blue'], 
    labels=['Feminino', 'Masculino'], 
    autopct='%1.1f%%', 
    startangle=90
)
for text in texts:
    text.set_color('black')
for autotext in autotexts:
    autotext.set_color('white')
    
plt.title('Inscrições por Sexo  [ENEM 2019]');

In [None]:
sns.boxplot(df.NU_IDADE);

In [None]:
sns.boxplot(df.NU_IDADE, color='tab:blue') # Criando o gráfico de Boxplot para as idades

plt.xlabel('Idades') # Rótulo do Eixo X
plt.title('Boxplot das Idades - [ENEM 2019]');

In [None]:
df.NU_IDADE.hist();

In [None]:

sns.histplot(df.NU_IDADE, bins=50) # Bins é quantidade de barras possiveis.

plt.yticks(
    ticks=[0, 200000, 400000, 600000, 800000, 1000000, 1200000, 1400000],
    labels=['0', '200K', '400K', '600K', '800K', '1M', '1.2M', '1.4M']
) # Valores presentes no eixo y

plt.xticks(range(0, 91, 5)) # Valores presentes no eixo X


plt.ylabel("Quantidade de Inscritos") # Nome do Eixo  Vertical
plt.xlabel("Idades") # Nome do Eixo Horizontal

plt.title("Distribuição das Idades - [ENEM 2019]"); # Titulo do gráfico

In [None]:
media_idades = df.NU_IDADE.mean() # Calculando a média das idades 
sns.histplot(df.NU_IDADE, bins=50) # Bins é quantidade de barras possiveis.

plt.yticks(
    ticks=[0, 200000, 400000, 600000, 800000, 1000000, 1200000, 1400000],
    labels=['0', '200K', '400K', '600K', '800K', '1M', '1.2M', '1.4M']
) # Valores presentes no eixo y

plt.xticks(range(0, 91, 5)) # Valores presentes no eixo X
plt.axvline(media_idades, c='red', label='Média das idades {}'.format(round(media_idades,0))) #linha horizontal com a média

plt.ylabel("Quantidade de Inscritos") # Nome do Eixo  Vertical
plt.xlabel("Idades") # Nome do Eixo Horizontal

plt.title("Distribuição das Idades - [ENEM 2019]") # Titulo do gráfico
plt.legend()

In [None]:
df.TP_SEXO.hist();

In [None]:
df_visualizacao = df.groupby(by=['TP_ESTADO_CIVIL']).count()['NU_INSCRICAO'].reset_index()
df_visualizacao

In [None]:
df_visualizacaor = df.groupby(by=['TP_COR_RACA']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaor


In [None]:
df_visualizacaoN = df.groupby(by=['TP_NACIONALIDADE']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoN


In [None]:
df_visualizacaoC = df.groupby(by=['TP_ST_CONCLUSAO']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoC

In [None]:
df_visualizacaoA = df.groupby(by=['TP_ANO_CONCLUIU']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoA

In [None]:
df_visualizacaoE = df.groupby(by=['TP_ESCOLA']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoE

In [None]:
df_visualizacaoEN = df.groupby(by=['TP_ENSINO']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoEN

In [None]:
df_visualizacaoT = df.groupby(by=['TP_TREINEIRO']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoT

In [None]:
df_visualizacaoCO = df.groupby(by=['TP_STATUS_REDACAO']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoCO

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ2 = df.groupby(by=['Q002']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ2

In [None]:
df_visualizacaoQ3 = df.groupby(by=['Q003']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ3

In [None]:
df_visualizacaoQ4 = df.groupby(by=['Q004']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ4

In [None]:
df_visualizacaoQ5 = df.groupby(by=['Q005']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ5

In [None]:
df_visualizacaoQ6 = df.groupby(by=['Q006']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ6

In [None]:
df_visualizacaoQ7 = df.groupby(by=['Q007']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ7

In [None]:
df_visualizacaoQ8 = df.groupby(by=['Q008']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ8

In [None]:
df_visualizacaoQ9 = df.groupby(by=['Q009']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ9

In [None]:
df_visualizacaoQ10 = df.groupby(by=['Q010']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ10

In [None]:
df_visualizacaoQ11 = df.groupby(by=['Q011']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ11

In [None]:
df_visualizacaoQ12 = df.groupby(by=['Q012']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ12

In [None]:
df_visualizacaoQ13 = df.groupby(by=['Q013']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ13

In [None]:
df_visualizacaoQ14 = df.groupby(by=['Q014']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ14

In [None]:
df_visualizacaoQ15 = df.groupby(by=['Q015']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ15

In [None]:
df_visualizacaoQ16 = df.groupby(by=['Q016']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ16

In [None]:
df_visualizacaoQ17 = df.groupby(by=['Q017']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ17

In [None]:
df_visualizacaoQ18 = df.groupby(by=['Q018']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ18

In [None]:
df_visualizacaoQ19 = df.groupby(by=['Q019']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ19

In [None]:
df_visualizacaoQ20 = df.groupby(by=['Q020']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ20

In [None]:
df_visualizacaoQ21 = df.groupby(by=['Q021']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ21

In [None]:
df_visualizacaoQ22 = df.groupby(by=['Q022']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ22

In [None]:
df_visualizacaoQ23 = df.groupby(by=['Q023']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ23

In [None]:
df_visualizacaoQ24 = df.groupby(by=['Q024']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ24

In [None]:
df_visualizacaoQ25 = df.groupby(by=['Q025']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ25

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1

In [None]:
df_visualizacaoQ1 = df.groupby(by=['Q001']).count()['NU_INSCRICAO'].reset_index()
df_visualizacaoQ1