# Trabalho de conclusão de disciplina

Importando a base escolhida, e as bibliotecas para a exploração de dados. A base escolhida foi a de microdados do enem, A base original se encontra no site do MEC. A base foi encontrada no servidor de dados do Curso de Ciência de dados e Inteligência Artificial, está base já foi pré-selecionada e limpado os dados.

In [1]:
import pandas as pd #Importando pandas
import matplotlib.pyplot as plt #Importando matplotlib.pyplot
import numpy as np  #Importando numpy
import seaborn as sns  #Importando seaborn

In [None]:
df = pd.read_excel(r'C:\Users\felip\Downloads\ENEM_2020.xlsx') # leitura do arquivo excel e armazenando em um dataframe

## Funções utilizadas no notebook 

In [None]:
def contar_qtd_idade_sexo(df, sexo):
    sex_count = df[df['TP_SEXO'] == sexo]['TP_FAIXA_ETARIA'].value_counts()
    return sex_count

def separar_regiao(df, filtro):
    regiao = df.where(filtro)
    regiao.dropna(inplace=True)
    return regiao

def fazer_notas(df):
    notas = pd.Series(data={'Nota_CH':df.NOTA_CH_CIENCIAS_hUMANAS.mean(), 
                            'Nota_CN':df.NOTA_CN_CIENCIAS_DA_NATUREZA.mean(), 
                            'Nota_LC':df.NOTA_LC_LINGUAGENS_E_CODIGOS.mean(), 
                            'Nota_MT':df.NOTA_MT_MATEMATICA.mean(),
                            'Nota_RE':df.NOTA_REDACAO.mean()})
    return notas

def fazer_boxplot(df, coluna):
    fig, ax = plt.subplots(figsize=(10, 10))
    sns.boxplot(x=df.Região, y=df[coluna], hue=df.Região, data=df, width=0.6, dodge=False)
    ax.grid(True)
    return ax
    
def graficos_padrao(df):
    sns.set_style("whitegrid")
    fig, ax = plt.subplots(2, 3, figsize=(20,12), squeeze = False, layout= 'constrained')

    notas = fazer_notas(df)
    ax[0][0].scatter(x=notas.index, y=notas.values,  c=["#20257c", "#424ad1", "#6a8ee8", "#66bbe2", "#66dee2"])
    ax[0][0].set_title('Média das notas')
    ax[0][0].grid(True, axis='y')

    barra = ax[0][1].bar(["Masculino", 'Feminino'], height=df.TP_SEXO.value_counts(), width=0.3, color=["#1c74b4", '#fc7c0c'])
    ax[0][1].bar_label(barra)
    ax[0][1].set_title('Distribuição de sexo')
    ax[0][1].grid(True, axis='y')

    ax[0][2] = sns.countplot(data=df, order = df.TP_COR_RACA.value_counts().index, x='TP_COR_RACA', ax=ax[0][2])
    ax[0][2].bar_label(ax[0][2].containers[0])
    ax[0][2].set_title('Distribuição da idade')
    plt.setp(ax[0][2].get_xticklabels(), rotation=18, ha="right")
    ax[0][2].grid(True, axis='y')

    ax[1][0].boxplot(df.NOTA_MEDIA_5_NOTAS, 1, 'gD')
    ax[1][0].set_title('Distribuição das médias')
    ax[1][0].grid(True)

    men_means= contar_qtd_idade_sexo(df, 'Masculino')
    women_means = contar_qtd_idade_sexo(df, 'Feminino') 
    labels = df.TP_FAIXA_ETARIA.value_counts().index

    ax[1][1].bar(labels, men_means, width=0.35, label='Homem')
    ax[1][1].bar(labels, women_means, width=0.35, bottom=men_means, label='Mulher')
    ax[1][1].legend()
    plt.setp(ax[1][1].get_xticklabels(), rotation=18, ha="right")
    ax[1][1].grid(True)
    ax[1][1].set_title('Distriubuição de sexo por idades')

    barra2 = ax[1][2].bar(df.SG_UF_PROVA.value_counts().index, df.SG_UF_PROVA.value_counts(), width=0.35)
    ax[1][2].bar_label(barra2)
    ax[1][2].set_title('Distribuição dos indivíduos por estado')
    ax[1][2].grid(True)

def distribuir_notas(df, x_size):
    fig, ax = plt.subplots(figsize=(x_size, 10))
    sns.boxplot(x='SG_UF_PROVA', y='NOTA_MEDIA_5_NOTAS', data=df)
    ax.set_title('Distribuição das médias por estado na região')
    ax.grid(True)
    ax.legend()
    fig.show()

##  Verificando o tamanho e os tipos de dados

In [None]:
df.shape #Tamanho do Dataframe

In [None]:
df.info()

In [None]:
df.dtypes #Tipos dos dados de cada coluna

In [None]:
df.head() #Mostrar o topo da tabela

In [None]:
df.tail()

In [None]:
print(df.columns.values)

In [None]:
df.drop(['NU_ANO', 'CO_UF_PROVA', 'CO_MUNICIPIO_PROVA'], axis=1).describe()

## Explorando as coluna de tipos('TP_...')

In [None]:
fig, ax = plt.subplots(figsize=(12,3)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_FAIXA_ETARIA'], order=df['TP_FAIXA_ETARIA'].value_counts().index) #Gráfico em barra das idades

In [None]:
df['TP_SEXO'].value_counts()  #Contando quantos valores na coluna TP_SEXO

In [None]:
fig, ax = plt.subplots(figsize=(8, 8)) # Criando os objetos para trabalhar com os graficos

sns.countplot(x=df['TP_SEXO']) #Gráfico em barra da divisão de gênero

ax.set_title('Distribuição dos gêneros')
ax.set_xlabel('Gêneros')


In [None]:
fig, ax = plt.subplots(figsize=(12,6))
sns.countplot(x='TP_FAIXA_ETARIA', hue='TP_SEXO', data=df, order=df['TP_FAIXA_ETARIA'].value_counts().index)

In [None]:
fig, ax = plt.subplots(figsize=(18,6))
sns.countplot(x='TP_ESTADO_CIVIL', data=df, order=df['TP_ESTADO_CIVIL'].value_counts().index, ax=ax, log=True)
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(12,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_COR_RACA'], order=df['TP_COR_RACA'].value_counts().index, log=True) #Gráfico em barra das idades
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_NACIONALIDADE'], order=df['TP_NACIONALIDADE'].value_counts().index,log=True)
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_ST_CONCLUSAO'], order=df['TP_ST_CONCLUSAO'].value_counts().index,log=True)
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_ANO_CONCLUIU'], order=df['TP_ANO_CONCLUIU'].value_counts().index)

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_ESCOLA'], order=df['TP_ESCOLA'].value_counts().index)

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_ENSINO'], order=df['TP_ENSINO'].value_counts().index, log=True)
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_DEPENDENCIA_ADM_ESC'], order=df['TP_DEPENDENCIA_ADM_ESC'].value_counts().index, log=True)
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_LOCALIZACAO_ESC'], order=df['TP_LOCALIZACAO_ESC'].value_counts().index, log=True)
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(18,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_SIT_FUNC_ESC'], order=df['TP_SIT_FUNC_ESC'].value_counts().index, log=True)
ax.set_ylabel('Contagem em logaritimo')

In [None]:
fig, ax = plt.subplots(figsize=(6,6)) # Criando os objetos para trabalhar com os graficos, e defindo o tamanho da figura
ax.grid(True, axis='y')
sns.countplot(x = df['TP_STATUS_REDACAO'], order=df['TP_STATUS_REDACAO'].value_counts().index)

## Criando bases, separando a base pelas regiões geográficas do Brasil

In [None]:
nordeste = separar_regiao(df, (df['SG_UF_PROVA'] == 'AL') | (df['SG_UF_PROVA'] == 'BA') | (df['SG_UF_PROVA'] == 'MA') | (df['SG_UF_PROVA'] == 'RN') | (df['SG_UF_PROVA'] == 'CE') | (df['SG_UF_PROVA'] == 'PA') | (df['SG_UF_PROVA'] == 'PI') | (df['SG_UF_PROVA'] == 'PE') | (df['SG_UF_PROVA'] == 'SE'))

In [None]:
nordeste['Região'] = 'Nordeste'

In [None]:
nordeste.head()

In [None]:
nordeste.shape

In [None]:
norte = separar_regiao(df, (df['SG_UF_PROVA'] == 'AM') | (df['SG_UF_PROVA'] == 'PA') | (df['SG_UF_PROVA'] == 'AP') | (df['SG_UF_PROVA'] == 'RO') | (df['SG_UF_PROVA'] == 'RR') | (df['SG_UF_PROVA'] == 'AC') | (df['SG_UF_PROVA'] == 'TO') | (df['SG_UF_PROVA'] == 'PA'))

In [None]:
norte['Região'] = 'Norte'

In [None]:
norte.head()

In [None]:
norte.shape

In [None]:
centro_oeste = separar_regiao(df,(df['SG_UF_PROVA'] == 'GO') | (df['SG_UF_PROVA'] == 'MT') | (df['SG_UF_PROVA'] == 'MS') | (df['SG_UF_PROVA'] == 'DF'))

In [None]:
centro_oeste['Região'] = 'Centro-Oeste'

In [None]:
centro_oeste.head()

In [None]:
sudeste = separar_regiao(df,(df['SG_UF_PROVA'] == 'SP') | (df['SG_UF_PROVA'] == 'ES') | (df['SG_UF_PROVA'] == 'RJ') | (df['SG_UF_PROVA'] == 'MG'))

In [None]:
sudeste['Região'] = 'Sudeste'

In [None]:
sudeste.head()

In [None]:
sudeste.shape

In [None]:
sul=separar_regiao(df,(df['SG_UF_PROVA'] == 'SC') | (df['SG_UF_PROVA'] == 'PR') | (df['SG_UF_PROVA'] == 'RS'))

In [None]:
sul['Região'] = 'Sul'

In [None]:
sul.head()

In [None]:
sul.shape

## Explorando a Região Nordeste

In [None]:
graficos_padrao(nordeste)

In [None]:
distribuir_notas(nordeste, 10)

## Explorando a Região Norte

In [None]:
graficos_padrao(norte)

In [None]:
distribuir_notas(nordeste, 20)

## Explorando Região Centro-Oeste

In [None]:
graficos_padrao(centro_oeste)

In [None]:
distribuir_notas(centro_oeste, 10)

## Explorando Região Sul

In [None]:
graficos_padrao(sul)

In [None]:
distribuir_notas(sul, 8)

## Explorando Região Sudoeste

In [None]:
graficos_padrao(sudeste)

In [None]:
distribuir_notas(sudeste, 10)

## Explorando as notas da base

In [None]:
cdf = pd.concat([nordeste, sudeste, sul, norte, centro_oeste])  

In [None]:
ax = fazer_boxplot(cdf, 'NOTA_CN_CIENCIAS_DA_NATUREZA')
ax.set_title('Distribuição das notas de ciências da natureza por região')
ax.legend(loc='lower right')
fig.show()

In [None]:
ax = fazer_boxplot(cdf, 'NOTA_CH_CIENCIAS_hUMANAS')
ax.set_title('Distribuição das notas de ciências humanas por região')
ax.legend(loc='lower right')
fig.show()

In [None]:
ax = fazer_boxplot(cdf, 'NOTA_LC_LINGUAGENS_E_CODIGOS')
ax.set_title('Distribuição das notas de linguagens e códigos por região')
ax.legend(loc='lower right')
fig.show()

In [None]:
ax = fazer_boxplot(cdf, 'NOTA_MT_MATEMATICA')
ax.set_title('Distribuição das notas de matemática por região')
ax.legend(loc='lower right')
fig.show()

In [None]:
ax = fazer_boxplot(cdf, 'NOTA_REDACAO')
ax.set_title('Distribuição das notas da redação por região')
ax.legend(loc='lower right')
fig.show()

In [None]:
import plotly.express as px
fig = px.box(cdf, x='Região', y='NOTA_MEDIA_5_NOTAS', facet_col_spacing=0.3,facet_row_spacing=0.3, color="Região", animation_group='Região')
fig.show()

In [None]:
fig, ax = plt.subplots(figsize=(20, 10))
ax.grid(True, which='major')
sns.boxplot(x='TP_FAIXA_ETARIA', y='NOTA_MEDIA_5_NOTAS', data=df, hue='TP_FAIXA_ETARIA',linewidth=1.3, notch=True, dodge=False, width=0.4)
ax.set_title('Distribuição das médias por tipo de Faixa etária')
plt.yticks(np.arange(150, 1000, 50))
ax.legend(loc='lower right')
fig.show()

In [None]:
fig, ax = plt.subplots(figsize=(12, 14))
sns.boxplot(x='TP_SEXO', y='NOTA_MEDIA_5_NOTAS', data=df, hue='TP_SEXO',linewidth=3, notch=True, dodge=False)
ax.set_title('Distribuição das médias por tipo de sexo')
ax.grid(True)
fig.show()

In [None]:
fig, ax = plt.subplots(figsize=(10, 14))
sns.boxplot(x='TP_ESCOLA', y='NOTA_MEDIA_5_NOTAS', data=df, hue='TP_ESCOLA',linewidth=3, notch=True, dodge=False)
ax.set_title('Distribuição das médias por tipo de escola')
ax.grid(True)
fig.show()

In [None]:
fig, ax = plt.subplots(figsize=(10, 14))
sns.boxplot(x='TP_COR_RACA', y='NOTA_MEDIA_5_NOTAS', data=df, hue='TP_COR_RACA',linewidth=2, notch=True, dodge=False)
ax.set_title('Distribuição das médias por tipo de cor/raça')
ax.grid(True)
ax.legend(loc='lower right')
fig.show()

In [None]:
fig, ax = plt.subplots(figsize=(10, 14))
sns.boxplot(x='TP_ST_CONCLUSAO', y='NOTA_MEDIA_5_NOTAS', data=df, hue='TP_ST_CONCLUSAO',linewidth=2, notch=True, dodge=False)
ax.set_title('Distribuição das médias por conclusão do ensino médio')
plt.xticks(color='w')
ax.grid(True)
ax.legend(loc='upper right')
fig.show()

In [None]:
fig, ax = plt.subplots(figsize=(12,8))
ax = sns.barplot(x=df.TP_ANO_CONCLUIU.value_counts().index, y=df["TP_ANO_CONCLUIU"].value_counts().values, ax=ax, palette='viridis', )
plt.setp(ax.get_xticklabels(), rotation=18, ha="right")
plt.yticks(np.arange(0, df.TP_ANO_CONCLUIU.value_counts().max(), 10000))
ax.set_title('Média das notas')
ax.grid(True,  axis='y')