In [10]:
#importa bibliotecas necessárias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os
import glob

In [193]:
#cria função para criar um gráfico de histograma e salvar na pasta
def hist_plot_and_save(df_t, output_filename, graph_color):
    fig, ax = plt.subplots(figsize=(4, 0.3))  # define figsize of graphic
    ax.set_xlim(0, 1000)  # define os limites do eixo x
    ax.spines['bottom'].set_color('gray')  # define a cor do eixo x (cinza)
    ax.set(yticks=[])  # remove o eixo y (densidade)
    sns.despine(top=True, right=True, left=True, bottom=False)  # remove a moldura do gráfico, exceto a inferior
    ax.xaxis.set_ticks_position('none')  # remove as marcações do eixo x
    sns.kdeplot(df_t["mean_note"], color=graph_color, edgecolor='none', fill=True, ax=ax)  # plota o histograma

    # Adiciona marcadores no eixo x
    ax.set_xticks([0, df_t["mean_note"].mean(), 1000])
    ax.set_xticklabels([0, round(df_t["mean_note"].mean(), 2), 1000])

    ax.set_xlabel('')  # Remove x-axis label

    fig.savefig(output_filename, bbox_inches='tight', dpi=300)
    plt.close()  # close figure to economize memory


In [194]:
csv_files = glob.glob(os.path.join('*.csv')) # cria lista de csv do enem

In [195]:
# define listas de colunas necessárias
cols = ["NU_NOTA_CN", "NU_NOTA_CH", "NU_NOTA_LC", "NU_NOTA_MT", "NU_NOTA_REDACAO", "TP_ESCOLA"]
    

*Cria um dicionário fazendo o tratamento adequado para cada especificidade da coluna TP_ESCOLA para cada ano de análise. Isso ocorre, porque muitas vezes as bases públicas governamentais não mantém um certo padrão.

In [196]:
school_type = {
    "2012": {
        1: 'publica',
        2: 'privada'
    },
    "2013": {
        1: 'publica',
        2: 'privada'
    },
    "2014": {
        1: 'publica',
        2: 'privada'
    },
    "2015": {
        1: 'nr',
        2: 'publica',
        3: 'privada',
        4: 'ex'
    },
    "2016": {
        1: 'nr',
        2: 'publica',
        3: 'privada',
        4: 'ex'
    },
    "2017": {
        1: 'nr',
        2: 'publica',
        3: 'privada',
        4: 'ex'
    },
    "2018": {
        1: 'nr',
        2: 'publica',
        3: 'ex',
        4: 'privada'
    },
    "2019": {
        1: 'nr',
        2: 'publica',
        3: 'privada',
        4: 'ex'
    },
    "2020": {
        1: 'nr',
        2: 'publica',
        3: 'privada',
        4: 'ex'
    },
    "2021": {
        1: 'nr',
        2: 'publica',
        3: 'privada'
    },
    "2022": {
        1: 'nr',
        2: 'publica',
        3: 'privada'
    }
}

#cria dicionário de cor pra cada tipo de escola, que vai ser utilizado para colocar a cor no gráfico posteriormente
color_school = {"publica": "green",
               "privada": "blue"}

In [197]:
for csv in csv_files:
    # lÊ csv's, econding em latin, separa por ; padrão do csv e determina as colunas necessárias
    df = pd.read_csv(csv, encoding="latin", sep=";",usecols=cols) 

    year = csv[-8:-4] # cria váriavel de ano do arquivo
    df.dropna(inplace=True) # dropa valores
    df['mean_note'] = df[cols[0:-1]].mean(axis=1) #faz média simples entre 5 notas do enem
    df['TP_ESCOLA'] = df['TP_ESCOLA'].map(school_type[year]) #trata coluna "TP_ESCOLA" conforme dicionário

    for type_ in color_school: # cria loop para rodar gráfico para cada tipo de escola
        file_name = csv[-8:-4] + "_" + type_
        df_t = df[df["TP_ESCOLA"] == type_]
        
        hist_plot_and_save(df_t,file_name, color_school[type_]) # cria gráfico e salva na pasta.
        
    
    
    #print ano para eu ver o andamento do código
    print(year) 

2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
2022


# O restante da imagem que consta no linkedin foi feita por meio do Figma
