Importando bibliotecas e módulos

In [None]:
import pandas as pd
from scipy.stats import kstest, jarque_bera

Importando dataset em data frame

In [None]:
df = pd.read_csv("databases/ENEM_2023_FINAL.csv")
display(df)

Gerando tabela de medidas descritivas

In [None]:
def col_descritive_measures(df:pd.DataFrame, col:str):
    return {
        "COLUNA": col,
        "MÉDIA": df[col].mean(),
        "VARIÂNCIA": df[col].var(),
        "DESVIO PADRÃO": df[col].std(),
        "CV": df[col].std()/df[col].mean(),
        "1º QUARTIL": df[col].quantile(0.25),
        "MEDIANA": df[col].quantile(0.5),
        "3º QUARTIL": df[col].quantile(0.75)
    }

def descritive_measures(df:pd.DataFrame):    
    numeric_cols = ["NU_NOTA_CH", "NU_NOTA_CN", "NU_NOTA_LC", "NU_NOTA_MT", "NU_NOTA_REDACAO", "EST_IDADE", "EST_RENDA_PER_CAP", "EST_VEICULO_PER_CAP",	"EST_CELULAR_PER_CAP", "EST_COMP_PER_CAP", "EST_ELE_DOM_PER_CAP"]
    results = [col_descritive_measures(df, col) for col in numeric_cols]

    return pd.DataFrame(results)

df = pd.read_csv("databases/ENEM_2023_FINAL.csv")
descritive = descritive_measures(df)

display(descritive)

Gerando tabelas com testes de normalidade

In [None]:
def ks_p_value(df:pd.DataFrame, col:str):
    serie = df[col]
    stat, p_value = kstest(serie, 'norm', args=(serie.mean(), serie.std(ddof=1)))
    return p_value

def jb_p_value(df:pd.DataFrame, col:str):
    serie = df[col]
    stat, p_value = jarque_bera(serie)
    return p_value

def number_of_inf_outliers(df:pd.DataFrame, col:str):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    inf = Q1 - 1.5 * (Q3 - Q1)
    return df[df[col] < inf].shape[0]

def number_of_sup_outliers(df:pd.DataFrame, col:str):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    sup = Q3 + 1.5 * (Q3 - Q1)
    return df[df[col] > sup].shape[0]

def col_normal_measures(df:pd.DataFrame, col:str):
    return {
        "COLUNA": col,
        "P-VALUE (KS)": ks_p_value(df, col),
        "P-VALUE (JB)": jb_p_value(df, col),
        "INF. OUTLIERS": number_of_inf_outliers(df, col),
        "SUP. OUTLIERS": number_of_sup_outliers(df, col)
    }

def normal_measures(df:pd.DataFrame):
    numeric_cols = ["NU_NOTA_CH", "NU_NOTA_CN", "NU_NOTA_LC", "NU_NOTA_MT", "NU_NOTA_REDACAO", "EST_IDADE", "EST_RENDA_PER_CAP", "EST_VEICULO_PER_CAP",	"EST_CELULAR_PER_CAP", "EST_COMP_PER_CAP", "EST_ELE_DOM_PER_CAP"]
    results = [col_normal_measures(df, col) for col in numeric_cols]

    return pd.DataFrame(results)

df = pd.read_csv("databases/ENEM_2023_FINAL.csv")
normal = normal_measures(df)

display(normal)