In [31]:
import pandas             as pd
import numpy              as np
import matplotlib.pyplot  as plt
from plyer import notification 
from datetime import datetime

In [32]:
def alerta(nivel, base, etapa, erro=""):
    now = str(datetime.now())
    msg = f"Falha no carregamento da base {base} na etapa {etapa}.\n{now}\n{erro}"

    if nivel == 1:
        title = 'ATENÇÃO: Alerta Baixo'
    elif nivel == 2:
        title = 'ATENÇÃO: Alerta Médio'
    elif nivel == 3:
        title = 'ATENÇÃO: Alerta Alto'
    else:
        print("Nível", nivel, "não disponível!")
        return

    # Enviar notificação
    notification.notify(
        title=title,
        message=msg,
        app_name='alerta',
        timeout=10
    )

In [33]:
def carregar_dados_csv(caminho):
    try:
        # Tentativa de carregar o CSV
        df = pd.read_csv(caminho)
        print("Arquivo carregado com sucesso!")
        return df
    except FileNotFoundError as e:
        alerta(3, caminho, "Carregamento", "Arquivo não encontrado.")
    except pd.errors.ParserError as e:
        alerta(2, caminho, "Carregamento", "Erro de parsing (formato incorreto).")
    except UnicodeDecodeError as e:
        alerta(1, caminho, "Carregamento", "Erro de codificação (verificar a codificação do arquivo).")
    except Exception as e:
        alerta(3, caminho, "Carregamento", f"Erro inesperado: {str(e)}")
    return None

caminho = 'dados_enem_2021_BA.csv'
df = carregar_dados_csv(caminho)

Arquivo carregado com sucesso!


In [34]:
def simular_erros():
    # Simulação do erro de arquivo não encontrado
    print("Simulando erro: Arquivo não encontrado...")
    carregar_dados_csv('arquivo_inexistente.csv')
    
    # Simulação de erro de formato incorreto (arquivo não CSV ou com formato inválido)
    print("\nSimulando erro: Formato incorreto...")
    carregar_dados_csv('dados_enem_2021_BA.xlsx')  # Suponha que esse arquivo não seja CSV
    
simular_erros()

Simulando erro: Arquivo não encontrado...






Simulando erro: Formato incorreto...





In [35]:
df.head(5)

Unnamed: 0,NU_INSCRICAO,NU_ANO,TP_FAIXA_ETARIA,TP_SEXO,TP_ESTADO_CIVIL,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,TX_GABARITO_CH,TX_GABARITO_LC,TX_GABARITO_MT,TP_STATUS_REDACAO,NU_NOTA_COMP1,NU_NOTA_COMP2,NU_NOTA_COMP3,NU_NOTA_COMP4,NU_NOTA_COMP5,NU_NOTA_REDACAO
0,210051128744,2021,4,F,1,3,1,2,0,2,...,BEECCAEABADBCAEBAAEEDDEBBBADBCBAAEEBBBADCCBBA,ABBACAAECACDBDDADEBDDCBDCEDBEDDBBBBDCEEAADABAC...,EEXEBABDDCECCBCCECDCAEBADEABBDBDEDCEDCCADDCAB,1.0,80.0,120.0,80.0,80.0,20.0,380.0
1,210054173438,2021,5,F,1,2,1,2,0,2,...,,,,,,,,,,
2,210052118573,2021,3,F,1,3,1,2,0,2,...,EBAAEADBCACBBABEECBAAEEBBBADCBADBCEDDEBBCAEAB,ACABBACAEADCEADABDACDCEABDDADBEDDDEBBACCDDDCCE...,DCCAEBABDDCABEECCBCCEXADDCEECDEBADCABBDBDEDCE,1.0,80.0,120.0,80.0,100.0,80.0,460.0
3,210052350230,2021,10,F,1,2,1,1,8,1,...,BBBAAEECBBABEECEBAAEADBCACAEABEDDEBBBADBCBADC,ABBCAEAACADDCACDCADABBBBDEBBACEADCEBDDACEEDDDB...,ECCCABBDBDDDCEDDCABXEEEBABEDCEDCCAEBADBCCECDA,1.0,120.0,120.0,100.0,120.0,120.0,580.0
4,210053156861,2021,9,M,1,2,1,1,5,1,...,BBBAAEECBBABEECEBAAEADBCACAEABEDDEBBBADBCBADC,ABBCAEAACADDCACDCADABBBBDEBBACEADCEBDDACEEDDDB...,ECCCABBDBDDDCEDDCABXEEEBABEDCEDCCAEBADBCCECDA,1.0,100.0,120.0,100.0,120.0,100.0,540.0


In [36]:
df.info

<bound method DataFrame.info of         NU_INSCRICAO  NU_ANO  TP_FAIXA_ETARIA TP_SEXO  TP_ESTADO_CIVIL  \
0       210051128744    2021                4       F                1   
1       210054173438    2021                5       F                1   
2       210052118573    2021                3       F                1   
3       210052350230    2021               10       F                1   
4       210053156861    2021                9       M                1   
...              ...     ...              ...     ...              ...   
266189  210051432069    2021               12       M                1   
266190  210051106175    2021               14       M                2   
266191  210051995005    2021               11       M                0   
266192  210053234415    2021               12       M                2   
266193  210054027870    2021                5       F                1   

        TP_COR_RACA  TP_NACIONALIDADE  TP_ST_CONCLUSAO  TP_ANO_CONCLUIU  \
0   

In [37]:
df.shape

(266194, 51)

In [38]:
df.columns

Index(['NU_INSCRICAO', 'NU_ANO', 'TP_FAIXA_ETARIA', 'TP_SEXO',
       'TP_ESTADO_CIVIL', 'TP_COR_RACA', 'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'IN_TREINEIRO',
       'CO_MUNICIPIO_ESC', 'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'CO_MUNICIPIO_PROVA', 'NO_MUNICIPIO_PROVA', 'CO_UF_PROVA',
       'SG_UF_PROVA', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'TP_PRESENCA_MT', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC',
       'CO_PROVA_MT', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT',
       'TX_RESPOSTAS_CN', 'TX_RESPOSTAS_CH', 'TX_RESPOSTAS_LC',
       'TX_RESPOSTAS_MT', 'TP_LINGUA', 'TX_GABARITO_CN', 'TX_GABARITO_CH',
       'TX_GABARITO_LC', 'TX_GABARITO_MT', 'TP_STATUS_REDACAO',
       'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4',
       'NU_NOTA_COMP5', 'NU_NOTA_REDACAO'],
      dtype='object')

In [39]:
dados_ausentes = df.isna().sum()
dados_ausentes

NU_INSCRICAO                   0
NU_ANO                         0
TP_FAIXA_ETARIA                0
TP_SEXO                        0
TP_ESTADO_CIVIL                0
TP_COR_RACA                    0
TP_NACIONALIDADE               0
TP_ST_CONCLUSAO                0
TP_ANO_CONCLUIU                0
TP_ESCOLA                      0
TP_ENSINO                 181806
IN_TREINEIRO                   0
CO_MUNICIPIO_ESC          218374
NO_MUNICIPIO_ESC          218374
CO_UF_ESC                 218374
SG_UF_ESC                 218374
TP_DEPENDENCIA_ADM_ESC    218374
TP_LOCALIZACAO_ESC        218374
TP_SIT_FUNC_ESC           218374
CO_MUNICIPIO_PROVA             0
NO_MUNICIPIO_PROVA             0
CO_UF_PROVA                    0
SG_UF_PROVA                    0
TP_PRESENCA_CN                 0
TP_PRESENCA_CH                 0
TP_PRESENCA_LC                 0
TP_PRESENCA_MT                 0
CO_PROVA_CN                90838
CO_PROVA_CH                81350
CO_PROVA_LC                81350
CO_PROVA_M

In [40]:
import pandas as pd

def calcular_percentual_missing(df):
    # Calculando o percentual de valores ausentes
    percentual_missing = df.isna().sum() / len(df) * 100
    
    # Ordenando os resultados em ordem decrescente
    percentual_missing = percentual_missing.sort_values(ascending=False)
    
    return percentual_missing


In [41]:
calcular_percentual_missing(df)

TP_DEPENDENCIA_ADM_ESC    82.035658
CO_UF_ESC                 82.035658
TP_SIT_FUNC_ESC           82.035658
TP_LOCALIZACAO_ESC        82.035658
SG_UF_ESC                 82.035658
CO_MUNICIPIO_ESC          82.035658
NO_MUNICIPIO_ESC          82.035658
TP_ENSINO                 68.298309
CO_PROVA_MT               34.124736
CO_PROVA_CN               34.124736
NU_NOTA_MT                34.124736
TX_RESPOSTAS_CN           34.124736
TX_RESPOSTAS_MT           34.124736
TX_GABARITO_CN            34.124736
NU_NOTA_CN                34.124736
TX_GABARITO_MT            34.124736
TX_GABARITO_CH            30.560418
NU_NOTA_COMP2             30.560418
NU_NOTA_COMP5             30.560418
CO_PROVA_LC               30.560418
CO_PROVA_CH               30.560418
NU_NOTA_COMP4             30.560418
NU_NOTA_LC                30.560418
NU_NOTA_COMP3             30.560418
TX_RESPOSTAS_CH           30.560418
NU_NOTA_CH                30.560418
TX_RESPOSTAS_LC           30.560418
NU_NOTA_COMP1             30

In [42]:
df.index

RangeIndex(start=0, stop=266194, step=1)

In [43]:
df.nunique().sort_values(ascending=True)

NU_ANO                         1
SG_UF_PROVA                    1
CO_UF_PROVA                    1
TP_LINGUA                      2
TP_SEXO                        2
TP_LOCALIZACAO_ESC             2
IN_TREINEIRO                   2
TP_ENSINO                      2
TP_PRESENCA_MT                 3
TP_PRESENCA_CH                 3
TP_PRESENCA_CN                 3
TP_PRESENCA_LC                 3
TP_ESCOLA                      3
TP_SIT_FUNC_ESC                4
TP_ST_CONCLUSAO                4
TP_DEPENDENCIA_ADM_ESC         4
TP_NACIONALIDADE               5
TP_ESTADO_CIVIL                5
TP_COR_RACA                    6
TX_GABARITO_CN                 8
TX_GABARITO_CH                 8
TX_GABARITO_MT                 8
TP_STATUS_REDACAO              8
NU_NOTA_COMP2                 10
TX_GABARITO_LC                10
NU_NOTA_COMP4                 11
NU_NOTA_COMP3                 11
NU_NOTA_COMP1                 11
NU_NOTA_COMP5                 11
TP_ANO_CONCLUIU               16
CO_PROVA_C

In [44]:
type(df)

pandas.core.frame.DataFrame

In [45]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
NU_INSCRICAO,266194.0,210052700000.0,981957.68786,210051000000.0,210051900000.0,210052700000.0,210053600000.0,210054500000.0
NU_ANO,266194.0,2021.0,0.0,2021.0,2021.0,2021.0,2021.0,2021.0
TP_FAIXA_ETARIA,266194.0,5.710166,3.878161,1.0,3.0,4.0,8.0,20.0
TP_ESTADO_CIVIL,266194.0,1.048991,0.41103,0.0,1.0,1.0,1.0,4.0
TP_COR_RACA,266194.0,2.301832,0.907761,0.0,2.0,3.0,3.0,5.0
TP_NACIONALIDADE,266194.0,1.029787,0.194507,0.0,1.0,1.0,1.0,4.0
TP_ST_CONCLUSAO,266194.0,1.59581,0.719902,1.0,1.0,1.0,2.0,4.0
TP_ANO_CONCLUIU,266194.0,2.846845,4.4685,0.0,0.0,0.0,4.0,15.0
TP_ESCOLA,266194.0,1.379663,0.570947,1.0,1.0,1.0,2.0,3.0
TP_ENSINO,84388.0,1.013272,0.114438,1.0,1.0,1.0,1.0,2.0


In [46]:
def encontrar_dataframe_matematica(df):
    # Filtrar as colunas desejadas
    df_matematica = df[['TP_FAIXA_ETARIA', 'TP_SEXO', 'CO_PROVA_MT']]
    
    # Remover linhas com valores NaN
    df_matematica_limpa = df_matematica.dropna()
    
    return df_matematica_limpa


In [47]:
encontrar_dataframe_matematica(df)

Unnamed: 0,TP_FAIXA_ETARIA,TP_SEXO,CO_PROVA_MT
0,4,F,899.0
2,3,F,901.0
3,10,F,902.0
4,9,M,1010.0
5,3,M,900.0
...,...,...,...
266164,13,F,1037.0
266168,11,M,1035.0
266174,11,F,1037.0
266184,11,F,1035.0


In [48]:
df_matematica_limpa = encontrar_dataframe_matematica(df)

In [49]:
df_matematica_limpa.shape

(175356, 3)

In [50]:
df_matematica_limpa.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
TP_FAIXA_ETARIA,175356.0,4.884019,3.573822,1.0,2.0,4.0,6.0,20.0
CO_PROVA_MT,175356.0,906.429475,27.38534,899.0,900.0,901.0,902.0,1038.0


In [51]:
df_matematica_limpa.TP_SEXO.value_counts()

TP_SEXO
F    113157
M     62199
Name: count, dtype: int64