In [2]:
import pandas as pd

colunas = ['NU_INSCRICAO', 'IN_TREINEIRO', 'TP_SEXO', 'NU_NOTA_CN', 'NU_NOTA_MT', 'NU_NOTA_LC', 'NU_NOTA_CH', 'NU_NOTA_REDACAO']
microdadosEnem = pd.read_csv('MICRODADOS_ENEM_2023.csv', sep=";", encoding='ISO-8859-1', usecols=colunas)

**Quantidade inscritos**

In [3]:
# Contando os inscritos
qtd_inscritos = microdadosEnem['NU_INSCRICAO'].count()

# Aqui formatei o valor para '.'
numero_formatado = "{:,.0f}".format(qtd_inscritos).replace(',', 'X').replace('.', ',').replace('X', '.')

# Imprimindo a mensagem
print(f"A quantidade do número de inscritos é: {numero_formatado}")

A quantidade do número de inscritos é: 3.933.955


**Quantidade de inscritos entre os sexos Masculinos e Femininos**

In [4]:
tabela_inscritos = microdadosEnem.groupby('TP_SEXO')['NU_INSCRICAO'].count().reset_index()
# Formatando a coluna NU_INSCRICAO
tabela_inscritos['NU_INSCRICAO'] = tabela_inscritos['NU_INSCRICAO'].apply(lambda x: "{:,.0f}".format(x).replace(',', 'X').replace('.', ',').replace('X', '.'))

tabela_inscritos

Unnamed: 0,TP_SEXO,NU_INSCRICAO
0,F,2.411.185
1,M,1.522.770


**Dados de média nota de 2023**

In [5]:
dados_nota_cn = microdadosEnem['NU_NOTA_CN'].mean()
dados_nota_mt = microdadosEnem['NU_NOTA_MT'].mean()
dados_nota_lc = microdadosEnem['NU_NOTA_LC'].mean()
dados_nota_ch = microdadosEnem['NU_NOTA_CH'].mean()
dados_nota_red = microdadosEnem['NU_NOTA_REDACAO'].mean()
media_notas = pd.DataFrame({
    "MEDIA_MAT": [dados_nota_mt],
    "MEDIA_CN": [dados_nota_cn],
    "MEDIA_LC": [dados_nota_lc],
    "MEDIA_CH": [dados_nota_ch],
    "MEDIA_RED": [dados_nota_red],
})

media_notas

Unnamed: 0,MEDIA_MAT,MEDIA_CN,MEDIA_LC,MEDIA_CH,MEDIA_RED
0,533.8357,495.751547,518.146637,523.354206,617.798482


**Média por sexo masculino e feminino nota Matemática**

In [6]:
tabela_media = microdadosEnem.groupby('TP_SEXO')['NU_NOTA_MT'].mean().reset_index()
tabela_media

Unnamed: 0,TP_SEXO,NU_NOTA_MT
0,F,516.840809
1,M,560.798594


**Média por sexo Masculino e Feminino nota Ciência da Natureza**

In [10]:
tabela_media = microdadosEnem.groupby('TP_SEXO')['NU_NOTA_CN'].mean().reset_index()
tabela_media

Unnamed: 0,TP_SEXO,NU_NOTA_CN
0,F,487.552507
1,M,508.759564


**Média por sexo Masculino e Feminino nota Linguagens e codigos**

In [11]:
tabela_media = microdadosEnem.groupby('TP_SEXO')['NU_NOTA_LC'].mean().reset_index()
tabela_media

Unnamed: 0,TP_SEXO,NU_NOTA_LC
0,F,517.124962
1,M,519.774734


**Média por sexo Masculino e Feminino nota Ciências Humanas**

In [12]:
tabela_media = microdadosEnem.groupby('TP_SEXO')['NU_NOTA_CH'].mean().reset_index()
tabela_media

Unnamed: 0,TP_SEXO,NU_NOTA_CH
0,F,519.898565
1,M,528.860968


**Média de notas Redação entre Homens Mulheres**

In [7]:
tabela_media = microdadosEnem.groupby('TP_SEXO')['NU_NOTA_REDACAO'].mean().reset_index()
tabela_media

Unnamed: 0,TP_SEXO,NU_NOTA_REDACAO
0,F,634.9286
1,M,590.500667


**Quantas pessoas tiraram nota acima de 900 na redação em 2020 ?**

In [8]:
filtrar = microdadosEnem['NU_NOTA_REDACAO'] > 900
dados_redacao = microdadosEnem[filtrar]
numeros_acima_900 = dados_redacao['NU_NOTA_REDACAO'].count()
numero_formatado = "{:,.0f}".format(numeros_acima_900).replace(',', 'X').replace('.', ',').replace('X', '.')
print(f"A quantidade de pessoas que tiraram mais de 900: {numero_formatado}")

A quantidade de pessoas que tiraram mais de 900: 214.354


**Quantas pessoas entre homens e mulheres tiraram acima de 900 ?**

In [9]:
filtro_1 = microdadosEnem['NU_NOTA_REDACAO'] > 900
selecao_acima_900 = microdadosEnem[filtro_1]
selecao_acima_900

quantidade = selecao_acima_900.groupby('TP_SEXO')['NU_NOTA_REDACAO'].count().to_frame()
# Formatando com separador de milhar (ponto) e sem casas decimais
quantidade['NU_NOTA_REDACAO'] = quantidade['NU_NOTA_REDACAO'].map('{:,.0f}'.format).str.replace(',', '.')
quantidade

Unnamed: 0_level_0,NU_NOTA_REDACAO
TP_SEXO,Unnamed: 1_level_1
F,153.329
M,61.025
