### Introdução

Estávamos discutindo em um grupo de amigos se a campanha de bolsas de uma universidade seria ou não demasiadamente atingível. A alegação pontual foi que, uma média de 700 é uma média fácil.

Elaborei então as seguintes hipóteses:    
1) Qual a porcentagem de alunos que se encaixam em cada categoria de bolsa desse programa?    
2) Selecionando apenas os alunos da região da universidade, qual a porcentagem para cada faixa de bolsa?

<img src="campanha_universidade.jpg" alt="Drawing" style="width: 200px;"/>

In [1]:
categorias_bolsa = {
    '20%' : '<= 450',
    '30%' : '451 < 550',
    '35%' : '551 < 600',
    '40%' : '601 < 650',
    '50%' : '651 < 700',
    '100%' : '>= 701'
}

In [2]:
import pandas as pd

df = pd.read_csv('./Dados/MICRODADOS_ENEM_2018.csv', sep=';', encoding='latin-1')
df.shape

(5513747, 137)

In [3]:
df.shape

(5513747, 137)

In [4]:
for col in df.columns:
    print(col)

NU_INSCRICAO
NU_ANO
CO_MUNICIPIO_RESIDENCIA
NO_MUNICIPIO_RESIDENCIA
CO_UF_RESIDENCIA
SG_UF_RESIDENCIA
NU_IDADE
TP_SEXO
TP_ESTADO_CIVIL
TP_COR_RACA
TP_NACIONALIDADE
CO_MUNICIPIO_NASCIMENTO
NO_MUNICIPIO_NASCIMENTO
CO_UF_NASCIMENTO
SG_UF_NASCIMENTO
TP_ST_CONCLUSAO
TP_ANO_CONCLUIU
TP_ESCOLA
TP_ENSINO
IN_TREINEIRO
CO_ESCOLA
CO_MUNICIPIO_ESC
NO_MUNICIPIO_ESC
CO_UF_ESC
SG_UF_ESC
TP_DEPENDENCIA_ADM_ESC
TP_LOCALIZACAO_ESC
TP_SIT_FUNC_ESC
IN_BAIXA_VISAO
IN_CEGUEIRA
IN_SURDEZ
IN_DEFICIENCIA_AUDITIVA
IN_SURDO_CEGUEIRA
IN_DEFICIENCIA_FISICA
IN_DEFICIENCIA_MENTAL
IN_DEFICIT_ATENCAO
IN_DISLEXIA
IN_DISCALCULIA
IN_AUTISMO
IN_VISAO_MONOCULAR
IN_OUTRA_DEF
IN_GESTANTE
IN_LACTANTE
IN_IDOSO
IN_ESTUDA_CLASSE_HOSPITALAR
IN_SEM_RECURSO
IN_BRAILLE
IN_AMPLIADA_24
IN_AMPLIADA_18
IN_LEDOR
IN_ACESSO
IN_TRANSCRICAO
IN_LIBRAS
IN_LEITURA_LABIAL
IN_MESA_CADEIRA_RODAS
IN_MESA_CADEIRA_SEPARADA
IN_APOIO_PERNA
IN_GUIA_INTERPRETE
IN_COMPUTADOR
IN_CADEIRA_ESPECIAL
IN_CADEIRA_CANHOTO
IN_CADEIRA_ACOLCHOADA
IN_PROVA_DEITADO
IN_

### Primeira hipótese
Na primeira hipótese, se faz necessária a análise da média simples do aluno então todas as outras características não são interessantes.
São selecionadas apenas as características: 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO'

In [5]:
notas = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']

df_notas = df[notas]

In [6]:
df_notas.isna().sum()/df.shape[0]*100

NU_NOTA_CN         29.175223
NU_NOTA_CH         24.765064
NU_NOTA_LC         24.765064
NU_NOTA_MT         29.175223
NU_NOTA_REDACAO    24.765064
dtype: float64

In [7]:
df_notas = df_notas.dropna()
df_notas.shape

(3893743, 5)

Acima notamos que os estão de 24 a 29% faltantes nas notas dos alunos. Tal fato pode ser por falta na avaliação ou por algum problema de inclusão no sistema. Para nosso objetivo, não faz sentido inserir dados falsos. No universo de ~5.5 milhões de inscrições, trabalhar apenas com dados completos **pode** ser o suficiente. Após a remoção dos candidatos com notas faltantes, ainda sobram ~3.9 milhões de candidatos)

In [8]:
df_notas['MEDIA'] = df_notas.mean(axis=1).round(0).astype(int)

In [9]:
categorias_bolsa

{'20%': '<= 450',
 '30%': '451 < 550',
 '35%': '551 < 600',
 '40%': '601 < 650',
 '50%': '651 < 700',
 '100%': '>= 701'}

In [10]:
qtde_candidatos_por_categoria = {
    '20%' : df_notas.query('MEDIA <= 450').shape[0],
    '30%' : df_notas.query('MEDIA >= 451 and MEDIA <= 550').shape[0],
    '35%' : df_notas.query('MEDIA >= 551 and MEDIA <= 600').shape[0],
    '40%' : df_notas.query('MEDIA >= 601 and MEDIA <= 650').shape[0],
    '50%' : df_notas.query('MEDIA >= 651 and MEDIA <= 700').shape[0],
    '100%': df_notas.query('MEDIA >= 701').shape[0]
}

qtde_candidatos_por_categoria

{'20%': 680676,
 '30%': 1791199,
 '35%': 673037,
 '40%': 399263,
 '50%': 219610,
 '100%': 129958}

In [11]:
# Função de teste, verifica se a query foi efetuada corretamente pelo usuário

def checa_quantidades(df_notas, qtde_candidatos_por_categoria):
    return df_notas.shape[0] == sum(list(qtde_candidatos_por_categoria.values()))

checa_quantidades(df_notas, qtde_candidatos_por_categoria)

True

In [12]:
porcentagem_candidatos_por_categoria = {
    '20%' : round(qtde_candidatos_por_categoria['20%']/df_notas.shape[0]*100, 2),
    '30%' : round(qtde_candidatos_por_categoria['30%']/df_notas.shape[0]*100, 2),
    '35%' : round(qtde_candidatos_por_categoria['35%']/df_notas.shape[0]*100, 2),
    '40%' : round(qtde_candidatos_por_categoria['40%']/df_notas.shape[0]*100, 2),
    '50%' : round(qtde_candidatos_por_categoria['50%']/df_notas.shape[0]*100, 2),
    '100%': round(qtde_candidatos_por_categoria['100%']/df_notas.shape[0]*100, 2)
}

porcentagem_candidatos_por_categoria

{'20%': 17.48,
 '30%': 46.0,
 '35%': 17.29,
 '40%': 10.25,
 '50%': 5.64,
 '100%': 3.34}

### Segunda hipótese

Serão selecionados apenas candidatos da cidade da universidade em questão. Após uma breve pesquisa no Google, a universidade está localizada em Campinas. Observe que esta hipótese é apenas para fins demonstrativos e não consideraria que alunos de cidades vizinhas viajariam para estudar nesta instituição.

In [13]:
df_cps = df.query('NO_MUNICIPIO_RESIDENCIA == "Campinas"')
df_cps.shape

(23479, 137)

In [14]:
df_cps = df_cps[notas]
df_cps = df_cps.dropna()
df_cps.shape

(16674, 5)

In [15]:
df_cps['MEDIA'] = df_cps.mean(axis=1).round(0).astype(int)

In [16]:
qtde_candidatos_por_categoria = {
    '20%' : df_cps.query('MEDIA <= 450').shape[0],
    '30%' : df_cps.query('MEDIA >= 451 and MEDIA <= 550').shape[0],
    '35%' : df_cps.query('MEDIA >= 551 and MEDIA <= 600').shape[0],
    '40%' : df_cps.query('MEDIA >= 601 and MEDIA <= 650').shape[0],
    '50%' : df_cps.query('MEDIA >= 651 and MEDIA <= 700').shape[0],
    '100%': df_cps.query('MEDIA >= 701').shape[0]
}

qtde_candidatos_por_categoria

{'20%': 1630, '30%': 6044, '35%': 3296, '40%': 2573, '50%': 1837, '100%': 1294}

In [17]:
checa_quantidades(df_cps, qtde_candidatos_por_categoria)

True

In [18]:
porcentagem_candidatos_por_categoria = {
    '20%' : round(qtde_candidatos_por_categoria['20%']/df_cps.shape[0]*100, 2),
    '30%' : round(qtde_candidatos_por_categoria['30%']/df_cps.shape[0]*100, 2),
    '35%' : round(qtde_candidatos_por_categoria['35%']/df_cps.shape[0]*100, 2),
    '40%' : round(qtde_candidatos_por_categoria['40%']/df_cps.shape[0]*100, 2),
    '50%' : round(qtde_candidatos_por_categoria['50%']/df_cps.shape[0]*100, 2),
    '100%': round(qtde_candidatos_por_categoria['100%']/df_cps.shape[0]*100, 2)
}

porcentagem_candidatos_por_categoria

{'20%': 9.78,
 '30%': 36.25,
 '35%': 19.77,
 '40%': 15.43,
 '50%': 11.02,
 '100%': 7.76}

### Conclusão

No contexto amplo de candidatos, 3.34% dos indivíduos amostrados se encaixam na faixa de bolsa correspondente a 100%. O maior grupo de candidatos se situa na faixa que contempla 30% de bolsa, com 46% dos indivíduos.

No grupo selecionado pela cidade de Campinas, é observado que 7.76% dos candidatos seriam aptos para a bolsa de 100% e o maior grupo de candidatos se situa também na faixa correspondente à 30% de bolsa, com 36.25% dos indivíduos.