# Bolsas concedidas e perfil dos beneficiários do ProUni - 2020

https://dados.gov.br/dados/conjuntos-dados/mec-prouni

https://dadosabertos.mec.gov.br/prouni/item/124-bolsas-e-perfil-2020

O Programa Universidade para Todos - Prouni tem como finalidade a concessão de bolsas de estudo integrais e parciais em cursos de graduação e sequenciais de formação específica, em instituições de ensino superior privadas que oferece, em contrapartida, isenção de tributos àquelas instituições que aderem ao Programa

## Bibliotecas

In [1]:
!pip install -U plotly
!pip install --upgrade gdown -q

Collecting plotly
  Downloading plotly-6.5.2-py3-none-any.whl.metadata (8.5 kB)
Downloading plotly-6.5.2-py3-none-any.whl (9.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.9/9.9 MB[0m [31m33.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: plotly
  Attempting uninstall: plotly
    Found existing installation: plotly 5.24.1
    Uninstalling plotly-5.24.1:
      Successfully uninstalled plotly-5.24.1
Successfully installed plotly-6.5.2


In [2]:
import os
import gdown
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objs as go
from plotly.subplots import make_subplots
import os
from datetime import datetime, date, time, timezone

In [3]:
# Caminho dos dados
'https://dadosabertos.mec.gov.br/images/conteudo/prouni/2020/ProuniRelatorioDadosAbertos2020.csv'

'https://dadosabertos.mec.gov.br/images/conteudo/prouni/2020/ProuniRelatorioDadosAbertos2020.csv'

## Disponibilizando a base

In [4]:
arquivo_id = '1cLDzDZphm6Uhrg6qnIY0wXPHF5cGYfgr'
url_drive = f'https://drive.google.com/uc?id={arquivo_id}'
nome_arquivo = 'ProuniRelatorioDadosAbertos2020.csv'

# Download do arquivo se ele não existir
if not os.path.exists(nome_arquivo):
    print("Baixando base de dados do ProUni...")
    gdown.download(url_drive, nome_arquivo, quiet=False)
else:
    print("Base de dados já disponível no ambiente.")


# Carregando o DataFrame
prouni_2020_inicial = pd.read_csv(nome_arquivo, encoding='LATIN-1', sep=';')

print(f"O dataset possui {prouni_2020_inicial.shape[0]} linhas.")

Baixando base de dados do ProUni...


Downloading...
From: https://drive.google.com/uc?id=1cLDzDZphm6Uhrg6qnIY0wXPHF5cGYfgr
To: /content/ProuniRelatorioDadosAbertos2020.csv
100%|██████████| 29.9M/29.9M [00:00<00:00, 66.9MB/s]


O dataset possui 166830 linhas.


## Explorando a base

### Características da base

In [5]:
prouni_2020_inicial.shape

(166830, 17)

In [6]:
# Código do e-MEC referente a IES que concedeu a bolsa ProUni

prouni_2020_inicial['CODIGO_EMEC_IES_BOLSA'].unique().shape

(1333,)

In [7]:
# Nome/Razão Social da Instituição de Ensino Superior que concedeu a bolsa ProUni

prouni_2020_inicial['NOME_IES_BOLSA'].unique().shape

(1376,)

In [8]:
prouni_2020_inicial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 166830 entries, 0 to 166829
Data columns (total 17 columns):
 #   Column                          Non-Null Count   Dtype 
---  ------                          --------------   ----- 
 0   ANO_CONCESSAO_BOLSA             166830 non-null  int64 
 1   CODIGO_EMEC_IES_BOLSA           166830 non-null  int64 
 2   NOME_IES_BOLSA                  166830 non-null  object
 3   MUNICIPIO                       166830 non-null  object
 4   CAMPUS                          166830 non-null  object
 5   TIPO_BOLSA                      166830 non-null  object
 6   MODALIDADE_ENSINO_BOLSA         166830 non-null  object
 7   NOME_CURSO_BOLSA                166792 non-null  object
 8   NOME_TURNO_CURSO_BOLSA          166830 non-null  object
 9   CPF_BENEFICIARIO                166830 non-null  object
 10  SEXO_BENEFICIARIO               166830 non-null  object
 11  RACA_BENEFICIARIO               166830 non-null  object
 12  DATA_NASCIMENTO               

In [9]:
# Verificando se há null

prouni_2020_inicial.isnull().sum()

Unnamed: 0,0
ANO_CONCESSAO_BOLSA,0
CODIGO_EMEC_IES_BOLSA,0
NOME_IES_BOLSA,0
MUNICIPIO,0
CAMPUS,0
TIPO_BOLSA,0
MODALIDADE_ENSINO_BOLSA,0
NOME_CURSO_BOLSA,38
NOME_TURNO_CURSO_BOLSA,0
CPF_BENEFICIARIO,0


### Tratamento de NULL

In [10]:
prouni_2020_inicial['NOME_CURSO_BOLSA'].count()

np.int64(166792)

In [11]:
# Identificando quantidade de valores null da coluna

prouni_2020_inicial['NOME_CURSO_BOLSA'].isnull().sum()

np.int64(38)

In [12]:
prouni_2020_inicial[prouni_2020_inicial['NOME_CURSO_BOLSA'].isnull()]

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,MUNICIPIO,CAMPUS,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,DATA_NASCIMENTO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO,MUNICIPIO_BENEFICIARIO
166273,2020,1270,CENTRO UNIVERSITÁRIO ESTÁCIO DE RIBEIRÃO PRETO,ITAJAI,EAD ITAJAÍ - SC,INTEGRAL,EAD,,CURSO A DISTÂNCIA,106.XXX.XXX-77,F,Branca,01/06/1998,N,SUL,SC,ITAJAI
166274,2020,14,UNIVERSIDADE DO VALE DO RIO DOS SINOS,CAXIAS DO SUL,POLO UNISINOS CAXIAS DO SUL,INTEGRAL,EAD,,CURSO A DISTÂNCIA,868.XXX.XXX-53,M,Parda,07/07/1983,N,SUL,RS,CAXIAS DO SUL
166353,2020,519,UNIVERSIDADE CATÓLICA DO SALVADOR,SALVADOR,CAMPUS - FEDERAÇÃO,INTEGRAL,PRESENCIAL,,MATUTINO,075.XXX.XXX-12,F,Não Informada,12/06/1999,N,NORDESTE,BA,SIMOES FILHO
166405,2020,137,CENTRO UNIVERSITÁRIO SAGRADO CORAÇÃO,BAURU,CAMPUS - BAURU - JARDIM BRASIL,INTEGRAL,PRESENCIAL,,NOTURNO,465.XXX.XXX-85,M,Branca,17/11/2000,N,SUDESTE,SP,IACANGA
166406,2020,4915,FACULDADE ESTÁCIO DE CASTANHAL,CASTANHAL,CASTANHAL,INTEGRAL,PRESENCIAL,,NOTURNO,053.XXX.XXX-46,M,Não Informada,13/09/2001,N,NORTE,PA,ABAETETUBA
166407,2020,457,UNIVERSIDADE ANHANGUERA DE SÃO PAULO,SAO PAULO,SAO PAULO (CL),INTEGRAL,PRESENCIAL,,MATUTINO,424.XXX.XXX-35,F,Branca,28/12/1996,N,SUDESTE,SP,TABOAO DA SERRA
166420,2020,434,FACULDADE SANTA MARCELINA,SAO PAULO,UNIDADE ITAQUERA,INTEGRAL,PRESENCIAL,,INTEGRAL,122.XXX.XXX-06,M,Branca,27/01/2000,N,SUDESTE,MG,PARA DE MINAS
166421,2020,163,UNIVERSIDADE ESTÁCIO DE SÁ,RIO DE JANEIRO,EAD BONSUCESSO - RJ,INTEGRAL,EAD,,CURSO A DISTÂNCIA,118.XXX.XXX-33,M,Preta,02/10/1996,N,SUDESTE,RJ,RIO DE JANEIRO
166472,2020,1414,CENTRO UNIVERSITÁRIO SÃO LUCAS,PORTO VELHO,CAMPUS 1,PARCIAL,PRESENCIAL,,INTEGRAL,147.XXX.XXX-90,F,Parda,18/01/1995,N,NORTE,PA,MARABA
166491,2020,2835,CENTRO UNIVERSITÁRIO MAURÍCIO DE NASSAU,RECIFE,UNINASSAU - SEDE,INTEGRAL,PRESENCIAL,,MATUTINO,131.XXX.XXX-59,M,Parda,09/11/2000,N,NORDESTE,PE,JABOATAO DOS GUARARAPES


In [13]:
# Identificando quantidade única de Cursos ofertados

prouni_2020_inicial['NOME_CURSO_BOLSA'].nunique()

317

In [14]:
# Excluindo os null

prouni_2020_inicial.dropna(subset=['NOME_CURSO_BOLSA'], inplace=True)

In [15]:
prouni_2020_inicial.isnull().sum()

Unnamed: 0,0
ANO_CONCESSAO_BOLSA,0
CODIGO_EMEC_IES_BOLSA,0
NOME_IES_BOLSA,0
MUNICIPIO,0
CAMPUS,0
TIPO_BOLSA,0
MODALIDADE_ENSINO_BOLSA,0
NOME_CURSO_BOLSA,0
NOME_TURNO_CURSO_BOLSA,0
CPF_BENEFICIARIO,0


### Tratamento de datas

In [16]:
prouni_2020_inicial['DATA_NASCIMENTO'] = pd.to_datetime(prouni_2020_inicial['DATA_NASCIMENTO'], format='%d/%m/%Y')
prouni_2020_inicial['DATA_NASCIMENTO']

Unnamed: 0,DATA_NASCIMENTO
0,1973-08-11
1,1987-05-13
2,2001-07-23
3,2003-04-04
4,1977-12-07
...,...
166825,1996-11-30
166826,2002-03-25
166827,1997-04-19
166828,1975-09-17


### Cálculo da Idade das pessoas beneficiárias

Ano de 2020 como referência

In [17]:
def calc_idade(nasc):
    ref_idade = datetime(year=2020, month=12, day=31)
    return ref_idade.year - nasc.year - ((ref_idade.month, ref_idade.day) < (nasc.month, nasc.day))  # verificando se a pessoa já fez aniversário

prouni_2020_inicial['IDADE'] = prouni_2020_inicial['DATA_NASCIMENTO'].apply(calc_idade)

In [18]:
prouni_2020_inicial[['DATA_NASCIMENTO', 'IDADE']].head(3)

Unnamed: 0,DATA_NASCIMENTO,IDADE
0,1973-08-11,47
1,1987-05-13,33
2,2001-07-23,19


In [19]:
prouni_2020_inicial.head(3)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,MUNICIPIO,CAMPUS,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,DATA_NASCIMENTO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO,MUNICIPIO_BENEFICIARIO,IDADE
0,2020,322,UNIVERSIDADE PAULISTA,IPATINGA,IPATINGA,INTEGRAL,EAD,PEDAGOGIA,CURSO A DISTÂNCIA,991.XXX.XXX-91,F,Parda,1973-08-11,N,SUDESTE,MG,GOVERNADOR VALADARES,47
1,2020,163,UNIVERSIDADE ESTÁCIO DE SÁ,FORTALEZA,EAD VIA CORPVS - CE,INTEGRAL,EAD,MARKETING,CURSO A DISTÂNCIA,067.XXX.XXX-01,M,Parda,1987-05-13,N,NORDESTE,CE,FORTALEZA,33
2,2020,17670,FACULDADE DE QUIXERAMOBIM,QUIXERAMOBIM,FACULDADE DE QUIXERAMOBIM - UNIQ,INTEGRAL,PRESENCIAL,FARMÁCIA,NOTURNO,623.XXX.XXX-27,M,Parda,2001-07-23,N,NORDESTE,CE,MOMBACA,19


### Retirando da base pessoas com menos que 15 anos

`Quantidade de pessoas com até 15 anos de idade: 09`

Podem ser inconsistências na base, pois a maioria dessa quantidade (66%) desta faixa nasceu no mesmo ano da concessão da bolsa

In [20]:
prouni_2020_inicial.groupby('IDADE').agg({'IDADE':'count'})

Unnamed: 0_level_0,IDADE
IDADE,Unnamed: 1_level_1
0,6
3,1
8,1
11,1
16,9
...,...
68,1
70,2
73,2
74,2


In [21]:
prouni_2020 = prouni_2020_inicial[prouni_2020_inicial['IDADE'] >= 15].copy()
prouni_2020.head(3)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,MUNICIPIO,CAMPUS,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,DATA_NASCIMENTO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO,MUNICIPIO_BENEFICIARIO,IDADE
0,2020,322,UNIVERSIDADE PAULISTA,IPATINGA,IPATINGA,INTEGRAL,EAD,PEDAGOGIA,CURSO A DISTÂNCIA,991.XXX.XXX-91,F,Parda,1973-08-11,N,SUDESTE,MG,GOVERNADOR VALADARES,47
1,2020,163,UNIVERSIDADE ESTÁCIO DE SÁ,FORTALEZA,EAD VIA CORPVS - CE,INTEGRAL,EAD,MARKETING,CURSO A DISTÂNCIA,067.XXX.XXX-01,M,Parda,1987-05-13,N,NORDESTE,CE,FORTALEZA,33
2,2020,17670,FACULDADE DE QUIXERAMOBIM,QUIXERAMOBIM,FACULDADE DE QUIXERAMOBIM - UNIQ,INTEGRAL,PRESENCIAL,FARMÁCIA,NOTURNO,623.XXX.XXX-27,M,Parda,2001-07-23,N,NORDESTE,CE,MOMBACA,19


In [22]:
prouni_2020.groupby('IDADE').agg({'IDADE':'count'})

Unnamed: 0_level_0,IDADE
IDADE,Unnamed: 1_level_1
16,9
17,1043
18,28102
19,32992
20,21323
21,15024
22,10542
23,8631
24,6937
25,5883


In [23]:
prouni_2020.shape

(166783, 18)

### Definindo Faixas de Idade

In [24]:
bins = [15, 20, 30, 40, 50, 100]
labels = ['01. Entre 15 e 20', '02. Entre 21 e 30', '03. Entre 31 e 40', '04. Entre 41 e 50', '05. Acima de 50']

prouni_2020['FAIXA_ETARIA'] = pd.cut(prouni_2020['IDADE'], bins=bins, labels=labels, include_lowest=True)
prouni_2020[['IDADE', 'FAIXA_ETARIA', 'DATA_NASCIMENTO']].sort_values(by = 'IDADE', ascending=False).head(3)

Unnamed: 0,IDADE,FAIXA_ETARIA,DATA_NASCIMENTO
59617,91,05. Acima de 50,1929-11-19
151927,74,05. Acima de 50,1946-04-02
51649,74,05. Acima de 50,1946-09-14


In [25]:
prouni_2020.shape

(166783, 19)

### Padronizando nomes dos Cursos

In [26]:
prouni_2020['NOME_CURSO_BOLSA'].nunique()

317

In [27]:
prouni_2020['NOME_CURSO_BOLSA'].sort_values().unique()

array(['ACUPUNTURA', 'ADMINISTRAÇÃO', 'ADMINISTRAÇÃO DE EMPRESAS',
       'ADMINISTRAÇÃO PÚBLICA', 'AGRONEGÓCIO', 'AGRONOMIA',
       'AGROPECUÁRIA', 'ANÁLISE DE DADOS',
       'ANÁLISE E DESENVOLVIMENTO DE SISTEMAS',
       'ANÁLISE E DESENVOLVIMENTO DE SISTEMAS INTERNET', 'AQUICULTURA',
       'ARQUEOLOGIA', 'ARQUITETURA E URBANISMO',
       'ARTE: HISTÓRIA, CRÍTICA E CURADORIA', 'ARTES', 'ARTES CÊNICAS',
       'ARTES E MÍDIAS DIGITAIS', 'ARTES VISUAIS', 'AUDIOVISUAL',
       'AUTOMAÇÃO INDUSTRIAL', 'AVIAÇÃO CIVIL', 'BANCO DE DADOS',
       'BIBLIOTECONOMIA', 'BIG DATA E INTELIGÊNCIA ANALÍTICA',
       'BIG DATA E INTELIGÊNCIA ARTIFICIAL', 'BIOCOMBUSTÍVEIS',
       'BIOLOGIA', 'BIOMEDICINA', 'BIOTECNOLOGIA', 'CAFEICULTURA',
       'CINEMA E AUDIOVISUAL', 'CIÊNCIA DA COMPUTAÇÃO',
       'CIÊNCIA DE DADOS', 'CIÊNCIA DE DADOS E INTELIGÊNCIA ARTIFICIAL',
       'CIÊNCIA ECONÔMICA', 'CIÊNCIA POLÍTICA', 'CIÊNCIAS AERONÁUTICAS',
       'CIÊNCIAS AMBIENTAIS', 'CIÊNCIAS ATUARIAIS', 'CIÊNCIAS

In [28]:
# Ajustando a grafia dos cursos: ADMINISTRAÇÃO, CIÊNCIA DA COMPUTAÇÃO, CIÊNCIAS ECONÔMICAS, ENGENHARIA DE ENERGIA, SISTEMAS DE INFORMAÇÃO, ENGENHARIA DE COMPUTAÇÃO,
# LETRAS - INGLÊS, LETRAS - PORTUGUÊS, LETRAS - PORTUGUÊS E ESPANHOL, LETRAS - PORTUGUÊS E INGLÊS

prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'ADMINISTRAÇÃO DE EMPRESAS', 'NOME_CURSO_BOLSA'] = 'ADMINISTRAÇÃO'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'CIÊNCIAS DA COMPUTAÇÃO', 'NOME_CURSO_BOLSA'] = 'CIÊNCIA DA COMPUTAÇÃO'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'CIÊNCIA ECONÔMICA', 'NOME_CURSO_BOLSA'] = 'CIÊNCIAS ECONÔMICAS'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'ENGENHARIA DA COMPUTAÇÃO', 'NOME_CURSO_BOLSA'] = 'ENGENHARIA DE COMPUTAÇÃO'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'ENGENHARIA DE ENERGIAS', 'NOME_CURSO_BOLSA'] = 'ENGENHARIA DE ENERGIA'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'LETRAS - LÍNGUA INGLESA', 'NOME_CURSO_BOLSA'] = 'LETRAS - INGLÊS'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'LETRAS - LÍNGUA PORTUGUESA', 'NOME_CURSO_BOLSA'] = 'LETRAS - PORTUGUÊS'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'LETRAS COM PORTUGUÊS E ESPANHOL', 'NOME_CURSO_BOLSA'] = 'LETRAS - PORTUGUÊS E ESPANHOL'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'LETRAS PORTUGUÊS E INGLÊS', 'NOME_CURSO_BOLSA'] = 'LETRAS - PORTUGUÊS E INGLÊS'
prouni_2020.loc[prouni_2020['NOME_CURSO_BOLSA'] == 'SISTEMA DE INFORMAÇÃO', 'NOME_CURSO_BOLSA'] = 'SISTEMAS DE INFORMAÇÃO'

In [29]:
# Quantidade de cursos únicos após tratamento

prouni_2020['NOME_CURSO_BOLSA'].nunique()

307

### Ajustando Raça, Gênero e Deficiência

Padronização e correção das informações

Raça

In [30]:
prouni_2020['RACA_BENEFICIARIO'].unique()

array(['Parda', 'Branca', 'Preta', 'Amarela', 'Não Informada', 'Ind¡gena'],
      dtype=object)

In [31]:
# Ajustando o termo 'Ind¡gena'

prouni_2020.loc[prouni_2020['RACA_BENEFICIARIO'] == 'Ind¡gena', 'RACA_BENEFICIARIO'] = 'Indígena'

Gênero

In [33]:

prouni_2020['SEXO_BENEFICIARIO'] = prouni_2020['SEXO_BENEFICIARIO'].replace({'F': 'Feminino', 'M': 'Masculino'})
prouni_2020.head(2)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,MUNICIPIO,CAMPUS,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,DATA_NASCIMENTO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO,MUNICIPIO_BENEFICIARIO,IDADE,FAIXA_ETARIA
0,2020,322,UNIVERSIDADE PAULISTA,IPATINGA,IPATINGA,INTEGRAL,EAD,PEDAGOGIA,CURSO A DISTÂNCIA,991.XXX.XXX-91,Feminino,Parda,1973-08-11,N,SUDESTE,MG,GOVERNADOR VALADARES,47,04. Entre 41 e 50
1,2020,163,UNIVERSIDADE ESTÁCIO DE SÁ,FORTALEZA,EAD VIA CORPVS - CE,INTEGRAL,EAD,MARKETING,CURSO A DISTÂNCIA,067.XXX.XXX-01,Masculino,Parda,1987-05-13,N,NORDESTE,CE,FORTALEZA,33,03. Entre 31 e 40



Deficiência

In [34]:
prouni_2020['BENEFICIARIO_DEFICIENTE_FISICO'] = prouni_2020['BENEFICIARIO_DEFICIENTE_FISICO'].replace({'S': 'Sim', 'N': 'Não'})
prouni_2020.head(2)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,MUNICIPIO,CAMPUS,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,DATA_NASCIMENTO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO,MUNICIPIO_BENEFICIARIO,IDADE,FAIXA_ETARIA
0,2020,322,UNIVERSIDADE PAULISTA,IPATINGA,IPATINGA,INTEGRAL,EAD,PEDAGOGIA,CURSO A DISTÂNCIA,991.XXX.XXX-91,Feminino,Parda,1973-08-11,Não,SUDESTE,MG,GOVERNADOR VALADARES,47,04. Entre 41 e 50
1,2020,163,UNIVERSIDADE ESTÁCIO DE SÁ,FORTALEZA,EAD VIA CORPVS - CE,INTEGRAL,EAD,MARKETING,CURSO A DISTÂNCIA,067.XXX.XXX-01,Masculino,Parda,1987-05-13,Não,NORDESTE,CE,FORTALEZA,33,03. Entre 31 e 40


## Perfil das Concessões

### Gênero

In [35]:
genero_qtd = prouni_2020['SEXO_BENEFICIARIO'].value_counts()
genero_percent = (genero_qtd / genero_qtd.sum() * 100).round(2)

df_genero = pd.DataFrame({
    'QTD': genero_qtd,
    '%': genero_percent
})
df_genero = df_genero.reset_index()
df_genero

Unnamed: 0,SEXO_BENEFICIARIO,QTD,%
0,Feminino,101113,60.63
1,Masculino,65670,39.37


In [36]:
fig_genero = px.pie(df_genero, values = 'QTD', names = 'SEXO_BENEFICIARIO', color_discrete_sequence = px.colors.qualitative.T10, hole = 0.1)

fig_genero.update_traces(textinfo='percent+value+label')

fig_genero.update_layout(
    title_text = '<b> Concessão por Gênero </b>',
    title_font_size = 15,
    font_size = 13,
    height = 350,
    width = 700,
    template = 'simple_white',
    showlegend = False
)

fig_genero.show()

### Faixa Etária

In [37]:
prouni_2020[['IDADE', 'FAIXA_ETARIA', 'DATA_NASCIMENTO']].head(4)

Unnamed: 0,IDADE,FAIXA_ETARIA,DATA_NASCIMENTO
0,47,04. Entre 41 e 50,1973-08-11
1,33,03. Entre 31 e 40,1987-05-13
2,19,01. Entre 15 e 20,2001-07-23
3,17,01. Entre 15 e 20,2003-04-04


In [38]:
faixa_etaria_qtd = prouni_2020['FAIXA_ETARIA'].value_counts()
faixa_etaria_percent = (faixa_etaria_qtd / faixa_etaria_qtd.sum() * 100).round(3)

df_faixa_etaria = pd.DataFrame({
    'QTD': faixa_etaria_qtd,
    '%': faixa_etaria_percent
})
df_faixa_etaria.sort_values(by = 'FAIXA_ETARIA')
df_faixa_etaria = df_faixa_etaria.reset_index()
df_faixa_etaria

Unnamed: 0,FAIXA_ETARIA,QTD,%
0,01. Entre 15 e 20,83469,50.046
1,02. Entre 21 e 30,63900,38.313
2,03. Entre 31 e 40,13739,8.238
3,04. Entre 41 e 50,4307,2.582
4,05. Acima de 50,1368,0.82


In [39]:
df_faixa_etaria = df_faixa_etaria.reset_index()

fig_faixa_etaria = go.Figure()
fig_faixa_etaria.add_trace(go.Bar(x = df_faixa_etaria['FAIXA_ETARIA'], y = df_faixa_etaria['QTD'], name = 'Faixa Etária', marker_color = '#296073', text = df_faixa_etaria['QTD'],
                            texttemplate = '%{y:.0f} <br> (%{customdata:.2f}%)', customdata = df_faixa_etaria['%']))  # formatando rótulo com QTD e % e pulando linha entre eles

fig_faixa_etaria.update_layout(
    title = '<b> Concessão por Faixa Etária </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    barmode = 'group',
    template = 'simple_white',
    height = 450,
    width = 800
)

fig_faixa_etaria.show()

% por Faixa Etária e por Gênero

In [40]:
df_faixa_etaria_gen = (pd.crosstab(prouni_2020['FAIXA_ETARIA'], prouni_2020['SEXO_BENEFICIARIO'], normalize='index') * 100).round(2)
df_faixa_etaria_gen = df_faixa_etaria_gen.reset_index()
df_faixa_etaria_gen

SEXO_BENEFICIARIO,FAIXA_ETARIA,Feminino,Masculino
0,01. Entre 15 e 20,64.18,35.82
1,02. Entre 21 e 30,56.98,43.02
2,03. Entre 31 e 40,55.97,44.03
3,04. Entre 41 e 50,60.3,39.7
4,05. Acima de 50,61.48,38.52


In [41]:
fig_faixa_etaria_gen = go.Figure()

fig_faixa_etaria_gen.add_trace(go.Bar(x = df_faixa_etaria_gen['Feminino'], y = df_faixa_etaria_gen['FAIXA_ETARIA'], name = 'Feminino', marker_color = '#f49432', orientation = 'h',
                                     text=df_faixa_etaria_gen['Feminino'], textposition='outside'))

fig_faixa_etaria_gen.add_trace(go.Bar(x = df_faixa_etaria_gen['Masculino'], y = df_faixa_etaria_gen['FAIXA_ETARIA'], name = 'Masculino', marker_color = '#296073', orientation = 'h',
                                     text=df_faixa_etaria_gen['Masculino'], textposition='inside'))

fig_faixa_etaria_gen.update_layout(
    title = '<b> % Concessão por Faixa Etária e Gênero </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_faixa_etaria_gen.show()

### Raça

In [42]:
raca_qtd = prouni_2020['RACA_BENEFICIARIO'].value_counts()
raca_percent = (raca_qtd / raca_qtd.sum() * 100).round(2)

df_raca = pd.DataFrame({
    'QTD': raca_qtd,
    '%': raca_percent
})
df_raca = df_raca.reset_index()
df_raca

Unnamed: 0,RACA_BENEFICIARIO,QTD,%
0,Parda,78053,46.8
1,Branca,64459,38.65
2,Preta,21151,12.68
3,Amarela,2900,1.74
4,Indígena,153,0.09
5,Não Informada,67,0.04


In [43]:
fig_raca = go.Figure()
fig_raca.add_trace(go.Bar(x = df_raca['RACA_BENEFICIARIO'], y = df_raca['QTD'], name = 'Raça', marker_color = '#296073', text = df_raca['QTD'],
                            texttemplate = '%{y:.0f} <br> (%{customdata:.2f}%)', customdata = df_raca['%']))  # formatando rótulo com QTD e % e pulando linha entre eles

fig_raca.update_layout(
    title = '<b> Concessão por Raça </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    barmode = 'group',
    template = 'simple_white',
    height = 450,
    width = 800
)

fig_raca.show()

% por Raça e por Gênero

In [44]:
raca_gen = (pd.crosstab(prouni_2020['RACA_BENEFICIARIO'], prouni_2020['SEXO_BENEFICIARIO'], normalize='index') * 100).round(2)
raca_gen = raca_gen.reset_index()

fig_raca_gen = go.Figure()

fig_raca_gen.add_trace(go.Bar(x = raca_gen['Feminino'], y = raca_gen['RACA_BENEFICIARIO'], name = 'Feminino', marker_color = '#f49432', orientation = 'h',
                              text=raca_gen['Feminino'], textposition='outside'))

fig_raca_gen.add_trace(go.Bar(x = raca_gen['Masculino'], y = raca_gen['RACA_BENEFICIARIO'], name = 'Masculino', marker_color = '#296073', orientation = 'h',
                              text=raca_gen['Masculino'], textposition='inside'))

fig_raca_gen.update_layout(
    title = '<b> % Concessão por Raça e Gênero </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_raca_gen.show()

### Deficiência

In [45]:
def_qtd = prouni_2020['BENEFICIARIO_DEFICIENTE_FISICO'].value_counts()
def_percent = (def_qtd / def_qtd.sum() * 100).round(2)

df_deficiencia = pd.DataFrame({
    'QTD': def_qtd,
    '%': def_percent
})
df_deficiencia = df_deficiencia.reset_index()
df_deficiencia

Unnamed: 0,BENEFICIARIO_DEFICIENTE_FISICO,QTD,%
0,Não,165511,99.24
1,Sim,1272,0.76


In [46]:
fig_deficiencia = go.Figure(go.Pie(
    labels = df_deficiencia['BENEFICIARIO_DEFICIENTE_FISICO'],
    values = df_deficiencia['QTD'],
    hole = 0.4,
    textinfo = 'percent+value+label',
    rotation = 90    # Rotacionar o gráfico
))

fig_deficiencia.update_layout(
    title_text = '<b> Concessão por Pessoas com Deficiência </b>',
    title_font_size = 15,
    font_size = 13,
    height = 350,
    width = 700,
    template = 'simple_white',
    showlegend = False
)

fig_deficiencia.show()

In [47]:
# % de Pessoas com deficiência por Gênero

deficiencia_gen = (pd.crosstab(prouni_2020['BENEFICIARIO_DEFICIENTE_FISICO'], prouni_2020['SEXO_BENEFICIARIO'], normalize='index') * 100).round(2)
deficiencia_gen = deficiencia_gen.reset_index()
deficiencia_gen

SEXO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,Feminino,Masculino
0,Não,60.74,39.26
1,Sim,45.2,54.8


In [48]:
# % de Pessoas com Deficiência por Gênero

fig_deficiencia_gen = go.Figure()

fig_deficiencia_gen.add_trace(go.Bar(x = deficiencia_gen['Feminino'], y = deficiencia_gen['BENEFICIARIO_DEFICIENTE_FISICO'], name = 'Feminino', marker_color = '#f49432', orientation = 'h',
                                     text=deficiencia_gen['Feminino'], textposition='outside'))

fig_deficiencia_gen.add_trace(go.Bar(x = deficiencia_gen['Masculino'], y = deficiencia_gen['BENEFICIARIO_DEFICIENTE_FISICO'], name = 'Masculino', marker_color = '#296073', orientation = 'h',
                                     text=deficiencia_gen['Masculino'], textposition='inside'))

fig_deficiencia_gen.update_layout(
    title = '<b> % Concessão por Pessoas com Deficiência e Gênero </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_deficiencia_gen.show()

### Tipo de Bolsa

In [49]:
tipo_qtd = prouni_2020['TIPO_BOLSA'].value_counts()
tipo_percent = (tipo_qtd / tipo_qtd.sum() * 100).round(2)

df_tipo = pd.DataFrame({
    'QTD': tipo_qtd,
    '%': tipo_percent
})
df_tipo = df_tipo.reset_index()
df_tipo

Unnamed: 0,TIPO_BOLSA,QTD,%
0,INTEGRAL,130704,78.37
1,PARCIAL,36079,21.63


In [50]:
fig_tipo_bolsa = px.pie(df_tipo, values = 'QTD', names = 'TIPO_BOLSA', color_discrete_sequence = px.colors.qualitative.T10, hole = 0.1)

fig_tipo_bolsa.update_traces(textinfo = 'percent+value+label')

fig_tipo_bolsa.update_layout(
    title_text = '<b> Concessão por Tipo de Bolsa </b>',
    title_font_size = 15,
    font_size = 13,
    height = 350,
    width = 700,
    template = 'simple_white',
    showlegend = False
)

fig_tipo_bolsa.show()

% por Tipo de Bolsa e por Gênero


In [51]:
df_tipo_gen = (pd.crosstab(prouni_2020['TIPO_BOLSA'], prouni_2020['SEXO_BENEFICIARIO'], normalize='index') * 100).round(2)
df_tipo_gen = df_tipo_gen.reset_index()
df_tipo_gen

SEXO_BENEFICIARIO,TIPO_BOLSA,Feminino,Masculino
0,INTEGRAL,60.08,39.92
1,PARCIAL,62.6,37.4


In [52]:
fig_tipo_gen = go.Figure()

fig_tipo_gen.add_trace(go.Bar(x = df_tipo_gen['Feminino'], y = df_tipo_gen['TIPO_BOLSA'], name = 'Feminino', marker_color = '#f49432', orientation = 'h',
                              text=df_tipo_gen['Feminino'], textposition='outside'))

fig_tipo_gen.add_trace(go.Bar(x = df_tipo_gen['Masculino'], y = df_tipo_gen['TIPO_BOLSA'], name = 'Masculino', marker_color = '#296073', orientation = 'h',
                              text=df_tipo_gen['Masculino'], textposition='inside'))

fig_tipo_gen.update_layout(
    title = '<b> % Concessão por Tipo da Bolsa e Gênero </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_tipo_gen.show()

### Modalidade de Ensino

In [53]:
modalidade_qtd = prouni_2020['MODALIDADE_ENSINO_BOLSA'].value_counts()
modalidade_percent = (modalidade_qtd / modalidade_qtd.sum() * 100).round(2)

df_modalidade = pd.DataFrame({
    'QTD': modalidade_qtd,
    '%': modalidade_percent
})
df_modalidade = df_modalidade.reset_index()
df_modalidade

Unnamed: 0,MODALIDADE_ENSINO_BOLSA,QTD,%
0,PRESENCIAL,112965,67.73
1,EAD,53818,32.27


In [54]:
fig_modalidade = px.pie(df_modalidade, values = 'QTD', names = 'MODALIDADE_ENSINO_BOLSA', color_discrete_sequence = px.colors.qualitative.T10, hole = 0.1)

fig_modalidade.update_traces(textinfo = 'percent+value+label')

fig_modalidade.update_layout(
    title_text = '<b> Concessão por Modalidade </b>',
    title_font_size = 15,
    font_size = 13,
    height = 360,
    width = 700,
    template = 'simple_white',
    showlegend = False
)

fig_modalidade.show()

% por Modalidade e por Gênero

In [55]:
df_modalidade_gen = (pd.crosstab(prouni_2020['MODALIDADE_ENSINO_BOLSA'], prouni_2020['SEXO_BENEFICIARIO'], normalize='index') * 100).round(2)
df_modalidade_gen = df_modalidade_gen.reset_index()
df_modalidade_gen

SEXO_BENEFICIARIO,MODALIDADE_ENSINO_BOLSA,Feminino,Masculino
0,EAD,61.44,38.56
1,PRESENCIAL,60.24,39.76


In [56]:
fig_modalidade_gen = go.Figure()

fig_modalidade_gen.add_trace(go.Bar(x = df_modalidade_gen['Feminino'], y = df_modalidade_gen['MODALIDADE_ENSINO_BOLSA'], name = 'Feminino', marker_color = '#f49432', orientation = 'h',
                              text=df_modalidade_gen['Feminino'], textposition='outside'))

fig_modalidade_gen.add_trace(go.Bar(x = df_modalidade_gen['Masculino'], y = df_modalidade_gen['MODALIDADE_ENSINO_BOLSA'], name = 'Masculino', marker_color = '#296073', orientation = 'h',
                              text=df_modalidade_gen['Masculino'], textposition='inside'))

fig_modalidade_gen.update_layout(
    title = '<b> % Concessão por Modalidade e Gênero </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_modalidade_gen.show()

% por Modalidade e por Tipo da Bolsa

In [57]:
df_modalidade_tipo = (pd.crosstab(prouni_2020['MODALIDADE_ENSINO_BOLSA'], prouni_2020['TIPO_BOLSA'], normalize='index') * 100).round(2)
df_modalidade_tipo = df_modalidade_tipo.reset_index()
df_modalidade_tipo

TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,INTEGRAL,PARCIAL
0,EAD,93.77,6.23
1,PRESENCIAL,71.03,28.97


In [58]:
fig_modalidade_tipo = go.Figure()

fig_modalidade_tipo.add_trace(go.Bar(x = df_modalidade_tipo['INTEGRAL'], y = df_modalidade_tipo['MODALIDADE_ENSINO_BOLSA'], name = 'Integral', marker_color = '#f49432', orientation = 'h',
                              text=df_modalidade_tipo['INTEGRAL'], textposition='outside'))

fig_modalidade_tipo.add_trace(go.Bar(x = df_modalidade_tipo['PARCIAL'], y = df_modalidade_tipo['MODALIDADE_ENSINO_BOLSA'], name = 'Parcial', marker_color = '#296073', orientation = 'h',
                              text=df_modalidade_tipo['PARCIAL'], textposition='inside'))

fig_modalidade_tipo.update_layout(
    title = '<b> % Concessão por Modalidade e Tipo da Bolsa </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_modalidade_tipo.show()

In [59]:
fig = make_subplots(
    rows=1, cols=3,
    subplot_titles=[
        'Concessão por Gênero',
        'Concessão por Modalidade',
        'Concessão por Tipo de Bolsa'],
    specs=[[{'type':'domain'}, {'type':'domain'}, {'type':'domain'}]],
    horizontal_spacing = 0.1)    # Ajuste do espaçamento horizontal entre os gráficos

fig_genero = px.pie(df_genero, values='QTD', names='SEXO_BENEFICIARIO', color_discrete_sequence=px.colors.qualitative.T10, hole=0.1)
fig.add_trace(fig_genero.data[0], row=1, col=1)

fig_modalidade = px.pie(df_modalidade, values='QTD', names='MODALIDADE_ENSINO_BOLSA', color_discrete_sequence=px.colors.qualitative.T10, hole=0.1)
fig.add_trace(fig_modalidade.data[0], row=1, col=2)

fig_tipo_bolsa = px.pie(df_tipo, values='QTD', names='TIPO_BOLSA', color_discrete_sequence=px.colors.qualitative.T10, hole=0.1)
fig.add_trace(fig_tipo_bolsa.data[0], row=1, col=3)

fig.update_traces(textinfo='percent+value+label')


fig.update_layout(
    title_text='<b> Concessão de Bolsas </b>',
    title_font_size=18,
    font_size=13,
    height=400,
    width=1000,
    template='simple_white',
    showlegend=False
)

for annotation in fig['layout']['annotations']:
    annotation['y'] = annotation['y'] + 0.05   # Aumenta o espaçamento vertical entre os gráficos e seus títulos

fig.show()


### Turno do Curso

In [60]:
turno_qtd = prouni_2020['NOME_TURNO_CURSO_BOLSA'].value_counts()
turno_percent = (turno_qtd / turno_qtd.sum() * 100).round(2)

df_turno = pd.DataFrame({
    'QTD': turno_qtd,
    '%': turno_percent
})
df_turno = df_turno.reset_index()
df_turno

Unnamed: 0,NOME_TURNO_CURSO_BOLSA,QTD,%
0,NOTURNO,75313,45.16
1,CURSO A DISTÂNCIA,53818,32.27
2,MATUTINO,28107,16.85
3,INTEGRAL,5930,3.56
4,VESPERTINO,3615,2.17


In [61]:
fig_turno = go.Figure()
fig_turno.add_trace(go.Bar(x = df_turno['NOME_TURNO_CURSO_BOLSA'], y = df_turno['QTD'], name = 'Turno', marker_color = '#296073', text = df_turno['QTD'],
                            texttemplate = '%{y:.0f} <br> (%{customdata:.2f}%)', customdata = df_turno['%']))  # formatando rótulo com QTD e % e pulando linha entre eles

fig_turno.update_layout(
    title = '<b> Concessão por Turno do Curso </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    barmode = 'group',
    template = 'simple_white',
    height = 450,
    width = 800
)

fig_turno.show()


% por Turno e Gênero

In [62]:
df_turno_gen = (pd.crosstab(prouni_2020['NOME_TURNO_CURSO_BOLSA'], prouni_2020['SEXO_BENEFICIARIO'], normalize='index') * 100).round(2)
df_turno_gen = df_turno_gen.reset_index()
df_turno_gen

SEXO_BENEFICIARIO,NOME_TURNO_CURSO_BOLSA,Feminino,Masculino
0,CURSO A DISTÂNCIA,61.44,38.56
1,INTEGRAL,62.01,37.99
2,MATUTINO,65.85,34.15
3,NOTURNO,57.63,42.37
4,VESPERTINO,67.99,32.01


In [63]:
fig_turno_gen = go.Figure()

fig_turno_gen.add_trace(go.Bar(x = df_turno_gen['Feminino'], y = df_turno_gen['NOME_TURNO_CURSO_BOLSA'], name = 'Feminino', marker_color = '#f49432', orientation = 'h',
                              text=df_turno_gen['Feminino'], textposition='outside'))

fig_turno_gen.add_trace(go.Bar(x = df_turno_gen['Masculino'], y = df_turno_gen['NOME_TURNO_CURSO_BOLSA'], name = 'Masculino', marker_color = '#296073', orientation = 'h',
                              text=df_turno_gen['Masculino'], textposition='inside'))

fig_turno_gen.update_layout(
    title = '<b> % Concessão por Turno e Gênero </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_turno_gen.show()

% por Turno e Tipo da Bolsa

In [64]:
df_turno_tipo = (pd.crosstab(prouni_2020['NOME_TURNO_CURSO_BOLSA'], prouni_2020['TIPO_BOLSA'], normalize='index') * 100).round(2)
df_turno_tipo = df_turno_tipo.reset_index()
df_turno_tipo

TIPO_BOLSA,NOME_TURNO_CURSO_BOLSA,INTEGRAL,PARCIAL
0,CURSO A DISTÂNCIA,93.77,6.23
1,INTEGRAL,74.38,25.62
2,MATUTINO,73.54,26.46
3,NOTURNO,70.24,29.76
4,VESPERTINO,62.35,37.65


In [65]:
fig_turno_tipo = go.Figure()

fig_turno_tipo.add_trace(go.Bar(x = df_turno_tipo['INTEGRAL'], y = df_turno_tipo['NOME_TURNO_CURSO_BOLSA'], name = 'Integral', marker_color = '#f49432', orientation = 'h',
                              text=df_turno_tipo['INTEGRAL'], textposition='outside'))

fig_turno_tipo.add_trace(go.Bar(x = df_turno_tipo['PARCIAL'], y = df_turno_tipo['NOME_TURNO_CURSO_BOLSA'], name = 'Parcial', marker_color = '#296073', orientation = 'h',
                              text=df_turno_tipo['PARCIAL'], textposition='inside'))

fig_turno_tipo.update_layout(
    title = '<b> % Concessão por Turno e Tipo da Bolsa </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    font_size = 13,
    barmode = 'stack',
    template = 'simple_white',
    height = 450,
    width = 1000
)

fig_turno_tipo.show()

### Localidade

Região

In [66]:
regiao_qtd = prouni_2020['REGIAO_BENEFICIARIO'].value_counts()
regiao_percent = (regiao_qtd / regiao_qtd.sum() * 100).round(2)

df_regiao = pd.DataFrame({
    'QTD': regiao_qtd,
    '%': regiao_percent
})
df_regiao = df_regiao.reset_index()
df_regiao

Unnamed: 0,REGIAO_BENEFICIARIO,QTD,%
0,SUDESTE,71626,42.95
1,NORDESTE,39241,23.53
2,SUL,26368,15.81
3,NORTE,16295,9.77
4,CENTRO-OESTE,13253,7.95


In [67]:
fig_regiao = go.Figure()
fig_regiao.add_trace(go.Bar(x = df_regiao['REGIAO_BENEFICIARIO'], y = df_regiao['QTD'], name = 'Região', marker_color = '#296073', text = df_regiao['QTD'],
                            texttemplate = '%{y:.0f} <br> (%{customdata:.2f}%)', customdata = df_regiao['%']))  # formatando rótulo com QTD e % e pulando linha entre eles

fig_regiao.update_layout(
    title = '<b> Concessão por Região </b> <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    barmode = 'group',
    template = 'simple_white',
    height = 450,
    width = 800
)

fig_regiao.show()

UF

In [68]:
uf_qtd = prouni_2020['UF_BENEFICIARIO'].value_counts()
uf_percent = (uf_qtd / uf_qtd.sum() * 100).round(2)

df_uf = pd.DataFrame({
    'QTD': uf_qtd,
    '%': uf_percent
})
df_uf = df_uf.reset_index()
df_uf

Unnamed: 0,UF_BENEFICIARIO,QTD,%
0,SP,40370,24.21
1,MG,18933,11.35
2,RS,11478,6.88
3,BA,10250,6.15
4,PR,9916,5.95
5,RJ,8485,5.09
6,CE,6963,4.17
7,PE,6707,4.02
8,GO,6094,3.65
9,MA,6069,3.64


Top 10

In [69]:
top10_uf = df_uf.head(10)

fig_top10_uf = px.bar(top10_uf, x = 'QTD', y = 'UF_BENEFICIARIO',
                  title = '<b> Concessão por UF </b>- Top 10 <br> <sup> Ano: 2020 </sup>',
                  color_discrete_sequence = px.colors.qualitative.T10, height = 450, width = 1000,
                  template = 'simple_white',
                  text = top10_uf['QTD'],
                  category_orders={'UF_BENEFICIARIO': top10_uf['UF_BENEFICIARIO'].tolist()})

fig_top10_uf.update_layout(
    title_font_size = 15
)
fig_top10_uf.update_xaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_top10_uf.update_yaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_top10_uf.show()

Todas as UF

In [70]:
fig_uf = go.Figure()
fig_uf.add_trace(go.Bar(x = df_uf['UF_BENEFICIARIO'], y = df_uf['QTD'], name = 'UF', marker_color = '#296073', customdata = df_uf['%'], textposition = 'outside',
                            texttemplate='%{customdata:.1f}%'))  # formatando rótulo com o %

fig_uf.update_layout(
    title = '<b> Concessão por Região </b>- % de Distribuição por UF <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    barmode = 'group',
    template = 'simple_white',
    height = 600,
    width = 1300,
)
fig_uf.update_traces(
    textfont_size = 16
)
fig_uf.show()

## TOP 10 dos Cursos

### Todas as Modalidades

In [71]:
curso_qtd = prouni_2020['NOME_CURSO_BOLSA'].value_counts()
curso_percent = (curso_qtd / curso_qtd.sum() * 100).round(2)

df_curso = pd.DataFrame({
    'QTD': curso_qtd,
    '%': curso_percent
})
df_curso.head(10)

Unnamed: 0_level_0,QTD,%
NOME_CURSO_BOLSA,Unnamed: 1_level_1,Unnamed: 2_level_1
DIREITO,15082,9.04
ADMINISTRAÇÃO,14897,8.93
PEDAGOGIA,13660,8.19
ENFERMAGEM,9232,5.54
CIÊNCIAS CONTÁBEIS,8570,5.14
EDUCAÇÃO FÍSICA,7600,4.56
PSICOLOGIA,7447,4.47
GESTÃO DE RECURSOS HUMANOS,5575,3.34
FISIOTERAPIA,4581,2.75
FARMÁCIA,4055,2.43


In [72]:
curso = prouni_2020['NOME_CURSO_BOLSA'].value_counts().head(10).reset_index()
curso.columns = ['CURSO', 'QTD']

fig_curso = px.bar(curso, x = 'QTD', y = 'CURSO',
                  title = '<b> Concessão por Curso </b> (Top 10 - Todas as Modalidades) <br> <sup> Ano: 2020 </sup>',
                  color_discrete_sequence = px.colors.qualitative.T10, height = 450, width = 1000,
                  template = 'simple_white',
                  text = curso['QTD'],
                  category_orders = {'CURSO': curso['CURSO'].tolist()})

fig_curso.update_layout(
    title_font_size = 15
)
fig_curso.update_xaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_curso.update_yaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_curso.show()

In [73]:
# Identificando os 10 cursos com mais bolsas concedidas e os abrindo por modalidade

top_10_cursos = prouni_2020['NOME_CURSO_BOLSA'].value_counts().head(10).index

cursos_top_10 = prouni_2020[prouni_2020['NOME_CURSO_BOLSA'].isin(top_10_cursos)]

curso_mod = cursos_top_10.pivot_table(index='NOME_CURSO_BOLSA',
                                            columns='MODALIDADE_ENSINO_BOLSA',
                                            aggfunc='size',
                                            fill_value=0)

curso_mod = curso_mod.reset_index()

curso_mod['Total'] = curso_mod['EAD'] + curso_mod['PRESENCIAL']

curso_mod = curso_mod.sort_values(by='Total', ascending=False)
curso_mod

MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,EAD,PRESENCIAL,Total
2,DIREITO,0,15082,15082
0,ADMINISTRAÇÃO,7126,7771,14897
8,PEDAGOGIA,9760,3900,13660
4,ENFERMAGEM,1536,7696,9232
1,CIÊNCIAS CONTÁBEIS,3984,4586,8570
3,EDUCAÇÃO FÍSICA,3713,3887,7600
9,PSICOLOGIA,0,7447,7447
7,GESTÃO DE RECURSOS HUMANOS,3437,2138,5575
6,FISIOTERAPIA,241,4340,4581
5,FARMÁCIA,273,3782,4055


In [74]:
# Top 10 abrindo entre Presencial e EAD

fig_cursos = go.Figure()
fig_cursos.add_trace(go.Bar(x = curso_mod['EAD'], y = curso_mod['NOME_CURSO_BOLSA'], name = 'EAD', marker_color = '#f49432', orientation = 'h'))
fig_cursos.add_trace(go.Bar(x = curso_mod['PRESENCIAL'], y = curso_mod['NOME_CURSO_BOLSA'], name = 'PRESENCIAL', marker_color = '#296073', orientation = 'h'))

fig_cursos.update_layout(
    title = '<b> Concessão por Curso </b> (Top 10 - Aberto por Modalidade) <br> <sup> Ano: 2020 </sup>',
    title_font_size = 15,
    barmode = 'group',
    template = 'simple_white'
)

fig_cursos.show()

### Modalidade Presencial

In [75]:
prouni_2020_presencial = prouni_2020[prouni_2020['MODALIDADE_ENSINO_BOLSA'] == 'PRESENCIAL']
prouni_2020_ead = prouni_2020[prouni_2020['MODALIDADE_ENSINO_BOLSA'] == 'EAD']

In [76]:
curso_qtd_presencial = prouni_2020_presencial['NOME_CURSO_BOLSA'].value_counts()
curso_percent_presencial = (curso_qtd_presencial / curso_qtd_presencial.sum() * 100).round(2)

df_curso_presencial = pd.DataFrame({
    'QTD PRESENCIAL': curso_qtd_presencial,
    '% PRESENCIAL': curso_percent_presencial
})
df_curso_presencial.head(10)

Unnamed: 0_level_0,QTD PRESENCIAL,% PRESENCIAL
NOME_CURSO_BOLSA,Unnamed: 1_level_1,Unnamed: 2_level_1
DIREITO,15082,13.35
ADMINISTRAÇÃO,7771,6.88
ENFERMAGEM,7696,6.81
PSICOLOGIA,7447,6.59
CIÊNCIAS CONTÁBEIS,4586,4.06
FISIOTERAPIA,4340,3.84
PEDAGOGIA,3900,3.45
EDUCAÇÃO FÍSICA,3887,3.44
ODONTOLOGIA,3816,3.38
FARMÁCIA,3782,3.35


In [77]:
curso_presencial = prouni_2020_presencial['NOME_CURSO_BOLSA'].value_counts().head(10).reset_index()
curso_presencial.columns = ['CURSO Presencial', 'QTD Presencial']

fig_curso_presencial = px.bar(curso_presencial, x = 'QTD Presencial', y = 'CURSO Presencial',
                  title = '<b> Concessão por Curso </b> - Top 10  Modalidade Presencial <br> <sup> Ano: 2020 </sup>',
                  template = 'simple_white',
                  text = curso_presencial['QTD Presencial'],
                  category_orders = {'CURSO Presencial': curso_presencial['CURSO Presencial'].tolist()})

fig_curso_presencial.update_layout(title_font_size = 15, height = 450, width = 1000)

fig_curso_presencial.update_traces(marker_color = '#296073')

fig_curso_presencial.update_xaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_curso_presencial.update_yaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_curso_presencial.show()

### Modalidade EAD

In [78]:
curso_qtd_ead = prouni_2020_ead['NOME_CURSO_BOLSA'].value_counts()
curso_percent_ead = (curso_qtd_ead / curso_qtd_ead.sum() * 100).round(2)

df_curso_ead = pd.DataFrame({
    'QTD EAD': curso_qtd_ead,
    '% EAD': curso_percent_ead
})
df_curso_ead.head(10)


Unnamed: 0_level_0,QTD EAD,% EAD
NOME_CURSO_BOLSA,Unnamed: 1_level_1,Unnamed: 2_level_1
PEDAGOGIA,9760,18.14
ADMINISTRAÇÃO,7126,13.24
CIÊNCIAS CONTÁBEIS,3984,7.4
EDUCAÇÃO FÍSICA,3713,6.9
GESTÃO DE RECURSOS HUMANOS,3437,6.39
SERVIÇO SOCIAL,1795,3.34
ANÁLISE E DESENVOLVIMENTO DE SISTEMAS,1622,3.01
ENFERMAGEM,1536,2.85
LOGÍSTICA,1386,2.58
PROCESSOS GERENCIAIS,1265,2.35


In [79]:
curso_ead = prouni_2020_ead['NOME_CURSO_BOLSA'].value_counts().head(10).reset_index()
curso_ead.columns = ['CURSO EAD', 'QTD EAD']

fig_curso_ead = px.bar(curso_ead, x = 'QTD EAD', y = 'CURSO EAD',
                  title = '<b> Concessão por Curso </b> - Top 10  Modalidade EAD <br> <sup> Ano: 2020 </sup>',
                  template = 'simple_white',
                  text = curso_ead['QTD EAD'],
                  category_orders = {'CURSO EAD': curso_ead['CURSO EAD'].tolist()})

fig_curso_ead.update_layout(title_font_size=15, height = 450, width = 1000)

fig_curso_ead.update_traces(marker_color = '#f49432')

fig_curso_ead.update_xaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_curso_ead.update_yaxes(title = '', ticks = 'outside', tickfont_size= 13)
fig_curso_ead.show()