# Análise de Dados - Prouni 2018

Conjunto de dados que apresenta as bolsas concedidas e o perfil dos beneficiários do ProUni de 2018.

Os dados são disponibilizados pelo Site Dados Abertos (http://dadosabertos.mec.gov.br/prouni), em arquivo CSV.

In [1]:
import pandas as pd
df = pd.read_csv ('datasets/pda-prouni-2018.csv', sep = ';', encoding = 'utf-8')

## Conhecendo o dataframe

In [2]:
df.sample(3)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
159564,2018,322,UNIVERSIDADE PAULISTA,BOLSA INTEGRAL,Presencial,Design De Interiores,Noturno,***05561737**,F,Preta,27/02/1997,N,Sudeste,ES,ARACRUZ
214041,2018,1139,FACULDADE DE ESTUDOS ADMINISTRATIVOS DE MINAS ...,BOLSA INTEGRAL,EAD,Ciências Econômicas,Curso a distância,***91630628**,F,Parda,13/02/1997,N,Sudeste,MG,SAO JOSE DA LAPA
100922,2018,1491,CENTRO UNIVERSITÁRIO INTERNACIONAL,BOLSA PARCIAL 50%,EAD,Artes Visuais,Curso a distância,***60780974**,F,Parda,07/10/1990,N,Sul,SC,BLUMENAU


In [3]:
df.shape

(241032, 15)

In [4]:
df.dtypes

ANO_CONCESSAO_BOLSA                int64
CODIGO_EMEC_IES_BOLSA              int64
NOME_IES_BOLSA                    object
TIPO_BOLSA                        object
MODALIDADE_ENSINO_BOLSA           object
NOME_CURSO_BOLSA                  object
NOME_TURNO_CURSO_BOLSA            object
CPF_BENEFICIARIO_BOLSA            object
SEXO_BENEFICIARIO_BOLSA           object
RACA_BENEFICIARIO_BOLSA           object
DT_NASCIMENTO_BENEFICIARIO        object
BENEFICIARIO_DEFICIENTE_FISICO    object
REGIAO_BENEFICIARIO_BOLSA         object
SIGLA_UF_BENEFICIARIO_BOLSA       object
MUNICIPIO_BENEFICIARIO_BOLSA      object
dtype: object

In [5]:
df.isnull().sum()

ANO_CONCESSAO_BOLSA               0
CODIGO_EMEC_IES_BOLSA             0
NOME_IES_BOLSA                    0
TIPO_BOLSA                        0
MODALIDADE_ENSINO_BOLSA           0
NOME_CURSO_BOLSA                  0
NOME_TURNO_CURSO_BOLSA            0
CPF_BENEFICIARIO_BOLSA            0
SEXO_BENEFICIARIO_BOLSA           0
RACA_BENEFICIARIO_BOLSA           0
DT_NASCIMENTO_BENEFICIARIO        0
BENEFICIARIO_DEFICIENTE_FISICO    0
REGIAO_BENEFICIARIO_BOLSA         0
SIGLA_UF_BENEFICIARIO_BOLSA       0
MUNICIPIO_BENEFICIARIO_BOLSA      0
dtype: int64

### Excluindo as Colunas CPF_BENEFICIARIO_BOLSA e MUNICIPIO_BENEFICIARIO_BOLSA

In [6]:
df.drop(['CPF_BENEFICIARIO_BOLSA','MUNICIPIO_BENEFICIARIO_BOLSA'] , axis=1, inplace = True)

### Renomeando Colunas

In [7]:
df.columns

Index(['ANO_CONCESSAO_BOLSA', 'CODIGO_EMEC_IES_BOLSA', 'NOME_IES_BOLSA',
       'TIPO_BOLSA', 'MODALIDADE_ENSINO_BOLSA', 'NOME_CURSO_BOLSA',
       'NOME_TURNO_CURSO_BOLSA', 'SEXO_BENEFICIARIO_BOLSA',
       'RACA_BENEFICIARIO_BOLSA', 'DT_NASCIMENTO_BENEFICIARIO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO_BOLSA',
       'SIGLA_UF_BENEFICIARIO_BOLSA'],
      dtype='object')

In [8]:
df.rename(columns = {'ANO_CONCESSAO_BOLSA':'ANO_CONCESSAO', 
                     'CODIGO_EMEC_IES_BOLSA':'CODIGO_IES', 
                     'NOME_IES_BOLSA':'NOME_IES', 
                     'MODALIDADE_ENSINO_BOLSA':'MODALIDADE_ENSINO', 
                     'NOME_CURSO_BOLSA':'NOME_CURSO'}, inplace = True)

In [9]:
df.rename(columns = {'NOME_TURNO_CURSO_BOLSA':'TURNO_CURSO', 
                     'SEXO_BENEFICIARIO_BOLSA':'SEXO_BENEFICIARIO', 
                     'RACA_BENEFICIARIO_BOLSA':'RACA_BENEFICIARIO', 
                     'REGIAO_BENEFICIARIO_BOLSA':'REGIAO_BENEFICIARIO', 
                     'SIGLA_UF_BENEFICIARIO_BOLSA':'UF_BENEFICIARIO', 
                     'DT_NASCIMENTO_BENEFICIARIO':'ANO_NASCIMENTO_BENEFICIARIO'}, inplace = True)

In [10]:
df.sample(5)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
42231,2018,417,UNIVERSIDADE CIDADE DE SÃO PAULO,BOLSA PARCIAL 50%,Presencial,Enfermagem,Matutino,F,Preta,29/01/2000,N,Sudeste,SP
25358,2018,322,UNIVERSIDADE PAULISTA,BOLSA INTEGRAL,EAD,Gestão De Recursos Humanos,Curso a distância,M,Preta,06/03/1983,S,Centro-Oeste,GO
230374,2018,1676,CENTRO UNIVERSITÁRIO SÃO MIGUEL,BOLSA PARCIAL 50%,Presencial,Educação Física,Matutino,M,Preta,28/09/1999,N,Nordeste,PE
195234,2018,1255,CENTRO UNIVERSITÁRIO FBV WYDEN,BOLSA PARCIAL 50%,Presencial,Engenharia De Controle E Automação,Noturno,M,Branca,04/11/1996,N,Nordeste,PE
128667,2018,3966,CENTRO UNIVERSITÁRIO DE CARATINGA,BOLSA PARCIAL 50%,Presencial,Farmácia,Noturno,F,Branca,03/08/1998,N,Sudeste,MG


### Renomeando variáveis

In [11]:
df.loc[(df['MODALIDADE_ENSINO'] == 'EAD'), 'MODALIDADE_ENSINO'] = 'EDUCAÇÃO A DISTÂNCIA'
df.loc[(df['SEXO_BENEFICIARIO'] == 'M'), 'SEXO_BENEFICIARIO'] = 'Masculino'
df.loc[(df['SEXO_BENEFICIARIO'] == 'F'), 'SEXO_BENEFICIARIO'] = 'Feminino'
df.loc[(df['BENEFICIARIO_DEFICIENTE_FISICO'] == 'S'), 'BENEFICIARIO_DEFICIENTE_FISICO'] = 'SIM'
df.loc[(df['BENEFICIARIO_DEFICIENTE_FISICO'] == 'N'), 'BENEFICIARIO_DEFICIENTE_FISICO'] = 'NÃO'

### Tranformando letras minúsculas em letras maiúsculas

In [12]:
df['MODALIDADE_ENSINO'] = df['MODALIDADE_ENSINO'].str.upper()
df['REGIAO_BENEFICIARIO'] = df['REGIAO_BENEFICIARIO'].str.upper()

### Descobrindo a idade aproximada* dos beneficiários

é aproximada, pois o dataframe não menciona qual semestre do ano o beneficiário foi contemplado pela bolsa.

-> Criar uma nova coluna IDADE_APROX_BENEFICIARIO para calcular a idade aproximada deles

-> Alterar o formato da coluna DT_NASCIMENTO_BENEFICIARIO Para Y

-> Calcular com base na coluna ANO_CONCESSAO a idade aproximada do beneficiário

In [13]:
df.insert(loc=10, column='IDADE_APROX_BENEFICIARIO', value=10)
df.head(1)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,PRESENCIAL,Letras - Espanhol,Noturno,Feminino,Parda,15/07/1980,10,NÃO,NORDESTE,PE


In [14]:
df['ANO_NASCIMENTO_BENEFICIARIO'] = pd.to_datetime(df['ANO_NASCIMENTO_BENEFICIARIO']).dt.year
print(df['ANO_NASCIMENTO_BENEFICIARIO'])

0         1980
1         2000
2         1998
3         1999
4         2000
          ... 
241027    1997
241028    1989
241029    1995
241030    1999
241031    1994
Name: ANO_NASCIMENTO_BENEFICIARIO, Length: 241032, dtype: int64


In [15]:
df['IDADE_APROX_BENEFICIARIO'] = df['ANO_CONCESSAO'] - df['ANO_NASCIMENTO_BENEFICIARIO']
df.sample(3)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
131041,2018,3786,FACULDADE DE ENSINO DE MINAS GERAIS,BOLSA INTEGRAL,PRESENCIAL,Educação Física,Noturno,Feminino,Preta,1984,34,NÃO,SUDESTE,MG
190317,2018,823,UNIVERSIDADE CEUMA,BOLSA PARCIAL 50%,PRESENCIAL,Fonoaudiologia,Matutino,Feminino,Branca,2000,18,NÃO,NORDESTE,MA
88166,2018,1491,CENTRO UNIVERSITÁRIO INTERNACIONAL,BOLSA PARCIAL 50%,EDUCAÇÃO A DISTÂNCIA,Curso Superior De Tecnologia Em Gestão Pública...,Curso a distância,Feminino,Branca,1997,21,NÃO,SUDESTE,MG


### Criando intervalos em que se agrupam pessoas de idade aproximada

-> Criar uma nova coluna FAIXA_ETA_BENEFICIARIO

-> Popular a coluna seguindo os seguintes critérios:

    Menos de 18 anos
    De 18 a 24 anos
    De 24 a 30 anos
    De 30 a 36 anos
    De 36 a 48 anos
    De 48 a 60 anos
    Mais de 60 anos

In [16]:
df.insert(loc=11, column='FAIXA_ETA_BENEFICIARIO', value='Idade')

In [17]:
df.head()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,PRESENCIAL,Letras - Espanhol,Noturno,Feminino,Parda,1980,38,Idade,NÃO,NORDESTE,PE
1,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,PRESENCIAL,Letras - Português E Espanhol,Noturno,Masculino,Branca,2000,18,Idade,NÃO,NORDESTE,PE
2,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,PRESENCIAL,Psicologia,Vespertino,Feminino,Parda,1998,20,Idade,NÃO,NORDESTE,PE
3,2018,11,UNIVERSIDADE CATÓLICA DE PERNAMBUCO,BOLSA INTEGRAL,PRESENCIAL,Serviço Social,Noturno,Feminino,Parda,1999,19,Idade,NÃO,NORDESTE,PE
4,2018,13,UNIVERSIDADE DE CAXIAS DO SUL,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Administração,Curso a distância,Feminino,Branca,2000,18,Idade,NÃO,SUL,RS


In [18]:
for i in range(len (df)): 
    if (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] > 0) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 18):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Menos de 18 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 18) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 24):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 18 a 24 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 24) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 30):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 24 a 30 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 30) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 36):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 30 a 36 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 36) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 48):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 36 a 48 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 48) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 60):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 48 a 60 anos'
    
    else:
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Mais de 60 anos'

In [19]:
df.sample()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
61018,2018,528,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JAN...,BOLSA INTEGRAL,PRESENCIAL,Engenharia Química - Engenharia Química,Integral,Masculino,Branca,2000,18,De 18 a 24 anos,NÃO,SUDESTE,RJ


# Análisando os dados

### Tipos de bolsas

In [20]:
df['TIPO_BOLSA'].value_counts()

BOLSA INTEGRAL       161571
BOLSA PARCIAL 50%     79461
Name: TIPO_BOLSA, dtype: int64

### Modalidade de ensino

In [21]:
df['MODALIDADE_ENSINO'].value_counts()

PRESENCIAL              183702
EDUCAÇÃO A DISTÂNCIA     57330
Name: MODALIDADE_ENSINO, dtype: int64

### Top 10 - Cursos

In [22]:
df['NOME_CURSO'].value_counts().head(10)

Direito                       17363
Administração                 17184
Pedagogia                     16830
Ciências Contábeis            10797
Enfermagem                    10310
Educação Física                8599
Engenharia Civil               7806
Psicologia                     6996
Gestão De Recursos Humanos     5766
Fisioterapia                   5540
Name: NOME_CURSO, dtype: int64

### Turno predominante

In [23]:
df['TURNO_CURSO'].value_counts()

Noturno              128722
Curso a distância     57330
Matutino              42914
Integral               6638
Vespertino             5428
Name: TURNO_CURSO, dtype: int64

### Sexo do beneficiários

In [24]:
df['SEXO_BENEFICIARIO'].value_counts()

Feminino     136029
Masculino    105003
Name: SEXO_BENEFICIARIO, dtype: int64

### Raça dos beneficiários

In [25]:
df['RACA_BENEFICIARIO'].value_counts()

Parda            112148
Branca            93254
Preta             31239
Amarela            4165
Indígena            204
Não Informada        22
Name: RACA_BENEFICIARIO, dtype: int64

### Faixa etária dos beneficiários

In [26]:
df['FAIXA_ETA_BENEFICIARIO'].value_counts()

De 18 a 24 anos     160129
De 24 a 30 anos      42607
De 30 a 36 anos      18915
De 36 a 48 anos      14217
De 48 a 60 anos       2547
Menos de 18 anos      2458
Mais de 60 anos        159
Name: FAIXA_ETA_BENEFICIARIO, dtype: int64

### Beneficiários deficientes físicos

In [27]:
df['BENEFICIARIO_DEFICIENTE_FISICO'].value_counts()

NÃO    239444
SIM      1588
Name: BENEFICIARIO_DEFICIENTE_FISICO, dtype: int64

### Região x Bolsas

In [28]:
df['REGIAO_BENEFICIARIO'].value_counts()

SUDESTE         104006
NORDESTE         53163
SUL              43458
CENTRO-OESTE     22064
NORTE            18341
Name: REGIAO_BENEFICIARIO, dtype: int64

### Top 5 - UF's x Bolsas

In [29]:
df['UF_BENEFICIARIO'].value_counts().head()

SP    60713
MG    28759
RS    21050
PR    16077
BA    14498
Name: UF_BENEFICIARIO, dtype: int64

### Top 10 - IE's x Bolsas

In [30]:
df['NOME_IES'].value_counts().head(10)

UNIVERSIDADE PAULISTA                               16632
CENTRO UNIVERSITÁRIO INTERNACIONAL                  13206
UNIVERSIDADE PITÁGORAS UNOPAR                        9595
UNIVERSIDADE LUTERANA DO BRASIL                      7318
UNIVERSIDADE ANHANGUERA                              5212
UNIVERSIDADE NOVE DE JULHO                           5069
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS     4354
UNIVERSIDADE CEUMA                                   3571
UNIVERSIDADE CRUZEIRO DO SUL                         2953
UNIVERSIDADE ESTÁCIO DE SÁ                           2857
Name: NOME_IES, dtype: int64

## Criando um novo arquivo csv

In [31]:
df_novo = df

In [32]:
df_novo.to_csv('N_Datasets/Novo_Prouni2018.csv', sep = ';', encoding = 'utf-8', index = False)