# Análise de Dados - Prouni 2017

Conjunto de dados que apresenta as bolsas concedidas e o perfil dos beneficiários do ProUni de 2017.

Os dados são disponibilizados pelo Site Dados Abertos (http://dadosabertos.mec.gov.br/prouni), em arquivo CSV.

In [1]:
import pandas as pd

df = pd.read_csv('datasets/pda-prouni-2017.csv', sep = ';', encoding = 'utf-8')

## Conhecendo o dataframe

In [2]:
df.sample(5)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
209116,2017,1508,CENTRO UNIVERSITÁRIO METROPOLITANO DE MARINGÁ,BOLSA INTEGRAL,Presencial,Sistemas De Informação,Matutino,***93846903**,M,Branca,29/06/1999,N,Sul,PR,PARANAVAI
30491,2017,322,UNIVERSIDADE PAULISTA,BOLSA INTEGRAL,EAD,Pedagogia(Ead),Curso a distância,***78498037**,F,Parda,12/06/1985,N,Sul,RS,CAMPO BOM
1525,2017,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA PARCIAL 50%,Presencial,Administração,Noturno,***01098092**,F,Parda,29/10/1992,N,Sul,RS,ALMIRANTE TAMANDARE DO SUL
96129,2017,1490,CENTRO UNIVERSITÁRIO DE JAGUARIÚNA,BOLSA INTEGRAL,Presencial,Educação Física,Noturno,***81944823**,F,Parda,05/06/1998,N,Sudeste,SP,ARTUR NOGUEIRA
188051,2017,496,UNIVERSIDADE DE FRANCA,BOLSA PARCIAL 50%,Presencial,Comunicação Social - Publicidade E Propaganda,Noturno,***53973886**,M,Branca,27/04/1999,N,Sudeste,SP,FRANCA


In [3]:
df.shape

(236636, 15)

In [4]:
df.dtypes

ANO_CONCESSAO_BOLSA                int64
CODIGO_EMEC_IES_BOLSA              int64
NOME_IES_BOLSA                    object
TIPO_BOLSA                        object
MODALIDADE_ENSINO_BOLSA           object
NOME_CURSO_BOLSA                  object
NOME_TURNO_CURSO_BOLSA            object
CPF_BENEFICIARIO_BOLSA            object
SEXO_BENEFICIARIO_BOLSA           object
RACA_BENEFICIARIO_BOLSA           object
DT_NASCIMENTO_BENEFICIARIO        object
BENEFICIARIO_DEFICIENTE_FISICO    object
REGIAO_BENEFICIARIO_BOLSA         object
SIGLA_UF_BENEFICIARIO_BOLSA       object
MUNICIPIO_BENEFICIARIO_BOLSA      object
dtype: object

In [5]:
df.isnull().sum()

ANO_CONCESSAO_BOLSA               0
CODIGO_EMEC_IES_BOLSA             0
NOME_IES_BOLSA                    0
TIPO_BOLSA                        0
MODALIDADE_ENSINO_BOLSA           0
NOME_CURSO_BOLSA                  0
NOME_TURNO_CURSO_BOLSA            0
CPF_BENEFICIARIO_BOLSA            0
SEXO_BENEFICIARIO_BOLSA           0
RACA_BENEFICIARIO_BOLSA           0
DT_NASCIMENTO_BENEFICIARIO        0
BENEFICIARIO_DEFICIENTE_FISICO    0
REGIAO_BENEFICIARIO_BOLSA         0
SIGLA_UF_BENEFICIARIO_BOLSA       0
MUNICIPIO_BENEFICIARIO_BOLSA      0
dtype: int64

### Excluindo as Colunas CPF_BENEFICIARIO_BOLSA e MUNICIPIO_BENEFICIARIO_BOLSA

In [6]:
df.drop(['CPF_BENEFICIARIO_BOLSA','MUNICIPIO_BENEFICIARIO_BOLSA'] , axis=1, inplace = True)

### Renomeando Colunas

In [7]:
df.columns

Index(['ANO_CONCESSAO_BOLSA', 'CODIGO_EMEC_IES_BOLSA', 'NOME_IES_BOLSA',
       'TIPO_BOLSA', 'MODALIDADE_ENSINO_BOLSA', 'NOME_CURSO_BOLSA',
       'NOME_TURNO_CURSO_BOLSA', 'SEXO_BENEFICIARIO_BOLSA',
       'RACA_BENEFICIARIO_BOLSA', 'DT_NASCIMENTO_BENEFICIARIO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO_BOLSA',
       'SIGLA_UF_BENEFICIARIO_BOLSA'],
      dtype='object')

In [8]:
df.rename(columns = {'ANO_CONCESSAO_BOLSA':'ANO_CONCESSAO', 
                     'CODIGO_EMEC_IES_BOLSA':'CODIGO_IES', 
                     'NOME_IES_BOLSA':'NOME_IES', 
                     'MODALIDADE_ENSINO_BOLSA':'MODALIDADE_ENSINO', 
                     'NOME_CURSO_BOLSA':'NOME_CURSO'}, inplace = True)

In [9]:
df.rename(columns = {'NOME_TURNO_CURSO_BOLSA':'TURNO_CURSO', 
                     'SEXO_BENEFICIARIO_BOLSA':'SEXO_BENEFICIARIO', 
                     'RACA_BENEFICIARIO_BOLSA':'RACA_BENEFICIARIO', 
                     'REGIAO_BENEFICIARIO_BOLSA':'REGIAO_BENEFICIARIO', 
                     'SIGLA_UF_BENEFICIARIO_BOLSA':'UF_BENEFICIARIO', 
                     'DT_NASCIMENTO_BENEFICIARIO':'ANO_NASCIMENTO_BENEFICIARIO'}, inplace = True)

In [10]:
df.sample(5)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
110493,2017,1878,CENTRO UNIVERSITÁRIO DA FUNDAÇÃO EDUCACIONAL I...,BOLSA INTEGRAL,Presencial,Engenharia Mecânica,Matutino,M,Preta,30/04/1999,N,Sudeste,SP
80850,2017,724,CENTRO UNIVERSITÁRIO FACEX,BOLSA PARCIAL 50%,Presencial,Arquitetura E Urbanismo,Noturno,M,Branca,17/10/1989,N,Nordeste,RN
128082,2017,2147,CENTRO UNIVERSITÁRIO CEUNI - FAMETRO,BOLSA INTEGRAL,Presencial,Química,Noturno,M,Parda,18/09/1992,N,Norte,AM
34860,2017,322,UNIVERSIDADE PAULISTA,BOLSA INTEGRAL,Presencial,Curso Superior De Tecnologia Gestão Financeira...,Noturno,F,Branca,19/01/1996,N,Sudeste,SP
154566,2017,263,FACULDADES INTEGRADAS CAMPOS SALLES,BOLSA PARCIAL 50%,Presencial,Direito,Matutino,F,Parda,07/08/1990,N,Sudeste,SP


### Renomeando variáveis

In [11]:
df.loc[(df['MODALIDADE_ENSINO'] == 'EAD'), 'MODALIDADE_ENSINO'] = 'EDUCAÇÃO A DISTÂNCIA'
df.loc[(df['SEXO_BENEFICIARIO'] == 'M'), 'SEXO_BENEFICIARIO'] = 'Masculino'
df.loc[(df['SEXO_BENEFICIARIO'] == 'F'), 'SEXO_BENEFICIARIO'] = 'Feminino'
df.loc[(df['BENEFICIARIO_DEFICIENTE_FISICO'] == 'S'), 'BENEFICIARIO_DEFICIENTE_FISICO'] = 'SIM'
df.loc[(df['BENEFICIARIO_DEFICIENTE_FISICO'] == 'N'), 'BENEFICIARIO_DEFICIENTE_FISICO'] = 'NÃO'

### Tranformando letras minúsculas em letras maiúsculas

In [12]:
df['MODALIDADE_ENSINO'] = df['MODALIDADE_ENSINO'].str.upper()
df['REGIAO_BENEFICIARIO'] = df['REGIAO_BENEFICIARIO'].str.upper()

### Descobrindo a idade aproximada* dos beneficiários

é aproximada, pois o dataframe não menciona qual semestre do ano o beneficiário foi contemplado pela bolsa.

-> Criar uma nova coluna IDADE_APROX_BENEFICIARIO para calcular a idade aproximada deles

-> Alterar o formato da coluna DT_NASCIMENTO_BENEFICIARIO Para Y

-> Calcular com base na coluna ANO_CONCESSAO a idade aproximada do beneficiário

In [13]:
df.insert(loc=10, column='IDADE_APROX_BENEFICIARIO', value=10)
df.head(1)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2017,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Contábeis,Noturno,Feminino,Branca,29/04/1992,10,NÃO,SUL,PR


In [14]:
df['ANO_NASCIMENTO_BENEFICIARIO'] = pd.to_datetime(df['ANO_NASCIMENTO_BENEFICIARIO']).dt.year
print(df['ANO_NASCIMENTO_BENEFICIARIO'])

0         1992
1         1999
2         1994
3         1997
4         1994
          ... 
236631    1991
236632    1995
236633    1989
236634    1997
236635    1996
Name: ANO_NASCIMENTO_BENEFICIARIO, Length: 236636, dtype: int64


In [15]:
df['IDADE_APROX_BENEFICIARIO'] = df['ANO_CONCESSAO'] - df['ANO_NASCIMENTO_BENEFICIARIO']
df.sample(3)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
70679,2017,521,UNIVERSIDADE DE MOGI DAS CRUZES,BOLSA INTEGRAL,PRESENCIAL,Psicologia,Noturno,Masculino,Branca,1997,20,NÃO,SUDESTE,SP
155947,2017,18133,FACULDADE UNIDA DE CAMPINAS GOIÂNIA - FACUNICA...,BOLSA PARCIAL 50%,PRESENCIAL,Enfermagem,Matutino,Feminino,Branca,1998,19,NÃO,CENTRO-OESTE,GO
67724,2017,494,UNIVERSIDADE DO SUL DE SANTA CATARINA,BOLSA INTEGRAL,PRESENCIAL,Curso Superior De Tecnologia Em Cosmetologia E...,Noturno,Feminino,Branca,1995,22,NÃO,SUL,SC


### Criando intervalos em que se agrupam pessoas de idade aproximada

-> Criar uma nova coluna FAIXA_ETA_BENEFICIARIO

-> Popular a coluna seguindo os seguintes critérios:

    Menos de 18 anos
    De 18 a 24 anos
    De 24 a 30 anos
    De 30 a 36 anos
    De 36 a 48 anos
    De 48 a 60 anos
    Mais de 60 anos

In [16]:
df.insert(loc=11, column='FAIXA_ETA_BENEFICIARIO', value='Idade')

In [17]:
df.head()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2017,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Contábeis,Noturno,Feminino,Branca,1992,25,Idade,NÃO,SUL,PR
1,2017,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Contábeis,Noturno,Masculino,Branca,1999,18,Idade,NÃO,SUL,PR
2,2017,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Contábeis,Noturno,Masculino,Branca,1994,23,Idade,NÃO,SUL,PR
3,2017,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Contábeis,Noturno,Masculino,Branca,1997,20,Idade,NÃO,SUL,PR
4,2017,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Contábeis,Noturno,Masculino,Branca,1994,23,Idade,NÃO,SUL,PR


In [18]:
for i in range(len (df)): 
    if (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] > 0) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 18):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Menos de 18 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 18) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 24):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 18 a 24 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 24) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 30):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 24 a 30 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 30) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 36):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 30 a 36 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 36) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 48):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 36 a 48 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 48) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 60):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 48 a 60 anos'
    
    else:
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Mais de 60 anos'

In [19]:
df.sample()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
189146,2017,449,UNIVERSIDADE LUTERANA DO BRASIL,BOLSA INTEGRAL,PRESENCIAL,Estética E Cosmética,Noturno,Feminino,Branca,1981,36,De 36 a 48 anos,NÃO,SUL,RS


# Análisando os dados

### Tipos de bolsas

In [20]:
df['TIPO_BOLSA'].value_counts()

BOLSA INTEGRAL       155041
BOLSA PARCIAL 50%     81595
Name: TIPO_BOLSA, dtype: int64

### Modalidade de ensino

In [21]:
df['MODALIDADE_ENSINO'].value_counts()

PRESENCIAL              184397
EDUCAÇÃO A DISTÂNCIA     52239
Name: MODALIDADE_ENSINO, dtype: int64

### Top 10 - Cursos

In [22]:
df['NOME_CURSO'].value_counts().head(10)

Administração                 17217
Direito                       15570
Pedagogia                     14098
Ciências Contábeis            10328
Educação Física                9032
Engenharia Civil               8101
Enfermagem                     7946
Psicologia                     6150
Gestão De Recursos Humanos     5803
Fisioterapia                   4437
Name: NOME_CURSO, dtype: int64

### Turno predominante

In [23]:
df['TURNO_CURSO'].value_counts()

Noturno              130766
Curso a distância     52239
Matutino              42449
Integral               5982
Vespertino             5200
Name: TURNO_CURSO, dtype: int64

### Sexo dos beneficiários

In [24]:
df['SEXO_BENEFICIARIO'].value_counts()

Feminino     128976
Masculino    107660
Name: SEXO_BENEFICIARIO, dtype: int64

### Raça dos beneficiários

In [25]:
df['RACA_BENEFICIARIO'].value_counts()

Parda            107215
Branca            94472
Preta             30741
Amarela            4004
Indígena            191
Não Informada        13
Name: RACA_BENEFICIARIO, dtype: int64

### Faixa etária dos beneficiários

In [26]:
df['FAIXA_ETA_BENEFICIARIO'].value_counts()

De 18 a 24 anos     156598
De 24 a 30 anos      43154
De 30 a 36 anos      18531
De 36 a 48 anos      12803
Menos de 18 anos      2908
De 48 a 60 anos       2469
Mais de 60 anos        173
Name: FAIXA_ETA_BENEFICIARIO, dtype: int64

### Beneficiários deficientes físicos

In [27]:
df['BENEFICIARIO_DEFICIENTE_FISICO'].value_counts()

NÃO    234873
SIM      1763
Name: BENEFICIARIO_DEFICIENTE_FISICO, dtype: int64

### Região x Bolsas

In [28]:
df['REGIAO_BENEFICIARIO'].value_counts()

SUDESTE         105105
NORDESTE         49213
SUL              45250
CENTRO-OESTE     20294
NORTE            16774
Name: REGIAO_BENEFICIARIO, dtype: int64

### Top 5 bolsas - UF's x Bolsas

In [29]:
df['UF_BENEFICIARIO'].value_counts().head()

SP    64159
MG    25966
PR    16935
RS    16078
BA    14319
Name: UF_BENEFICIARIO, dtype: int64

### Top 10 bolsas - IE's xBolsas

In [30]:
df['NOME_IES'].value_counts().head(10)

UNIVERSIDADE PAULISTA                               15289
UNIVERSIDADE PITÁGORAS UNOPAR                       10837
CENTRO UNIVERSITÁRIO INTERNACIONAL                   8139
UNIVERSIDADE ANHANGUERA                              5859
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS     5034
UNIVERSIDADE NOVE DE JULHO                           5003
UNIVERSIDADE ESTÁCIO DE SÁ                           3557
UNIVERSIDADE CEUMA                                   3547
UNIVERSIDADE SÃO JUDAS TADEU                         3219
UNIVERSIDADE LUTERANA DO BRASIL                      3169
Name: NOME_IES, dtype: int64

## Criando um novo arquivo

In [31]:
df_novo = df

In [32]:
df_novo.to_csv('N_Datasets/Novo_Prouni2017.csv', sep=';', encoding='utf-8', index = False)