# Análise de Dados - Prouni 2013

Conjunto de dados que apresenta as bolsas concedidas e o perfil dos beneficiários do ProUni de 2013.

Os dados são disponibilizados pelo Site Dados Abertos (http://dadosabertos.mec.gov.br/prouni), em arquivo CSV.

In [1]:
import pandas as pd

df = pd.read_csv('datasets/PDA_PROUNI_2013_CSV.csv', sep=';', encoding='ISO-8859-1')

## Conhecendo o dataframe

In [2]:
df.sample(5)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
15027,2013,298,UNIVERSIDADE PITÁGORAS UNOPAR,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Administração,Curso a distância,***424146**,Masculino,Preta,13-09-1991,NÃO,SUDESTE,MG,DIAMANTINA
172720,2013,1139,FACULDADE DE ESTUDOS ADMINISTRATIVOS DE MINAS ...,BOLSA PARCIAL 50%,PRESENCIAL,Administração,Noturno,***706986**,Feminino,Parda,19-06-1993,NÃO,SUDESTE,MG,RIBEIRÃO DAS NEVES
139678,2013,661,FACULDADE PIO DÉCIMO,BOLSA INTEGRAL,PRESENCIAL,Pedagogia,Noturno,***199615**,Feminino,Preta,31-12-1995,NÃO,NORDESTE,SE,SÃO CRISTÓVÃO
93569,2013,13782,FACULDADE DE SANTA CRUZ DA BAHIA,BOLSA INTEGRAL,PRESENCIAL,Filosofia,Vespertino,***245875**,Feminino,Parda,07-01-1980,NÃO,NORDESTE,BA,ITABERABA
149743,2013,1419,CENTRO UNIVERSITÁRIO CURITIBA,BOLSA PARCIAL 50%,PRESENCIAL,Marketing,Noturno,***227469**,Feminino,Branca,17-04-1992,NÃO,SUL,PR,COLOMBO


In [3]:
df.shape 

(177326, 15)

In [4]:
df.dtypes

ANO_CONCESSAO_BOLSA                int64
CODIGO_EMEC_IES_BOLSA              int64
NOME_IES_BOLSA                    object
TIPO_BOLSA                        object
MODALIDADE_ENSINO_BOLSA           object
NOME_CURSO_BOLSA                  object
NOME_TURNO_CURSO_BOLSA            object
CPF_BENEFICIARIO_BOLSA            object
SEXO_BENEFICIARIO_BOLSA           object
RACA_BENEFICIARIO_BOLSA           object
DT_NASCIMENTO_BENEFICIARIO        object
BENEFICIARIO_DEFICIENTE_FISICO    object
REGIAO_BENEFICIARIO_BOLSA         object
SIGLA_UF_BENEFICIARIO_BOLSA       object
MUNICIPIO_BENEFICIARIO_BOLSA      object
dtype: object

In [5]:
df.isnull().sum()

ANO_CONCESSAO_BOLSA                 0
CODIGO_EMEC_IES_BOLSA               0
NOME_IES_BOLSA                      0
TIPO_BOLSA                          0
MODALIDADE_ENSINO_BOLSA             0
NOME_CURSO_BOLSA                  128
NOME_TURNO_CURSO_BOLSA              0
CPF_BENEFICIARIO_BOLSA              0
SEXO_BENEFICIARIO_BOLSA             0
RACA_BENEFICIARIO_BOLSA             0
DT_NASCIMENTO_BENEFICIARIO          0
BENEFICIARIO_DEFICIENTE_FISICO      0
REGIAO_BENEFICIARIO_BOLSA          93
SIGLA_UF_BENEFICIARIO_BOLSA        93
MUNICIPIO_BENEFICIARIO_BOLSA       93
dtype: int64

##  Dados nulos

- A Coluna NOME_CURSO_BOLSA, consta a falta de 128 registros;


- As Colunas REGIAO_BENEFICIARIO_BOLSA, SIGLA_UF_BENEFICIARIO_BOLSA e MUNICIPIO_BENEFICIARIO_BOLSA, constam a falta de 93 registros.

###  Atribuindo valores na Coluna NOME_CURSO_BOLSA

-> Todos os elementos vazios serão preenchidos com o valor definido 'Não Registrado'

In [6]:
df[df['NOME_CURSO_BOLSA'].isnull()]

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
164,2013,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA INTEGRAL,PRESENCIAL,,Noturno,***370830**,Masculino,Branca,03-02-1989,NÃO,SUL,RS,SANTO ÂNGELO
344,2013,83,UNIVERSIDADE DO VALE DO ITAJAÍ,BOLSA INTEGRAL,PRESENCIAL,,Noturno,***673019**,Masculino,Branca,09-09-1990,NÃO,SUL,SC,BALNEÁRIO CAMBORIÚ
1668,2013,163,UNIVERSIDADE ESTÁCIO DE SÁ,BOLSA INTEGRAL,PRESENCIAL,,Noturno,***845957**,Masculino,Branca,14-10-1994,NÃO,SUDESTE,RJ,RIO DE JANEIRO
1669,2013,163,UNIVERSIDADE ESTÁCIO DE SÁ,BOLSA INTEGRAL,PRESENCIAL,,Noturno,***917977**,Masculino,Preta,25-09-1988,NÃO,SUDESTE,RJ,RIO DE JANEIRO
1670,2013,163,UNIVERSIDADE ESTÁCIO DE SÁ,BOLSA INTEGRAL,PRESENCIAL,,Noturno,***411817**,Masculino,Branca,31-05-1994,NÃO,SUDESTE,RJ,RIO DE JANEIRO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172097,2013,2067,FACULDADE DE CIÊNCIAS EMPRESARIAIS,BOLSA PARCIAL 50%,PRESENCIAL,,Matutino,***452845**,Masculino,Parda,04-05-1993,NÃO,NORDESTE,BA,NAZARÉ
172370,2013,3667,FACULDADE FILADÉLFIA,BOLSA INTEGRAL,PRESENCIAL,,Matutino,***171988**,Feminino,Branca,14-03-1991,NÃO,SUDESTE,SP,BATATAIS
172486,2013,5362,FACULDADE SERIGY,BOLSA PARCIAL 50%,PRESENCIAL,,Matutino,***474485**,Feminino,Parda,02-11-1995,NÃO,NORDESTE,SE,ROSÁRIO DO CATETE
172506,2013,1516,FACULDADE DE VINHEDO,BOLSA PARCIAL 50%,PRESENCIAL,,Noturno,***007078**,Masculino,Preta,31-10-1991,NÃO,SUDESTE,SP,NOVA ODESSA


In [7]:
df.update(df['NOME_CURSO_BOLSA'].fillna('Não Registrado'))
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177326 entries, 0 to 177325
Data columns (total 15 columns):
 #   Column                          Non-Null Count   Dtype 
---  ------                          --------------   ----- 
 0   ANO_CONCESSAO_BOLSA             177326 non-null  int64 
 1   CODIGO_EMEC_IES_BOLSA           177326 non-null  int64 
 2   NOME_IES_BOLSA                  177326 non-null  object
 3   TIPO_BOLSA                      177326 non-null  object
 4   MODALIDADE_ENSINO_BOLSA         177326 non-null  object
 5   NOME_CURSO_BOLSA                177326 non-null  object
 6   NOME_TURNO_CURSO_BOLSA          177326 non-null  object
 7   CPF_BENEFICIARIO_BOLSA          177326 non-null  object
 8   SEXO_BENEFICIARIO_BOLSA         177326 non-null  object
 9   RACA_BENEFICIARIO_BOLSA         177326 non-null  object
 10  DT_NASCIMENTO_BENEFICIARIO      177326 non-null  object
 11  BENEFICIARIO_DEFICIENTE_FISICO  177326 non-null  object
 12  REGIAO_BENEFICIARIO_BOLSA     

### Analisando as Colunas:

#### REGIAO_BENEFICIARIO_BOLSA, SIGLA_UF_BENEFICIARIO_BOLSA e MUNICIPIO_BENEFICIARIO_BOLSA


- 1º: será atribuído o valor 'Não Registrado' nas linhas vazias de cada coluna;


- 2º: Após a análise do df e com o intuito de minimizar esses registros, vê-se a possibilidade de substituição dos valores nas colunas: REGIAO_BENEFICIARIO_BOLSA e SIGLA_UF_BENEFICIARIO_BOLSA

-> essa substituição terá como base os Código das IE's ou os Nomes das IE's

-> a substituição ocorrerá somente para as IE's mais frequentes no dataframe


In [8]:
df['REGIAO_BENEFICIARIO_BOLSA'].fillna('Não Registrada', inplace = True) 
df['SIGLA_UF_BENEFICIARIO_BOLSA'].fillna('Não Registrada', inplace = True) 
df['MUNICIPIO_BENEFICIARIO_BOLSA'].fillna('Não Registrado', inplace = True)

In [9]:
df.loc[(df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada')].sample(10)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
54034,2013,673,CENTRO UNIVERSITÁRIO DA GRANDE DOURADOS,BOLSA PARCIAL 50%,PRESENCIAL,Direito,Noturno,***796581**,Masculino,Parda,01-06-1981,NÃO,Não Registrada,Não Registrada,Não Registrado
11261,2013,221,UNIVERSIDADE CRUZEIRO DO SUL,BOLSA INTEGRAL,PRESENCIAL,Enfermagem,Matutino,***710148**,Feminino,Branca,09-09-1995,NÃO,Não Registrada,Não Registrada,Não Registrado
30704,2013,671,UNIVERSIDADE ANHANGUERA - UNIDERP,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Serviço Social,Curso a distância,***556053**,Feminino,Parda,08-04-1985,NÃO,Não Registrada,Não Registrada,Não Registrado
7367,2013,221,UNIVERSIDADE CRUZEIRO DO SUL,BOLSA PARCIAL 50%,PRESENCIAL,Gestão De Recursos Humanos,Noturno,***804998**,Masculino,Parda,21-10-1994,NÃO,Não Registrada,Não Registrada,Não Registrado
11346,2013,221,UNIVERSIDADE CRUZEIRO DO SUL,BOLSA PARCIAL 50%,PRESENCIAL,Psicologia,Noturno,***328468**,Feminino,Branca,08-08-1948,NÃO,Não Registrada,Não Registrada,Não Registrado
11342,2013,221,UNIVERSIDADE CRUZEIRO DO SUL,BOLSA PARCIAL 50%,PRESENCIAL,Psicologia,Noturno,***325358**,Feminino,Parda,27-05-1983,NÃO,Não Registrada,Não Registrada,Não Registrado
86287,2013,1821,FACULDADE LIONS,BOLSA INTEGRAL,PRESENCIAL,Direito,Matutino,***058301**,Feminino,Parda,17-11-1993,NÃO,Não Registrada,Não Registrada,Não Registrado
46583,2013,221,UNIVERSIDADE CRUZEIRO DO SUL,BOLSA INTEGRAL,PRESENCIAL,Engenharia Civil,Matutino,***979548**,Masculino,Branca,17-03-1994,NÃO,Não Registrada,Não Registrada,Não Registrado
84843,2013,1821,FACULDADE LIONS,BOLSA INTEGRAL,PRESENCIAL,Direito,Noturno,***019441**,Masculino,Branca,01-07-1982,NÃO,Não Registrada,Não Registrada,Não Registrado
22480,2013,671,UNIVERSIDADE ANHANGUERA - UNIDERP,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Administração,Curso a distância,***257208**,Masculino,Branca,29-05-1977,NÃO,Não Registrada,Não Registrada,Não Registrado


In [10]:
#df.loc[(df['NOME_IES_BOLSA'] == 'FACULDADE LIONS') & (df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada')].count()

In [11]:
#df.loc[(df['NOME_IES_BOLSA'] == 'FACULDADE LIONS')].count()

In [12]:
#df.loc[(df['NOME_IES_BOLSA'] == 'FACULDADE LIONS')].sample(20)

### Substituição dos valores nas colunas REGIAO_BENEFICIARIO_BOLSA e SIGLA_UF_BENEFICIARIO_BOLSA

In [13]:
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 221) & (df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'REGIAO_BENEFICIARIO_BOLSA'] = 'SUDESTE'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 1821) & (df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'REGIAO_BENEFICIARIO_BOLSA'] = 'CENTRO-OESTE'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 673) & (df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'REGIAO_BENEFICIARIO_BOLSA'] = 'CENTRO-OESTE'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 1317) & (df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'REGIAO_BENEFICIARIO_BOLSA'] = 'SUDESTE'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 5550) & (df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'REGIAO_BENEFICIARIO_BOLSA'] = 'CENTRO-OESTE'

In [14]:
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 221) & (df['SIGLA_UF_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'SIGLA_UF_BENEFICIARIO_BOLSA'] = 'SP'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 1821) & (df['SIGLA_UF_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'SIGLA_UF_BENEFICIARIO_BOLSA'] = 'GO'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 673) & (df['SIGLA_UF_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'SIGLA_UF_BENEFICIARIO_BOLSA'] = 'MS'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 1317) & (df['SIGLA_UF_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'SIGLA_UF_BENEFICIARIO_BOLSA'] = 'SP'
df.loc[(df['CODIGO_EMEC_IES_BOLSA'] == 5550) & (df['SIGLA_UF_BENEFICIARIO_BOLSA'] == 'Não Registrada'), 'SIGLA_UF_BENEFICIARIO_BOLSA'] = 'GO'

In [15]:
df.loc[(df['REGIAO_BENEFICIARIO_BOLSA'] == 'Não Registrada')].count()

ANO_CONCESSAO_BOLSA               33
CODIGO_EMEC_IES_BOLSA             33
NOME_IES_BOLSA                    33
TIPO_BOLSA                        33
MODALIDADE_ENSINO_BOLSA           33
NOME_CURSO_BOLSA                  33
NOME_TURNO_CURSO_BOLSA            33
CPF_BENEFICIARIO_BOLSA            33
SEXO_BENEFICIARIO_BOLSA           33
RACA_BENEFICIARIO_BOLSA           33
DT_NASCIMENTO_BENEFICIARIO        33
BENEFICIARIO_DEFICIENTE_FISICO    33
REGIAO_BENEFICIARIO_BOLSA         33
SIGLA_UF_BENEFICIARIO_BOLSA       33
MUNICIPIO_BENEFICIARIO_BOLSA      33
dtype: int64

### Excluindo as Colunas CPF_BENEFICIARIO_BOLSA e MUNICIPIO_BENEFICIARIO_BOLSA

In [16]:
df.drop(['CPF_BENEFICIARIO_BOLSA','MUNICIPIO_BENEFICIARIO_BOLSA'] , axis=1, inplace = True)

### Renomeando Colunas

In [17]:
df.columns

Index(['ANO_CONCESSAO_BOLSA', 'CODIGO_EMEC_IES_BOLSA', 'NOME_IES_BOLSA',
       'TIPO_BOLSA', 'MODALIDADE_ENSINO_BOLSA', 'NOME_CURSO_BOLSA',
       'NOME_TURNO_CURSO_BOLSA', 'SEXO_BENEFICIARIO_BOLSA',
       'RACA_BENEFICIARIO_BOLSA', 'DT_NASCIMENTO_BENEFICIARIO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO_BOLSA',
       'SIGLA_UF_BENEFICIARIO_BOLSA'],
      dtype='object')

In [18]:
df.rename(columns = {'ANO_CONCESSAO_BOLSA':'ANO_CONCESSAO', 
                     'CODIGO_EMEC_IES_BOLSA':'CODIGO_IES', 
                     'NOME_IES_BOLSA':'NOME_IES', 
                     'MODALIDADE_ENSINO_BOLSA':'MODALIDADE_ENSINO', 
                     'NOME_CURSO_BOLSA':'NOME_CURSO'}, inplace = True)

In [19]:
df.rename(columns = {'NOME_TURNO_CURSO_BOLSA':'TURNO_CURSO', 
                     'SEXO_BENEFICIARIO_BOLSA':'SEXO_BENEFICIARIO', 
                     'RACA_BENEFICIARIO_BOLSA':'RACA_BENEFICIARIO', 
                     'REGIAO_BENEFICIARIO_BOLSA':'REGIAO_BENEFICIARIO', 
                     'SIGLA_UF_BENEFICIARIO_BOLSA':'UF_BENEFICIARIO', 
                     'DT_NASCIMENTO_BENEFICIARIO':'ANO_NASCIMENTO_BENEFICIARIO'}, inplace = True)

In [20]:
df.sample(10)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
68113,2013,3371,CENTRO UNIVERSITÁRIO DE PATOS DE MINAS,BOLSA INTEGRAL,PRESENCIAL,Letras,Noturno,Feminino,Branca,17-02-1995,NÃO,SUDESTE,MG
146326,2013,1043,CENTRO UNIVERSITÁRIO HERMINIO OMETTO,BOLSA PARCIAL 50%,PRESENCIAL,Engenharia Da Computação,Integral,Masculino,Branca,31-08-1995,NÃO,SUDESTE,SP
150082,2013,1456,FACULDADE ANHANGUERA DE SERTÃOZINHO,BOLSA INTEGRAL,PRESENCIAL,Administração,Noturno,Feminino,Parda,24-01-1994,NÃO,SUDESTE,SP
86739,2013,1388,FACULDADE SUMARÉ,BOLSA INTEGRAL,PRESENCIAL,Gestão Financeira,Noturno,Feminino,Branca,14-05-1984,NÃO,SUDESTE,SP
129154,2013,1552,FACULDADE PIAUIENSE,BOLSA PARCIAL 50%,PRESENCIAL,Psicologia,Noturno,Masculino,Branca,02-01-1996,NÃO,NORDESTE,PI
151179,2013,2409,CENTRO UNIVERSITÁRIO TABOSA DE ALMEIDA,BOLSA INTEGRAL,PRESENCIAL,Direito,Noturno,Masculino,Parda,02-02-1995,NÃO,NORDESTE,PE
144452,2013,916,FACULDADE ESTÁCIO DE TERESINA,BOLSA INTEGRAL,PRESENCIAL,Administração,Noturno,Masculino,Parda,10-01-1990,NÃO,NORDESTE,MA
24927,2013,1270,CENTRO UNIVERSITÁRIO ESTÁCIO DE RIBEIRÃO PRETO,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Gestão De Recursos Humanos,Curso a distância,Feminino,Amarela,01-12-1963,NÃO,SUDESTE,MG
5894,2013,1878,CENTRO UNIVERSITÁRIO DA FUNDAÇÃO EDUCACIONAL I...,BOLSA INTEGRAL,PRESENCIAL,Administração,Noturno,Feminino,Branca,05-06-1981,NÃO,SUDESTE,SP
157014,2013,3042,CHRISTUS FACULDADE DO PIAUÍ,BOLSA PARCIAL 50%,PRESENCIAL,Enfermagem,Vespertino,Masculino,Parda,16-12-1988,NÃO,NORDESTE,PI


### Descobrindo a idade aproximada* dos beneficiários

* é aproximada, pois o dataframe não menciona qual semestre do ano o beneficiário foi contemplado com a bolsa.

-> Criar uma nova coluna IDADE_APROX_BENEFICIARIO para calcular a idade aproximada deles

-> Alterar o formato da coluna DT_NASCIMENTO_BENEFICIARIO Para %Y

-> Calcular com base na coluna ANO_CONCESSAO a idade aprox. do beneficiário

In [21]:
df['ANO_NASCIMENTO_BENEFICIARIO'] = pd.to_datetime(df['ANO_NASCIMENTO_BENEFICIARIO']).dt.year
print(df['ANO_NASCIMENTO_BENEFICIARIO'])

0         1992
1         1991
2         1987
3         1969
4         1995
          ... 
177321    1974
177322    1960
177323    1979
177324    1990
177325    1990
Name: ANO_NASCIMENTO_BENEFICIARIO, Length: 177326, dtype: int64


In [22]:
df.insert(loc=10, column='IDADE_APROX_BENEFICIARIO', value=10)

In [23]:
df.head(1)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2013,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA PARCIAL 50%,PRESENCIAL,Administração,Noturno,Feminino,Branca,1992,10,NÃO,SUL,RS


In [24]:
df['IDADE_APROX_BENEFICIARIO'] = df['ANO_CONCESSAO'] - df['ANO_NASCIMENTO_BENEFICIARIO']
df.sample(5)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
56719,2013,528,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JAN...,BOLSA INTEGRAL,PRESENCIAL,Arquitetura E Urbanismo,Integral,Feminino,Branca,1994,19,NÃO,SUDESTE,RJ
32339,2013,338,PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS,BOLSA INTEGRAL,PRESENCIAL,Nutrição,Noturno,Feminino,Branca,1985,28,NÃO,SUDESTE,MG
79184,2013,671,UNIVERSIDADE ANHANGUERA - UNIDERP,BOLSA INTEGRAL,PRESENCIAL,Direito,Noturno,Masculino,Branca,1973,40,NÃO,CENTRO-OESTE,MS
84773,2013,295,UNIVERSIDADE DE SANTA CRUZ DO SUL,BOLSA INTEGRAL,PRESENCIAL,Engenharia Ambiental,Noturno,Feminino,Branca,1993,20,NÃO,SUL,RS
107566,2013,322,UNIVERSIDADE PAULISTA,BOLSA INTEGRAL,PRESENCIAL,Enfermagem,Matutino,Feminino,Parda,1994,19,NÃO,SUDESTE,SP


###  Criando intervalos em que se agrupam pessoas de idade aproximada


-> Criar uma nova coluna FAIXA_ETA_BENEFICIARIO

-> Popular a coluna seguindo os seguintes critérios:

    Menos de 18 anos
    De 18 a 24 anos
    De 24 a 30 anos
    De 30 a 36 anos
    De 36 a 48 anos
    De 48 a 60 anos
    Mais de 60 anos
    


In [25]:
df.insert(loc=11, column='FAIXA_ETA_BENEFICIARIO', value='Idade')

In [26]:
df.head()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2013,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA PARCIAL 50%,PRESENCIAL,Administração,Noturno,Feminino,Branca,1992,21,Idade,NÃO,SUL,RS
1,2013,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA INTEGRAL,PRESENCIAL,Educação Física,Noturno,Masculino,Branca,1991,22,Idade,NÃO,SUL,RS
2,2013,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA PARCIAL 50%,PRESENCIAL,Educação Física,Noturno,Masculino,Branca,1987,26,Idade,NÃO,SUL,RS
3,2013,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Biológicas,Noturno,Feminino,Branca,1969,44,Idade,NÃO,SUL,RS
4,2013,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA INTEGRAL,PRESENCIAL,Ciências Biológicas,Noturno,Feminino,Branca,1995,18,Idade,NÃO,SUL,RS


In [27]:
for i in range(len (df)): 
    if (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] > 0) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 18):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Menos de 18 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 18) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 24):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 18 a 24 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 24) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 30):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 24 a 30 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 30) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 36):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 30 a 36 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 36) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 48):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 36 a 48 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 48) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 60):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 48 a 60 anos'
    
    else:
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Mais de 60 anos'

In [28]:
df.sample()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2013,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA PARCIAL 50%,PRESENCIAL,Administração,Noturno,Feminino,Branca,1992,21,De 18 a 24 anos,NÃO,SUL,RS
1,2013,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA INTEGRAL,PRESENCIAL,Educação Física,Noturno,Masculino,Branca,1991,22,De 18 a 24 anos,NÃO,SUL,RS
2,2013,20,UNIVERSIDADE DE PASSO FUNDO,BOLSA PARCIAL 50%,PRESENCIAL,Educação Física,Noturno,Masculino,Branca,1987,26,De 24 a 30 anos,NÃO,SUL,RS
3,2013,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA PARCIAL 50%,PRESENCIAL,Ciências Biológicas,Noturno,Feminino,Branca,1969,44,De 36 a 48 anos,NÃO,SUL,RS
4,2013,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA INTEGRAL,PRESENCIAL,Ciências Biológicas,Noturno,Feminino,Branca,1995,18,De 18 a 24 anos,NÃO,SUL,RS


# Analisando os dados

### Tipos de bolsas

In [29]:
df['TIPO_BOLSA'].value_counts()

BOLSA INTEGRAL       134571
BOLSA PARCIAL 50%     42755
Name: TIPO_BOLSA, dtype: int64

### Modalidade de ensino

In [30]:
df['MODALIDADE_ENSINO'].value_counts()

PRESENCIAL              136701
EDUCAÇÃO A DISTÂNCIA     40625
Name: MODALIDADE_ENSINO, dtype: int64

### Top 10 - Cursos

In [31]:
df['NOME_CURSO'].value_counts().head(10)

Administração                 22654
Direito                       15122
Pedagogia                     12889
Ciências Contábeis            10825
Gestão De Recursos Humanos     7712
Engenharia Civil               6056
Enfermagem                     5863
Serviço Social                 5304
Educação Física                4869
Psicologia                     4241
Name: NOME_CURSO, dtype: int64

### Turno predominante

In [32]:
df['TURNO_CURSO'].value_counts().head(6)

Noturno              98759
Curso a distância    40625
Matutino             29230
Integral              4525
Vespertino            4187
Name: TURNO_CURSO, dtype: int64

### Sexo dos beneficiários

In [33]:
df['SEXO_BENEFICIARIO'].value_counts()

Feminino     96502
Masculino    80824
Name: SEXO_BENEFICIARIO, dtype: int64

### Raça dos beneficiários

In [34]:
df['RACA_BENEFICIARIO'].value_counts().head(6)

Branca           76905
Parda            75177
Preta            22055
Amarela           2959
Indígena           149
Não Informada       81
Name: RACA_BENEFICIARIO, dtype: int64

### Faixa etária dos beneficiários

In [35]:
df['FAIXA_ETA_BENEFICIARIO'].value_counts()

De 18 a 24 anos     104535
De 24 a 30 anos      37190
De 30 a 36 anos      18071
De 36 a 48 anos      12838
Menos de 18 anos      2331
De 48 a 60 anos       2226
Mais de 60 anos        135
Name: FAIXA_ETA_BENEFICIARIO, dtype: int64

###  Beneficiários deficientes físicos

In [36]:
df['BENEFICIARIO_DEFICIENTE_FISICO'].value_counts()

NÃO    175934
SIM      1392
Name: BENEFICIARIO_DEFICIENTE_FISICO, dtype: int64

### Região x Bolsas

In [37]:
df['REGIAO_BENEFICIARIO'].value_counts()

SUDESTE           87372
SUL               31836
NORDESTE          29327
CENTRO-OESTE      17242
NORTE             11516
Não Registrada       33
Name: REGIAO_BENEFICIARIO, dtype: int64

### Top 5 -  UF's x Bolsas

In [38]:
df['UF_BENEFICIARIO'].value_counts().head()

SP    50805
MG    22743
RS    12821
PR    12304
RJ    10605
Name: UF_BENEFICIARIO, dtype: int64

### Top 10 - IE's x Bolsas

In [39]:
df['NOME_IES'].value_counts().head(10)

UNIVERSIDADE PITÁGORAS UNOPAR                       15626
UNIVERSIDADE PAULISTA                                9071
UNIVERSIDADE ANHANGUERA - UNIDERP                    8506
UNIVERSIDADE ESTÁCIO DE SÁ                           5552
UNIVERSIDADE SÃO JUDAS TADEU                         3947
UNIVERSIDADE NOVE DE JULHO                           3774
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS     3663
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI               3096
CENTRO UNIVERSITÁRIO ESTÁCIO DE RIBEIRÃO PRETO       2623
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ           2018
Name: NOME_IES, dtype: int64

## Criando um novo arquivo csv

In [40]:
novo_df = df

In [42]:
novo_df.to_csv('N_Datasets/Novo_Prouni2013.csv', sep=';', encoding = 'ISO-8859-1', index = False)