# Análise de Dados - Prouni 2019

Conjunto de dados que apresenta as bolsas concedidas e o perfil dos beneficiários do ProUni de 2019.

Os dados são disponibilizados pelo Site Dados Abertos (http://dadosabertos.mec.gov.br/prouni), em arquivo CSV.

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('datasets/pda-prouni-2019.csv', sep=';', encoding='utf-8')

## Conhecendo o dataframe

In [2]:
df.sample(5)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
107679,2019.0,20.0,UNIVERSIDADE DE PASSO FUNDO,BOLSA INTEGRAL,Presencial,Psicologia,Noturno,***04719066**,F,Branca,17/08/2000,N,Sul,RS,CARAZINHO
149082,2019.0,1472.0,CENTRO UNIVERSITÁRIO LEONARDO DA VINCI,BOLSA INTEGRAL,EAD,Pedagogia,Curso a distância,***39950067**,F,Branca,30/08/1986,N,Sul,RS,PORTO ALEGRE
200430,2019.0,338.0,PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS,BOLSA PARCIAL 50%,Presencial,Publicidade E Propaganda,Matutino,***33177612**,F,Branca,26/06/1996,N,Sudeste,MG,POCOS DE CALDAS
95920,2019.0,374.0,CENTRO UNIVERSITÁRIO DAS FACULDADES METROPOLIT...,BOLSA INTEGRAL,Presencial,Ciências Sociais,Matutino,***84543802**,F,Branca,07/07/2000,N,Sudeste,SP,SAO PAULO
75317,2019.0,1917.0,FACULDADE DE CIÊNCIAS BIOMÉDICAS DE CACOAL,BOLSA INTEGRAL,Presencial,Medicina Veterinária,Noturno,***03581705**,F,Branca,07/02/1999,N,Norte,RO,CACOAL


In [3]:
df.shape 

(241032, 15)

In [4]:
df.dtypes

ANO_CONCESSAO_BOLSA               float64
CODIGO_EMEC_IES_BOLSA             float64
NOME_IES_BOLSA                     object
TIPO_BOLSA                         object
MODALIDADE_ENSINO_BOLSA            object
NOME_CURSO_BOLSA                   object
NOME_TURNO_CURSO_BOLSA             object
CPF_BENEFICIARIO_BOLSA             object
SEXO_BENEFICIARIO_BOLSA            object
RACA_BENEFICIARIO_BOLSA            object
DT_NASCIMENTO_BENEFICIARIO         object
BENEFICIARIO_DEFICIENTE_FISICO     object
REGIAO_BENEFICIARIO_BOLSA          object
SIGLA_UF_BENEFICIARIO_BOLSA        object
MUNICIPIO_BENEFICIARIO_BOLSA       object
dtype: object

In [5]:
df.isnull().sum()

ANO_CONCESSAO_BOLSA               15477
CODIGO_EMEC_IES_BOLSA             15477
NOME_IES_BOLSA                    15477
TIPO_BOLSA                        15477
MODALIDADE_ENSINO_BOLSA           15477
NOME_CURSO_BOLSA                  15477
NOME_TURNO_CURSO_BOLSA            15477
CPF_BENEFICIARIO_BOLSA            15477
SEXO_BENEFICIARIO_BOLSA           15477
RACA_BENEFICIARIO_BOLSA           15477
DT_NASCIMENTO_BENEFICIARIO        15477
BENEFICIARIO_DEFICIENTE_FISICO    15477
REGIAO_BENEFICIARIO_BOLSA         15477
SIGLA_UF_BENEFICIARIO_BOLSA       15477
MUNICIPIO_BENEFICIARIO_BOLSA      15477
dtype: int64

###  Analisando e excluindo os dados nulos 

In [6]:
df.isnull()

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
0,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
241027,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
241028,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
241029,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
241030,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True


In [7]:
df = df.dropna()

In [8]:
df.shape

(225555, 15)

### Mudando os tipos de 3 colunas

In [9]:
df['ANO_CONCESSAO_BOLSA'] = df['ANO_CONCESSAO_BOLSA'].astype(np.int64)

In [10]:
df['CODIGO_EMEC_IES_BOLSA'] = df['CODIGO_EMEC_IES_BOLSA'].astype(np.int64)

In [11]:
df['DT_NASCIMENTO_BENEFICIARIO'] = pd.to_datetime(df['DT_NASCIMENTO_BENEFICIARIO']).dt.year
print(df['DT_NASCIMENTO_BENEFICIARIO'])

0         1993
1         1999
2         1999
3         2000
4         1993
          ... 
225550    2001
225551    2001
225552    1992
225553    1996
225554    1985
Name: DT_NASCIMENTO_BENEFICIARIO, Length: 225555, dtype: int64


In [12]:
df.dtypes

ANO_CONCESSAO_BOLSA                int64
CODIGO_EMEC_IES_BOLSA              int64
NOME_IES_BOLSA                    object
TIPO_BOLSA                        object
MODALIDADE_ENSINO_BOLSA           object
NOME_CURSO_BOLSA                  object
NOME_TURNO_CURSO_BOLSA            object
CPF_BENEFICIARIO_BOLSA            object
SEXO_BENEFICIARIO_BOLSA           object
RACA_BENEFICIARIO_BOLSA           object
DT_NASCIMENTO_BENEFICIARIO         int64
BENEFICIARIO_DEFICIENTE_FISICO    object
REGIAO_BENEFICIARIO_BOLSA         object
SIGLA_UF_BENEFICIARIO_BOLSA       object
MUNICIPIO_BENEFICIARIO_BOLSA      object
dtype: object

### Excluindo aas Colunas CPF_BENEFICIARIO_BOLS e MUNICIPIO_BENEFICIARIO_BOLSA

In [13]:
df.drop(['CPF_BENEFICIARIO_BOLSA','MUNICIPIO_BENEFICIARIO_BOLSA'] , axis=1, inplace = True)

In [14]:
df.sample(3)

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA
14522,2019,163,UNIVERSIDADE ESTÁCIO DE SÁ,BOLSA INTEGRAL,Presencial,Educação Física,Matutino,F,Preta,2000,N,Sudeste,RJ
9088,2019,137,CENTRO UNIVERSITÁRIO SAGRADO CORAÇÃO,BOLSA INTEGRAL,Presencial,Design,Noturno,M,Branca,2001,N,Sudeste,SP
113261,2019,221,UNIVERSIDADE CRUZEIRO DO SUL,BOLSA INTEGRAL,Presencial,Química,Noturno,F,Branca,2001,N,Sudeste,SP


### Renomeando Colunas

In [15]:
df.columns

Index(['ANO_CONCESSAO_BOLSA', 'CODIGO_EMEC_IES_BOLSA', 'NOME_IES_BOLSA',
       'TIPO_BOLSA', 'MODALIDADE_ENSINO_BOLSA', 'NOME_CURSO_BOLSA',
       'NOME_TURNO_CURSO_BOLSA', 'SEXO_BENEFICIARIO_BOLSA',
       'RACA_BENEFICIARIO_BOLSA', 'DT_NASCIMENTO_BENEFICIARIO',
       'BENEFICIARIO_DEFICIENTE_FISICO', 'REGIAO_BENEFICIARIO_BOLSA',
       'SIGLA_UF_BENEFICIARIO_BOLSA'],
      dtype='object')

In [16]:
df.rename(columns = {'ANO_CONCESSAO_BOLSA':'ANO_CONCESSAO', 
                     'CODIGO_EMEC_IES_BOLSA':'CODIGO_IES', 
                     'NOME_IES_BOLSA':'NOME_IES', 
                     'MODALIDADE_ENSINO_BOLSA':'MODALIDADE_ENSINO', 
                     'NOME_CURSO_BOLSA':'NOME_CURSO'}, inplace = True)

In [17]:
df.rename(columns = {'NOME_TURNO_CURSO_BOLSA':'TURNO_CURSO', 
                     'SEXO_BENEFICIARIO_BOLSA':'SEXO_BENEFICIARIO', 
                     'RACA_BENEFICIARIO_BOLSA':'RACA_BENEFICIARIO', 
                     'REGIAO_BENEFICIARIO_BOLSA':'REGIAO_BENEFICIARIO', 
                     'SIGLA_UF_BENEFICIARIO_BOLSA':'UF_BENEFICIARIO', 
                     'DT_NASCIMENTO_BENEFICIARIO':'ANO_NASCIMENTO_BENEFICIARIO'}, inplace = True)

In [18]:
df.sample(3)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
65980,2019,1491,CENTRO UNIVERSITÁRIO INTERNACIONAL,BOLSA PARCIAL 50%,EAD,Logística,Curso a distância,M,Branca,1993,N,Sudeste,SP
14927,2019,213,CENTRO UNIVERSITÁRIO ÁLVARES PENTEADO,BOLSA PARCIAL 50%,Presencial,Administração,Noturno,F,Branca,1994,N,Sudeste,SP
47750,2019,823,UNIVERSIDADE CEUMA,BOLSA PARCIAL 50%,Presencial,Direito,Vespertino,M,Parda,1998,N,Nordeste,MA


### Renomeando variáveis

In [19]:
df.loc[(df['MODALIDADE_ENSINO'] == 'EAD'), 'MODALIDADE_ENSINO'] = 'EDUCAÇÃO A DISTÂNCIA'
df.loc[(df['MODALIDADE_ENSINO'] == 'Presencial'), 'MODALIDADE_ENSINO'] = 'PRESENCIAL'
df.loc[(df['SEXO_BENEFICIARIO'] == 'M'), 'SEXO_BENEFICIARIO'] = 'Masculino'
df.loc[(df['SEXO_BENEFICIARIO'] == 'F'), 'SEXO_BENEFICIARIO'] = 'Feminino'
df.loc[(df['BENEFICIARIO_DEFICIENTE_FISICO'] == 'S'), 'BENEFICIARIO_DEFICIENTE_FISICO'] = 'SIM'
df.loc[(df['BENEFICIARIO_DEFICIENTE_FISICO'] == 'N'), 'BENEFICIARIO_DEFICIENTE_FISICO'] = 'NÃO'

### Tranformando letras minúsculas em letras maiúsculas 

In [20]:
df['REGIAO_BENEFICIARIO'] = df['REGIAO_BENEFICIARIO'].str.upper()

### Descobrindo a idade aproximada* dos beneficiários

* é aproximada, pois o dataframe não menciona qual semestre do ano o beneficiário foi contemplado pela bolsa.

-> Criar uma nova coluna IDADE_APROX_BENEFICIARIO para calcular a idade aproximada deles

-> Alterar o formato da coluna DT_NASCIMENTO_BENEFICIARIO Para Y

-> Calcular com base na coluna ANO_CONCESSAO a idade aproximada do beneficiário

In [21]:
df.insert(loc=10, column='IDADE_APROX_BENEFICIARIO', value=10)

In [22]:
df.head(1)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2019,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Administração,Curso a distância,Masculino,Branca,1993,10,NÃO,SUL,PR


In [23]:
df['IDADE_APROX_BENEFICIARIO'] = df['ANO_CONCESSAO'] - df['ANO_NASCIMENTO_BENEFICIARIO']
df.sample(5)

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
136054,2019,1087,CENTRO UNIVERSITÁRIO APARÍCIO CARVALHO,BOLSA PARCIAL 50%,PRESENCIAL,Psicologia,Noturno,Feminino,Parda,1968,51,NÃO,NORTE,RO
219926,2019,4450,CENTRO UNIVERSITÁRIO METROPOLITANO DA AMAZÔNIA,BOLSA PARCIAL 50%,PRESENCIAL,Radiologia,Noturno,Masculino,Parda,1996,23,NÃO,NORTE,PA
172298,2019,2571,CENTRO UNIVERSITÁRIO REDENTOR,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Letras,Curso a distância,Feminino,Parda,1974,45,NÃO,SUDESTE,RJ
42215,2019,521,UNIVERSIDADE DE MOGI DAS CRUZES,BOLSA INTEGRAL,PRESENCIAL,Ciências Biológicas,Matutino,Feminino,Branca,2001,18,NÃO,SUDESTE,SP
171051,2019,2150,FACULDADE DO PIAUÍ,BOLSA INTEGRAL,PRESENCIAL,Direito,Matutino,Masculino,Parda,1997,22,NÃO,NORDESTE,PI


### Criando intervalos em que se agrupam pessoas de idade aproximada

-> Criar uma nova coluna FAIXA_ETA_BENEFICIARIO

-> Popular a coluna seguindo os seguintes critérios:

    Menos de 18 anos
    De 18 a 24 anos
    De 24 a 30 anos
    De 30 a 36 anos
    De 36 a 48 anos
    De 48 a 60 anos
    Mais de 60 anos

In [24]:
df.insert(loc=11, column='FAIXA_ETA_BENEFICIARIO', value='Idade')

In [25]:
df.head()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
0,2019,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Administração,Curso a distância,Masculino,Branca,1993,26,Idade,NÃO,SUL,PR
1,2019,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Administração,Curso a distância,Feminino,Branca,1999,20,Idade,NÃO,SUL,PR
2,2019,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Análise E Desenvolvimento De Sistemas,Curso a distância,Masculino,Parda,1999,20,Idade,NÃO,SUL,PR
3,2019,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Análise E Desenvolvimento De Sistemas,Curso a distância,Masculino,Branca,2000,19,Idade,NÃO,SUL,PR
4,2019,10,PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Análise E Desenvolvimento De Sistemas,Curso a distância,Masculino,Branca,1993,26,Idade,NÃO,SUL,PR


In [26]:
for i in range(len (df)): 
    if (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] > 0) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 18):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Menos de 18 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 18) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 24):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 18 a 24 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 24) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 30):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 24 a 30 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 30) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 36):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 30 a 36 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 36) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 48):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 36 a 48 anos'
    
    elif (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] >= 48) & (df.loc[i, 'IDADE_APROX_BENEFICIARIO'] < 60):
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'De 48 a 60 anos'
    
    else:
        df.loc[i, 'FAIXA_ETA_BENEFICIARIO'] = 'Mais de 60 anos'

In [27]:
df.sample()

Unnamed: 0,ANO_CONCESSAO,CODIGO_IES,NOME_IES,TIPO_BOLSA,MODALIDADE_ENSINO,NOME_CURSO,TURNO_CURSO,SEXO_BENEFICIARIO,RACA_BENEFICIARIO,ANO_NASCIMENTO_BENEFICIARIO,IDADE_APROX_BENEFICIARIO,FAIXA_ETA_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO,UF_BENEFICIARIO
29559,2019,322,UNIVERSIDADE PAULISTA,BOLSA INTEGRAL,EDUCAÇÃO A DISTÂNCIA,Serviço Social,Curso a distância,Feminino,Parda,1996,23,De 18 a 24 anos,NÃO,CENTRO-OESTE,MT


# Análise os dados

### Tipos de Bolsas

In [28]:
df['TIPO_BOLSA'].value_counts()

BOLSA INTEGRAL       167807
BOLSA PARCIAL 50%     57748
Name: TIPO_BOLSA, dtype: int64

### Modalidade de ensino

In [29]:
df['MODALIDADE_ENSINO'].value_counts()#.plot.bar()

PRESENCIAL              158305
EDUCAÇÃO A DISTÂNCIA     67250
Name: MODALIDADE_ENSINO, dtype: int64

###  Top 10 - Cursos

In [30]:
df['NOME_CURSO'].value_counts().head(10)

Administração                 18884
Pedagogia                     17076
Direito                       16983
Ciências Contábeis            11337
Enfermagem                     9293
Educação Física                9230
Psicologia                     7140
Gestão De Recursos Humanos     6048
Engenharia Civil               5966
Fisioterapia                   5518
Name: NOME_CURSO, dtype: int64

### Turno predominante

In [31]:
df['TURNO_CURSO'].value_counts()

Noturno              105792
Curso a distância     67250
Matutino              40931
Integral               6302
Vespertino             5280
Name: TURNO_CURSO, dtype: int64

### Sexo dos beneficiários

In [32]:
df['SEXO_BENEFICIARIO'].value_counts()

Feminino     131368
Masculino     94187
Name: SEXO_BENEFICIARIO, dtype: int64

### Raça dos beneficiários

In [33]:
df['RACA_BENEFICIARIO'].value_counts()

Parda            105705
Branca            86375
Preta             29456
Amarela            3817
Indígena            197
Não Informada         5
Name: RACA_BENEFICIARIO, dtype: int64

### Faixa etária dos Beneficiários

In [34]:
df['FAIXA_ETA_BENEFICIARIO'].value_counts()

De 18 a 24 anos     152902
De 24 a 30 anos      38623
De 30 a 36 anos      16647
De 36 a 48 anos      13172
De 48 a 60 anos       2378
Menos de 18 anos      1659
Mais de 60 anos        174
Name: FAIXA_ETA_BENEFICIARIO, dtype: int64

### Beneficiários deficientes físicos

In [35]:
df['BENEFICIARIO_DEFICIENTE_FISICO'].value_counts()

NÃO    223931
SIM      1624
Name: BENEFICIARIO_DEFICIENTE_FISICO, dtype: int64

### Região x Bolsas

In [36]:
df['REGIAO_BENEFICIARIO'].value_counts()

SUDESTE         104102
NORDESTE         48545
SUL              34388
NORTE            19289
CENTRO-OESTE     19231
Name: REGIAO_BENEFICIARIO, dtype: int64

### Top 5 bolsas - UF's x Bolsas

In [37]:
df['UF_BENEFICIARIO'].value_counts().head()

SP    59441
MG    26372
PR    15195
BA    14172
RJ    12945
Name: UF_BENEFICIARIO, dtype: int64

### Top 10 - IE's xBolsas

In [38]:
df['NOME_IES'].value_counts().head(10)

UNIVERSIDADE PAULISTA                               36618
CENTRO UNIVERSITÁRIO INTERNACIONAL                   8598
UNIVERSIDADE ESTÁCIO DE SÁ                           7009
CENTRO UNIVERSITÁRIO LEONARDO DA VINCI               5344
UNIVERSIDADE PITÁGORAS UNOPAR                        4864
UNIVERSIDADE NOVE DE JULHO                           4446
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS     4342
UNIVERSIDADE CEUMA                                   3267
UNIVERSIDADE ANHANGUERA                              2866
CENTRO UNIVERSITÁRIO DE MARINGÁ - UNICESUMAR         2810
Name: NOME_IES, dtype: int64

## Criando novo arquivo csv

In [39]:
novo_df = df

In [40]:
novo_df.to_csv('N_Datasets/Novo_Prouni2019.csv', sep=';', encoding='utf-8', index = False)