### Original data: https://dadosabertos.mec.gov.br/prouni

### Importing Packages

In [2]:
import os
import pandas as pd
import numpy as np
import glob
import time

### Setting working directory

In [3]:
os.chdir(r'/Users/lucaspb/git-repositories/portfolio-projects/python/basedosdados/bases/br_mec_prouni.bolsas')

### Setting parameters for renaming and reordering of columns

In [213]:
rename = {'ANO_CONCESSAO_BOLSA':'ano', 
          'ï»¿ANO_CONCESSAO_BOLSA':'ano',
          '´╗┐ANO_CONCESSAO_BOLSA':'ano',
          'UF_BENEFICIARIO':'sigla_uf',
          'SIGLA_UF_BENEFICIARIO_BOLSA':'sigla_uf',
          'MUNICIPIO_BENEFICIARIO':'id_municipio',
          'MUNICIPIO_BENEFICIARIO_BOLSA':'id_municipio',
          'CPF_BENEFICIARIO':'cpf',
          'CPF_BENEFICIARIO_BOLSA':'cpf',
          'SEXO_BENEFICIARIO':'sexo',
          'SEXO_BENEFICIARIO_BOLSA':'sexo',
          'RACA_BENEFICIARIO':'raca_cor',
          'RACA_BENEFICIARIO_BOLSA':'raca_cor',
          'DATA_NASCIMENTO':'data_nascimento',
          'DT_NASCIMENTO_BENEFICIARIO':'data_nascimento',
          'BENEFICIARIO_DEFICIENTE_FISICO':'beneficiario_deficiente',
          'CODIGO_EMEC_IES_BOLSA':'id_ies',
          'CAMPUS':'campus',
          'MUNICIPIO':'id_municipio_ies',
          'NOME_CURSO_BOLSA':'curso',
          'NOME_TURNO_CURSO_BOLSA':'turno_curso',
          'TIPO_BOLSA':'tipo_bolsa',
          'MODALIDADE_ENSINO_BOLSA':'modalidade_ensino' }

ordem2020 = ['ano', 'sigla_uf', 'id_municipio', 'cpf', 'sexo', 'raca_cor', 'data_nascimento',
         'beneficiario_deficiente', 'id_ies', 'campus', 'id_municipio_ies', 'curso', 'turno_curso', 'tipo_bolsa', 'modalidade_ensino']

### Settings parameters for partitioning the output in the end

In [5]:
anos = [2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020]

ufs = ['AC', 'AL', 'AM', 'AP', 'BA', 'CE', 'DF', 'ES', 'GO', 'MA', 'MG', 'MS', 'MT', 
       'PA', 'PB', 'PE', 'PI', 'PR', 'RJ', 'RN', 'RO', 'RR', 'RS', 'SC', 'SE', 'SP', 'TO']

### Creating folders for output partitioning

In [261]:
for ano in anos:
  for uf in ufs:
    directory = 'output/ano={}/sigla_uf={}'.format(ano, uf)
    if not os.path.exists(directory):
      os.makedirs(directory)

#### Getting CSV files list from my folder
##### 2017,2018 and 2019 are in another encoding format

In [139]:
path1 = 'input/1'
path2 = 'input/2'
csv_files1 = glob.glob(path1 + "/*.csv")
csv_files2 = glob.glob(path2 + "/*.csv")

In [140]:
print(csv_files1)

['input/1/pda-prouni-2009.csv', 'input/1/pda-prouni-2008.csv', 'input/1/pda-prouni-2016.csv', 'input/1/pda-prouni-2014.csv', 'input/1/pda-prouni-2015.csv', 'input/1/pda-prouni-2005.csv', 'input/1/pda-prouni-2011.csv', 'input/1/pda-prouni-2010.csv', 'input/1/pda-prouni-2012.csv', 'input/1/pda-prouni-2006.csv', 'input/1/pda-prouni-2007.csv', 'input/1/pda-prouni-2013.csv']


In [9]:
print(csv_files2)

['input/2/pda-prouni-2020.csv', 'input/2/pda-prouni-2018.csv', 'input/2/pda-prouni-2019.csv', 'input/2/pda-prouni-2017.csv']


### Reading into a list of dataframes

In [143]:
dfs = [pd.read_csv(file, sep=";", encoding='latin-1', header=0) for file in csv_files1]
dfs2 = [pd.read_csv(file, sep=";", encoding='utf-8', header=0) for file in csv_files2]

In [144]:
dfs.extend(dfs2)

In [104]:
dfs[0].head()

Unnamed: 0,ANO_CONCESSAO_BOLSA,CODIGO_EMEC_IES_BOLSA,NOME_IES_BOLSA,TIPO_BOLSA,MODALIDADE_ENSINO_BOLSA,NOME_CURSO_BOLSA,NOME_TURNO_CURSO_BOLSA,CPF_BENEFICIARIO_BOLSA,SEXO_BENEFICIARIO_BOLSA,RACA_BENEFICIARIO_BOLSA,DT_NASCIMENTO_BENEFICIARIO,BENEFICIARIO_DEFICIENTE_FISICO,REGIAO_BENEFICIARIO_BOLSA,SIGLA_UF_BENEFICIARIO_BOLSA,MUNICIPIO_BENEFICIARIO_BOLSA
0,2009,298,UNIVERSIDADE PITÁGORAS UNOPAR,BOLSA INTEGRAL,PRESENCIAL,Educação Física,Noturno,***955619**,Feminino,Parda,29/01/1987,NÃO,SUL,PR,ARAPONGAS
1,2009,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA INTEGRAL,PRESENCIAL,Matemática,Noturno,***902850**,Feminino,Branca,15/02/1991,NÃO,SUL,RS,FREDERICO WESTPHALEN
2,2009,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA PARCIAL 50%,PRESENCIAL,Direito,Noturno,***391530**,Masculino,Branca,10/04/1981,NÃO,SUL,RS,ERECHIM
3,2009,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA PARCIAL 50%,PRESENCIAL,Serviço Social,Noturno,***518590**,Feminino,Branca,23/07/1991,NÃO,SUL,RS,FREDERICO WESTPHALEN
4,2009,423,UNIVERSIDADE REGIONAL INTEGRADA DO ALTO URUGUA...,BOLSA INTEGRAL,PRESENCIAL,Direito,Noturno,***381750**,Feminino,Parda,31/01/1990,NÃO,SUL,RS,FREDERICO WESTPHALEN


Checking all years because column was being deleted

In [156]:
list_ano = []

for i in range(len(dfs)):
    list_ano.append(int(dfs[i].iloc[0, 0]))

list_ano.sort()
print(list_ano)

[2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020]


This could be made into one bit dataframe, but I've decided not to go on this route
prounidata = pd.concat(dfs,ignore_index=True)

## Cleaning data

In [157]:
for df in dfs:
    df.rename(columns=rename, inplace=True)
    df.drop(['NOME_IES_BOLSA', 'REGIAO_BENEFICIARIO_BOLSA', 'REGIAO_BENEFICIARIO'], errors='ignore', axis=1, inplace=True)
    df['sexo'] = df['sexo'].str.upper().replace({'FEMININO':'F', 'MASCULINO':'M'})
    df['sexo'] = df['sexo'].replace({'F':'1', 'M':'2'})
    df['raca_cor'] = df['raca_cor'].str.upper().replace({'AMARELA':'1', 'BRANCA':'2', 'INDÍGENA':'3', 'PARDA':'4', 'PRETA':'5', 'NÃO INFORMADA':'6'})
    df['beneficiario_deficiente'] = df['beneficiario_deficiente'].str.upper().replace({'SIM':'1', 'NÃO':'0'})
    df['beneficiario_deficiente'] = df['beneficiario_deficiente'].str.upper().replace({'S':'1', 'N':'0'})
    df['turno_curso'] = df['turno_curso'].str.upper().replace({'MATUTINO':'1', 'VESPERTINO':'2', 'NOTURNO':'3', 'INTEGRAL':'4', 'CURSO A DISTÂNCIA':'5'})
    df['tipo_bolsa'] = df['tipo_bolsa'].str.upper().replace({'BOLSA INTEGRAL':'1', 'BOLSA PARCIAL 50%':'2', 'BOLSA COMPLEMENTAR 25%':'3'})
    df['tipo_bolsa'] = df['tipo_bolsa'].str.upper().replace({'INTEGRAL':'1', 'PARCIAL':'2'})
    df['modalidade_ensino'] = df['modalidade_ensino'].str.upper().replace({'PRESENCIAL':'1', 'EDUCAÇÃO A DISTÂNCIA':'2', 'EAD':'2'})
    df['data_nascimento'] = pd.to_datetime(df['data_nascimento'], errors='coerce')
    df['data_nascimento'] = df['data_nascimento'].dt.strftime('%Y-%m-%d')

In [158]:
for df in dfs:
    df['turno_curso'] = df['turno_curso'].str.upper().replace({'CURSO A DISTÃ¢NCIA':'5'})
    df['turno_curso'] = df['turno_curso'].str.upper().replace({'CURSO A DISTÃ¢NCIA':'5'})
    df['turno_curso'] = df['turno_curso'].str.upper().replace({'CURSO A DISTNCIA':'5'})
    df['raca_cor'] = df['raca_cor'].str.upper().replace({'IND¡GENA':'3', 'NÆO INFORMADA':'6'})
    df['raca_cor'] = df['raca_cor'].str.upper().replace({'INDÃ­GENA':'3', 'NÃ£O INFORMADA':'6'})

### Setting up to replace counties names for its unique id

#### Importing dataframe with counties and unique ids

In [160]:
id_mcp = pd.read_csv(r'/Users/lucaspb/git-repositories/portfolio-projects/python/basedosdados/assets/dir_municipio_uf.csv', sep=',', dtype='string', header=0)

#### Normalizing names

##### Upper Case

In [162]:
id_mcp = id_mcp.applymap(lambda s: s.upper() if type(s) == str else s)

In [163]:
for df in dfs:
    ano = int(df.iloc[0, 0])
    if ano != 2020:
        df['id_municipio'] = df['id_municipio'].apply(lambda s: s.upper() if type(s) == str else s)
    if ano == 2020: 
        df['id_municipio'] = df['id_municipio'].apply(lambda s: s.upper() if type(s) == str else s)
        df['id_municipio_ies'] = df['id_municipio_ies'].apply(lambda s: s.upper() if type(s) == str else s)

In [259]:
for df in dfs:
        df['curso'] = df['curso'].apply(lambda s: s.upper() if type(s) == str else s)
        df['campus'] = df['campus'].apply(lambda s: s.upper() if type(s) == str else s)
        df['cpf'] = df['cpf'].apply(lambda s: s.replace('X', '*') if type(s) == str else s)

In [260]:
dfs[12].head(3)

Unnamed: 0,ano,sigla_uf,id_municipio,cpf,sexo,raca_cor,data_nascimento,beneficiario_deficiente,id_ies,campus,nome_municipio_ies,curso,turno_curso,tipo_bolsa,modalidade_ensino
0,2020,MG,3127701,991.***.***-91,1,4,1973-11-08,0,322,IPATINGA,IPATINGA,PEDAGOGIA,5,1,2
1,2020,CE,2304400,067.***.***-01,2,4,1987-05-13,0,163,EAD VIA CORPVS - CE,FORTALEZA,MARKETING,5,1,2
2,2020,CE,2308500,623.***.***-27,2,4,2001-07-23,0,17670,FACULDADE DE QUIXERAMOBIM - UNIQ,QUIXERAMOBIM,FARMACIA,3,1,1


##### Removing accentuation

In [165]:
cols = id_mcp.select_dtypes(include=[np.object]).columns
id_mcp[cols] = id_mcp[cols].apply(lambda x: x.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
id_mcp['nome'] = id_mcp['nome'].apply(lambda x: x.replace("‘", ' ').replace("’", ' ').replace("'", ' ').replace('"', ' ').replace('`', ' ').replace('-', ' '))
id_mcp['nome'] = id_mcp['nome'].apply(lambda x: x.replace("SANT ANA DO LIVRAMENTO", 'SANTANA DO LIVRAMENTO'))

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  cols = id_mcp.select_dtypes(include=[np.object]).columns


In [166]:
for df in dfs:
    ano = int(df.iloc[0, 0])
    if ano != 2020:
        cols = df.select_dtypes(include=[np.object]).columns
        df[cols] = df[cols].apply(lambda x: x.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
        df['id_municipio'] = df['id_municipio'].apply(lambda x: x.replace("‘", ' ').replace("’", ' ').replace("'", ' ').replace('"', ' ').replace('`', ' ').replace('-', ' ') if type(x) == str else x)
    if ano == 2020: 
        cols = df.select_dtypes(include=[np.object]).columns
        df[cols] = df[cols].apply(lambda x: x.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8'))
        df['id_municipio'] = df['id_municipio'].apply(lambda x: x.replace("‘", ' ').replace("’", ' ').replace("'", ' ').replace('"', ' ').replace('`', ' ').replace('-', ' ') if type(x) == str else x)
        df['id_municipio_ies'] = df['id_municipio_ies'].apply(lambda x: x.replace("‘", ' ').replace("’", ' ').replace("'", ' ').replace('"', ' ').replace('`', ' ').replace('-', ' ') if type(x) == str else x)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  cols = df.select_dtypes(include=[np.object]).columns
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  cols = df.select_dtypes(include=[np.object]).columns


##### Fixing specific problems

In [168]:
for df in dfs:
    ano = int(df.iloc[0, 0])
    if ano != 2020:
        df['id_municipio'] = df['id_municipio'].apply(lambda x: x.replace("EMBU", 'EMBU DAS ARTES') if type(x) == str else x)
    if ano == 2020: 
        df['id_municipio'] = df['id_municipio'].apply(lambda x: x.replace("EMBU", 'EMBU DAS ARTES') if type(x) == str else x)
        df['id_municipio_ies'] = df['id_municipio_ies'].apply(lambda x: x.replace("EMBU", 'EMBU DAS ARTES') if type(x) == str else x)

##### Replacing counties names for its unique id

In [170]:
for i in range(len(dfs)):
    dfs[i] = pd.merge(id_mcp, dfs[i],
                    how='right', left_on=['sigla_uf', 'nome'], right_on=['sigla_uf', 'id_municipio'])

##### Reordering columns

In [194]:
for i in range(len(dfs)):
    ano = int(dfs[i].iloc[0, 3])
    if ano != 2020:
        dfs[i].rename(columns={'id_municipio_x':'id_municipio'}, inplace=True)
        dfs[i] = pd.concat([dfs[i],pd.DataFrame(columns=['campus', 'id_municipio_ies'])])
    if ano == 2020:
        dfs[i].rename(columns={'id_municipio_x':'id_municipio'}, inplace=True)

In [217]:
for i in range(len(dfs)):
    dfs[i] = dfs[i][ordem2020]

In [227]:
dfs[12].head(5)

Unnamed: 0,ano,sigla_uf,id_municipio,cpf,sexo,raca_cor,data_nascimento,beneficiario_deficiente,id_ies,campus,id_municipio_ies,curso,turno_curso,tipo_bolsa,modalidade_ensino
0,2020,MG,3127701,991.XXX.XXX-91,1,4,1973-11-08,0,322,IPATINGA,IPATINGA,PEDAGOGIA,5,1,2
1,2020,CE,2304400,067.XXX.XXX-01,2,4,1987-05-13,0,163,EAD VIA CORPVS - CE,FORTALEZA,MARKETING,5,1,2
2,2020,CE,2308500,623.XXX.XXX-27,2,4,2001-07-23,0,17670,FACULDADE DE QUIXERAMOBIM - UNIQ,QUIXERAMOBIM,FARMACIA,3,1,1
3,2020,BA,2913101,089.XXX.XXX-40,1,2,2003-04-04,0,203,PAULISTA,SAO PAULO,DIREITO,1,2,1
4,2020,SP,3550308,173.XXX.XXX-09,1,2,1977-07-12,0,203,PAULISTA,SAO PAULO,DIREITO,1,1,1


In [228]:
list_ano = []

for i in range(len(dfs)):
    list_ano.append(int(dfs[i].iloc[0, 0]))

list_ano.sort()
print(list_ano)

[2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020]


Now I would merge the id_municipio_ies with the table id_mcp to replace each name of municipio_ies for its id, but in order to do that, I need the sigla_uf which was provided by MEC just for the person and not the institution. I've tried to use id_ies to to that, but we have the same institution (with the same ID) running on different cities. 

Since its not possible to merge, I'll rename id_municipio_ies to nome_municipio_ies

In [237]:
for i in range(len(dfs)):
    dfs[i].rename(columns={'id_municipio_ies':'nome_municipio_ies'}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().rename(


#### Checking for duplicates and Droping it

In [230]:
for i in range(len(dfs)):
    print(len(dfs[i])-len(dfs[i].drop_duplicates()))

120
62
307
213
285
40
119
124
108
33
41
127
109
3155
17997
3198


Wow, one year has 17k duplicates!

In [233]:
dfs[14].head(3)

Unnamed: 0,ano,sigla_uf,id_municipio,cpf,sexo,raca_cor,data_nascimento,beneficiario_deficiente,id_ies,campus,id_municipio_ies,curso,turno_curso,tipo_bolsa,modalidade_ensino
0,2019.0,PR,4113700,***03183970**,2,2,1993-08-19,0,10.0,,,Administracao,5,1,2
1,2019.0,PR,4125506,***92848904**,1,2,1999-03-11,0,10.0,,,Administracao,5,1,2
2,2019.0,PR,4120804,***12457929**,2,4,1999-02-04,0,10.0,,,Analise E Desenvolvimento De Sistemas,5,1,2


In [234]:
for i in range(len(dfs)):
    dfs[i].drop_duplicates(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dfs[i].drop_duplicates(inplace=True)


In [235]:
for i in range(len(dfs)):
    print(len(dfs[i])-len(dfs[i].drop_duplicates()))

0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0


In [246]:
dfs[1].head(3)

Unnamed: 0,ano,sigla_uf,id_municipio,cpf,sexo,raca_cor,data_nascimento,beneficiario_deficiente,id_ies,campus,nome_municipio_ies,curso,turno_curso,tipo_bolsa,modalidade_ensino
0,2008.0,PR,4101507,***716009**,2,2,1985-06-03,0,298.0,,,Educacao Fisica,3,1,1
1,2008.0,RS,4317509,***218090**,2,2,1982-08-09,0,423.0,,,Enfermagem,4,1,1
2,2008.0,RS,4307005,***113910**,2,2,1986-12-03,0,423.0,,,Direito,1,1,1


### Saving partitioned data into specific folders

In [262]:
for df in dfs:
    ano = int(df.iloc[0, 0])
    print("Particionando ano {}".format(ano))
    for uf in ufs:
        print("Particionando {} de {}".format(uf, ano))
        df_uf = df[df['sigla_uf'] == uf]
        df_uf.drop(['ano', 'sigla_uf'], axis=1, inplace=True)
        exec("df_uf.to_csv('output/ano={}/sigla_uf={}/microdados.csv', index=False, encoding='utf-8', na_rep='', float_format='%.0f')".format(ano, uf))


Particionando ano 2009
Particionando AC de 2009
Particionando AL de 2009
Particionando AM de 2009
Particionando AP de 2009
Particionando BA de 2009


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Particionando CE de 2009
Particionando DF de 2009
Particionando ES de 2009
Particionando GO de 2009
Particionando MA de 2009
Particionando MG de 2009
Particionando MS de 2009
Particionando MT de 2009
Particionando PA de 2009
Particionando PB de 2009
Particionando PE de 2009
Particionando PI de 2009
Particionando PR de 2009
Particionando RJ de 2009
Particionando RN de 2009
Particionando RO de 2009
Particionando RR de 2009
Particionando RS de 2009
Particionando SC de 2009
Particionando SE de 2009
Particionando SP de 2009
Particionando TO de 2009
Particionando ano 2008
Particionando AC de 2008
Particionando AL de 2008
Particionando AM de 2008
Particionando AP de 2008
Particionando BA de 2008
Particionando CE de 2008
Particionando DF de 2008
Particionando ES de 2008
Particionando GO de 2008
Particionando MA de 2008
Particionando MG de 2008
Particionando MS de 2008
Particionando MT de 2008
Particionando PA de 2008
Particionando PB de 2008
Particionando PE de 2008
Particionando PI de 2008
Pa