# **UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE**

## **INSTITUTO METRÓPOLE DIGITAL**

### **CIÊNCIA DE DADOS**

DOCENETE: DANIEL SABINO

DISCENTES: EDUARDA CHIESA E SIDNEY ALVES

### Importação das bibliotecas e carregamento da base de dados

In [44]:
import matplotlib.pyplot as plt
import numpy as np
import os
import pandas as pd

In [45]:
diretorio = './Base_Dados'
arquivos = os.listdir(diretorio)
arquivos.sort()

print(f'Quantidade de arquivos: {len(arquivos)}')
print('Listagem dos arquivos:')

for arquivo in arquivos:
    print('\t', arquivo)

Quantidade de arquivos: 22
Listagem dos arquivos:
	 investimentos_cnpq_2002.csv
	 investimentos_cnpq_2003.csv
	 investimentos_cnpq_2004.csv
	 investimentos_cnpq_2005.csv
	 investimentos_cnpq_2006.csv
	 investimentos_cnpq_2007.csv
	 investimentos_cnpq_2008.csv
	 investimentos_cnpq_2009.csv
	 investimentos_cnpq_2010.csv
	 investimentos_cnpq_2011.csv
	 investimentos_cnpq_2012.csv
	 investimentos_cnpq_2013.csv
	 investimentos_cnpq_2014.csv
	 investimentos_cnpq_2015.csv
	 investimentos_cnpq_2016.csv
	 investimentos_cnpq_2017.csv
	 investimentos_cnpq_2018.csv
	 investimentos_cnpq_2019.csv
	 investimentos_cnpq_2020.csv
	 investimentos_cnpq_2021.csv
	 investimentos_cnpq_2022.csv
	 investimentos_cnpq_2023.csv


Como a base de dados está separada em vários arquivos diferentes, há à necessidade de unir os dados em um único dataset.

In [46]:
lista_df = []

for arquivo in arquivos:

    caminho = os.path.join(diretorio,arquivos[0])

    if arquivos is not None:
        try:
            df = pd.read_csv(caminho, encoding='latin-1')
            lista_df.append(df)
        except UnicodeDecodeError as err:
            print(f'Erro de codificação do arquivo: {err}')
        except Exception as err:
            print(f'Erro: {err}')

dataset = pd.concat(lista_df, ignore_index=True)

print(f'Quantidade de arquivos utilizados para gerar o dataset: {len(lista_df)} arquivos totalizando {len(dataset)} registros')

Quantidade de arquivos utilizados para gerar o dataset: 22 arquivos totalizando 476674 registros


Uma primeira observação sobre os dados.

In [47]:
dataset.head()

Unnamed: 0,Ano Referência,Processo,Beneficiário,Linha de Fomento,Modalidade,Categoria/Nível,Nome Chamada,Programa CNPq,Grande Área,Área,...,Instituição Origem,Sigla UF Origem,País Origem,Instituição Destino,Sigla Instituição Destino,Sigla Instituição Macro,Cidade Destino,Sigla UF Destino,País Destino,Valor Pago
0,2002,130942/2000-6,Abad Oliveira Souza Júnior,Bolsas de Mestrado,GM - Mestrado,,,Programa Básico de Geociências: Geofísica e Ge...,Ciências Exatas e da Terra,Geociências,...,,,-,Universidade de São Paulo,USP,USP,São Paulo,SP,BRA - Brasil,144904
1,2002,131008/2001-3,Abel Batista de Oliveira,Bolsas de Mestrado,GM - Mestrado,,,PROGRAMA BASICO DE AGRONOMIA,Ciências Agrárias,Agronomia,...,,,-,Universidade Federal Rural de Pernambuco,UFRPE,UFRPE,Recife,PE,BRA - Brasil,72452
2,2002,131008/2001-3,Abel Batista de Oliveira,Bolsas de Mestrado,GM - Mestrado,,Cotas do Programa de Pós-Graduação,PROGRAMA BASICO DE AGRONOMIA,Ciências Agrárias,Agronomia,...,,,-,Universidade Federal Rural de Pernambuco,UFRPE,UFRPE,Recife,PE,BRA - Brasil,144904
3,2002,132920/2002-6,Abel Bemvenuti,Bolsas de Mestrado,GM - Mestrado,,Cotas do Programa de Pós-Graduação,PROGRAMA BASICO DE BIOFISICA,Ciências Biológicas,Biofísica,...,,,-,Universidade Federal do Rio de Janeiro,UFRJ,UFRJ,Rio de Janeiro,RJ,BRA - Brasil,36226
4,2002,141578/2002-5,Abel Guilhermino da Silva Filho,Bolsas de Doutorado,GD - Doutorado,,Cotas do Programa de Pós-Graduação,PROGRAMA BASICO DE CIENCIA DA COMPUTACAO,Ciências Exatas e da Terra,Ciência da Computação,...,,,-,Universidade Federal de Pernambuco,UFPE,UFPE,Recife,PE,BRA - Brasil,536445


## Pré processamento dos dados

Verificando os tipos de dados no dataset.

In [48]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 476674 entries, 0 to 476673
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype 
---  ------                     --------------   ----- 
 0   Ano Referência             476674 non-null  int64 
 1   Processo                   476674 non-null  object
 2   Beneficiário               476674 non-null  object
 3   Linha de Fomento           476674 non-null  object
 4   Modalidade                 476674 non-null  object
 5   Categoria/Nível            140866 non-null  object
 6   Nome Chamada               284394 non-null  object
 7   Programa CNPq              476674 non-null  object
 8   Grande Área                476674 non-null  object
 9   Área                       475904 non-null  object
 10  Subárea                    476674 non-null  object
 11  Instituição Origem         131604 non-null  object
 12  Sigla UF Origem            126786 non-null  object
 13  País Origem                476674 non-null  

É observado que o *Ano Referência* está sendo considerado como *int64*, diferente do *Valor Pago* que deveria ser um *float*.

Antes de realizar a conversão, há a necessidade de substituir o separador das casas decimais de uma `,` para um `.`.

Também é interessante utilizar um *int32*, no caso um inteiro menor para o armazenamento.

In [49]:
dataset['Valor Pago'] = dataset['Valor Pago'].map(lambda x : str(x).replace(',','.'))
dataset['Valor Pago'] = dataset['Valor Pago'].astype(np.float32)

In [50]:
dataset['Ano Referência'] = dataset['Ano Referência'].astype(np.float32)

In [51]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 476674 entries, 0 to 476673
Data columns (total 21 columns):
 #   Column                     Non-Null Count   Dtype  
---  ------                     --------------   -----  
 0   Ano Referência             476674 non-null  float32
 1   Processo                   476674 non-null  object 
 2   Beneficiário               476674 non-null  object 
 3   Linha de Fomento           476674 non-null  object 
 4   Modalidade                 476674 non-null  object 
 5   Categoria/Nível            140866 non-null  object 
 6   Nome Chamada               284394 non-null  object 
 7   Programa CNPq              476674 non-null  object 
 8   Grande Área                476674 non-null  object 
 9   Área                       475904 non-null  object 
 10  Subárea                    476674 non-null  object 
 11  Instituição Origem         131604 non-null  object 
 12  Sigla UF Origem            126786 non-null  object 
 13  País Origem                47

Podemos observar também que *Categoria/Nivel* possui uma quantidade elevada de dados faltantes. 
Essa falta de informação pode ser dada na relação entre *Categoria/Nivel* e *Modalidade*, que de acordo com a
[Tabela de Valores de Bolsas no País](https://www.gov.br/cnpq/pt-br/acesso-a-informacao/bolsas-e-auxilios/copy_of_modalidades/tabela-de-valores-no-pais), ambas são referentes uma a outra, assim durante a coleta dos dados, pode ter sido uma opção informar a *Modalidade* como prioridade.

Há duas opções para esse problema:
1. Remover os dados faltantes e reduzir a base de dados em aproximadamente 70.4%.
2. Remover a coluna, uma vez que ela é similar a outra coluna com dados.

Os dados referentes há *Nome Chamada* são do tipo de programa (exemplo: PIBIC), más há o campo *Programa CNPq*. É interessante possuir algo relacionado ao programa, para conhecermos um pouco mais sobre os programas relacionado as *Áreas* em determinadas regiões. Más como *Nome Chamada* possui um pouco mais que 50% dos registros, fica a escolha manter ou remover o campo.

Em relação a *Instituição Origem* e *Sigla UF Origem*, ambos podem ser removidos, pois a análise se dá às regiões a que as bolsas e auxílios são destinados.