# Dinheiro gasto em obras da UFRN em licitações de 2018

O presente notebook trata-se de um exemplo de como utilizar os dados baixados do pacote `odufrn-downloader`. Nesse exemplo em questão analisamos o dataset sobre as licitações de obras aprovadas em 2018 pela Universidade Federal do Rio Grande do Norte (UFNR). 

Clique [aqui](http://dados.ufrn.br/dataset/obras/resource/067e7cad-934c-4134-a5d5-807915c074b4) para ver o dataset utilizado nesse notbook.




# Instalando o pacote odufrn_downloader

Através do gerenciador de pacote `pip` podemos efetuar o download do `odufrn_downloader`. 



In [1]:
!pip install odufrn_downloader



# Dependencias

- [Pandas](https://pandas.pydata.org/): é um pacote que fornece estruturas de dados de alto desempenho e fáceis de usar, além de conter ferramentas de análise de dados.

- [Open Data UFRN Downloader](https://github.com/odufrn/odufrn-downloader): é um pacote utilizado para facilitar a aquisição dos dados abertos da UFRN.

In [0]:
import pandas as pd
from odufrn_downloader import ODUFRNDownloader

# Dataset

Utilizamos a função download_package para executar o download do dataset de obras da UFRN.

Observe que também baixamos o `Dicionário de Dados - Obras`, documento responsável por conter os metadados e descrição sobre os dados baixados.

In [0]:
ufrn_data = ODUFRNDownloader()
ufrn_data.download_package('obras')

Baixando Obras...
Baixando Dicionário de Dados - Obras...


# Carregando os dados em um DataFrame com pandas

O pandas fornece ótimos instrumentos para manipular os dados desejados. Um desses instrumentos é o `read_csv`, permitindo a transformação do conjunto de dados csv em um `DataFrame`.

Argumentos usados na função:
* `error_bad_lines`: Evita que dados ilegíveis gerem erros na leitura do arquivo .csv;

* `sep`: Especifica qual o carctere responsável por separar os dados.


In [0]:
obras = pd.read_csv('obras/Obras.csv', error_bad_lines=False, sep=';')

# Pegando todos os valores das obras da UFRN no ano de 2018

Já que temos o DataFrame carregado na variável obras, temos agora que minerar os dados para separarmos apenas os desejados. Como estamos focando no ano de 2018, iremos na coluna `licitacao` verificar quais obras tem a string 2018 e retornar o valor para `obras_2018`. 

In [0]:
obras_2018 = obras[obras['licitacao'].str.contains('2018')]['valor']

# Tratando os dados selecionados

Infelizmente os valores das obras possuem "R$" antes da quantidade. Para podermos soma-los precisamos remover o sifrão e os espaços em branco, e após isso, transforma-los em tipo float.

In [0]:
# Removendo R$ e espaços dos dados selecionados
obras_2018 = obras_2018.str.replace('R', '').str.replace('$', '').str.strip()
# Substituindo vígula por ponto para converter para float
obras_2018 = obras_2018.str.replace('.', '').str.replace(',', '.')
# Transformando os dados de string para float
obras_2018 = obras_2018.astype(float)

# Efetuando a soma e mostrando o resultado

In [0]:
'O gasto da UFRN para obras em 2018 foi: R$ ' + '{0:.2f}'.format(obras_2018.sum())

'O gasto da UFRN para obras em 2018 foi: R$ 5710198.14'