# Programming Project - Unit 3
*by Débora Azevedo, Eliseu Jayro, Francisco de Paiva and Igor Brandão*

**Goals**
The purpose of this project is explore the following:

- Access Health Graph API - Runkeeper content;
- Geolocation analysis and hypotheses should be explained in detail;

<hr>

# Global Imports section

Import the necessary libraries to handle 

- File input;
- Tqdm progress bar
- Requests;
- urlopen;
- HTTPError;

In [1]:
### Library necessary to run this IPython Notebook
!pip install tqdm
!pip install tabulate
!pip install pandas-datareader



In [2]:
# Import pandas
import pandas as pd

# Import numpy library
import numpy as np

# Import tqdm progressing bar plugin
from tqdm import tqdm

# Import API libraries
import json
from pandas.io.json import json_normalize

# Imports to output the result as a Markdown
from IPython.display import display, Markdown
from tabulate import tabulate

<hr>

# I - Data reading

## Several dataSets retrieving

#### In the cell bellow, we perform a scanner in the list of dataSets and read the one's that we need.

In [3]:
# Define the dataSets list
data_files = [
    "obras.csv",
    "requisicaoobras.csv",
]

# Define the dataSets path
data_path = "dataSets/"

# Declare the variable to keep all the data combined
data = {}

# Iterate through all dataSets
for f in data_files:
    # Perform the individual import of each dataSet separated by ";"
    d = pd.read_csv((data_path + "{0}").format(f), delimiter=";")
    
    # Define the key_name according to the dataSet filename
    key_name = f.replace(".csv", "")
    
    # Apply the data to the key
    data[key_name] = d
    
    # Print the imported dataSet shape (rows x cols)
    print(d.shape)
    
# Note: To access the dataSet within data{} variable
# you need to perform the following: data['key_name'].head()
# where key_name = the real name of the dataSet, i.e: obras

(846, 14)
(6530, 12)


In [49]:
data["obras"]

Unnamed: 0,id_obra,descricao,periodo,qtd_dias,status_obra,licitacao,empresa,modalidade,valor,fonte_recurso,vigencia_projeto,projeto,id_unidade_responsavel,unidade_responsavel
0,848,CONSTRUÇÃO DO SETOR DE ANTIBIÓTICOS PRODUÇÃO D...,02/06/2005 - 29/01/2006,240,FINALIZADA,4/2004,03.722.669/0001-85 - CONSTRUTORA CAGEO LTDA,CONCORRÊNCIA,"R$ 1.561.230,93",TESOURO - EDUCAÇÃO (112000000),0,0,252.0,NUCLEO DE PESQUISA EM ALIMENTOS E MEDICAMENTOS
1,521,CONSTRUÇÃO DO BLOCO A1 DO SETOR DE AULAS TEÓRI...,04/05/2005 - 30/12/2005,240,FINALIZADA,7/2004,03.166.687/0001-28 - CRS-CONSTRUÇÕES E EMPREE...,CONCORRÊNCIA,"R$ 833.702,12",0,20/04/2005 - 20/11/2005,19O ENECIC/2005 (852005),0.0,0
2,493,CONSTRUÇÃO DO BLOCO H DO SETOR DE AULAS TEÓRIC...,23/03/2005 - 19/11/2005,240,FINALIZADA,6/2004,03.166.687/0001-28 - CRS-CONSTRUÇÕES E EMPREE...,CONCORRÊNCIA,"R$ 829.454,21",0,0,0,0.0,0
3,925,Complementação da 2ª Etapa e Realização da 3ª ...,28/01/2005 - 22/01/2006,360,FINALIZADA,2/2004,40.761.454/0001-08 - AR PROJETOS & CONSTRUÇÕE...,CONCORRÊNCIA,"R$ 814.550,74",0,20/12/2002 - 31/07/2007,UFRN/CONV.133/02 - HUOL (862003),446.0,HOSPITAL UNIVERSITÁRIO ONOFRE LOPES
4,478,CONSTRUÇÃO DO BLOCO H DO SETOR DE AULAS TEÓRIC...,23/03/2005 - 19/11/2005,240,FINALIZADA,5/2004,03.166.687/0001-28 - CRS-CONSTRUÇÕES E EMPREE...,CONCORRÊNCIA,"R$ 847.582,26",APLICACOES FINANCEIRAS (280154215),0,0,0.0,0
5,185,CONSTRUÇÃO DO NOVO SETOR DE INTERNAMENTO DO HU...,07/03/2006 - 31/12/2006,300,FINALIZADA,3/2005,01.694.415/0001-75 - HASTE-HABITAÇÃO E SERVIÇ...,CONCORRÊNCIA,"R$ 4.900.000,00",0,28/12/2004 - 31/12/2009,CONVENIO 120/04 MELHORIA DA INFRA ESTRUTURA DO...,0.0,0
6,182,CONSTRUÇÃO DO DEPARTAMENTO DE FISIOTERAPIA - CCS,08/02/2006 - 02/02/2007,360,FINALIZADA,1/2005,01.694.415/0001-75 - HASTE-HABITAÇÃO E SERVIÇ...,CONCORRÊNCIA,"R$ 1.455.865,61",0,20/12/2004 - 30/03/2010,CONVENIO 121/2004 UFRN (732005),446.0,HOSPITAL UNIVERSITÁRIO ONOFRE LOPES
7,282,ADAPTAÇÃO DE AMBIENTES DE ENSINO NO HOSPITAL U...,11/09/2006 - 08/05/2007,240,FINALIZADA,1/2006,04.145.787/0001-30 - ECCL - EMPREENDIMENTOS E...,CONCORRÊNCIA,"R$ 1.153.423,68",0,20/12/2005 - 31/12/2011,FUNPEC/UFRN/CONV. 134/2005 - EMENDA PARLAMENTA...,446.0,HOSPITAL UNIVERSITÁRIO ONOFRE LOPES
8,5778,COMPLEMENTAÇÃO DA CONSTRUÇÃO DA 1ª ETAPA DO PA...,05/03/2010 - 02/08/2010,150,FINALIZADA,3/2007,04.145.787/0001-30 - ECCL - EMPREENDIMENTOS E...,CONCORRÊNCIA,"R$ 967.866,36",0,20/12/2005 - 31/12/2011,FUNPEC/UFRN/CONV. 134/2005 - EMENDA PARLAMENTA...,441.0,CENTRO DE CIÊNCIAS DA SAÚDE
9,2419,CONSTRUÇÃO DO PAVILHÃO ACADÊMICO DO CAMPUS AVA...,10/08/2007 - 04/06/2008,300,FINALIZADA,2/2007,04.201.519/0001-99 - ESTRUTURAL EDIFICAÇÕES E...,CONCORRÊNCIA,"R$ 1.248.942,91",0,23/01/2006 - 23/06/2010,FINEP/REDE 01 GEOFISICA DA EXPLORACAO/FASE 2 -...,1646.0,CAMPUS AVANÇADO DE SANTA CRUZ


In [50]:
data["requisicaoobras"]

Unnamed: 0,numero,ano,id_unidade_requisitante,nome_unidade_requisitante,id_unidade_custo,nome_unidade_custo,data_envio,descricao,local,observacoes,status,processo
0,7051,2018,52,DEPARTAMENTO DE ENGENHARIA CIVIL,52,DEPARTAMENTO DE ENGENHARIA CIVIL,19/09/2018,Novo dimensionamento de extintores de incêndio...,prédio do LARHISA.,0,AUTORIZADA PARA INFRA,0
1,7050,2018,1463,RESIDENCIAS UNIVERSITÁRIAS,1463,RESIDENCIAS UNIVERSITÁRIAS,19/09/2018,Solicitamos por gentileza a revisão geral na r...,Residência Universitária Biomédica.,0,PENDENTE AUTORIZAÇÃO CHEFE UNIDADE,0
2,7007,2018,8031,PROAD - DIRETORIA DE GESTÃO DA INFORMAÇÃO,1422,PRÓ-REITORIA DE ADMINISTRAÇÃO (PROAD),18/09/2018,De acordo com o Relatório de Inspeção de Segur...,ARQUIVO GERAL,0,AUTORIZADA PARA INFRA,0
3,6934,2018,20,SUPERINTENDÊNCIA DE INFRAESTRUTURA,9160,MANUTENÇÃO E CONSERVAÇÃO DA INFRA-ESTRUTURA FÍ...,14/09/2018,RECUPERAÇÃO ESTRUTURAL DA CAPELA ECUMÊNICA DO ...,CAPELA ECUMÊNICA DO CAMPUS CENTRAL,"RDC 11/2018 - R$ 95.436,38",FINALIZADA_ATENDIMENTO,0
4,6763,2018,62,ADMINISTRAÇÃO DO CERES - CURRAIS NOVOS,9170,MANUTENÇÃO DA REDE ELÉTRICA,10/09/2018,SERVIÇOS DE ILUMINAÇÃO DO ESTACIONAMENTO DO CE...,ESTACIONAMENTO DO CERES - CURRAIS NOVOS/RN,"RDC 12/2018 - R$ 111.444,99",FINALIZADA_ATENDIMENTO,0
5,6664,2018,5279,INSTITUTO INTERNACIONAL DE FÍSICA,5279,INSTITUTO INTERNACIONAL DE FÍSICA,04/09/2018,"Solicitamos um estudo de viabilidade, localiza...",Instituto Internacional de Física,0,PENDENTE AUTORIZAÇÃO CHEFE UNIDADE,0
6,6642,2018,119,ADMINISTRAÇÃO DO CCET,119,ADMINISTRAÇÃO DO CCET,03/09/2018,POR ORIENTAÇÃO DOS RESPONSÁVEIS QUE COMPARECER...,PRÉDIO-ADMINISTRATIVO DO CCET E PRÉDIO DOS ANF...,0,ATENDIDA,23077.57226/2018-21
7,6547,2018,6069,INSTITUTO METROPOLE DIGITAL,6069,INSTITUTO METROPOLE DIGITAL,30/08/2018,LIMPEZA E REVITALIZAÇÃO DO PISO EM GRANILITE B...,PRÉDIO DO NPITI - CAMPUS CENTRAL/UFRN,"RDC 11/2018 - R$ 10.200,00",FINALIZADA_ATENDIMENTO,0
8,6158,2018,205,ESCOLA DE SAÚDE,205,ESCOLA DE SAÚDE,17/08/2018,"Construção de 06 salas de 35m2, incluindo as s...",Pavimentos do prédio da ampliação da Escola de...,Os recursos serão da Unidade Orçamentária da E...,PENDENTE AUTORIZAÇÃO CHEFE UNIDADE,0
9,6116,2018,117,DEPARTAMENTO DE ANÁLISES CLÍNICAS E TOXICOLÓGICAS,441,CENTRO DE CIÊNCIAS DA SAÚDE,16/08/2018,"DE ACORDO COM O PROCESSO 048782/2018-15, PAREC...",Departamento de Análises Clínicas e Toxicológi...,0,ATENDIDA,23077.52479/2018-17


# II - Data handling

## Clear the data

### In this section, we perform a study of the data structure and remove missing values

In [10]:
# Describe the data composition
print(data["obras"].describe())

            id_obra     qtd_dias  id_unidade_responsavel
count    846.000000   846.000000              473.000000
mean    6262.144208   185.213948              849.972516
std     3819.629983   141.308108             1065.292337
min        7.000000     5.000000                2.000000
25%     2995.000000    90.000000              439.000000
50%     5930.500000   150.500000              445.000000
75%     9626.750000   240.000000              605.000000
max    13278.000000  1306.000000             5391.000000


In [11]:
# Describe the data composition
print(data["requisicaoobras"].describe())

             numero          ano  id_unidade_requisitante  id_unidade_custo
count   6530.000000  6530.000000              6530.000000       6530.000000
mean    3505.611026  2010.970291              1020.679173       1131.929862
std     2386.890318     3.044476              1620.663383       1794.668259
min        1.000000  2005.000000                 2.000000          2.000000
25%     1503.250000  2009.000000               156.000000        184.000000
50%     3145.500000  2011.000000               349.000000        441.000000
75%     5350.500000  2013.000000              1431.000000       1431.000000
max    10168.000000  2018.000000             11104.000000      10560.000000


In [46]:
# Iterate through all dataSets
for dataSetName in data:
    # Access the dataSet object
    dataSet = data[dataSetName]
    
    # Print the format of each dataSet
    print(dataSetName)
    print(dataSet.shape)
    print('----------------')

obras
(846, 14)
----------------
requisicaoobras
(6530, 12)
----------------


## Replace Nan values with zero's

In [48]:
# Iterate through all dataSets
for dataSetName in data:
    # Access the dataSet object
    dataSet = data[dataSetName]
    
    # Iterate over each dataSet column
    for column in dataSet:
        # Mark zero values as missing or NaN
        dataSet[column] = dataSet[column].fillna(0)

# III - Data analysis

## Studying the data itself

### In this section, we perform a study of the content itself