# Programming Project - Unit 3
*by Débora Azevedo, Eliseu Jayro, Francisco de Paiva and Igor Brandão*

**Goals**
The purpose of this project is explore the following:

- Access Health Graph API - Runkeeper content;
- Geolocation analysis and hypotheses should be explained in detail;

<hr>

# Global Imports section

Import the necessary libraries to handle 

- File input;
- Tqdm progress bar
- Requests;
- urlopen;
- HTTPError;

In [None]:
### Library necessary to run this IPython Notebook
!pip install tqdm
!pip install tabulate
!pip install pandas-datareader
!pip install plotly

In [50]:
# Import pandas
import pandas as pd

# Import numpy library
import numpy as np

# Import tqdm progressing bar plugin
from tqdm import tqdm

# Import API libraries
import json
from pandas.io.json import json_normalize

# Imports to output the result as a Markdown
from tabulate import tabulate
from IPython.display import display, Markdown, Latex

<hr>

# I - Data reading

## Several dataSets retrieving

#### In the cell bellow, we perform a scanner in the list of dataSets and read the one's that we need.

In [356]:
# Define the dataSets list
data_files = [
    "obras.csv",
    "requisicaoobras.csv",
]

# Define the dataSets path
data_path = "dataSets/"

# Declare the variable to keep all the data combined
data = {}

# Iterate through all dataSets
for f in data_files:
    # Perform the individual import of each dataSet separated by ";"
    d = pd.read_csv((data_path + "{0}").format(f), delimiter=";")
    
    # Define the key_name according to the dataSet filename
    key_name = f.replace(".csv", "")
    
    # Apply the data to the key
    data[key_name] = d
    
    # Print the imported dataSet shape (rows x cols)
    print(d.shape)
    
# Note: To access the dataSet within data{} variable
# you need to perform the following: data['key_name'].head()
# where key_name = the real name of the dataSet, i.e: obras

(846, 14)
(6530, 12)


# II - Data handling

## Clear the data

### In this section, we perform a study of the data structure and remove missing values

In [357]:
# Describe the data composition
print(data["obras"].describe())

            id_obra     qtd_dias  id_unidade_responsavel
count    846.000000   846.000000              473.000000
mean    6262.144208   185.213948              849.972516
std     3819.629983   141.308108             1065.292337
min        7.000000     5.000000                2.000000
25%     2995.000000    90.000000              439.000000
50%     5930.500000   150.500000              445.000000
75%     9626.750000   240.000000              605.000000
max    13278.000000  1306.000000             5391.000000


In [358]:
# Describe the data composition
print(data["requisicaoobras"].describe())

             numero          ano  id_unidade_requisitante  id_unidade_custo
count   6530.000000  6530.000000              6530.000000       6530.000000
mean    3505.611026  2010.970291              1020.679173       1131.929862
std     2386.890318     3.044476              1620.663383       1794.668259
min        1.000000  2005.000000                 2.000000          2.000000
25%     1503.250000  2009.000000               156.000000        184.000000
50%     3145.500000  2011.000000               349.000000        441.000000
75%     5350.500000  2013.000000              1431.000000       1431.000000
max    10168.000000  2018.000000             11104.000000      10560.000000


In [359]:
# Iterate through all dataSets
for dataSetName in data:
    # Access the dataSet object
    dataSet = data[dataSetName]
    
    # Print the format of each dataSet
    print(dataSetName)
    print(dataSet.shape)
    print('----------------')

obras
(846, 14)
----------------
requisicaoobras
(6530, 12)
----------------


## Replace Nan values with zero's

In [360]:
# Iterate through all dataSets
for dataSetName in data:
    # Access the dataSet object
    dataSet = data[dataSetName]
    
    # Iterate over each dataSet column
    for column in dataSet:
        # Mark zero values as missing or NaN
        dataSet[column] = dataSet[column].fillna(0)

## Handle currency field (R$)

In [361]:
# Iterate through all dataSets
for dataSetName in data:
    # Access the dataSet object
    dataSet = data[dataSetName]
    
    # Iterate over each dataSet column
    for column in dataSet:
        if column == 'valor':
            # Remove the R$ mark with lambda function
            dataSet[column] = dataSet[column].map(lambda x: x.lstrip('R$'))
            
            # Convert from currency to float
            dataSet[column] = dataSet[column].apply(lambda x: float(x.replace(".","").replace(",",".")))

## Handle the period field

In [368]:
# ==========================================================
# Construction
# ==========================================================

# Iterate through all dataSets
for dataSetName in data:
    # Access the dataSet object
    dataSet = data[dataSetName]
    
    # Columns to map the construction/request separately 
    dataSet["periodo_inicial"] = ""
    dataSet["periodo_final"] = ""
    dataSet["ano"] = ""
    
    # Iterate over each dataSet column
    for column in dataSet:
        if column == 'periodo':
            # Copy the data
            dataSet["periodo_inicial"] = dataSet[column]
            dataSet["periodo_final"] = dataSet[column]
            dataSet["ano"] = dataSet[column]
            
            # Adjust the copied data
            for index, row in dataSet.iterrows():
                # Period year
                dataSet.loc[index, "ano"] = dataSet.loc[index, "periodo"][6:10]
                
                # Start period
                dataSet.loc[index, "periodo_inicial"] = dataSet.loc[index, "periodo_inicial"][:10]

                # End period
                dataSet.loc[index, "periodo_final"] = dataSet.loc[index, "periodo_final"][13:23]
        elif column == 'data_envio':
             # Copy the data
            dataSet["ano"] = dataSet[column]
            
            # Adjust the copied data
            for index, row in dataSet.iterrows():
                # Period year
                if dataSet.loc[index, "data_envio"] != 0:
                    dataSet.loc[index, "ano"] = dataSet.loc[index, "data_envio"][6:10]


## Handle the companies name

In [386]:
# ==========================================================
# Construction
# ==========================================================

# Iterate through all dataSets
for dataSetName in data:
    # Access the dataSet object
    dataSet = data[dataSetName]
    
    # Columns to map the construction/request separately 
    dataSet["empresa_sem_cnpj"] = ""
    
    # Iterate over each dataSet column
    for column in dataSet:
        if column == 'empresa':
            # Copy the data
            dataSet["empresa_sem_cnpj"] = dataSet[column]
            
            # Adjust the copied data
            for index, row in dataSet.iterrows():
                # Period year
                dataSet.loc[index, "empresa_sem_cnpj"] = dataSet.loc[index, "empresa"][22:]


## Display the dataSet after clearing

In [387]:
data["obras"]

Unnamed: 0,id_obra,descricao,periodo,qtd_dias,status_obra,licitacao,empresa,modalidade,valor,fonte_recurso,vigencia_projeto,projeto,id_unidade_responsavel,unidade_responsavel,periodo_inicial,periodo_final,ano,empresa_sem_cnpj
0,848,CONSTRUÇÃO DO SETOR DE ANTIBIÓTICOS PRODUÇÃO D...,02/06/2005 - 29/01/2006,240,FINALIZADA,4/2004,03.722.669/0001-85 - CONSTRUTORA CAGEO LTDA,CONCORRÊNCIA,1561230.93,TESOURO - EDUCAÇÃO (112000000),0,0,252.0,NUCLEO DE PESQUISA EM ALIMENTOS E MEDICAMENTOS,02/06/2005,29/01/2006,2005,CONSTRUTORA CAGEO LTDA
1,521,CONSTRUÇÃO DO BLOCO A1 DO SETOR DE AULAS TEÓRI...,04/05/2005 - 30/12/2005,240,FINALIZADA,7/2004,03.166.687/0001-28 - CRS-CONSTRUÇÕES E EMPREE...,CONCORRÊNCIA,833702.12,0,20/04/2005 - 20/11/2005,19O ENECIC/2005 (852005),0.0,0,04/05/2005,30/12/2005,2005,CRS-CONSTRUÇÕES E EMPREENDIMENTOS
2,493,CONSTRUÇÃO DO BLOCO H DO SETOR DE AULAS TEÓRIC...,23/03/2005 - 19/11/2005,240,FINALIZADA,6/2004,03.166.687/0001-28 - CRS-CONSTRUÇÕES E EMPREE...,CONCORRÊNCIA,829454.21,0,0,0,0.0,0,23/03/2005,19/11/2005,2005,CRS-CONSTRUÇÕES E EMPREENDIMENTOS
3,925,Complementação da 2ª Etapa e Realização da 3ª ...,28/01/2005 - 22/01/2006,360,FINALIZADA,2/2004,40.761.454/0001-08 - AR PROJETOS & CONSTRUÇÕE...,CONCORRÊNCIA,814550.74,0,20/12/2002 - 31/07/2007,UFRN/CONV.133/02 - HUOL (862003),446.0,HOSPITAL UNIVERSITÁRIO ONOFRE LOPES,28/01/2005,22/01/2006,2005,AR PROJETOS & CONSTRUÇÕES LTDA
4,478,CONSTRUÇÃO DO BLOCO H DO SETOR DE AULAS TEÓRIC...,23/03/2005 - 19/11/2005,240,FINALIZADA,5/2004,03.166.687/0001-28 - CRS-CONSTRUÇÕES E EMPREE...,CONCORRÊNCIA,847582.26,APLICACOES FINANCEIRAS (280154215),0,0,0.0,0,23/03/2005,19/11/2005,2005,CRS-CONSTRUÇÕES E EMPREENDIMENTOS
5,185,CONSTRUÇÃO DO NOVO SETOR DE INTERNAMENTO DO HU...,07/03/2006 - 31/12/2006,300,FINALIZADA,3/2005,01.694.415/0001-75 - HASTE-HABITAÇÃO E SERVIÇ...,CONCORRÊNCIA,4900000.00,0,28/12/2004 - 31/12/2009,CONVENIO 120/04 MELHORIA DA INFRA ESTRUTURA DO...,0.0,0,07/03/2006,31/12/2006,2006,HASTE-HABITAÇÃO E SERVIÇOS TÉCNICOS LTDA
6,182,CONSTRUÇÃO DO DEPARTAMENTO DE FISIOTERAPIA - CCS,08/02/2006 - 02/02/2007,360,FINALIZADA,1/2005,01.694.415/0001-75 - HASTE-HABITAÇÃO E SERVIÇ...,CONCORRÊNCIA,1455865.61,0,20/12/2004 - 30/03/2010,CONVENIO 121/2004 UFRN (732005),446.0,HOSPITAL UNIVERSITÁRIO ONOFRE LOPES,08/02/2006,02/02/2007,2006,HASTE-HABITAÇÃO E SERVIÇOS TÉCNICOS LTDA
7,282,ADAPTAÇÃO DE AMBIENTES DE ENSINO NO HOSPITAL U...,11/09/2006 - 08/05/2007,240,FINALIZADA,1/2006,04.145.787/0001-30 - ECCL - EMPREENDIMENTOS E...,CONCORRÊNCIA,1153423.68,0,20/12/2005 - 31/12/2011,FUNPEC/UFRN/CONV. 134/2005 - EMENDA PARLAMENTA...,446.0,HOSPITAL UNIVERSITÁRIO ONOFRE LOPES,11/09/2006,08/05/2007,2006,ECCL - EMPREENDIMENTOS E CONSTRUÇÃO CIVIL LTDA
8,5778,COMPLEMENTAÇÃO DA CONSTRUÇÃO DA 1ª ETAPA DO PA...,05/03/2010 - 02/08/2010,150,FINALIZADA,3/2007,04.145.787/0001-30 - ECCL - EMPREENDIMENTOS E...,CONCORRÊNCIA,967866.36,0,20/12/2005 - 31/12/2011,FUNPEC/UFRN/CONV. 134/2005 - EMENDA PARLAMENTA...,441.0,CENTRO DE CIÊNCIAS DA SAÚDE,05/03/2010,02/08/2010,2010,ECCL - EMPREENDIMENTOS E CONSTRUÇÃO CIVIL LTDA
9,2419,CONSTRUÇÃO DO PAVILHÃO ACADÊMICO DO CAMPUS AVA...,10/08/2007 - 04/06/2008,300,FINALIZADA,2/2007,04.201.519/0001-99 - ESTRUTURAL EDIFICAÇÕES E...,CONCORRÊNCIA,1248942.91,0,23/01/2006 - 23/06/2010,FINEP/REDE 01 GEOFISICA DA EXPLORACAO/FASE 2 -...,1646.0,CAMPUS AVANÇADO DE SANTA CRUZ,10/08/2007,04/06/2008,2007,ESTRUTURAL EDIFICAÇÕES E PROJETOS LTDA


In [370]:
data["requisicaoobras"]

Unnamed: 0,numero,ano,id_unidade_requisitante,nome_unidade_requisitante,id_unidade_custo,nome_unidade_custo,data_envio,descricao,local,observacoes,status,processo,periodo_inicial,periodo_final
0,7051,2018,52,DEPARTAMENTO DE ENGENHARIA CIVIL,52,DEPARTAMENTO DE ENGENHARIA CIVIL,19/09/2018,Novo dimensionamento de extintores de incêndio...,prédio do LARHISA.,0,AUTORIZADA PARA INFRA,0,,
1,7050,2018,1463,RESIDENCIAS UNIVERSITÁRIAS,1463,RESIDENCIAS UNIVERSITÁRIAS,19/09/2018,Solicitamos por gentileza a revisão geral na r...,Residência Universitária Biomédica.,0,PENDENTE AUTORIZAÇÃO CHEFE UNIDADE,0,,
2,7007,2018,8031,PROAD - DIRETORIA DE GESTÃO DA INFORMAÇÃO,1422,PRÓ-REITORIA DE ADMINISTRAÇÃO (PROAD),18/09/2018,De acordo com o Relatório de Inspeção de Segur...,ARQUIVO GERAL,0,AUTORIZADA PARA INFRA,0,,
3,6934,2018,20,SUPERINTENDÊNCIA DE INFRAESTRUTURA,9160,MANUTENÇÃO E CONSERVAÇÃO DA INFRA-ESTRUTURA FÍ...,14/09/2018,RECUPERAÇÃO ESTRUTURAL DA CAPELA ECUMÊNICA DO ...,CAPELA ECUMÊNICA DO CAMPUS CENTRAL,"RDC 11/2018 - R$ 95.436,38",FINALIZADA_ATENDIMENTO,0,,
4,6763,2018,62,ADMINISTRAÇÃO DO CERES - CURRAIS NOVOS,9170,MANUTENÇÃO DA REDE ELÉTRICA,10/09/2018,SERVIÇOS DE ILUMINAÇÃO DO ESTACIONAMENTO DO CE...,ESTACIONAMENTO DO CERES - CURRAIS NOVOS/RN,"RDC 12/2018 - R$ 111.444,99",FINALIZADA_ATENDIMENTO,0,,
5,6664,2018,5279,INSTITUTO INTERNACIONAL DE FÍSICA,5279,INSTITUTO INTERNACIONAL DE FÍSICA,04/09/2018,"Solicitamos um estudo de viabilidade, localiza...",Instituto Internacional de Física,0,PENDENTE AUTORIZAÇÃO CHEFE UNIDADE,0,,
6,6642,2018,119,ADMINISTRAÇÃO DO CCET,119,ADMINISTRAÇÃO DO CCET,03/09/2018,POR ORIENTAÇÃO DOS RESPONSÁVEIS QUE COMPARECER...,PRÉDIO-ADMINISTRATIVO DO CCET E PRÉDIO DOS ANF...,0,ATENDIDA,23077.57226/2018-21,,
7,6547,2018,6069,INSTITUTO METROPOLE DIGITAL,6069,INSTITUTO METROPOLE DIGITAL,30/08/2018,LIMPEZA E REVITALIZAÇÃO DO PISO EM GRANILITE B...,PRÉDIO DO NPITI - CAMPUS CENTRAL/UFRN,"RDC 11/2018 - R$ 10.200,00",FINALIZADA_ATENDIMENTO,0,,
8,6158,2018,205,ESCOLA DE SAÚDE,205,ESCOLA DE SAÚDE,17/08/2018,"Construção de 06 salas de 35m2, incluindo as s...",Pavimentos do prédio da ampliação da Escola de...,Os recursos serão da Unidade Orçamentária da E...,PENDENTE AUTORIZAÇÃO CHEFE UNIDADE,0,,
9,6116,2018,117,DEPARTAMENTO DE ANÁLISES CLÍNICAS E TOXICOLÓGICAS,441,CENTRO DE CIÊNCIAS DA SAÚDE,16/08/2018,"DE ACORDO COM O PROCESSO 048782/2018-15, PAREC...",Departamento de Análises Clínicas e Toxicológi...,0,ATENDIDA,23077.52479/2018-17,,


# III - Data analysis

## Studying the data itself

### In this section, we perform a study of the content itself

In [371]:
# Set the plotly API KEY
import plotly
plotly.tools.set_credentials_file(username='igorbrandao', api_key='2MDdoIKyudZFJHKZknOo')

# Import plotly libraries
import plotly.plotly as py
import plotly.graph_objs as go

In [372]:
# Function to format a value to BRL
def real_br_money_mask(my_value):
    a = '{:,.2f}'.format(float(my_value))
    b = a.replace(',','v')
    c = b.replace('.',',')
    return c.replace('v','.')

## Data summary

In [373]:
# ==========================================================
# Display data summary
# ==========================================================
display(Markdown('# Visao geral do orcamento de obras da UFRN'))

display(Markdown('## Contagens gerais'))

# General counts
constructions_count = float(data['obras'].shape[0])
requests_count = float(data['requisicaoobras'].shape[0])
finished_constructions_count = data['obras']['status_obra'].value_counts()[0]

if data['obras'].shape[0] > 0:
    display(Markdown('**Total de obras (2005 - 2018):** ' + str(constructions_count) + ' obras'))
    
if data['requisicaoobras'].shape[0] > 0:
    display(Markdown('**Total de requisicoes de obras (2005 - 2018):** ' + str(requests_count) + ' requisicoes'))

if data['obras'].shape[0] > 0 and data['requisicaoobras'].shape[0] > 0:
    display(Markdown('**Percentual de obras realizadas frente as requisicoes:** ' + 
                     str("%.2f" % ((constructions_count / requests_count) * 100)) + ' %'))
    
    display(Markdown('**Percentual de obras concluidas frente as requisicoes:** ' + 
                     str("%.2f" % ((finished_constructions_count / requests_count) * 100)) + ' %'))
    
    display(Markdown('**Media de tempo de uma obra:** ' + 
                     str("%.2f" % (data['obras']['qtd_dias'].mean())) + ' dias'))
    
    display(Markdown('**Media de custo de uma obra:** R$ ' + 
                     real_br_money_mask(str("%.2f" % (data['obras']['valor'].mean())))))
    
    display(Markdown('**Em media um dia de trabalho custa:** R$ ' + 
                     real_br_money_mask(str("%.2f" % (data['obras']['valor'].mean()/
                                                      float(data['obras']['qtd_dias'].mean()))))))

# Visao geral do orcamento de obras da UFRN

## Contagens gerais

**Total de obras (2005 - 2018):** 846.0 obras

**Total de requisicoes de obras (2005 - 2018):** 6530.0 requisicoes

**Percentual de obras realizadas frente as requisicoes:** 12.96 %

**Percentual de obras concluidas frente as requisicoes:** 10.47 %

**Media de tempo de uma obra:** 185.21 dias

**Media de custo de uma obra:** R$ 918.071,98

**Em media um dia de trabalho custa:** R$ 4.956,82

In [374]:
# =================================================================================
# Chart plotting
# =================================================================================

# Get the data frequency
constructions_by_year = data['obras']['ano'].value_counts().sort_index()
constructions_requests_by_year_dirty = data['requisicaoobras']['ano'].value_counts().sort_index()
constructions_requests_by_year = constructions_requests_by_year_dirty[constructions_requests_by_year_dirty.index != 0]

# Set the chart dataSet
set0 = go.Scatter(
    x = constructions_by_year.index,
    y = constructions_by_year,
    name = "Obras por ano",
    marker = dict(
        color = 'rgb(70,130,180)',
    )
)

set1 = go.Scatter(
    x = constructions_requests_by_year.index,
    y = constructions_requests_by_year,
    name = "Requisições por ano",
    marker = dict(
        color = 'rgb(139,0,0)',
    )
)

# Set the general layout
layout = go.Layout(
    title = 'Quantidade de obras e requisições por ano',
    showlegend = False,
    autosize = False,
    width = 1000,
    height = 600,
    yaxis = dict(
        title = 'Quantidade de obras/requisições',
        zeroline = True,
        showline=True,
        zerolinecolor='#969696',
        zerolinewidth=4,
        autotick = False,
        tick0 = 0,
        dtick = 20,
        ticklen = 8,
        tickwidth = 2
    ),
    xaxis = dict(
        title = 'Ano',
        zeroline = True,
        showline=True,
        zerolinecolor='#969696',
        zerolinewidth=4,
    )
)

# Receive the compiled data
dataChart = [set0, set1]

# Receive the compiled data
fig = go.Figure(data=dataChart, layout=layout)

# Plot the chart
py.iplot(fig)

In [375]:
# =================================================================================
# Chart plotting
# =================================================================================

# Get the data groupping
expenses_by_year = data['obras'].groupby('ano')['valor'].agg('sum')

# Set the chart dataSet
set0 = go.Scatter(
    x = expenses_by_year.index,
    y = expenses_by_year,
    name = "Investimento em obras",
    marker = dict(
        color = 'rgb(0,100,0)',
    )
)

# Set the general layout
layout = go.Layout(
    title = 'Investimento em obras por ano',
    showlegend = False,
    autosize = False,
    width = 1000,
    height = 600,
    yaxis = dict(
        title = 'Investimento em obras (R$)',
        zeroline = True,
        showline=True,
        zerolinecolor='#969696',
        zerolinewidth=4,
        autotick = False,
        tick0 = 0,
        dtick = 10000000,
        ticklen = 8,
        tickwidth = 2
    ),
    xaxis = dict(
        title = 'Ano',
        zeroline = True,
        showline=True,
        zerolinecolor='#969696',
        zerolinewidth=4,
    )
)

# Receive the compiled data
dataChart = [set0]

# Receive the compiled data
fig = go.Figure(data=dataChart, layout=layout)

# Plot the chart
py.iplot(fig)

### Constructions status

In [376]:
# Constructions status
display(Markdown('## Status das obras'))

if data['obras'].shape[0] > 0 and data['requisicaoobras'].shape[0] > 0:
    construction_status = data['obras']['status_obra'].value_counts()
    construction_status_percentage = data['obras']['status_obra'].value_counts(normalize=True)
    print(construction_status)
    print('---------------')
    print(construction_status_percentage)

## Status das obras

FINALIZADA                   684
EM ANDAMENTO                  60
EM RECEBIMENTO PROVISÓRIO     58
CONTRATO FINALIZADO           31
CONTRATO RESCINDIDO           12
SUSPENSA                       1
Name: status_obra, dtype: int64
---------------
FINALIZADA                   0.808511
EM ANDAMENTO                 0.070922
EM RECEBIMENTO PROVISÓRIO    0.068558
CONTRATO FINALIZADO          0.036643
CONTRATO RESCINDIDO          0.014184
SUSPENSA                     0.001182
Name: status_obra, dtype: float64


In [377]:
# =================================================================================
# Chart plotting
# =================================================================================

# Get the data frequency
construction_status = data['obras']['status_obra'].value_counts()

# Set the chart labels
labels = construction_status.index.values

# Set the chart values
values = construction_status.values

# Set the chart parameters
trace = go.Pie(labels=labels, values=values,
               hoverinfo='label+percent', 
               textfont=dict(size=20),
               marker=dict(line=dict(color='#000000', width=1)))

# Print the chart
py.iplot([trace])

### Involved companies

In [378]:
# Companies
display(Markdown('## Empresas envolvidas'))

if data['obras'].shape[0] > 0 and data['requisicaoobras'].shape[0] > 0:
    companies = data['obras']['empresa'].value_counts()
    companies_percentage = data['obras']['empresa'].value_counts(normalize=True)
    print(companies)
    print('---------------')
    print(companies_percentage)

## Empresas envolvidas

 04.751.986/0001-92 - F DOIS ENGENHARIA LTDA                                      79
 09.389.289/0001-57 - AC ENGENHARIA LTDA - EPP                                    71
 09.376.468/0001-50 - CST CONSTRUCOES E SERVICOS TECNICOS LTDA                    33
 02.482.629/0001-40 - CCW - ENGENHARIA LTDA - EPP / CCW ENGENHARIA                27
 04.201.519/0001-99 - ESTRUTURAL EDIFICAÇÕES E PROJETOS LTDA                      25
 04.145.787/0001-30 - ECCL - EMPREENDIMENTOS E CONSTRUÇÃO CIVIL LTDA              23
 05.952.175/0001-12 - PROJETUS E ENGENHARIA LTDA                                  23
 09.469.705/0001-27 - R&H ENGENHARIA LTDA                                         20
 70.043.906/0001-79 - EXECUÇÃO ENGENHARIA LTDA                                    20
 16.667.638/0001-10 - L & L ENGENHARIA LTDA                                       16
 01.737.254/0001-50 - SERPE-SERVICOS PROJETOS EXECUCOES LTDA                      16
 40.793.705/0001-28 - ECN-EMPRESA DE CONSTRUÇÃO NATAL LTDA       

In [388]:
# =================================================================================
# Chart plotting
# =================================================================================

# Get the data frequency
companies = data['obras']['empresa_sem_cnpj'].value_counts()

# Set the chart labels
x = companies.index.values

# Set the chart values
y = companies.values

dataChart = [go.Bar(
            x=x,
            y=y,
            text=y,
            textposition = 'auto',
            marker=dict(
                color='rgb(158,202,225)',
                line=dict(
                    color='rgb(8,48,107)',
                    width=1.5),
            ),
            opacity=0.6
        )]

# Set the general layout
layout = go.Layout(
    title = 'Empresas envolvidas nas obras da UFRN',
    showlegend = False,
    autosize = False,
    width = 1100,
    height = 600,
    yaxis = dict(
        title = 'Quantidade de obras'
    ),
    xaxis = dict(
        title = 'Empresa'
    )
)

# Receive the compiled data
fig = go.Figure(data=dataChart, layout=layout)

# Plot the chart
py.iplot(fig)

### Contracts modalities

In [380]:
# Contract
display(Markdown('## Regimes de contratacao'))

if data['obras'].shape[0] > 0 and data['requisicaoobras'].shape[0] > 0:
    contract = data['obras']['modalidade'].value_counts()
    contract_percentage = data['obras']['modalidade'].value_counts(normalize=True)
    print(contract)
    print('---------------')
    print(contract_percentage)

## Regimes de contratacao

TOMADA DE PREÇO                 322
REGIME DIF. DE CONTRATAÇÃO      155
CONVITE                         122
DISPENSA DE LICITAÇÃO           115
CONCORRÊNCIA                    113
PREGÃO                           16
INEXIGIBILIDADE DE LICITAÇÃO      2
CONTRATAÇÃO DIRETA                1
Name: modalidade, dtype: int64
---------------
TOMADA DE PREÇO                 0.380615
REGIME DIF. DE CONTRATAÇÃO      0.183215
CONVITE                         0.144208
DISPENSA DE LICITAÇÃO           0.135934
CONCORRÊNCIA                    0.133570
PREGÃO                          0.018913
INEXIGIBILIDADE DE LICITAÇÃO    0.002364
CONTRATAÇÃO DIRETA              0.001182
Name: modalidade, dtype: float64


In [389]:
# =================================================================================
# Chart plotting
# =================================================================================

# Get the data frequency
contract = data['obras']['modalidade'].value_counts()

# Set the chart labels
labels = contract.index.values

# Set the chart values
values = contract.values

# Set the chart parameters
trace = go.Pie(labels=labels, values=values,
               hoverinfo='label+percent', 
               textfont=dict(size=20),
               marker=dict(line=dict(color='#000000', width=1)))

# Print the chart
py.iplot([trace])

### Resources

In [381]:
# Resource
display(Markdown('## Fontes de recursos'))

if data['obras'].shape[0] > 0 and data['requisicaoobras'].shape[0] > 0:
    # Get all the data, even the dirty ones
    resource_dirty = data['obras']['fonte_recurso'].value_counts()
    
    resource = resource_dirty[resource_dirty.index != 0]
    print(resource)

## Fontes de recursos

TESOURO - EDUCAÇÃO (112000000)                                   255
UNIV.FEDERAL DO RIO GRANDE DO NORTE (250154214)                  116
APLICACOES FINANCEIRAS (280154215)                                53
SUS(1513689610) (151368961)                                       30
TESOURO - ORDINÁRIO (100000000)                                   21
SESU - REUNI (112915030)                                          12
FUNCIONAMENTO DAS INSTITUIÇÕES FEDERAIS (250262430)                9
TAXAS ACADEMICAS/CONCURSOS (250154009)                             9
VESTIBULAR (250154007)                                             7
HOSPITAL UNIVERSITARIO ONOFRE LOPES (250153103)                    6
SUS (153368961)                                                    5
OUTROS SERV.ADMINISTRATIVOS (250154166)                            4
RECURSOS DO FUNDO SOCIAL - PARTICIPAÇÃO EDUCAÇÃO (8108000000)      3
HOSPITAL DE PEDIATRIA (250153106)                                  2
RECEITA DO NUPLAM (250154002)     

In [391]:
# =================================================================================
# Chart plotting
# =================================================================================

# Set the chart labels
x = resource.index.values

# Set the chart values
y = resource.values

dataChart = [go.Bar(
            x=x,
            y=y,
            text=y,
            textposition = 'auto',
            marker=dict(
                color='rgb(240,230,140)',
                line=dict(
                    color='rgb(189,183,107)',
                    width=1.5),
            ),
            opacity=0.6
        )]

# Set the general layout
layout = go.Layout(
    title = 'Fontes de recursos',
    showlegend = False,
    autosize = False,
    width = 1100,
    height = 600,
    yaxis = dict(
        title = 'Quantidade de obras'
    ),
    xaxis = dict(
        title = 'Fonte de recurso'
    )
)

# Receive the compiled data
fig = go.Figure(data=dataChart, layout=layout)

# Plot the chart
py.iplot(fig)

### Responsible units

In [382]:
# Resource
display(Markdown('## Unidades responsaveis'))

if data['obras'].shape[0] > 0 and data['requisicaoobras'].shape[0] > 0:
    # Get all the data, even the dirty ones
    responsible_unit_dirty = data['obras']['unidade_responsavel'].value_counts()
    
    responsible_unit = responsible_unit_dirty[responsible_unit_dirty.index != 0]
    print(responsible_unit)

## Unidades responsaveis

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE               108
CENTRO DE TECNOLOGIA                                       38
CENTRO DE BIOCIÊNCIAS                                      27
CENTRO DE CIÊNCIAS EXATAS E DA TERRA                       26
CENTRO DE CIÊNCIAS DA SAÚDE                                21
CENTRO DE CIÊNCIAS HUMANAS, LETRAS E ARTES                 19
CENTRO DE CIÊNCIAS SOCIAIS APLICADAS                       19
HOSPITAL UNIVERSITÁRIO ONOFRE LOPES                        16
ESCOLA AGRÍCOLA DE JUNDIAÍ                                 14
NUCLEO DE PESQUISA EM ALIMENTOS E MEDICAMENTOS             14
CENTRO DE  ENSINO SUPERIOR DO SERIDÓ                       13
MATERNIDADE ESCOLA JANUÁRIO CICCO                          10
ADMINISTRAÇÃO CENTRAL - GASTOS CT                           9
SUPERINTENDÊNCIA DE INFRAESTRUTURA                          8
HOSPITAL UNIVERSITARIO ANA BEZERRA                          8
HOSPED - HOSPITAL DE PEDIATRIA                              6
GASTOS C

In [393]:
# Export the new dataSet to csv
responsible_unit.to_csv('unidades.csv', encoding="utf-8")

In [None]:
# =================================================================================
# Coordinate fowarding
#
# convert place to lat/lng
# =================================================================================
import requests
import json
from pandas.io.json import json_normalize

# Access token
API_KEY = '574ad2a81d281f'

# Function to get the neighborhood from lat/lng
def getLatLng(place):
    # Base URI
    url = "https://us1.locationiq.com/v1/search.php"

    # Parameter data
    data = {
        'key': API_KEY,
        'q': place,
        'format': 'json'
    }

    # Perform the request
    response = requests.get(url, params=data).json()
    
    # Check the return
    if 'lat' in response[0]:
        return response[0]['lat'] + '/' + response[0]['lon']
    else:
        return ''

# =================================================================================

print(getLatLng('CENTRO DE TECNOLOGIA UFRN'))