In [38]:
!pip install pandas
!pip install lxml
!pip install html5lib
!pip install BeautifulSoup4



# Imports

In [36]:
#HTMl
from bs4 import BeautifulSoup
from urllib.request import urlopen
import html5lib
import requests

#System
from copy import copy
import re    

#Calcs
import pandas as pd
import numpy as np

#Graphs
from bokeh.charts import Bar, Donut, output_notebook, show, defaults
from bokeh.layouts import gridplot, row
from bokeh.models import HoverTool
from bokeh.models.widgets import Panel, Tabs
from bokeh.plotting import figure

# Funções de tratamentos dos dados

In [37]:
####IVAN

#Funções para tratamento das strings
#Remove o "." dos numeros(strings) na tabela e corrige os espaços
#causados por diferença de codificação ( \xa0 -> ' ')
def fix_str(val):
    for char in val:
        if "." in char:
            val = val.replace(char,'')
        elif "\xa0" in char:
            val = val.replace(char,' ')
    return val
#Converte a string da tabela para um float e adiciona as duas casas
#decimais após a virgula.
def fix_decimal_n_float(val):
    return float(val)/100

#lê URL, cria dataframe do pandas. Essa função cria um array de dataframes. Logo, se um site
#possui mais de uma tabela, elas serão agrupadas em forma de array.
def retorna_tabelas(val):
    return pd.read_html(val)

#Percorre a tabela e converte o string para float
#Passe como parâmetro dessa função a tabela que você quer normalizar e o nome da coluna
#que será convertida para float.
def corrige_tabela(table, column_name):
    for atual in range(len(table)):
        table.iloc[atual][column_name] = fix_decimal_n_float(fix_str(
                                        table.iloc[atual][column_name]))
        
#Cria a tabela a partir do DataFrame lido do HTML
#Passe como entrada o dataframe e a função retornará a tabela pronta, com as colunas
#nomeadas.
def cria_tabela(df, inicio=0, fim=0):
    col_vet = []
    #se o range de copia não é definido, o função percorre até
    #o final da tabela
    if fim == 0 :
        fim = len(df)
        
    #Nomeia as tabelas com numero de colunas variado
    for atual in range(0, df.columns.values.size):
        col_vet.append(fix_str(df[atual][0]))  
            
    
    temp = df[inicio:fim].copy()
    temp.columns = col_vet
    return temp

####IVAN

In [38]:
####IVAN
url = "http://www.transparencia.gov.br/PortalComprasDiretasOEUnidadeGestora.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243"

dfs = retorna_tabelas(url)

#Tabela com todo o dinheiro distribuído para a educação e quanto é
#destinado a UFRN
# não dá para usar o cria tabela, pois os valores 'numericos', já são float MUITO ESTRANHO
Gastos_totais = dfs[0][1:].copy()
Gastos_totais.columns = [dfs[0][0][0], "Moeda", dfs[0][1][0]]

#Tabela com o dinheiro da UFRN e como ele é distribuído entre as unidades
Gastos_por_unidade = cria_tabela(dfs[1], 1)
Gastos_por_unidade.drop("Código", axis=1, inplace=True)

#Percorre a tabela e converte o string para float
#O e+ é uma reação padrão da linguagem, para que os valores caibam na tabela
#Ao acessar cada valor individualmente, é possivel pegar o valor correto e completo
corrige_tabela(Gastos_por_unidade, "Total no Ano (R$)")

####IVAN

In [39]:
Gastos_por_unidade

Unnamed: 0,Unidade Gestora,Total no Ano (R$)
1,CENTRO DE BIOCIENCIAS DA UFRN,2189070.0
2,CENTRO DE CIENCIAS DA SAUDE DA UFRN,3738630.0
3,CENTRO DE CIENCIAS HUM.E LETRAS ARTES DA UFRN,2566730.0
4,CENTRO DE CIENCIAS SOCIAIS APLICADAS DA UFRN,1261470.0
5,CENTRO DE ENSINO SUPERIOR DO SERIDO/UFRN,731373.0
6,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE,1409420000.0


# Plotagem

In [40]:
####IVAN


#Verificar se esse gráfico é mesmo necessário e solucionar o problema
# da diferença de valores
graph = Donut(Gastos_por_unidade[:5], label="Unidade Gestora", values="Total no Ano (R$)", title="Distribuição do dinheiro" )
graph.add_tools(HoverTool(tooltips=[("Unidade:", "@{Unidade Gestora}"),
                                    ("Total:", "@{Total no Ano (R$)}")
                                   ]
                         ))

#Diferença de valores muito grande. :/
graph2 = Bar(Gastos_por_unidade, values="Total no Ano (R$)", label="Unidade Gestora", color="Unidade Gestora", title="Distribuição do dinheiro")


layout = gridplot([[graph, None], [None, graph2]], sizing_mode='scale_width')
output_notebook()
show(layout)

####IVAN

### Pega o site

In [41]:
class PortalTransparencia():
    def __init__(self):
        self.main_url = 'http://www.transparencia.gov.br/PortalComprasDiretasOEUnidadeGestora.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243'

        self.queue_next_urls = [] # urls to run into the crawler
        
        self.data_collected = []
        
        self.final_dictonary = {'centro': None, 'link': None}

    def stop_crawler(self):
        self.continue_crawler = False

    def run(self):
        html = self.getBody(self.main_url)
        urls = self.get_centros_url(html)
        for dictionary in urls:
            url = dictionary['link']
            temp_url = 'http://www.transparencia.gov.br/' + url
            html = self.getBody(temp_url)
            sub_links = self.get_subcentros_url(html)
            for link in sub_links:
                temp_suburl = 'http://www.transparencia.gov.br/' + link
                html = self.getBody(temp_suburl)
                self.getData(dictionary['centro'], temp_suburl, html)

    def getBody(self, url):
        res = urlopen(url)
        return BeautifulSoup(res.read())

    def get_centros_url(self, html):
        urls = []
        link_tags = html.findAll('a')
        for link in link_tags:
            if link.string != None and 'CENTRO' in link.string:
                temp_dic = copy(self.final_dictonary)
                temp_dic['centro'] = link.string
                temp_dic['link'] = link['href']
                urls.append(temp_dic)
        return urls
    
    def get_subcentros_url(self, html):
        links = []
        table_tags = html.findAll('table')
        a_tags = table_tags[1].findAll('a')
        for link in a_tags:
            if '-' in link.string:
                links.append(link['href'])
            #if 'Investimentos' in link.string:
            #    links.append(link['href'])
            #elif 'Outras' in link.string:
            #    links.append(link['href'])
        return links    
        
    def getData(self, centro, link, html):
        final_data = []
        tables = html.findAll('table')
        if len(tables) > 0:
            data = copy(self.final_dictonary)
            data['centro'] = centro
            data['link'] = link
            self.data_collected.append(data)
    
    def returnDict(self):
        return self.final_dictonary

In [42]:
p = PortalTransparencia()
p.run()



 BeautifulSoup([your markup])

to this:

 BeautifulSoup([your markup], "lxml")

  markup_type=markup_type))


In [43]:
#urls = []

#for u in p.data_collected:
#    urls.append(u['link'])

In [70]:
####IVAN

##Percorre os links e cria tabelas para cada um deles

### Aqui que entra o SCRAP
urls = []
urls.append("http://www.transparencia.gov.br/PortalComprasDiretasOEElementoDespesa.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153109")
urls.append("http://www.transparencia.gov.br/PortalComprasDiretasOEElementoDespesa.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153107")
urls.append("http://www.transparencia.gov.br/PortalComprasDiretasOEElementoDespesa.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153253")
urls.append("http://www.transparencia.gov.br/PortalComprasDiretasOEElementoDespesa.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153113")
urls.append("http://www.transparencia.gov.br/PortalComprasDiretasOEElementoDespesa.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153977")
urls.append("http://www.transparencia.gov.br/PortalComprasDiretasOEElementoDespesa.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153103")

dep_titulos = []

##Lista de tabelas
Departamentos = []
#Criar um dicionário da seguinte form dict = { "Nome_Do_departamento" : Tabela}, assim fica mais fácil de 
#identificar cada gráfico que será plotado
for atual in range(len(urls)):
    df = retorna_tabelas(urls[atual])
    dep_titulos.append(df[0][0][4])
    Departamentos.append(cria_tabela(df[1], 1))

####IVAN

In [72]:
####IVAN
for atual in range(len(Departamentos)):
    corrige_tabela(Departamentos[atual], "Total no Ano (R$)" )
    
####IVAN

In [80]:
Graficos = []

for atual in range(len(Departamentos)):
    #graph = Bar(Departamentos[atual], values="Total no Ano (R$)", label="Favorecido [Nome Fantasia]",
    #            color="Favorecido [Nome Fantasia]", title=str(atual) + " Inisa o nome da UNIDADE", legend=None)
    #graph.add_tools(HoverTool(tooltips=[("Gasto", "$y{f.ff}")]))
    #Graficos.append(graph) 
        
    graph = Bar(Departamentos[atual], values="Total no Ano (R$)", label="Elemento de Despesa",
           color="Elemento de Despesa", title=dep_titulos[atual][25:], legend=None)
    graph.add_tools(HoverTool(tooltips=[("Gasto", "$y{f.ff}")]))
    Graficos.append(graph)

    
grfs = [Graficos[0:2], Graficos[2:4], Graficos[4:6]]

layout = gridplot(grfs, sizing_mode='scale_width')
output_notebook()

show(layout)

# Bar Chart

In [193]:
url ="http://www.transparencia.gov.br/PortalComprasDiretasOEFavorecidoED.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153109&CodigoGD=4&CodigoED=52"
url2 ="http://www.transparencia.gov.br/PortalComprasDiretasOEFavorecidoED.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153107&CodigoGD=4&CodigoED=52"
df = retorna_tabelas(url)
df2 = retorna_tabelas(url2)

In [194]:
repasse = cria_tabela(df[1], 1) #Repasse de dinheiro para empresas
#tb = tb.append(cria_tabela(df[1], 1))

repasse.reset_index(inplace=True)
repasse.drop("index", axis=1, inplace=True)
corrige_tabela(repasse, "Total no Ano (R$)")
repasse.sort_values("Total no Ano (R$)", inplace=True)

In [195]:
repasseTotal = repasse['Total no Ano (R$)'].sum()
repasse #CENTRO DE BIOCIENCIAS DA UFRN
        # Investimentos - Equipamentos e Material Permanente:

Unnamed: 0,CPF/CNPJ/Outros,Favorecido [Nome Fantasia],Total no Ano (R$)
4,16.963.825/0001-41,BMX DISTRIBUIDORA DE TECNOLOGIA EIRELI - ME [B...,274.0
7,70.114.780/0001-86,CARLOS ALBERTO FERNANDES DE QUEIROGA - EPP [DI...,299.9
12,18.527.195/0001-98,DOMINIO COMERCIO DE EQUIPAMENTOS - EIRELI - EPP,818.0
0,12.134.879/0001-43,AIQ FERRAMENTAS E INSTRUMENTOS LTDA - EPP,855.0
3,12.388.512/0001-56,"BBR SOLUCOES, COMERCIO E SERVICOS LTDA [BBR SO...",900.0
10,10.278.886/0001-93,DAMASO COMERCIO E SERVICOS LTDA - ME,1641.0
1,17.672.780/0001-19,ALTECH COMERCIAL E IMPORTADORA LTDA - ME [LICI...,2250.0
5,20.483.193/0001-96,BRASIDAS EIRELI - ME,5004.72
14,04.129.107/0001-95,FENIX INDUSTRIA E COMERCIO DE MOVEIS LTDA - ME...,9040.0
2,06.198.597/0001-07,APFORM INDUSTRIA E COMERCIO DE MOVEIS LTDA,10009.4


In [196]:
porcentagem_r = (repasse['Total no Ano (R$)']/repasseTotal)
porcentagem_r.name = "Porcentagem"

repasse = pd.concat([repasse, porcentagem_r], axis = 1)
repasse.columns = ['CPF/CNPJ/Outros', 'Favorecido', 'Total', 'Porcentagem' ]

In [197]:
repasse

Unnamed: 0,CPF/CNPJ/Outros,Favorecido,Total,Porcentagem
4,16.963.825/0001-41,BMX DISTRIBUIDORA DE TECNOLOGIA EIRELI - ME [B...,274.0,0.00150495
7,70.114.780/0001-86,CARLOS ALBERTO FERNANDES DE QUEIROGA - EPP [DI...,299.9,0.0016472
12,18.527.195/0001-98,DOMINIO COMERCIO DE EQUIPAMENTOS - EIRELI - EPP,818.0,0.00449287
0,12.134.879/0001-43,AIQ FERRAMENTAS E INSTRUMENTOS LTDA - EPP,855.0,0.0046961
3,12.388.512/0001-56,"BBR SOLUCOES, COMERCIO E SERVICOS LTDA [BBR SO...",900.0,0.00494326
10,10.278.886/0001-93,DAMASO COMERCIO E SERVICOS LTDA - ME,1641.0,0.00901321
1,17.672.780/0001-19,ALTECH COMERCIAL E IMPORTADORA LTDA - ME [LICI...,2250.0,0.0123581
5,20.483.193/0001-96,BRASIDAS EIRELI - ME,5004.72,0.0274885
14,04.129.107/0001-95,FENIX INDUSTRIA E COMERCIO DE MOVEIS LTDA - ME...,9040.0,0.0496523
2,06.198.597/0001-07,APFORM INDUSTRIA E COMERCIO DE MOVEIS LTDA,10009.4,0.0549769


In [198]:
defaults.width = 900
defaults.height = 900

p = Bar(repasse, 'Porcentagem', values='Total',
        title="Investimentos - Equipamentos e Material Permanente:", bar_width=0.9, color= 'Favorecido', legend = 'top_left')

output_notebook()

show(p)

In [199]:
repasse2 = cria_tabela(df2[1], 1) #Repasse de dinheiro para empresas
#tb = tb.append(cria_tabela(df[1], 1))

repasse2.reset_index(inplace=True)
repasse2.drop("index", axis=1, inplace=True)
corrige_tabela(repasse2, "Total no Ano (R$)")
repasse2.sort_values("Total no Ano (R$)", inplace=True)

In [200]:
repasseTotal = repasse2['Total no Ano (R$)'].sum()
porcentagem_r = (repasse2['Total no Ano (R$)']/repasseTotal)
porcentagem_r.name = "Porcentagem"

repasse2 = pd.concat([repasse2, porcentagem_r], axis = 1)
repasse2.columns = ['CPF/CNPJ/Outros', 'Favorecido', 'Total', 'Porcentagem' ]

In [201]:
repasse2  #CENTRO DE CIENCIAS HUM.E LETRAS ARTES DA UFRN: 
          # Investimentos - Equipamentos e Material Permanente:defaults.width = 900
defaults.height = 900

p = Bar(repasse2, 'Porcentagem', values='Total',
        title="Centro de ciências Humanas: Investimentos - Equipamentos e Material Permanente:", bar_width=0.7, color= 'Favorecido', legend = 'top_left', agg = 'mean')

output_notebook()

show(p)

# Teste do scatterplot

In [None]:
url ="http://www.transparencia.gov.br/PortalComprasDiretasOEFavorecidoED.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153109&CodigoGD=4&CodigoED=52"
url2 ="http://www.transparencia.gov.br/PortalComprasDiretasOEFavorecidoED.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243&CodigoUG=153107&CodigoGD=4&CodigoED=52"
df = retorna_tabelas(url)
df2 = retorna_tabelas(url2)

In [None]:
tb = cria_tabela(df[1], 1)
tb = tb.append(cria_tabela(df2[1], 1))

tb.reset_index(inplace=True)
tb.drop("index", axis=1, inplace=True)

tb.sort_values("Favorecido [Nome Fantasia]", inplace=True)

In [None]:
corrige_tabela(tb, "Total no Ano (R$)")
#new_tb = tb.groupby(['CPF/CNPJ/Outros', 'Favorecido [Nome Fantasia]'])['Total no Ano (R$)'].transform('sum')
new_tb = tb.reset_index().groupby(['CPF/CNPJ/Outros', 'Favorecido [Nome Fantasia]'])['Total no Ano (R$)'].sum()
new_tb = new_tb.to_frame()

In [None]:
print(new_tb.columns.values)
new_tb['Total no Ano (R$)']

#Criar gráfico de compras dos departamentos da UF

# TESTES

In [141]:
#Lines distribuction

url = "http://www.transparencia.gov.br/PortalComprasDiretasOEUnidadeGestora.asp?Ano=2016&CodigoOS=26000&CodigoOrgao=26243"

####IVAN

##Percorre os links e cria tabelas para cada um deles

### Aqui que entra o SCRAP
urls.clear()

for atual in range(10,18):
    urls.append("http://www.transparencia.gov.br/PortalComprasDiretasOEUnidadeGestora.asp?Ano=20"+str(atual)+"&CodigoOS=26000&CodigoOrgao=26243")

##Lista de tabelas
Departamentos = []
#Criar um dicionário da seguinte form dict = { "Nome_Do_departamento" : Tabela}, assim fica mais fácil de 
#identificar cada gráfico que será plotado
for atual in range(len(urls)):
    df = retorna_tabelas(urls[atual])
    Departamentos.append(cria_tabela(df[1], 1))
    
for atual in range(0,len(Departamentos)):
    Departamentos[atual]["Ano"] = atual+2010
    
####IVAN


In [142]:
#for atual in range(0,len(Departamentos)):
#    corrige_tabela(Departamentos[atual], "Total no Ano (R$)" )

temp = Departamentos[0].copy()
corrige_tabela(temp, "Total no Ano (R$)" )
#for atual in range(0,len(Departamentos)):
#    print(type(Departamentos[atual]["Total no Ano (R$)"][1] ))

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy


In [175]:
Departamentos

labels = ['Código', 'Unidade Gestora', 'Total no Ano (R$)', 'Ano']
#for atual in range(0,len(Departamentos)):
df2 = pd.DataFrame.from_records(Departamentos[0], columns=labels)
df2.append(pd.DataFrame.from_records(Departamentos[2], columns=labels))

df2.tail()

Unnamed: 0,Código,Unidade Gestora,Total no Ano (R$),Ano
7,153252,HOSP.PEDIATRIA PROF. HERIBERTO F. BEZERRA,2.657.44220,2010
8,153104,HOSPITAL UNIVERSITARIO ANA BEZERRA,2.812.32206,2010
9,153108,HOSPITAL UNIVERSITARIO ONOFRE LOPES DA UFRN,21.085.82302,2010
10,153110,MATERNIDADE ESCOLA JANUARIO CICCO DA UFRN,10.148.07279,2010
11,153103,UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE,658.254.28970,2010
