In [1]:
import pandas as pd
import re
import requests
from bs4 import BeautifulSoup

In [2]:
GEOCODING_KEY = 'AIzaSyDtDgZw3dI5DzJLN3v0ehjTEVIVkfdUYLM'

In [3]:
df = pd.read_csv('contratos.csv', sep=';', parse_dates=['inicio', 'vencimento'])
df.head()

Unnamed: 0,contrato,contratado,valor,objeto,licitacao,modalidade_licitacao,inicio,vencimento
0,90/2013,05.120.923/0001-09 - AEROTUR SERVIÇOS DE VIAG...,"R$ 11.340.000,66","SERVIÇO DE AGENCIAMENTO DE VIAGENS, COMPREENDE...",PR-65/2013,PREGÃO,2013-11-20,2018-11-20
1,10/2014,03.538.129/0001-46 - M.A.C DE MELO,"R$ 1.411.230,93",SERVIÇOS DE MANUTENÇÃO PREVENTIVA E CORRETIVA ...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03
2,15/2014,09.080.300/0001-00 - MONTEIRO & MESQUITA LTDA...,"R$ 736.440,00",SERVIÇOS DE MANUTENÇÃO PREVENTIVA E CORRETIVA ...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03
3,18/2014,00.000.278/8824-04 - ARNALDO SANTIAGO NUNES,"R$ 96.000,00",LOCAÇÃO DO IMÓVEL SITUADO AVENIDA NASCIMENTO D...,DL-12/2014,DISPENSA DE LICITAÇÃO,2014-10-03,2019-10-03
4,20/2014,10.334.942/0001-60 - CARBOX LTDA - ME,"R$ 687.000,00","SERVIÇOS DE, LANTERNAGEM, PINTURA, CAPOTARIA E...",PR-30/2013,PREGÃO,2014-10-03,2019-10-03


Registro que haviam dois contratos exatamente iguais com __número de contrato__ diferentes. Contudo, optei por removê-los da amostra.

In [4]:
df.drop_duplicates(subset=['contratado', 'valor', 'objeto', 'licitacao', 'modalidade_licitacao', 'inicio', 'vencimento'], inplace=True)

Dados como _CNPJ_ e _RAZAO_SOCIAL estavam juntos e optei separa-los para facilitar as análises, visto que CNPJ era o dado essencial para que a análise fosse possível.

In [5]:
splitted = df['contratado'].str.split(' - ', expand=True, n=1)
df['cnpj'] = splitted[0].str.strip()
df['razao_social'] = splitted[1].str.strip()
df = df.drop('contratado', axis=1).reset_index(drop=True)

In [6]:
df.head()

Unnamed: 0,contrato,valor,objeto,licitacao,modalidade_licitacao,inicio,vencimento,cnpj,razao_social
0,90/2013,"R$ 11.340.000,66","SERVIÇO DE AGENCIAMENTO DE VIAGENS, COMPREENDE...",PR-65/2013,PREGÃO,2013-11-20,2018-11-20,05.120.923/0001-09,AEROTUR SERVIÇOS DE VIAGENS LTDA
1,10/2014,"R$ 1.411.230,93",SERVIÇOS DE MANUTENÇÃO PREVENTIVA E CORRETIVA ...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03,03.538.129/0001-46,M.A.C DE MELO
2,15/2014,"R$ 736.440,00",SERVIÇOS DE MANUTENÇÃO PREVENTIVA E CORRETIVA ...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03,09.080.300/0001-00,MONTEIRO & MESQUITA LTDA EPP
3,18/2014,"R$ 96.000,00",LOCAÇÃO DO IMÓVEL SITUADO AVENIDA NASCIMENTO D...,DL-12/2014,DISPENSA DE LICITAÇÃO,2014-10-03,2019-10-03,00.000.278/8824-04,ARNALDO SANTIAGO NUNES
4,20/2014,"R$ 687.000,00","SERVIÇOS DE, LANTERNAGEM, PINTURA, CAPOTARIA E...",PR-30/2013,PREGÃO,2014-10-03,2019-10-03,10.334.942/0001-60,CARBOX LTDA - ME


Analisar onde se concentram os maiores valores em um ***mapa de calor***, por exemplo, pode fazer com que algo emerja. Sendo assim, vi a necessidade de manter e remodelar tal dado.

In [7]:
df['valor'] = df['valor'].str.replace('R.','', regex=True).str.strip()
df['valor'] = df['valor'].str.replace('.', '')
df['valor'] = df['valor'].str.replace(',', '.')
df['valor'] = df['valor'].astype(float)

O Portal da Transparência do Governo Federal permite consulta a CNPJ de empresas. Sendo assim, vi a oportunidade de coletar dados como __ENDEREÇO__. Entretanto, para realizar tal coleta necessitei criar um webscrapper para raspar os dados do Portal.

In [8]:
def get_soup(cnpj):
    request = requests.get('http://www.portaltransparencia.gov.br/pessoa-juridica/%s' % cnpj)
    if request.ok:
        return BeautifulSoup(request.content)
    else:
        raise Exception('Servidor não respondendo!!')

def get_info(cnpj):
    data = []
    try:
        soup = get_soup(cnpj)
    except:
        return []
    else:
        section = soup.find('section', {'class': 'dados-tabelados'})
        for div in section.findAll('div', {'class': 'row'}):
            data.extend(div.findAll('span'))
        return [item.text for item in data]

Retirei a ___máscara___ do CNPJ para poder utiliza-lo nas requisições para o ***Portal da Transparência***

In [9]:
df['cnpj'] = df['cnpj'].apply(lambda x: re.sub(r'[^\w]', '', x))

É chamado a função __get_info__ (Requests + BeautifulSoup) para cada CNPJ em meu dataset.

In [10]:
%%time
result = [get_info(cnpj) for cnpj in df['cnpj']]

Wall time: 55.1 s


## Dados raspados do Portal da Transparência do Governo Federal

In [11]:
scraped_data = pd.DataFrame(result, columns=[
    'inscricao',
    'data_abertura',
    'email',
    'telefone',
    'nome_empresarial',
    'nome_fantasia',
    'natureza_juridica',
    'cnae',
    'logradouro',
    'numero',
    'complemento',
    'cep',
    'bairro',
    'municipio',
    'uf',
])
scraped_data.drop('inscricao', inplace=True, axis=1)
scraped_data.head()

Unnamed: 0,data_abertura,email,telefone,nome_empresarial,nome_fantasia,natureza_juridica,cnae,logradouro,numero,complemento,cep,bairro,municipio,uf
0,28/06/2002,ADRIANO@AEROTUR.COM.BR,84 32202950,AEROTUR SERVICOS DE VIAGENS LTDA,,2062 - Sociedade Empresária Limitada,79112 - Agências de viagens,R APODI,583.0,SALA 02 - 1 ANDAR,,TIROL,NATAL,RN
1,30/11/1999,PRESCOFIL@BOL.COM.BR,84 32724098 84 6130111,MAC DE MELO,MEGADIESEL,2135 - Empresário (Individual),00000 - Sem informação,AV PILOTO PEREIRA TIM,2260.0,,,CENTRO,PARNAMIRIM,RN
2,11/05/1984,CARBOX@CARBOX.COM.BR,84 32170106 84 32170106,CARBOX - MONTEIRO & MESQUITA LTDA,CARBOX,2062 - Sociedade Empresária Limitada,00000 - Sem informação,AV DAO SILVEIRA,4412.0,,,CANDELARIA,NATAL,RN
3,,,,,,,,,,,,,,
4,27/08/2008,CARBOX@CARBOX.COM.BR,84 32076913 84 32139025,CARBOX LTDA,,2062 - Sociedade Empresária Limitada,00000 - Sem informação,AV DAO SILVEIRA,4200.0,,,CANDELARIA,NATAL,RN


In [12]:
scraped_data = pd.concat([scraped_data, df], axis=1)

Uma das minhas ***hipóteses*** era que haviam empresas que haviam sido abertas em data próxima ao inicio do contrato. Felizmente (ou infelizmente? para mim) o tempo mínimo de atuação das empresas era de dois anos.

In [13]:
scraped_data['data_abertura'] = scraped_data['data_abertura'].apply(pd.to_datetime)

In [14]:
scraped_data[['data_abertura', 'inicio']].apply(lambda x: x['inicio'] - x['data_abertura'] , axis=1).sort_values()

50     739 days
7      784 days
24     963 days
28     984 days
44    1147 days
87    1224 days
57    1249 days
27    1291 days
76    1342 days
75    1409 days
67    1414 days
18    1850 days
5     1968 days
47    2145 days
74    2184 days
90    2196 days
4     2228 days
70    2246 days
46    2285 days
78    2358 days
55    2946 days
41    3338 days
23    3493 days
31    3663 days
30    3663 days
8     3666 days
94    3890 days
89    3969 days
72    4092 days
92    4140 days
        ...    
86   10905 days
2    10924 days
37   11342 days
42   11348 days
56   11354 days
80   11505 days
58   11566 days
54   11602 days
65   11643 days
63   11643 days
68   11676 days
71   12001 days
69   12001 days
85   12665 days
97   13141 days
14   13510 days
19   15717 days
77   16502 days
22   16636 days
34   16917 days
26   17153 days
73   17477 days
81   17523 days
16   17784 days
88   18756 days
3           NaT
25          NaT
39          NaT
49          NaT
96          NaT
Length: 98, dtype: timed

Uma outra ***hipótese*** é que haviam empresas registradas com nome diferente do que constava no cadastro da receita federal.

Não encontrei nada além de pequenas variações (que são completamente aceitáveis).

In [16]:
scraped_data[scraped_data['nome_empresarial'] != scraped_data['razao_social']][['nome_empresarial', 'razao_social']]

Unnamed: 0,nome_empresarial,razao_social
0,AEROTUR SERVICOS DE VIAGENS LTDA,AEROTUR SERVIÇOS DE VIAGENS LTDA
1,MAC DE MELO,M.A.C DE MELO
2,CARBOX - MONTEIRO & MESQUITA LTDA,MONTEIRO & MESQUITA LTDA EPP
3,,ARNALDO SANTIAGO NUNES
4,CARBOX LTDA,CARBOX LTDA - ME
5,TOTAL MULTIMIDIA LOCACAO E EVENTOS LTDA,TOTAL MULTIMIDIA LOCAÇÃO E EVENTOS LTDA-ME
7,INFRAMERICA CONCESSIONARIA DO AEROPORTO DE SAO...,INFRAMERICA CONCESSIONARIA SA
8,CENTRO DE CAPACITACAO E TREINAMENTO PATATIVA D...,CENTRO DE CAPACITAÇÃO PATATIVA DO ASSARÉ
10,PROTASIO LOCACAO E TURISMO LTDA,PROTÁSIO LOCAÇÃO E TURISMO LTDA
11,HASTE - HABITACAO E SERVICOS TECNICOS LTDA,HASTE-HABITAÇÃO E SERVIÇOS TÉCNICOS LTDA


Pensando em uma análise posterior, decidi separar informações como ***Código do CNAE*** e sua ***Descricao***

In [17]:
splitted = scraped_data['cnae'].str.split(' - ', expand=True)
scraped_data['cod_cnae'] = splitted[0].str.strip()
scraped_data['descricao_cnae'] = splitted[1].str.strip()
scraped_data.drop('cnae', axis=1, inplace=True)
scraped_data.head()

Unnamed: 0,data_abertura,email,telefone,nome_empresarial,nome_fantasia,natureza_juridica,logradouro,numero,complemento,cep,...,valor,objeto,licitacao,modalidade_licitacao,inicio,vencimento,cnpj,razao_social,cod_cnae,descricao_cnae
0,2002-06-28,ADRIANO@AEROTUR.COM.BR,84 32202950,AEROTUR SERVICOS DE VIAGENS LTDA,,2062 - Sociedade Empresária Limitada,R APODI,583.0,SALA 02 - 1 ANDAR,,...,11340000.66,"SERVIÇO DE AGENCIAMENTO DE VIAGENS, COMPREENDE...",PR-65/2013,PREGÃO,2013-11-20,2018-11-20,5120923000109,AEROTUR SERVIÇOS DE VIAGENS LTDA,79112.0,Agências de viagens
1,1999-11-30,PRESCOFIL@BOL.COM.BR,84 32724098 84 6130111,MAC DE MELO,MEGADIESEL,2135 - Empresário (Individual),AV PILOTO PEREIRA TIM,2260.0,,,...,1411230.93,SERVIÇOS DE MANUTENÇÃO PREVENTIVA E CORRETIVA ...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03,3538129000146,M.A.C DE MELO,0.0,Sem informação
2,1984-11-05,CARBOX@CARBOX.COM.BR,84 32170106 84 32170106,CARBOX - MONTEIRO & MESQUITA LTDA,CARBOX,2062 - Sociedade Empresária Limitada,AV DAO SILVEIRA,4412.0,,,...,736440.0,SERVIÇOS DE MANUTENÇÃO PREVENTIVA E CORRETIVA ...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03,9080300000100,MONTEIRO & MESQUITA LTDA EPP,0.0,Sem informação
3,NaT,,,,,,,,,,...,96000.0,LOCAÇÃO DO IMÓVEL SITUADO AVENIDA NASCIMENTO D...,DL-12/2014,DISPENSA DE LICITAÇÃO,2014-10-03,2019-10-03,278882404,ARNALDO SANTIAGO NUNES,,
4,2008-08-27,CARBOX@CARBOX.COM.BR,84 32076913 84 32139025,CARBOX LTDA,,2062 - Sociedade Empresária Limitada,AV DAO SILVEIRA,4200.0,,,...,687000.0,"SERVIÇOS DE, LANTERNAGEM, PINTURA, CAPOTARIA E...",PR-30/2013,PREGÃO,2014-10-03,2019-10-03,10334942000160,CARBOX LTDA - ME,0.0,Sem informação


Ainda pensando em uma melhor categorização, também dividi a ***natureza jurídica*** em __código__ e __descricao__

In [18]:
splitted = scraped_data['natureza_juridica'].str.split(' - ', expand=True)
scraped_data['cod_natureza'] = splitted[0].str.strip()
scraped_data['descricao_natureza'] = splitted[1].str.strip()
scraped_data.drop('natureza_juridica', axis=1, inplace=True)
scraped_data.head()

Unnamed: 0,data_abertura,email,telefone,nome_empresarial,nome_fantasia,logradouro,numero,complemento,cep,bairro,...,licitacao,modalidade_licitacao,inicio,vencimento,cnpj,razao_social,cod_cnae,descricao_cnae,cod_natureza,descricao_natureza
0,2002-06-28,ADRIANO@AEROTUR.COM.BR,84 32202950,AEROTUR SERVICOS DE VIAGENS LTDA,,R APODI,583.0,SALA 02 - 1 ANDAR,,TIROL,...,PR-65/2013,PREGÃO,2013-11-20,2018-11-20,5120923000109,AEROTUR SERVIÇOS DE VIAGENS LTDA,79112.0,Agências de viagens,2062.0,Sociedade Empresária Limitada
1,1999-11-30,PRESCOFIL@BOL.COM.BR,84 32724098 84 6130111,MAC DE MELO,MEGADIESEL,AV PILOTO PEREIRA TIM,2260.0,,,CENTRO,...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03,3538129000146,M.A.C DE MELO,0.0,Sem informação,2135.0,Empresário (Individual)
2,1984-11-05,CARBOX@CARBOX.COM.BR,84 32170106 84 32170106,CARBOX - MONTEIRO & MESQUITA LTDA,CARBOX,AV DAO SILVEIRA,4412.0,,,CANDELARIA,...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03,9080300000100,MONTEIRO & MESQUITA LTDA EPP,0.0,Sem informação,2062.0,Sociedade Empresária Limitada
3,NaT,,,,,,,,,,...,DL-12/2014,DISPENSA DE LICITAÇÃO,2014-10-03,2019-10-03,278882404,ARNALDO SANTIAGO NUNES,,,,
4,2008-08-27,CARBOX@CARBOX.COM.BR,84 32076913 84 32139025,CARBOX LTDA,,AV DAO SILVEIRA,4200.0,,,CANDELARIA,...,PR-30/2013,PREGÃO,2014-10-03,2019-10-03,10334942000160,CARBOX LTDA - ME,0.0,Sem informação,2062.0,Sociedade Empresária Limitada


### Alguns CPFs foram encontrados... Deveriam?

Não sei se a UFRN pode negociar diretamente com PF, então deixo essa observação para fazer uma análise posterior

In [19]:
scraped_data[scraped_data['data_abertura'].isna()][['cnpj', 'razao_social']]

Unnamed: 0,cnpj,razao_social
3,278882404,ARNALDO SANTIAGO NUNES
25,63776006404,JOÃO LUIS MOUSINHO MONTE
39,81289197415,GIGLIANA MENDONÇA DA SILVA
49,3573443400,EIDER ARAUJO DE CARVALHO
96,33596760410,LUCINETE DE SOUZA JALES


Como PF não é o que eu estava procurando (até porque não tem como saber o endereço de PF), optei por removê-los da amostra.

In [20]:
scraped_data = scraped_data.drop([3,25,39,49,96]).reset_index(drop=True)

Uma vez com os endereços, utilizei a API Geocoding do Google para coletar as ***coordenadas*** dos estabelecimentos.

In [21]:
def get_geocode_info(address):
    params = {
        'sensor': 'false',
        'address': address,
        'key': GEOCODING_KEY,
    }
    
    request = requests.get('https://maps.googleapis.com/maps/api/geocode/json', params=params)
    results = request.json()['results']
    
    if results:
        geocoding_info = request.json()['results'][0]
        return [
            geocoding_info['formatted_address'],
            geocoding_info['geometry']['location']['lat'],
            geocoding_info['geometry']['location']['lng'],
        ]
    else:
        return []

Agrupei todas as informações de endereço que estavam no Dataset e solicitei as ***geocoordenadas*** ao Geocoding

In [22]:
addresses = scraped_data[['logradouro', 'numero', 'complemento', 'cep', 'bairro', 'municipio', 'uf']].fillna('').apply(lambda x: ', '.join(x), axis=1)

In [23]:
%%time
coordinates = [get_geocode_info(address) for address in addresses]

Wall time: 1min 17s


In [24]:
df_coordinates = pd.DataFrame(coordinates, columns=[
    'endereco_completo',
    'latitude',
    'longitude'
])
df_coordinates.head()

Unnamed: 0,endereco_completo,latitude,longitude
0,"R. Apodi, 583 - SALA 02 - 1 ANDAR - Tirol, Nat...",-5.791534,-35.20032
1,"Av. Piloto Pereira Tim, 2260 - Centro, Parnami...",-5.910796,-35.261644
2,"Av. Dão Silveira, 4412 - Candelária, Natal - R...",-5.856718,-35.212661
3,"Av. Dão Silveira, 4200 - Candelária, Natal - R...",-5.85647,-35.21267
4,"R. Nascimento Fernandes, 2145 - Lagoa Nova, Na...",-5.816316,-35.200792


Uma vez coletadas e postas em um dataframe, concatenei as informações com o dataframe principal.

In [25]:
df_coordinates = pd.concat([scraped_data, df_coordinates], axis=1)
df_coordinates.head()

Unnamed: 0,data_abertura,email,telefone,nome_empresarial,nome_fantasia,logradouro,numero,complemento,cep,bairro,...,vencimento,cnpj,razao_social,cod_cnae,descricao_cnae,cod_natureza,descricao_natureza,endereco_completo,latitude,longitude
0,2002-06-28,ADRIANO@AEROTUR.COM.BR,84 32202950,AEROTUR SERVICOS DE VIAGENS LTDA,,R APODI,583,SALA 02 - 1 ANDAR,,TIROL,...,2018-11-20,5120923000109,AEROTUR SERVIÇOS DE VIAGENS LTDA,79112,Agências de viagens,2062,Sociedade Empresária Limitada,"R. Apodi, 583 - SALA 02 - 1 ANDAR - Tirol, Nat...",-5.791534,-35.20032
1,1999-11-30,PRESCOFIL@BOL.COM.BR,84 32724098 84 6130111,MAC DE MELO,MEGADIESEL,AV PILOTO PEREIRA TIM,2260,,,CENTRO,...,2019-10-03,3538129000146,M.A.C DE MELO,0,Sem informação,2135,Empresário (Individual),"Av. Piloto Pereira Tim, 2260 - Centro, Parnami...",-5.910796,-35.261644
2,1984-11-05,CARBOX@CARBOX.COM.BR,84 32170106 84 32170106,CARBOX - MONTEIRO & MESQUITA LTDA,CARBOX,AV DAO SILVEIRA,4412,,,CANDELARIA,...,2019-10-03,9080300000100,MONTEIRO & MESQUITA LTDA EPP,0,Sem informação,2062,Sociedade Empresária Limitada,"Av. Dão Silveira, 4412 - Candelária, Natal - R...",-5.856718,-35.212661
3,2008-08-27,CARBOX@CARBOX.COM.BR,84 32076913 84 32139025,CARBOX LTDA,,AV DAO SILVEIRA,4200,,,CANDELARIA,...,2019-10-03,10334942000160,CARBOX LTDA - ME,0,Sem informação,2062,Sociedade Empresária Limitada,"Av. Dão Silveira, 4200 - Candelária, Natal - R...",-5.85647,-35.21267
4,2008-08-15,TOTALMIDIAEVENTOS@HOTMAIL.COM,84 32119441 84 32119441,TOTAL MULTIMIDIA LOCACAO E EVENTOS LTDA,TOTAL MULTIMIDIA,R NASCIMENTO FERNANDES,2145,,,LAGOA NOVA,...,2019-01-04,10298485000103,TOTAL MULTIMIDIA LOCAÇÃO E EVENTOS LTDA-ME,77390,Aluguel de máquinas e equipamentos não especif...,2062,Sociedade Empresária Limitada,"R. Nascimento Fernandes, 2145 - Lagoa Nova, Na...",-5.816316,-35.200792


In [26]:
df_coordinates.to_csv('contratos_com_coordenadas.csv', sep=';', index=False)