In [40]:
import warnings
warnings.filterwarnings('ignore') # somente para ignorar os warnings
import pandas as pd # ferramenta para ciencia de dados
import requests
import time
from tqdm import tqdm_notebook as tqdm # barra de progresso
import json
from tqdm import tqdm_notebook as tqdm

# Extração dos Dados

In [24]:
df = pd.read_csv('cno.csv',encoding = 'latin1')

## Escolhendo obras Específicas

In [25]:
df = df[df['Situação'] != 15][df['Situação'] != 1] # selecionando no dataframe somente obras com situação ativa,suspensa,paralizada

df['Data da situação'] = df['Data da situação'].apply(lambda x:'0' if x.split('-')[0] != '2022' else x) # mapeando com '0' todo diferente de 2022
df = df[df['Data da situação'] != '0'] # selecionando no dataframe somente datas que são diferentes de '0'

## Removendo colunas que não são necessárias

In [26]:
# Removendo colunas que não serão necessesárias
df = df.drop(columns = ['CNO', 'Código do Pais', 'Nome do pais',
       'Data de inicio da responsabilidade', 'Data de registro',
       'CNO vinculado','NI do responsável',
       'Qualificação do responsavel','Código do municipio',
       'Nome do município', 'Tipo de logradouro', 'Logradouro',
       'Número do logradouro','Caixa Postal',
       'Complemento', 'Unidade de medida','Data da situação'])

In [27]:
df['Nome empresarial'] = df['Nome empresarial'].fillna('')

In [28]:
df = df[df['Nome empresarial'] != '']

In [29]:
df.reset_index(inplace = True,drop = True)

In [30]:
df

Unnamed: 0,Data de início,CEP,Nome,Bairro,Estado,Área total,Situação,Nome empresarial
0,2022-04-16,35020220,SABRINNE SALMEN SANTANA,SAO PEDRO,MG,100.00,2,ASSOCIACAO SANTA LUZIA DE GOVERNADOR VALADARES
1,1997-08-15,84001970,ANTONIO MORO & CIA LTDA,S/B,PR,17.80,14,ANTONIO MORO & CIA LTDA
2,2022-04-19,39915000,IASD Mata Verde/AML/#187,CENTRO,MG,115.55,2,ASSOC DA UNIAO ESTE BRAS DOS ADVENTISTAS DO SE...
3,2006-09-01,78601522,JBS S/A,JARDIM PARAISO,MT,3463.66,2,JBS S/A
4,2000-03-24,25233001,ASSOCIACAO PESQUISADORA E DIVULGADORA DA BIBLIA,PARQUE S. JOAO,RJ,0.01,2,ASSOCIACAO DE ESTUDANTES DA BIBLIA
...,...,...,...,...,...,...,...,...
34426,2022-06-14,76970000,REVITALIZAÇÃO DA PRAÇA MUNICIPAL DOS PIONEIROS,PIONEIROS,RO,21355.52,2,H T SERVICOS DE ENGENHARIA E ARQUITETURA LTDA
34427,2022-06-15,35182132,CONSTRUTORA MULTIRAO EIRELI,SAO JOSE,MG,180.27,2,CONSTRUTORA MULTIRAO EIRELI
34428,2022-06-09,62960000,RECUPERÇÃO DE ESTRADA VICINAL NA LOCALIDADE DE...,SAO FRANCISCO,CE,34700.00,2,CONSTRUTORA EXITO EIRELI
34429,2022-05-05,69099181,REFORMA DA PRAÇA COM PLAYGROUND E ACADEMIA AO ...,CIDADE DE DEUS,AM,120.00,2,I M ENGENHARIA LTDA


## Adiciona os dados no Banco de Dados

In [33]:
import psycopg2

In [37]:
def conecta_db():
    con = psycopg2.connect(host='localhost', 
                         database='postgres',
                         user='postgres')
    return con

In [73]:
def inserir_db(sql):
    
    cur = con.cursor()
    try:
        cur.execute(sql)
        con.commit()
    except (Exception, psycopg2.DatabaseError) as error:
        print("Error: %s" % error)
        con.rollback()
        cur.close()
        return 1
    cur.close()

In [39]:
df.columns

Index(['Data de início', 'CEP', 'Nome', 'Bairro', 'Estado', 'Área total',
       'Situação', 'Nome empresarial'],
      dtype='object')

In [61]:
df['Nome'] = df['Nome'].fillna('')

In [62]:
df['Nome'] = df['Nome'].apply(lambda x: x.replace("'",''))

In [65]:
df['Nome empresarial'] = df['Nome empresarial'].apply(lambda x: x.replace("'",''))

In [69]:
df['Bairro'] = df['Bairro'].fillna('')

In [70]:
df['Bairro'] = df['Bairro'].apply(lambda x: x.replace("'",''))

In [74]:
pbar = tqdm(total = len(df))

for i in df.index:
    sql = """
    INSERT into public.construcoes (data_inicio,cep,nome,bairro,uf,area_total,situacao,nome_empresa) 
    values('%s','%s','%s','%s','%s','%s','%s','%s');
    """ % (df['Data de início'][i], df['CEP'][i], df['Nome'][i], df['Bairro'][i], df['Estado'][i], df['Área total'][i], df['Situação'][i], df['Nome empresarial'][i])
    inserir_db(sql)
    pbar.update(1)

  0%|          | 0/34431 [00:00<?, ?it/s]

KeyboardInterrupt: 

In [67]:
df[df['Nome'] == 'CONSTRUTORA SIGMA SUL EIRELI']

Unnamed: 0,Data de início,CEP,Nome,Bairro,Estado,Área total,Situação,Nome empresarial
2632,2022-01-05,95923000,CONSTRUTORA SIGMA SUL EIRELI,Cidade D´'agua,RS,304.52,2,CONSTRUTORA SIGMA SUL LTDA


In [55]:
df.values[1235][2].replace("'",'')

'REDE DOR SAO LUIZ S.A - ALPHAVILLE'

In [60]:
for i in df['Nome']:
    if type(i) != str:
        print(i)

nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan
nan


In [31]:
# Função que utiliza a api do cep aberto para transformar cep em coordenadas 'latitude longitude'
def cep_to_coordenate(cep):
    
    url = "https://www.cepaberto.com/api/v3/cep?cep={}".format(cep)
    headers = {'Authorization': 'Token token=97aeafe113754fd9fd85fe6cb36716e6'}
    
    try:
        response = requests.get(url, headers=headers)
        response = json.loads(response.text)
    except:
        response = {}
    
    if response: 
        #time.sleep(1)
        return "{} {}".format(response['latitude'],response['longitude'])

In [None]:
# Preenchendo cada coordenada com o cep
for i in tqdm(range(len(df))):
    df['coordenadas'][i] = cep_to_coordenate(df['CEP'][i])