### Libs 

In [51]:
import pandas as pd
import openpyxl as xl
import schedule 
import time 
import numpy as np
from datetime import datetime, timedelta
from IPython.display import display
import requests
import aiohttp  # Importando a biblioteca aiohttp para requisições assíncronas
import asyncio  # Importando asyncio para gerenciar a execução assíncrona


### Leitura Dataseat

In [52]:
pd.set_option('display.max_columns', None) # configuração para mostrar todas as colunas do DF


def leitura_excel():
    try:
        # Lê o arquivo CSV
        df = pd.read_csv(r'C:\Users\gm194\Downloads\despesas_contratadas_candidatos_2024_RS.csv', encoding="latin-1", sep=";", nrows=30000)
        df.columns = df.columns.str.replace('_', ' ').str.title().str.replace(' ', '') ## Passando para CamelCase
        display(df.head(1))  # Imprime as primeiras linhas do DataFrame
        return df  # Retorna o DataFrame se a leitura for bem-sucedida
    except Exception as e:
        print(f"Erro ao ler o arquivo: {e}")  # Tratamento de erros
        return None  # Retorna None se houver um erro

# Executa a função e armazena o DataFrame em uma variável, para poder usar em outras células
df = leitura_excel()

# Verifica se a leitura foi bem-sucedida e exibe o DataFrame completo
if df is not None:
    print("A leitura foi concluída com sucesso.")
else:
    print("A leitura falhou.")

Unnamed: 0,DtGeracao,HhGeracao,AaEleicao,CdTipoEleicao,NmTipoEleicao,CdEleicao,DsEleicao,DtEleicao,StTurno,TpPrestacaoContas,DtPrestacaoContas,SqPrestadorContas,SgUf,SgUe,NmUe,NrCnpjPrestadorConta,CdCargo,DsCargo,SqCandidato,NrCandidato,NmCandidato,NrCpfCandidato,NrCpfViceCandidato,NrPartido,SgPartido,NmPartido,CdTipoFornecedor,DsTipoFornecedor,CdCnaeFornecedor,DsCnaeFornecedor,NrCpfCnpjFornecedor,NmFornecedor,NmFornecedorRfb,CdEsferaPartFornecedor,DsEsferaPartFornecedor,SgUfFornecedor,CdMunicipioFornecedor,NmMunicipioFornecedor,SqCandidatoFornecedor,NrCandidatoFornecedor,CdCargoFornecedor,DsCargoFornecedor,NrPartidoFornecedor,SgPartidoFornecedor,NmPartidoFornecedor,DsTipoDocumento,NrDocumento,CdOrigemDespesa,DsOrigemDespesa,SqDespesa,DtDespesa,DsDespesa,VrDespesaContratada
0,26/10/2024,03:00:57,2024,2,Ordinária,619,Eleições Municipais 2024,06/10/2024,1,Parcial,13/09/2024,5288288726,RS,86304,AMETISTA DO SUL,56791789000109,13,Vereador,210002297508,12222,LAURY RIBEIRO,-4,-4,12,PDT,Partido Democrático Trabalhista,1,PESSOA JURÍDICA,58298,"Edição integrada à impressão de cadastros, lis...",26709166000175,JULIANO ALBA,JULIANO ALBA,-1,#NULO,#NULO#,-1,#NULO,-1,-1,-1,#NULO,-1,#NULO,#NULO,Nota Fiscal,820,20110000,Publicidade por adesivos,54764890,09/09/2024,ADESIVO MICROPERFURADO,12000


A leitura foi concluída com sucesso.


### Manipulação de datas

In [53]:
# Converte strings para datas. Valores inválidos se tornam NaT( Not a time).
# O parâmetro erros='coerce' é usado para evitar erros na conversão
# Se a data não for válida, ela é transformada em NaT em vez de parar o código.
df['DtGeracao'] = pd.to_datetime(df['DtGeracao'], errors='coerce', dayfirst=False)
df['DtEleicao'] = pd.to_datetime(df['DtEleicao'], errors='coerce',dayfirst=False)
df['DtDespesa'] = pd.to_datetime(df['DtDespesa'], errors='coerce',dayfirst=False)

#Após tratar essa coluna, posso passar para string e mudar o formato da data
df['DtGeracao'] = df['DtGeracao'].dt.strftime('%Y-%m-%d')
df['DtEleicao'] = df['DtEleicao'].dt.strftime('%Y-%m-%d')
df['DtDespesa'] = df['DtDespesa'].dt.strftime('%Y-%m-%d')

  df['DtGeracao'] = pd.to_datetime(df['DtGeracao'], errors='coerce', dayfirst=False)


## Tratando valores nulos

In [54]:
df = df.applymap(lambda x: 'Nan' if x == '#NULO' else x)
df = df.applymap(lambda x: 'Nan' if x == '#NULO#' else x)


  df = df.applymap(lambda x: 'Nan' if x == '#NULO' else x)
  df = df.applymap(lambda x: 'Nan' if x == '#NULO#' else x)


## Convertendo colunas para Float | Int

In [55]:
df['VrDespesaContratada'] = df['VrDespesaContratada'].str.replace(',' , '.').astype(float)


## Lendo arquivo que contém longitude e latitude para cruzar com a minha base

In [56]:
api_key = "AIzaSyC5Snzm36rHzu4kZLC9Us9jIL7eIV4YBss"  # Coloque sua chave de API do Google Maps Geocoding


In [57]:
async def obter_coordenadas(cidade, estado, api_key):
    try:
        start_time = time.time()

        url = f"https://maps.googleapis.com/maps/api/geocode/json?address={cidade},{estado},Brasil&key={api_key}"

        # Faz a requisição assíncrona à API
        async with aiohttp.ClientSession() as session:
            async with session.get(url) as response:
                if response.status == 200:
                    data = await response.json()
                    if data['results']:
                        location = data['results'][0]['geometry']['location']

                        # Imprime o tempo de resposta
                        print(f"Tempo de resposta da API para {cidade}, {estado}: {time.time() - start_time} segundos")

                        return location['lat'], location['lng']
                
        return None, None
    except Exception as e:
        print(f"Erro ao obter coordenadas para {cidade}, {estado}: {e}")
        return None, None

In [58]:
df = leitura_excel()
# Adiciona as colunas de Latitude e Longitude
df['Latitude'] = None
df['Longitude'] = None


Unnamed: 0,DtGeracao,HhGeracao,AaEleicao,CdTipoEleicao,NmTipoEleicao,CdEleicao,DsEleicao,DtEleicao,StTurno,TpPrestacaoContas,DtPrestacaoContas,SqPrestadorContas,SgUf,SgUe,NmUe,NrCnpjPrestadorConta,CdCargo,DsCargo,SqCandidato,NrCandidato,NmCandidato,NrCpfCandidato,NrCpfViceCandidato,NrPartido,SgPartido,NmPartido,CdTipoFornecedor,DsTipoFornecedor,CdCnaeFornecedor,DsCnaeFornecedor,NrCpfCnpjFornecedor,NmFornecedor,NmFornecedorRfb,CdEsferaPartFornecedor,DsEsferaPartFornecedor,SgUfFornecedor,CdMunicipioFornecedor,NmMunicipioFornecedor,SqCandidatoFornecedor,NrCandidatoFornecedor,CdCargoFornecedor,DsCargoFornecedor,NrPartidoFornecedor,SgPartidoFornecedor,NmPartidoFornecedor,DsTipoDocumento,NrDocumento,CdOrigemDespesa,DsOrigemDespesa,SqDespesa,DtDespesa,DsDespesa,VrDespesaContratada
0,26/10/2024,03:00:57,2024,2,Ordinária,619,Eleições Municipais 2024,06/10/2024,1,Parcial,13/09/2024,5288288726,RS,86304,AMETISTA DO SUL,56791789000109,13,Vereador,210002297508,12222,LAURY RIBEIRO,-4,-4,12,PDT,Partido Democrático Trabalhista,1,PESSOA JURÍDICA,58298,"Edição integrada à impressão de cadastros, lis...",26709166000175,JULIANO ALBA,JULIANO ALBA,-1,#NULO,#NULO#,-1,#NULO,-1,-1,-1,#NULO,-1,#NULO,#NULO,Nota Fiscal,820,20110000,Publicidade por adesivos,54764890,09/09/2024,ADESIVO MICROPERFURADO,12000


In [59]:
async def processar_coordenadas(df, api_key):
    coordenadas_cache = {}

    # Itera sobre o DataFrame e obtém coordenadas para cada cidade/estado, uma única vez por cidade
    for i, row in df.iterrows():
        cidade_estado = f"{row['NmUe']},{row['SgUf']}"
        
        # Verifica se as coordenadas da cidade/estado já foram obtidas
        if cidade_estado not in coordenadas_cache:
            lat, lng = await obter_coordenadas(row['NmUe'], row['SgUf'], api_key)
            coordenadas_cache[cidade_estado] = (lat, lng)

        # Aplica as coordenadas ao DataFrame
        df.at[i, 'Latitude'] = coordenadas_cache[cidade_estado][0]
        df.at[i, 'Longitude'] = coordenadas_cache[cidade_estado][1]

    return df

In [60]:

# Adiciona as colunas de Latitude e Longitude
df['Latitude'] = None
df['Longitude'] = None
