#### Depencies

In [18]:
import geopy
import openml
import pandas as pd
import geopandas as gpd
import glob

from geopy.geocoders import Nominatim
from concurrent.futures import ThreadPoolExecutor, as_completed
import time
from tqdm import tqdm
import os

# Data Profilling

## **An Exploratory Data Analysis of U.S Individual Donations for Political Campaigs**


---
A Comissão Federal de Eleições (FEC) é uma agência independente que visa mediar e regular o financiamente de campanhas presidencias dos EUA. Sob o pretexto de registrar cada doação dos cidadãos, criou-se a base que será aqui trabalhada. A partir das bibliotecas **Vega-Altair** e **Plotly**, explora-se a criação de visualizações para compreender e investigar o comportamento das contribuições políticas ao redor do país.


---



### **As variáveis da base**

#### Variáveis Preditivas

* **cmte_id**: ID do comite para o qual a contribuição foi feita. Cada comitê possui um identificador único. Neste dataset estão presentes 7112 comites diferentes.

* **amndt_ind**: Indicador de Emenda. Tal variável é usada para mostrar se uma transação ou um registro é uma emenda a um registro anteriormente apresentado, sendo classificada por uma das três opções:
  * N - Novo registro;

  * A - Emenda a um registro anterior;
  * C - Correção/alteração num registro.

* **rpt_tp**: Tipo de Relatório de contribuição do Comitê ao qual o contribuinte está associado. Seus tipos são comumente diferenciados pela sua recorrência(mensal, trimestral, pré-eleição e etc).

* **transaction_pgi**: Indicador referente a qual etapa do ciclo eleitoral a contribuição em questão está associada.
  *  G - General Election, fase final do ciclo, onde um candidato é eleito para o cargo
  *  P - Primary Election, refere-se às eleições que são internas aos partidos
  *  S - Special Election, eleições convocadas fora do ciclo eleitoral regular para preencher vagas inesperadas
  *  E - Election,
  *  C - Convenction, Convenções Partidárias, que podem ser usadas para selecionar candidatos ou tomar outras decisões internas do partido.
  * O - Other,

  * R - Runoff Election (Segundo Turno)

  * 0 - ??

* **image_num**: Identificador único associado à imagem digitalizada do relatório financeiro.

* **transaction_tp**
  * 10 - Contribuição Financeira direta de um indivíduo ou entidade para um comitê de campanha de um candidato
  * 11 - Contribuição de uma Tribo Nativa
  * 15 - Contribuição financeira direta feita por um indivíduo, sociedade ou LLC (Empresa de responsabilidade limitada) para comitês políticos tradicionais, excluindo Super PACs e Hybrid PACs.
  * 15C - Contribuição de candidatos
  * 15E - Contribuições Direcionadas feitas por indivíduos, sociedades ou LLC para comitês políticos tradicionais
  * 19 - Doação para comunicação eleitoral

  * 20Y - Reembolso de Fundos não Eleitorais. Devolução de fundos que foram originalmente atribuídos a atividades não eleitorais.
  * 21Y - Reembolso de uma Tribo Nativa
  * 22Y - Reembolso de uma contribuição de uma indivíduo, parceiros ou uma empresa de responsabilidade limitada
  * 24I - Contribuição Direcionada por cheque
  * 24T - Contribuição Direcionada utilizando fundos do tesouro do comitê intermediário

* **entity_tp**
  * IND - Individual
  * ORG - Organização
  * CCM - Comitê do Candidato
  * PAC - Comitê de Ação Política
  * CAN - Candidato
  * COM - Comitê

  * PTY - Comitê Oficial do Partido

* **name** - Nome do Contribuinte
* **city** - Cidade do Contribuinte

* **state** - Estado do Contribuinte

* **zip_code** - Código Postal do Contribuinte

* **employer** - Empregador do Contribuinte

* **ocuppation** - Emprego do Contribuinte

* **transaction_dt** - Data de transação das contribuições

* **other_id** - ID de identificação de uma terceira parte envolvida na transação

* **tran_id** - ID único da transação

* **file_num** - Número do arquivo

* **memo_cd** - Identificador associado a presença de um memorando na transação, o qual fornece um contexto adicional à transação

* **memo_text** - Texto do memorando

*  **sub_id** - Identificador de submissão

#### Variável Alvo
* **transaction_amt**: O valor da transação em dólares. Indica a quantidade de dinheiro envolvida em uma contrbuição individual para campanhas políticas.

Assim, o dataset é composto por 5 variáveis de Identificação única, 13 variáveis categóricas, uma variável de texto, uma variável de data e uma varável numérica (alvo)



In [2]:
dataset = openml.datasets.get_dataset(42080)
df, _, _, _ = dataset.get_data(dataset_format='dataframe')
path_shapefile = "cb_2018_us_state_500k\cb_2018_us_state_500k.shp"

state_boundaries = gpd.read_file(path_shapefile, columns=['STUSPS', 'NAME', 'geometry'])
state_boundaries.rename(columns={'STUSPS': 'state',
                           'Name': 'state_name'}, inplace=True)

df_EUA = state_boundaries.merge(df, on='state', how='inner')

In [3]:
df.shape

(3348209, 21)

In [4]:
# Número de categorias únicas das variáveis categóricas
categorical_cols = df.select_dtypes(include='object')
num_categories = categorical_cols.nunique().sort_values(ascending=False)
print(num_categories)

tran_id            2999272
name               1534998
employer            657449
occupation          145304
zip_code             86334
city                 27709
cmte_id               7112
other_id              2543
state                   67
rpt_tp                  26
transaction_tp          11
transaction_pgi          8
entity_tp                7
amndt_ind                3
memo_cd                  2
dtype: int64


# Preprocessing

In [5]:
#Percentual de Dados Faltantes
missing_percent = df.isna().sum().sort_values(ascending=False) / df.shape[0] * 100
missing_percent = missing_percent[missing_percent > 0]
print(missing_percent)

memo_cd            97.314325
other_id           92.992313
memo_text          87.438747
transaction_pgi    28.104966
employer           10.371216
occupation          5.546966
state               0.258556
city                0.064990
entity_tp           0.042948
transaction_dt      0.010573
tran_id             0.009766
name                0.004211
file_num            0.000030
dtype: float64


In [6]:
#Co-ocorrência das variáveis com valores faltantes significantes
significant_missing_columns = ['occupation', 'employer', 'transaction_pgi', 'memo_cd', 'memo_text', 'other_id']
co_occur = df[significant_missing_columns].isna().astype(int)
co_occur_agg = co_occur.groupby(significant_missing_columns).size().reset_index(name='count').sort_values(by='count', ascending=False)
co_occur_agg.head(15)

Unnamed: 0,occupation,employer,transaction_pgi,memo_cd,memo_text,other_id,count
7,0,0,0,1,1,1,1890857
15,0,0,1,1,1,1,683124
54,1,1,0,1,1,1,140372
5,0,0,0,1,0,1,93993
23,0,1,0,1,1,1,88439
4,0,0,0,1,0,0,85737
12,0,0,1,1,0,0,80218
13,0,0,1,1,0,1,60084
31,0,1,1,1,1,1,52315
1,0,0,0,0,0,1,47905


In [7]:
#Co-ocorrência das variáveis com dados faltantes que podem ser imputadas
significant_missing_columns = ['occupation', 'employer']
co_occur = df[significant_missing_columns].isna().astype(int)
co_occur_agg = co_occur.groupby(significant_missing_columns).size().reset_index(name='count').sort_values(by='count', ascending=False)
co_occur_agg.head(15)

Unnamed: 0,occupation,employer,count
0,0,0,2994621
3,1,1,179386
1,0,1,167864
2,1,0,6338


In [8]:
# Exclui-se as variáveis de indentificadores únicos
df.drop(columns=['name', 'sub_id', 'tran_id', 'image_num'], inplace=True)

# Exclui-se as variáveis 'memo_cd', 'other_id', 'memo_text'
df.drop(columns=['memo_cd', 'other_id', 'memo_text'], inplace=True)

colunas_com_poucos_dados_faltantes = ["state", "city", "entity_tp", "transaction_dt", "file_num"]
df = df.dropna(subset=colunas_com_poucos_dados_faltantes)
df['transaction_pgi'] = df['transaction_pgi'].fillna("Desconhecido")

## Geocoding from zip codes

In [None]:
geolocator = Nominatim(user_agent="zip_code_locator")

# Cache para armazenar os resultados de ZIP codes já consultados
cache = {}

def get_location_from_zip(zip_code, max_retries=5):
    if zip_code in cache:
        print(f"zip code: {zip_code} já processado.")
        return zip_code, *cache[zip_code]
    
    # Implementar retentativas
    for attempt in range(max_retries):
        try:
            location = geolocator.geocode({"postalcode": zip_code, "country": "USA"})
            if location:
                result = (location.latitude, location.longitude, location.address.split(',')[1].strip())
                cache[zip_code] = result
                time.sleep(1.5)  # Reduz carga no serviço gratuito
                return zip_code, *result
        except Exception as e:
            print(f"Erro na tentativa {attempt + 1} para o ZIP code {zip_code}: {e}")
            time.sleep(2 ** attempt)  # Espera progressiva (backoff exponencial)
    
    # Retornar None se todas as tentativas falharem
    return zip_code, None, None, None


In [26]:
unique_zip_codes = df['zip_code'].unique()

chunk_size = 2000
output_dir = "geoprocessed_chunks"
os.makedirs(output_dir, exist_ok=True)

# Verificar quais chunks já foram processados
processed_chunks = {int(file.split('_')[-1].split('.')[0]) for file in os.listdir(output_dir) if file.endswith(".csv")}

for i in range(0, len(unique_zip_codes), chunk_size):
    chunk_index = i // chunk_size + 1  

    if chunk_index in processed_chunks:
        print(f"Chunk {chunk_index} já processado. Pulando...")
        continue

    chunk = unique_zip_codes[i:i+chunk_size]
    
    results = []
    for zip_code in tqdm(chunk, desc=f"Processando chunk {chunk_index}"):
        results.append(get_location_from_zip(zip_code))
    
    chunk_df = pd.DataFrame(results, columns=['zip_code', 'latitude', 'longitude', 'cidade'])
    
    chunk_file_name = os.path.join(output_dir, f"processed_zip_codes_chunk_{chunk_index}.csv")
    chunk_df.to_csv(chunk_file_name, index=False)
    print(f"Chunk {chunk_index} salvo com sucesso em {chunk_file_name}")
    
    

Chunk 1 já processado. Pulando...
Chunk 2 já processado. Pulando...
Chunk 3 já processado. Pulando...
Chunk 4 já processado. Pulando...


Processando chunk 5:   0%|          | 0/2000 [00:00<?, ?it/s]

zip code: 98204 já processado.
zip code: 33915 já processado.
zip code: 46055 já processado.
zip code: 46507 já processado.
zip code: 46540 já processado.
zip code: 46637 já processado.
zip code: 46614 já processado.
zip code: 46617 já processado.
zip code: 46176 já processado.
zip code: 89128 já processado.
zip code: 17837 já processado.
zip code: 37663 já processado.
zip code: 29206 já processado.
zip code: 44710 já processado.
zip code: 46163 já processado.
zip code: 32115 já processado.
zip code: 32169 já processado.
zip code: 32176 já processado.
zip code: 01741 já processado.
zip code: 49505 já processado.
zip code: 92782 já processado.
zip code: 30621 já processado.
zip code: 98684 já processado.
zip code: 37916 já processado.
zip code: 10467 já processado.
zip code: 30622 já processado.
zip code: 76104 já processado.


Processando chunk 5:   1%|▏         | 28/2000 [00:02<03:25,  9.58it/s]

zip code: 33446 já processado.
zip code: 33901 já processado.
zip code: 29506 já processado.
zip code: 80908 já processado.
zip code: 33130 já processado.
zip code: 16365 já processado.
zip code: 02215 já processado.
zip code: 98664 já processado.
zip code: 91786 já processado.
zip code: 22656 já processado.
zip code: 98195 já processado.


Processando chunk 5:   2%|▏         | 40/2000 [00:05<04:47,  6.81it/s]

zip code: 72210 já processado.
zip code: 75763 já processado.
zip code: 75706 já processado.
zip code: 78861 já processado.
zip code: 78666 já processado.
zip code: 75840 já processado.
zip code: 75766 já processado.
zip code: 56723 já processado.
zip code: 56517 já processado.
zip code: 56535 já processado.
zip code: 56733 já processado.
zip code: 56721 já processado.
zip code: 56728 já processado.
zip code: 56510 já processado.
zip code: 56722 já processado.
zip code: 56523 já processado.
zip code: 58045 já processado.
zip code: 56574 já processado.
zip code: 55409 já processado.
zip code: 56550 já processado.
zip code: 58243 já processado.
zip code: 58223 já processado.
zip code: 56542 já processado.
zip code: 58218 já processado.
zip code: 56713 já processado.
zip code: 56545 já processado.
zip code: 58233 já processado.
zip code: 56581 já processado.
zip code: 58036 já processado.
zip code: 56762 já processado.
zip code: 97080 já processado.
zip code: 98671 já processado.
zip code

Processando chunk 5:   4%|▍         | 88/2000 [00:07<02:35, 12.32it/s]

zip code: 27103 já processado.
zip code: 27040 já processado.
zip code: 56258 já processado.
zip code: 50310 já processado.
zip code: 52233 já processado.
zip code: 50511 já processado.
zip code: 57106 já processado.
zip code: 68521 já processado.
zip code: 52002 já processado.
zip code: 50327 já processado.
zip code: 63501 já processado.
zip code: 50211 já processado.
zip code: 50588 já processado.
zip code: 50643 já processado.
zip code: 50126 já processado.
zip code: 64055 já processado.
zip code: 52302 já processado.
zip code: 51401 já processado.
zip code: 68510 já processado.
zip code: 57033 já processado.
zip code: 66212 já processado.
zip code: 55932 já processado.
zip code: 50129 já processado.
zip code: 51351 já processado.
zip code: 56031 já processado.
zip code: 66210 já processado.


Processando chunk 5:   6%|▌         | 115/2000 [00:10<02:42, 11.62it/s]

zip code: 46259 já processado.
zip code: 98024 já processado.
zip code: 36421 já processado.
zip code: 47959 já processado.
zip code: 80109 já processado.
zip code: 98015 já processado.
zip code: 46996 já processado.
zip code: 17266 já processado.
zip code: 49083 já processado.


Processando chunk 5:   6%|▋         | 125/2000 [00:12<03:26,  9.06it/s]

zip code: 28816 já processado.
zip code: 98372 já processado.
zip code: 98409 já processado.
zip code: 62087 já processado.
zip code: 48362 já processado.
zip code: 48370 já processado.
zip code: 48381 já processado.
zip code: 48130 já processado.
zip code: 48335 já processado.
zip code: 48197 já processado.
zip code: 48114 já processado.
zip code: 26105 já processado.
zip code: 24701 já processado.
zip code: 32802 já processado.
zip code: 54401 já processado.
zip code: 94132 já processado.
zip code: 00850 já processado.
zip code: 00824 já processado.
zip code: 67202 já processado.
zip code: 89451 já processado.
zip code: 31419 já processado.
zip code: 78004 já processado.
zip code: 18064 já processado.
zip code: 07003 já processado.
zip code: 00804 já processado.
zip code: 14580 já processado.
zip code: 84103 já processado.
zip code: 10502 já processado.
zip code: 33122 já processado.
zip code: 54217 já processado.
zip code: 33127 já processado.
zip code: 34655 já processado.
zip code

Processando chunk 5:   8%|▊         | 164/2000 [00:15<02:45, 11.09it/s]

zip code: 63125 já processado.
zip code: 63050 já processado.
zip code: 40820 já processado.
zip code: 03244 já processado.
zip code: 03842 já processado.
zip code: 31603 já processado.
zip code: 95953 já processado.
zip code: 30650 já processado.
zip code: 30265 já processado.
zip code: 31631 já processado.
zip code: 31768 já processado.
zip code: 31040 já processado.
zip code: 31069 já processado.
zip code: 31064 já processado.
zip code: 31204 já processado.
zip code: 31030 já processado.
zip code: 21601 já processado.
zip code: 30523 já processado.
zip code: 31706 já processado.
zip code: 31561 já processado.
zip code: 32205 já processado.
zip code: 87557 já processado.
zip code: 30312 já processado.
zip code: 96732 já processado.
zip code: 97140 já processado.
zip code: 77354 já processado.
zip code: 77301 já processado.
zip code: 77385 já processado.
zip code: 77447 já processado.
zip code: 77384 já processado.
zip code: 19565 já processado.
zip code: 98188 já processado.
zip code

Processando chunk 5:  10%|█         | 200/2000 [00:18<02:27, 12.21it/s]

zip code: 33430 já processado.
zip code: 32903 já processado.
zip code: 32968 já processado.
zip code: 32333 já processado.
zip code: 33186 já processado.
zip code: 34982 já processado.
zip code: 33330 já processado.
zip code: 32266 já processado.
zip code: 34230 já processado.
zip code: 32119 já processado.
zip code: 33647 já processado.
zip code: 33314 já processado.
zip code: 25430 já processado.
zip code: 32311 já processado.
zip code: 32226 já processado.
zip code: 78739 já processado.
zip code: 33175 já processado.
zip code: 33898 já processado.
zip code: 33029 já processado.


Processando chunk 5:  11%|█         | 220/2000 [00:20<02:42, 10.95it/s]

zip code: 33166 já processado.
zip code: 33126 já processado.
zip code: 33413 já processado.
zip code: 32562 já processado.
zip code: 48455 já processado.
zip code: 33982 já processado.
zip code: 34744 já processado.


Processando chunk 5:  11%|█▏        | 228/2000 [00:22<03:28,  8.50it/s]

zip code: 24077 já processado.
zip code: 33403 já processado.


Processando chunk 5:  12%|█▏        | 231/2000 [00:25<04:42,  6.26it/s]

zip code: 33196 já processado.
zip code: 33063 já processado.
zip code: 33812 já processado.


Processando chunk 5:  12%|█▏        | 236/2000 [00:30<08:28,  3.47it/s]

zip code: 02066 já processado.
zip code: 02035 já processado.
zip code: 33193 já processado.
zip code: 33823 já processado.
zip code: 32967 já processado.
zip code: 32724 já processado.
zip code: 33167 já processado.
zip code: 33189 já processado.
zip code: 33135 já processado.
zip code: 32780 já processado.
zip code: 33306 já processado.
zip code: 32904 já processado.
zip code: 32344 já processado.
zip code: 33181 já processado.


Processando chunk 5:  13%|█▎        | 253/2000 [00:37<11:58,  2.43it/s]

zip code: 32950 já processado.


Processando chunk 5:  13%|█▎        | 255/2000 [00:39<14:43,  1.97it/s]

zip code: 32680 já processado.
zip code: 34952 já processado.
zip code: 32502 já processado.
zip code: 32591 já processado.


Processando chunk 5:  13%|█▎        | 260/2000 [00:42<14:29,  2.00it/s]

zip code: 33185 já processado.
zip code: 33013 já processado.
zip code: 33594 já processado.
zip code: 32541 já processado.
zip code: 33596 já processado.
zip code: 32905 já processado.
zip code: 32771 já processado.
zip code: 32953 já processado.
zip code: 33616 já processado.
zip code: 32909 já processado.
zip code: 32935 já processado.
zip code: 32922 já processado.
zip code: 33605 já processado.
zip code: 33334 já processado.
zip code: 34953 já processado.
zip code: 32501 já processado.
zip code: 33782 já processado.
zip code: 34202 já processado.
zip code: 32401 já processado.
zip code: 29572 já processado.
zip code: 33022 já processado.
zip code: 34274 já processado.
zip code: 78247 já processado.
zip code: 33325 já processado.
zip code: 34233 já processado.
zip code: 34949 já processado.
zip code: 32145 já processado.
zip code: 33772 já processado.
zip code: 34105 já processado.
zip code: 33168 já processado.
zip code: 72116 já processado.
zip code: 29053 já processado.
zip code

Processando chunk 5:  16%|█▌        | 312/2000 [00:44<03:33,  7.89it/s]

zip code: 32609 já processado.
zip code: 33144 já processado.
zip code: 33509 já processado.
zip code: 33402 já processado.
zip code: 32696 já processado.
zip code: 33137 já processado.
zip code: 33547 já processado.
zip code: 33023 já processado.
zip code: 32617 já processado.
zip code: 10523 já processado.
zip code: 33770 já processado.
zip code: 34221 já processado.
zip code: 33010 já processado.
zip code: 08203 já processado.


Processando chunk 5:  16%|█▋        | 328/2000 [00:49<05:21,  5.20it/s]

zip code: 72120 já processado.
zip code: 34973 já processado.
zip code: 32411 já processado.


Processando chunk 5:  17%|█▋        | 332/2000 [00:52<06:46,  4.10it/s]

zip code: 34234 já processado.
zip code: 32776 já processado.
zip code: 33317 já processado.
zip code: 32120 já processado.
zip code: 34428 já processado.


Processando chunk 5:  17%|█▋        | 338/2000 [00:54<07:43,  3.59it/s]

zip code: 18458 já processado.
zip code: 32085 já processado.
zip code: 34986 já processado.
zip code: 33026 já processado.
zip code: 38454 já processado.
zip code: 34484 já processado.
zip code: 32327 já processado.


Processando chunk 5:  17%|█▋        | 347/2000 [00:59<10:51,  2.54it/s]

zip code: 33056 já processado.
zip code: 32686 já processado.
zip code: 29102 já processado.


Processando chunk 5:  18%|█▊        | 351/2000 [01:02<12:09,  2.26it/s]

zip code: 33009 já processado.
zip code: 33449 já processado.
zip code: 32402 já processado.
zip code: 32818 já processado.


Processando chunk 5:  18%|█▊        | 356/2000 [01:04<12:34,  2.18it/s]

zip code: 33905 já processado.
zip code: 48363 já processado.
zip code: 48502 já processado.
zip code: 32310 já processado.
zip code: 76802 já processado.
zip code: 03261 já processado.
zip code: 32927 já processado.
zip code: 97504 já processado.
zip code: 46221 já processado.
zip code: 08829 já processado.
zip code: 19136 já processado.
zip code: 90277 já processado.


Processando chunk 5:  18%|█▊        | 369/2000 [01:07<08:49,  3.08it/s]

zip code: 76302 já processado.
zip code: 76430 já processado.
zip code: 76424 já processado.


Processando chunk 5:  19%|█▊        | 374/2000 [01:12<13:47,  1.97it/s]

zip code: 46814 já processado.


Processando chunk 5:  19%|█▉        | 376/2000 [01:14<16:40,  1.62it/s]

zip code: 73018 já processado.
zip code: 36301 já processado.
zip code: 36320 já processado.
zip code: 90502 já processado.
zip code: 90015 já processado.
zip code: 70129 já processado.
zip code: 26430 já processado.
zip code: 95993 já processado.
zip code: 76033 já processado.
zip code: 79081 já processado.
zip code: 79606 já processado.
zip code: 79562 já processado.


Processando chunk 5:  20%|█▉        | 390/2000 [01:19<13:41,  1.96it/s]

zip code: 77318 já processado.
zip code: 36533 já processado.
zip code: 33069 já processado.
zip code: 33132 já processado.
zip code: 33036 já processado.
zip code: 33025 já processado.
zip code: 33162 já processado.


Processando chunk 5:  20%|█▉        | 399/2000 [01:24<14:58,  1.78it/s]

zip code: 35048 já processado.
zip code: 33468 já processado.
zip code: 33145 já processado.
zip code: 33426 já processado.


Processando chunk 5:  20%|██        | 404/2000 [01:27<14:22,  1.85it/s]

zip code: 33434 já processado.
zip code: 33068 já processado.
zip code: 33266 já processado.
zip code: 33351 já processado.


Processando chunk 5:  21%|██        | 411/2000 [01:34<23:22,  1.13it/s]

zip code: 20111 já processado.


Processando chunk 5:  21%|██        | 413/2000 [01:37<25:32,  1.04it/s]

zip code: 55009 já processado.
zip code: 98338 já processado.


Processando chunk 5:  21%|██        | 418/2000 [01:44<36:07,  1.37s/it]

zip code: 32766 já processado.
zip code: 32097 já processado.


Processando chunk 5:  21%|██▏       | 425/2000 [01:57<51:23,  1.96s/it]

zip code: 74037 já processado.
zip code: 74023 já processado.
zip code: 74127 já processado.
zip code: 74055 já processado.
zip code: 67301 já processado.
zip code: 97502 já processado.
zip code: 47960 já processado.
zip code: 60060 já processado.
zip code: 74602 já processado.
zip code: 21153 já processado.
zip code: 55043 já processado.
zip code: 66901 já processado.
zip code: 97223 já processado.
zip code: 95122 já processado.
zip code: 75001 já processado.
zip code: 62918 já processado.


Processando chunk 5:  22%|██▏       | 442/2000 [01:59<10:45,  2.41it/s]

zip code: 19709 já processado.
zip code: 97304 já processado.
zip code: 97051 já processado.
zip code: 97211 já processado.
zip code: 97015 já processado.
zip code: 97056 já processado.
zip code: 97267 já processado.
zip code: 97230 já processado.
zip code: 97215 já processado.
zip code: 97365 já processado.
zip code: 97124 já processado.
zip code: 94002 já processado.
zip code: 94582 já processado.
zip code: 36331 já processado.
zip code: 36027 já processado.
zip code: 36732 já processado.
zip code: 60102 já processado.
zip code: 80921 já processado.
zip code: 70039 já processado.
zip code: 70777 já processado.
zip code: 32825 já processado.
zip code: 80644 já processado.
zip code: 97303 já processado.
zip code: 95607 já processado.
zip code: 98042 já processado.
zip code: 62901 já processado.
zip code: 16034 já processado.
zip code: 21903 já processado.
zip code: 07462 já processado.
zip code: 16240 já processado.
zip code: 99672 já processado.
zip code: 60423 já processado.
zip code

Processando chunk 5:  24%|██▍       | 483/2000 [02:02<03:51,  6.55it/s]

zip code: 92018 já processado.
zip code: 92075 já processado.
zip code: 94133 já processado.
zip code: 02748 já processado.
zip code: 93436 já processado.


Processando chunk 5:  24%|██▍       | 489/2000 [02:04<04:41,  5.38it/s]

zip code: 10977 já processado.
zip code: 35010 já processado.
zip code: 18301 já processado.
zip code: 88001 já processado.
zip code: 93274 já processado.
zip code: 93277 já processado.
zip code: 93265 já processado.
zip code: 33442 já processado.


Processando chunk 5:  25%|██▍       | 498/2000 [02:07<05:11,  4.83it/s]

zip code: 08904 já processado.
zip code: 11367 já processado.
zip code: 07755 já processado.
zip code: 08817 já processado.
zip code: 07646 já processado.
zip code: 11575 já processado.
zip code: 07740 já processado.
zip code: 11516 já processado.
zip code: 08840 já processado.
zip code: 10705 já processado.
zip code: 59520 já processado.
zip code: 07410 já processado.
zip code: 21047 já processado.
zip code: 38358 já processado.
zip code: 96822 já processado.
zip code: 96705 já processado.
zip code: 96756 já processado.


Processando chunk 5:  26%|██▌       | 516/2000 [02:09<04:28,  5.54it/s]

zip code: 96792 já processado.
zip code: 65706 já processado.
zip code: 64491 já processado.


Processando chunk 5:  26%|██▌       | 520/2000 [02:12<05:44,  4.30it/s]

zip code: 65018 já processado.
zip code: 65803 já processado.
zip code: 65566 já processado.
zip code: 65336 já processado.
zip code: 64644 já processado.
zip code: 62236 já processado.
zip code: 65081 já processado.
zip code: 65085 já processado.
zip code: 65559 já processado.
zip code: 65230 já processado.
zip code: 63111 já processado.
zip code: 63043 já processado.
zip code: 56164 já processado.
zip code: 65802 já processado.
zip code: 65054 já processado.
zip code: 89109 já processado.
zip code: 65542 já processado.
zip code: 64093 já processado.
zip code: 63068 já processado.
zip code: 65712 já processado.
zip code: 01609 já processado.
zip code: 12574 já processado.
zip code: 90732 já processado.


Processando chunk 5:  27%|██▋       | 544/2000 [02:14<04:06,  5.90it/s]

zip code: 90601 já processado.


Processando chunk 5:  27%|██▋       | 546/2000 [02:17<05:30,  4.40it/s]

zip code: 91741 já processado.


Processando chunk 5:  27%|██▋       | 548/2000 [02:19<07:14,  3.34it/s]

zip code: 73012 já processado.
zip code: 74011 já processado.
zip code: 75948 já processado.
zip code: 53114 já processado.
zip code: 22079 já processado.
zip code: 11203 já processado.
zip code: 92223 já processado.
zip code: 90293 já processado.
zip code: 96019 já processado.


Processando chunk 5:  28%|██▊       | 558/2000 [02:22<06:47,  3.54it/s]

zip code: 91345 já processado.
zip code: 95841 já processado.
zip code: 95116 já processado.
zip code: 91706 já processado.
zip code: 90267 já processado.
zip code: 97207 já processado.
zip code: 89106 já processado.
zip code: 76508 já processado.
zip code: 19144 já processado.
zip code: 36207 já processado.
zip code: 95348 já processado.
zip code: 26505 já processado.
zip code: 94015 já processado.
zip code: 17604 já processado.
zip code: 78028 já processado.
zip code: 27704 já processado.
zip code: 78213 já processado.
zip code: 01036 já processado.
zip code: 37232 já processado.
zip code: 78259 já processado.
zip code: 17821 já processado.
zip code: 12209 já processado.
zip code: 19023 já processado.
zip code: 78130 já processado.
zip code: 24592 já processado.
zip code: 93905 já processado.
zip code: 93908 já processado.
zip code: 95113 já processado.
zip code: 44092 já processado.
zip code: 08691 já processado.
zip code: 28516 já processado.
zip code: 21222 já processado.
zip code

Processando chunk 5:  31%|███       | 618/2000 [02:24<02:23,  9.64it/s]

zip code: 49503 já processado.
zip code: 48128 já processado.
zip code: 48229 já processado.
zip code: 48217 já processado.
zip code: 48336 já processado.
zip code: 48146 já processado.
zip code: 78132 já processado.
zip code: 10281 já processado.
zip code: 21230 já processado.
zip code: 29073 já processado.


Processando chunk 5:  31%|███▏      | 629/2000 [02:27<02:50,  8.03it/s]

zip code: 76205 já processado.


Processando chunk 5:  32%|███▏      | 631/2000 [02:29<03:51,  5.92it/s]

zip code: 77013 já processado.
zip code: 93307 já processado.
zip code: 89510 já processado.
zip code: 46235 já processado.
zip code: 95365 já processado.


Processando chunk 5:  32%|███▏      | 637/2000 [02:32<04:39,  4.88it/s]

zip code: 83715 já processado.
zip code: 45380 já processado.
zip code: 36302 já processado.
zip code: 84120 já processado.


Processando chunk 5:  32%|███▏      | 642/2000 [02:34<05:39,  4.01it/s]

zip code: 17972 já processado.
zip code: 07080 já processado.


Processando chunk 5:  32%|███▏      | 645/2000 [02:37<07:08,  3.16it/s]

zip code: 29602 já processado.
zip code: 48880 já processado.
zip code: 17519 já processado.


Processando chunk 5:  32%|███▏      | 649/2000 [02:39<08:25,  2.67it/s]

zip code: 46319 já processado.
zip code: 24954 já processado.
zip code: 14207 já processado.
zip code: 47012 já processado.
zip code: 44030 já processado.
zip code: 08087 já processado.
zip code: 92647 já processado.
zip code: 81082 já processado.
zip code: 48822 já processado.
zip code: 70072 já processado.
zip code: 43050 já processado.
zip code: 43558 já processado.
zip code: 72901 já processado.
zip code: 37307 já processado.
zip code: 40217 já processado.
zip code: 48602 já processado.


Processando chunk 5:  33%|███▎      | 666/2000 [02:42<05:39,  3.93it/s]

zip code: 98812 já processado.
zip code: 75092 já processado.
zip code: 83401 já processado.
zip code: 06513 já processado.
zip code: 55438 já processado.
zip code: 70548 já processado.
zip code: 75551 já processado.
zip code: 29640 já processado.
zip code: 59010 já processado.
zip code: 59749 já processado.
zip code: 59489 já processado.
zip code: 59270 já processado.
zip code: 59053 já processado.
zip code: 59430 já processado.
zip code: 59404 já processado.
zip code: 59068 já processado.
zip code: 21228 já processado.
zip code: 20175 já processado.
zip code: 13309 já processado.
zip code: 89107 já processado.
zip code: 13501 já processado.
zip code: 13502 já processado.
zip code: 08022 já processado.
zip code: 53783 já processado.
zip code: 14036 já processado.
zip code: 18249 já processado.
zip code: 43617 já processado.
zip code: 78550 já processado.


Processando chunk 5:  35%|███▍      | 695/2000 [02:44<03:31,  6.18it/s]

zip code: 85743 já processado.
zip code: 72301 já processado.
zip code: 66712 já processado.
zip code: 35621 já processado.
zip code: 30474 já processado.
zip code: 79835 já processado.
zip code: 74354 já processado.
zip code: 30513 já processado.
zip code: 97463 já processado.


Processando chunk 5:  35%|███▌      | 705/2000 [02:47<03:55,  5.50it/s]

zip code: 17044 já processado.
zip code: 73115 já processado.
zip code: 72736 já processado.
zip code: 31553 já processado.
zip code: 66767 já processado.
zip code: 67357 já processado.
zip code: 30223 já processado.
zip code: 90706 já processado.
zip code: 58257 já processado.
zip code: 58565 já processado.
zip code: 58251 já processado.
zip code: 18411 já processado.
zip code: 32712 já processado.
zip code: 19428 já processado.
zip code: 18034 já processado.


Processando chunk 5:  92%|█████████▏| 1846/2000 [53:43<06:53,  2.68s/it]  

Erro na tentativa 2 para o ZIP code 67212.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=67212.0&country=USA&format=json&limit=1 (Caused by ReadTimeoutError("HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Read timed out. (read timeout=1)"))
Erro na tentativa 4 para o ZIP code 67212.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=67212.0&country=USA&format=json&limit=1 (Caused by ReadTimeoutError("HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Read timed out. (read timeout=1)"))


Processando chunk 5:  92%|█████████▏| 1847/2000 [54:07<22:49,  8.95s/it]

Erro na tentativa 1 para o ZIP code 77096.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=77096.0&country=USA&format=json&limit=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000021B39D295B0>, 'Connection to nominatim.openstreetmap.org timed out. (connect timeout=1)'))


Processando chunk 5:  92%|█████████▏| 1848/2000 [54:16<22:54,  9.04s/it]

Erro na tentativa 5 para o ZIP code 67204.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=67204.0&country=USA&format=json&limit=1 (Caused by ReadTimeoutError("HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Read timed out. (read timeout=1)"))


Processando chunk 5:  93%|█████████▎| 1854/2000 [55:03<15:29,  6.37s/it]

Erro na tentativa 4 para o ZIP code 92688.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=92688.0&country=USA&format=json&limit=1 (Caused by ReadTimeoutError("HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Read timed out. (read timeout=1)"))


Processando chunk 5: 100%|██████████| 2000/2000 [1:01:29<00:00,  1.84s/it]


Chunk 5 salvo com sucesso em geoprocessed_chunks\processed_zip_codes_chunk_5.csv


Processando chunk 6:  43%|████▎     | 869/2000 [37:33<1:04:53,  3.44s/it]

Erro na tentativa 4 para o ZIP code 30067.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=30067.0&country=USA&format=json&limit=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000021B3E7893A0>, 'Connection to nominatim.openstreetmap.org timed out. (connect timeout=1)'))


Processando chunk 6:  44%|████▍     | 879/2000 [38:10<50:06,  2.68s/it]  

Erro na tentativa 3 para o ZIP code 90013.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=90013.0&country=USA&format=json&limit=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000021B3E789460>, 'Connection to nominatim.openstreetmap.org timed out. (connect timeout=1)'))


Processando chunk 6:  44%|████▍     | 883/2000 [38:27<1:00:11,  3.23s/it]

Erro na tentativa 2 para o ZIP code 37172.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=37172.0&country=USA&format=json&limit=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000021B3E7841C0>, 'Connection to nominatim.openstreetmap.org timed out. (connect timeout=1)'))


Processando chunk 6:  46%|████▋     | 925/2000 [40:23<45:07,  2.52s/it]  

Erro na tentativa 5 para o ZIP code 92861.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=92861.0&country=USA&format=json&limit=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000021B3E782460>, 'Connection to nominatim.openstreetmap.org timed out. (connect timeout=1)'))


Processando chunk 6:  47%|████▋     | 940/2000 [41:20<44:53,  2.54s/it]  

Erro na tentativa 2 para o ZIP code 29483.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=29483.0&country=USA&format=json&limit=1 (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x0000021B3E782040>: Failed to resolve 'nominatim.openstreetmap.org' ([Errno 11001] getaddrinfo failed)"))
Erro na tentativa 3 para o ZIP code 29483.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=29483.0&country=USA&format=json&limit=1 (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x0000021B3E784250>: Failed to resolve 'nominatim.openstreetmap.org' ([Errno 11001] getaddrinfo failed)"))
Erro na tentativa 4 para o ZIP code 29483.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=29483.0&country=USA&format=json&limit=1 (Caused by NameResolutio

Processando chunk 6:  61%|██████    | 1213/2000 [10:26:40<109:04:39, 498.96s/it] 

Erro na tentativa 5 para o ZIP code 41143.0: HTTPSConnectionPool(host='nominatim.openstreetmap.org', port=443): Max retries exceeded with url: /search?postalcode=41143.0&country=USA&format=json&limit=1 (Caused by NameResolutionError("<urllib3.connection.HTTPSConnection object at 0x0000021B3E7892E0>: Failed to resolve 'nominatim.openstreetmap.org' ([Errno 11001] getaddrinfo failed)"))


Processando chunk 6:  72%|███████▏  | 1448/2000 [17:50:56<6:48:15, 44.38s/it]     


KeyboardInterrupt: 

## Merge final

In [19]:
output_dir = "geoprocessed_chunks"

all_chunk_files = glob.glob(os.path.join(output_dir, "processed_zip_codes_chunk_*.csv"))
processed_chunks_df = pd.concat([pd.read_csv(file) for file in all_chunk_files], ignore_index=True)
processed_chunks_df.shape

(6000, 4)

In [23]:
merge_1 = processed_chunks_df[['zip_code', 'latitude', 'longitude']]
amostra_teste = pd.merge(merge_1, df, on='zip_code', how='inner')
amostra_teste.head(5)

Unnamed: 0,zip_code,latitude,longitude,cmte_id,amndt_ind,rpt_tp,transaction_pgi,transaction_tp,entity_tp,city,state,employer,occupation,transaction_dt,transaction_amt,file_num
0,22303,38.792127,-77.081296,C00030718,N,M4,Desconhecido,15,IND,ALEXANDRIA,VA,COLDWELL BANKER RESIDENTIAL BK,REAL ESTATE BROKER,3092011.0,5.703782,724491.0
1,22303,38.792127,-77.081296,C00075820,N,M8,Desconhecido,15,IND,ALEXANDRIA,VA,INSTITUTE OF DEFENSE ANALYSES,INSTITUTE OF DEFENSE ANALYSES,7132011.0,6.907755,742738.0
2,22303,38.792127,-77.081296,C00287045,A,Q2,P,15,IND,ALEXANDRIA,VA,CAPTIAL STRATEGIES DC,PRINCIPAL,5312011.0,5.521461,743781.0
3,22303,38.792127,-77.081296,C00384818,N,M9,Desconhecido,15,IND,ALEXANDRIA,VA,"CAREMARK, L.L.C",SVP GOVNMT RELATIONS CVS CMK,8122011.0,6.030685,745409.0
4,22303,38.792127,-77.081296,C00193433,N,YE,Desconhecido,15,IND,ALEXANDRIA,VA,FINANCIAL ADVISOR,,12142012.0,5.521461,848470.0


In [24]:
amostra_teste.to_csv("amostra.csv")