# **Data Enrichment**

Modelos OpenAI: https://platform.openai.com/docs/models

Nesta etapa iremos aplicar enriquecer nossa base com dados adicionais gerados de informações básicas que possuímos, com o CEP do cliente ou o nome da empresa reclamada.

Vamos obter os dados diretamento do ChatGPT.

# # **Company**


| Variáveis                        | Descrição                                            
|-------------------------------|------------------------------------------------------
| Company size                   | Tamanho da empresa. Empresas maiores podem ter mais recursos para resolver reclamações rapidamente, o que pode reduzir a probabilidade de indenizações. pequena, média ou grande. Aplicar one-hot encoding.                                                   
| Company market                 | Área de atuação da empresa. Empresas de setores diferentes têm produtos e serviços distintos, o que pode afetar tanto a probabilidade de venda de serviços adicionais quanto o tipo e gravidade das reclamações. Definir categorias de mercado e aplicar one-hot encoding.
| Company product diversity     | Empresas com alta diversificação de produtos podem oferecer mais opções de upsell para seus clientes. Alta, média baixa.  Aplicar one-hot encoding.      
| Company response time         | Empresas com tempos de resposta mais rápidos podem ter menos reclamações. Definir categorias de tempo de resposta e aplicar one-hot encoding.
| Company response quality      | Empresas com respostas de alta qualidade podem ter menos reclamações. Definir categorias de qualidade de resposta e aplicar one-hot encoding.
| Company response satisfaction | Empresas com respostas satisfatórias podem ter menos reclamações. Definir categorias de satisfação de resposta e aplicar one-hot encoding.
| Company response resolution   | Empresas com resoluções rápidas podem ter menos reclamações. Definir categorias de resolução de resposta e aplicar one-hot encoding.                                           

# # **Zip Code**

| Variáveis                        | Descrição                                            
|-------------------------------|------------------------------------------------------
| Zip average education           | Áreas com maior nível educacional podem ter consumidores mais exigentes ou conscientes de seus direitos, influenciando a propensão a processar ou comprar produtos complexos. Categorias: baixo, médio e alto. Aplicar one-hot encoding.
| Zip life expectancy | Áreas com alta expectativa de vida podem ter consumidores mais velhos, que podem ter mais propensão a comprar produtos financeiros específicos, como seguros de vida ou planos de aposentadoria. Expectativa em anos. Valor contínuo.
| Zip average income | Áreas com alta renda média podem ter consumidores mais propensos a comprar produtos financeiros específicos, como investimentos ou seguros de vida. Renda média anual em dólares. Categoria: baixo, médio e alto. Aplicar one-hot encoding.
| Zip average age | Áreas com alta idade média podem ter consumidores mais velhos, que podem ter mais propensão a comprar produtos financeiros específicos, como seguros de vida ou planos de aposentadoria. Idade da população em anos. Valor contínuo.
| Zip bank services access | Áreas com maior acesso a serviços bancários podem ter consumidores mais propensos a comprar produtos financeiros específicos, como investimentos ou seguros de vida. Categoria: baixo, médio e alto. Aplicar one-hot encoding.
| Zip crime rate | Áreas com alta taxa de criminalidade podem ter consumidores mais propensos a comprar produtos financeiros específicos, como seguros de vida ou planos de aposentadoria. Categoria: baixo, médio e alto. Aplicar one-hot encoding.
| Zip unemployment rate | Áreas com alta taxa de desemprego podem ter consumidores mais propensos a comprar produtos financeiros específicos, como seguros de vida ou planos de aposentadoria. Categoria: baixo, médio e alto. Aplicar one-hot encoding.

---

# # **Importando Pickle da Etapa Anterior**

In [60]:
import pandas as pd

df = pd.read_pickle('./pickle/df_cleaned.pkl')

df.shape

(5000, 17)

In [61]:
df.to_excel('./excel/df_cleaned.xlsx', index=False)

---

# # **Company**

### Nome das empresas

In [62]:
df["Company"].unique()

array(['BARCLAYS BANK DELAWARE', 'CITIBANK, N.A.',
       'BANK OF AMERICA, NATIONAL ASSOCIATION', 'ALLY FINANCIAL INC.',
       'SYNCHRONY FINANCIAL', 'WELLS FARGO & COMPANY',
       'PENTAGON FEDERAL CREDIT UNION', 'SLM CORPORATION',
       'Experian Information Solutions Inc.', 'MOHELA',
       'NAVY FEDERAL CREDIT UNION', 'Atlanticus Services Corporation',
       'U.S. BANCORP', 'TRUIST FINANCIAL CORPORATION',
       'REGIONS FINANCIAL CORPORATION',
       'TRANSUNION INTERMEDIATE HOLDINGS, INC.',
       'Shellpoint Partners, LLC',
       'UNITED SERVICES AUTOMOBILE ASSOCIATION',
       'BMO HARRIS BANK NATIONAL ASSOCIATION',
       'FIRST NATIONAL BANK OF OMAHA', 'M&T BANK CORPORATION',
       'FISERV INC.', 'HW Holding, Inc', 'BANK OF THE WEST',
       'SUNTRUST BANKS, INC.', 'American Credit Acceptance, LLC',
       'First Data Corporation', 'BANCO POPULAR DE PUERTO RICO',
       'Flagstar Bank, N.A.', 'TCF NATIONAL BANK', 'MoneyLion Inc.',
       'CREDIT ACCEPTANCE CORPORATION'

### Enriquecendo com dados adicionais a partir do nome da empresa

In [63]:
import pandas as pd

# Supondo que o DataFrame original já exista, chamado df

# Criando as novas colunas no DataFrame
df['Company size'] = ''
df['Company market'] = ''
df['Company product diversity'] = ''
df['Company response time'] = ''
df['Company response quality'] = ''
df['Company response satisfaction'] = ''
df['Company response resolution'] = ''

# Dados categorizados para cada empresa
data = {
    'BARCLAYS BANK DELAWARE': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'CITIBANK, N.A.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Média'],
    'BANK OF AMERICA, NATIONAL ASSOCIATION': ['Grande', 'Grande', 'Alta', 'Rápido', 'Alta', 'Satisfatória', 'Alta'],
    'ALLY FINANCIAL INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'SYNCHRONY FINANCIAL': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'WELLS FARGO & COMPANY': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'PENTAGON FEDERAL CREDIT UNION': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'SLM CORPORATION': ['Média', 'Médio', 'Média', 'Rápido', 'Média', 'Neutra', 'Alta'],
    'Experian Information Solutions Inc.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'MOHELA': ['Pequena', 'Pequeno', 'Baixa', 'Lento', 'Baixa', 'Insatisfatória', 'Baixa'],
    'NAVY FEDERAL CREDIT UNION': ['Grande', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Atlanticus Services Corporation': ['Média', 'Médio', 'Baixa', 'Moderado', 'Média', 'Neutra', 'Média'],
    'U.S. BANCORP': ['Grande', 'Grande', 'Alta', 'Rápido', 'Alta', 'Satisfatória', 'Alta'],
    'TRUIST FINANCIAL CORPORATION': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Média'],
    'REGIONS FINANCIAL CORPORATION': ['Média', 'Médio', 'Média', 'Lento', 'Média', 'Neutra', 'Média'],
    'TRANSUNION INTERMEDIATE HOLDINGS, INC.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'Shellpoint Partners, LLC': ['Pequena', 'Pequeno', 'Baixa', 'Lento', 'Baixa', 'Insatisfatória', 'Baixa'],
    'UNITED SERVICES AUTOMOBILE ASSOCIATION': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'BMO HARRIS BANK NATIONAL ASSOCIATION': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Média'],
    'FIRST NATIONAL BANK OF OMAHA': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'FISERV INC.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Alta'],
    'HW Holding, Inc': ['Pequena', 'Pequeno', 'Baixa', 'Lento', 'Baixa', 'Insatisfatória', 'Baixa'],
    'BANK OF THE WEST': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'SUNTRUST BANKS, INC.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'American Credit Acceptance, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'First Data Corporation': ['Grande', 'Grande', 'Alta', 'Rápido', 'Alta', 'Satisfatória', 'Alta'],
    'BANCO POPULAR DE PUERTO RICO': ['Grande', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Flagstar Bank, N.A.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'TCF NATIONAL BANK': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'MoneyLion Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'CREDIT ACCEPTANCE CORPORATION': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Colony Brands, Inc.': ['Pequena', 'Pequeno', 'Baixa', 'Lento', 'Baixa', 'Insatisfatória', 'Baixa'],
    'Radius Global Solutions LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Paypal Holdings, Inc': ['Grande', 'Grande', 'Alta', 'Rápido', 'Alta', 'Satisfatória', 'Alta'],
    'MIDFIRST BANK': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'NATIONSTAR MORTGAGE LLC': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'STERLING JEWELERS, INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'ARVEST BANK GROUP, INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'ERC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Navient Solutions, LLC.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'AFNI INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Credit Protection Association, L.P.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'The Outsource Group, Inc': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Freedom Mortgage Company': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'SANTANDER BANK, NATIONAL ASSOCIATION': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Média'],
    'HYUNDAI CAPITAL AMERICA': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'Amsher Collection Services, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Convergent Resources, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'BB&T CORPORATION': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'TENET HEALTHCARE CORPORATION': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'CORELOGIC INC': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Diversified Adjustment Service, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Army and Air Force Exchange Service': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'I.C. System, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'HCFS Healthcare Financial Services of TeamHealth': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Phoenix Financial Services LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'NRA Group, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Penn Credit Corporation': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'ProCollect, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'GREAT LAKES': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'IQOR US INC': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'LoanCare, LLC': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'National Credit Systems,Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Fidelity National Information Services, Inc. (FNIS)': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Alta'],
    'Bridgecrest Acceptance Corporation': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'CCS Financial Services, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Waypoint Resource Group, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Specialized Loan Servicing Holdings LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Sequium Asset Solutions, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Westlake Services, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Receivables Performance Management, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Midwest Recovery Systems': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Netspend Corporation': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Alta'],
    'BMW Financial Services NA, LLC': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'ID Analytics, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Eastern Account Systems of Connecticut, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'FAIR COLLECTIONS & OUTSOURCING, INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Seterus, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'WAKEFIELD & ASSOCIATES, INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'AmeriCollect': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'RoundPoint Mortgage Servicing LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Aargon Agency, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Kriya Capital, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Ability Recovery Services, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'KEYCORP': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Alta'],
    'Source Receivables Management LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'SUNRISE CREDIT SERVICES, INC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Monterey Financial Services LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'ENOVA INTERNATIONAL, INC.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Alta'],
    'URS Holding, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Rocket Mortgage, LLC': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'MRS BPO, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'FC HoldCo LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Nelnet, Inc.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Satisfatória', 'Alta'],
    'Continental Finance Company, LLC': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Harris & Harris, Ltd.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'CASHCALL, INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'The CMI Group, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'SELECT PORTFOLIO SERVICING, INC.': ['Grande', 'Grande', 'Alta', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Ocwen Financial Corporation': ['Grande', 'Grande', 'Alta', 'Moderado', 'Alta', 'Neutra', 'Alta'],
    'CMRE Financial Services, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Professional Debt Mediation, Inc.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'I.Q. DATA INTERNATIONAL, INC.': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'Velocity Portfolio Group': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média'],
    'R & B Corporation of Virginia': ['Média', 'Médio', 'Média', 'Moderado', 'Média', 'Neutra', 'Média']
}

# Preenchendo o DataFrame com os valores categorizados
for company, values in data.items():
    df.loc[df['Company'] == company, ['Company size', 'Company market', 'Company product diversity', 
                                      'Company response time', 'Company response quality', 
                                      'Company response satisfaction', 'Company response resolution']] = values

# Verificar os primeiros registros
df.to_excel('./excel/df_enrich_company.xlsx', index=False)


### Verificando potenciais nulos, ou valores vazios e removendo.

In [64]:
# Verificar a quantidade de valores nulos na coluna 'Company size'
nulos_company_size = df['Company size'].isnull().sum()

print(f"Quantidade de valores nulos em 'Company size': {nulos_company_size}")


Quantidade de valores nulos em 'Company size': 0


In [65]:
# Contar quantas células na coluna 'Company size' estão com string vazia
empty_strings_count = (df['Company size'] == '').sum()
print(f"Número de células com string vazia: {empty_strings_count}")


Número de células com string vazia: 29


In [66]:
# Remover os registros onde 'Company size' tem string vazia
df = df[df['Company size'] != '']

df.shape

(4971, 24)

---

# # **Zip Code**

### Listagem com todos os ceps

In [67]:
zip_codes_unique = df["ZIP code"].unique().tolist()
print(zip_codes_unique)

['94706', '91403', '55068', '180XX', '48188', '89502', '895XX', '066XX', '92553', '92336', '92324', '74105', '80301', '47025', '33160', '919XX', '33610', '32301', '91977', '550XX', '96818', '78245', '064XX', '60654', '20120', '11758', '98125', '750XX', '95993', '89119', '33611', '026XX', '417XX', '78634', '30189', '93010', '85014', '46322', '152XX', '346XX', '105XX', '34952', '30019', '60175', '02860', '94582', '11234', '18018', '85122', '49423', '91711', '601XX', '027XX', '755XX', '284XX', '29707', '91104', '853XX', '33434', '337XX', '11375', '85207', '20019', '075XX', '83616', '20744', '21075', '052XX', '30062', '29910', '90024', '29063', '21030', '92308', '11209', '90260', '90032', '23111', '98607', '97058', '96753', '138XX', '77407', '79413', '07112', '91401', '80904', '33897', '75019', '85204', '110XX', '18504', '113XX', '11378', '08902', '60115', '300XX', '11221', '30083', '63128', '917XX', '02138', '64083', '77057', '97223', '76116', '29625', '30315', '33331', '93726', '871XX', 

In [68]:
### Criando subeste para análises
#df_subset = df.sample(n=10)
#df_subset.to_pickle('./pickle/df_subset.pkl')
#df_subset.shape

In [69]:
import pandas as pd
from typing import List
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity, euclidean_distances

from openai import OpenAI


client = OpenAI(  
    api_key='',
    organization='',
    project='',
    max_retries=5
    )

def get_zip_data(zip_code):
    # Consulta à API para gerar os dados necessários
    response = client.chat.completions.create(
      model="gpt-4o-mini",
      messages=[
        {
          "role": "system",
          "content": "Você é um assistente especializado em fornecer informações demográficas e econômicas dos Estados Unidos com base no Zip Code. Por favor, forneça os dados solicitados para o Zip Code fornecido. Não precisa ser dados em tempo real."
        },
        {
          "role": "user",
          "content": f"Por favor, forneça as seguintes informações para o Zip Code {zip_code}: 1) Nível médio de educação (baixo, médio, alto); 2) Expectativa de vida (valor contínuo); 3) Renda média anual em dólares (valor contínuo); 4) Idade média (Valor contínuo); 5) Acesso a serviços bancários (baixo, médio, alto); 6) Taxa de criminalidade (baixo, médio, alto); 7) Taxa de desemprego (baixo, médio, alto). Retorne os dados em uma lista separada por vírgulas. Apenas as categorias ou os valores contínuos, sem outras informações ou explicações. Por exemplo: 'médio, 75, 50000, 35, alto, baixo, médio'."
        }
      ]
    )
    message = response.choices[0].message.content.split('\n')
    zip_data = [msg.split(': ')[-1].strip() for msg in message]

    # Retorna a lista formatada
    return zip_data[0].split(',')

# Supondo que df seja o DataFrame já carregado
# Criando as novas colunas no DataFrame
df['Zip average education'] = ''
df['Zip life expectancy'] = 0.0
df['Zip average income'] = ''
df['Zip average age'] = 0.0
df['Zip bank services access'] = ''
df['Zip crime rate'] = ''
df['Zip unemployment rate'] = ''

# Função para preencher as colunas com base no ZIP code
counter = 0
def fill_zip_data(row):
    global counter
    
    print(f'Estamos no ZIP code {row["ZIP code"]}. E passo {counter}')
    
    zip_code = row['ZIP code']
    zip_data = get_zip_data(zip_code)  # Aqui você chama a função que retorna os dados
    
    try:
      row['Zip average education'] = zip_data[0]
      row['Zip life expectancy'] = float(zip_data[1])
      row['Zip average income'] = zip_data[2]
      row['Zip average age'] = float(zip_data[3])
      row['Zip bank services access'] = zip_data[4]
      row['Zip crime rate'] = zip_data[5]
      row['Zip unemployment rate'] = zip_data[6]
    except:
      pass
    
    counter += 1
    return row

# Aplicando a função para preencher as colunas para cada linha do DataFrame
df = df.apply(fill_zip_data, axis=1)

# Exporta

df.to_pickle("./pickle/df_enriched.pkl")
df.to_excel('./excel/df_enriched.xlsx', index=False)


Estamos no ZIP code 94706. E passo 0
Estamos no ZIP code 91403. E passo 1
Estamos no ZIP code 55068. E passo 2
Estamos no ZIP code 180XX. E passo 3
Estamos no ZIP code 48188. E passo 4
Estamos no ZIP code 89502. E passo 5
Estamos no ZIP code 895XX. E passo 6
Estamos no ZIP code 066XX. E passo 7
Estamos no ZIP code 92553. E passo 8
Estamos no ZIP code 92336. E passo 9
Estamos no ZIP code 92324. E passo 10
Estamos no ZIP code 74105. E passo 11
Estamos no ZIP code 80301. E passo 12
Estamos no ZIP code 47025. E passo 13
Estamos no ZIP code 33160. E passo 14
Estamos no ZIP code 919XX. E passo 15
Estamos no ZIP code 33610. E passo 16
Estamos no ZIP code 32301. E passo 17
Estamos no ZIP code 91977. E passo 18
Estamos no ZIP code 550XX. E passo 19
Estamos no ZIP code 96818. E passo 20
Estamos no ZIP code 78245. E passo 21
Estamos no ZIP code 064XX. E passo 22
Estamos no ZIP code 064XX. E passo 23
Estamos no ZIP code 60654. E passo 24
Estamos no ZIP code 20120. E passo 25
Estamos no ZIP code 11

---

# **Criando o arquivo pickle com dados enriquecidos após uso da API**

In [57]:
df.to_pickle("./pickle/df_enriched_api.pkl")

----

# **PONTO DE PARADA: API**

----

# # **Removendo nulos do passo Zip Code**

In [134]:
### Carregando arquivo pickle
df = pd.read_pickle('./pickle/df_enriched_api.pkl')
df.shape

(4971, 31)

In [135]:
# Verificar a quantidade de valores nulos na coluna 'Company size'
nulos_zip_avg_income = df['Zip average income'].isnull().sum()

print(f"Quantidade de valores nulos em 'Zip average income': {nulos_zip_avg_income}")


Quantidade de valores nulos em 'Zip average income': 0


In [136]:
# Contar quantas células na coluna 'Company size' estão com string vazia
empty_strings_count = (df['Zip average income'] == '').sum()
print(f"Número de células com string vazia: {empty_strings_count}")


Número de células com string vazia: 84


In [137]:
# Remover os registros onde 'Company size' tem string vazia
df = df[df['Zip average income'] != '']

df.shape

(4887, 31)

### Ajustes nas categorias

In [138]:
df['Zip average education'] = df['Zip average education'].replace({
    'baixo': 'low',
    'Baixo': 'low',
    'baixa': 'low',
    'médio': 'medium',
    'Médio': 'medium',
    'alto': 'high'
})

In [139]:
# Garantindo que a coluna 'Zip life expectancy' seja numérica
df['Zip life expectancy'] = pd.to_numeric(df['Zip life expectancy'], errors='coerce')


In [140]:
df['Zip average income'] = pd.to_numeric(df['Zip average income'], errors='coerce')


In [141]:
df['Zip average age'] = pd.to_numeric(df['Zip average age'], errors='coerce')


In [142]:
df['Zip bank services access'] = df['Zip bank services access'].replace({
    ' baixo': 'low',
    ' médio': 'medium',
    ' alto': 'high'
})

In [143]:
df['Zip crime rate'] = df['Zip crime rate'].replace({
    ' baixo': 'low',
    'baixo': 'low',
    ' médio': 'medium',
    ' elevado': 'high',
    ' alto': 'high'
})

In [144]:
df['Zip unemployment rate'] = df['Zip unemployment rate'].replace({
    ' baixo': 'low',
    ' baixo.': 'low',
    ' médio': 'medium',
    ' médio.': 'medium',
    ' alto': 'high',
    ' alto.': 'high'
})

In [145]:
df['Company size'] = df['Company size'].replace({
    'Grande': 'high',
    'Média': 'medium',
    'Pequena': 'low'
})

In [146]:
df['Company market'] = df['Company market'].replace({
    'Grande': 'high',
    'Médio': 'medium',
    'Pequeno': 'low'
})

In [147]:
df['Company product diversity'] = df['Company product diversity'].replace({
    'Alta': 'high',
    'Média': 'medium',
    'Baixa': 'low'
})

In [148]:
df['Company response time'] = df['Company response time'].replace({
    'Rápido': 'high',
    'Moderado': 'medium',
    'Lento': 'low'
})

In [149]:
df['Company response quality'] = df['Company response quality'].replace({
    'Alta': 'high',
    'Média': 'medium',
    'Baixa': 'low'
})

In [150]:
df['Company response satisfaction'] = df['Company response satisfaction'].replace({
    'Satisfatória': 'high',
    'Neutra': 'medium',
    'Insatisfatória': 'low'
})

In [151]:
df['Company response resolution'] = df['Company response resolution'].replace({
    'Alta': 'high',
    'Média': 'medium',
    'Baixa': 'low'
})

-----

# **Ajustes Finais**

Decidimos eliminar as variáveis Company product diversity, Company response quality, Company response resolution, por acreditar que não seriam dados muito precisos para a nossa análise.

In [152]:
df = df.drop(columns=['Company product diversity', 'Company response quality', 'Company response resolution'])

In [153]:
df.shape

(4887, 28)

---

# # **Exportação Arquivos Gerados**

In [157]:
df.to_excel('./excel/df_enrichment_final.xlsx', index=False)

In [156]:
df.to_pickle("./pickle/df_enrichment_final.pkl")

In [158]:
print("Notebook Data Enrichment Concluído")

Notebook Data Enrichment Concluído
