**T√≥picos do Notebook**<a id='toc0_'></a>

- [üõ†Ô∏è Pr√©-Processamento e Tratamento dos Dados](#toc1_)
- [Importa√ß√µes e Extra√ß√£o dos Dados](#toc2_)
- [Tratamento dos Dados](#toc3_)
  - [Tabela: olist_geolocation](#toc3_1_)
  - [Tabela: olist_customers](#toc3_2_)
  - [Tabela: olist_sellers](#toc3_3_)
  - [Tabela: olist_products](#toc3_4_)
  - [Tabela: olist_orders](#toc3_5_)
  - [Tabela: olist_order_items](#toc3_6_)
  - [Tabela: olist_order_payments](#toc3_7_)
  - [Tabela: olist_order_reviews](#toc3_8_)
  - [Salvando os Dados Limpos](#toc3_9_)

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->


# <a id='toc1_'></a>[üõ†Ô∏è Pr√©-Processamento e Tratamento dos Dados](#toc0_)

**Este notebook re√∫ne todas as etapas de limpeza, corre√ß√£o e padroniza√ß√£o dos dados, com base nos problemas diagnosticados na An√°lise Explorat√≥ria de Dados ‚Äî Parte 1.**

üîß Os procedimentos abordados incluem:

- Identifica√ß√£o e tratamento de valores nulos ou inconsistentes
- Padroniza√ß√£o de tipos de dados
- Normaliza√ß√£o de formatos (datas, textos, etc.)
- Corre√ß√£o de duplicatas, outliers e registros fora do padr√£o
- Ajustes espec√≠ficos em colunas como CEP, categorias de produto e avalia√ß√µes dos clientes

‚öôÔ∏è Ao final desta etapa, os datasets estar√£o preparados e confi√°veis, prontos para an√°lises aprofundadas e gera√ß√£o de conhecimento a partir dos dados.

> A qualidade dos dados √© a base de qualquer estudo relevante ‚Äî este notebook √© dedicado a garantir que essa funda√ß√£o seja s√≥lida e transparente.


# <a id='toc2_'></a>[Importa√ß√µes e Extra√ß√£o dos Dados](#toc0_)


In [1]:
import pandas as pd  # Biblioteca para leitura e manipula√ß√£o de dados tabulares
import numpy as np  # Biblioteca para opera√ß√µes num√©ricas e estat√≠sticas
import matplotlib.pyplot as plt  # Biblioteca para gera√ß√£o de gr√°ficos b√°sicos (visualiza√ß√£o inicial dos dados)
import seaborn as sns  # Biblioteca para gr√°ficos estat√≠sticos mais avan√ßados e visualmente atraentes
import unicodedata # Para padroniza√ß√£o dos Dados
import unidecode # Para padroniza√ß√£o dos Dados
from rapidfuzz import process, fuzz # Para corre√ß√£o de dados
from sqlalchemy import create_engine # Utilizada para criar uma conex√£o com bancos de dados SQL (ex: MySQL)

In [None]:
# Estabelecendo conex√£o com o banco de dados MySQL usando SQLAlchemy

conn = create_engine("mysql+mysqlconnector://root:...")

In [None]:
# Extra√ß√£o completa das tabelas do banco de dados para an√°lise em pandas
olist_geolocation = pd.read_sql(
    "SELECT * FROM olist_geolocation", con=conn)

olist_customers = pd.read_sql(
    "SELECT * FROM olist_customers", con=conn)

olist_sellers = pd.read_sql(
    "SELECT * FROM olist_sellers", con=conn)

olist_products = pd.read_sql(
    "SELECT * FROM olist_products", con=conn)

olist_orders = pd.read_sql(
    "SELECT * FROM olist_orders", con=conn)

olist_order_items = pd.read_sql(
    "SELECT * FROM olist_order_items", con=conn)

olist_order_payments = pd.read_sql(
    "SELECT * FROM olist_order_payments", con=conn)

olist_order_reviews = pd.read_sql(
    "SELECT * FROM olist_order_reviews", con=conn)

In [4]:
# Tamanho das tabelas pr√©-tratamento
olist_geolocation.shape, olist_customers.shape, olist_sellers.shape, olist_products.shape, olist_orders.shape, olist_order_items.shape, olist_order_payments.shape, olist_order_reviews.shape

((1000163, 5),
 (99441, 5),
 (3095, 4),
 (32951, 9),
 (99441, 8),
 (112650, 7),
 (103886, 5),
 (99224, 7))

# <a id='toc3_'></a>[Tratamento dos Dados](#toc0_)


In [5]:
# Fun√ß√£o para padronizar as colunas de data das tabelas,
# convertendo para datetime (se poss√≠vel) e removendo a parte da hora.
def remover_hora_das_datas(df):
    """
    Remove a parte de hora das colunas de data em um DataFrame, deixando apenas a data (formato AAAA-MM-DD).
    
    Par√¢metros:
    df (pd.DataFrame): DataFrame que cont√©m colunas de data com ou sem hora.

    Retorna:
    pd.DataFrame: As primeiras 2 linhas do DataFrame com as datas normalizadas.
    """
    for col in df.columns:
        # Verifica se a coluna j√° √© do tipo datetime
        if pd.api.types.is_datetime64_any_dtype(df[col]):
            # Remove a hora, mantendo apenas a data (00:00:00)
            df[col] = df[col].dt.normalize()
            
        # Caso a coluna seja do tipo objeto (string), tenta convert√™-la para datetime
        elif df[col].dtype == object:
            try:
                # Tenta converter a coluna para datetime e remover a hora
                df[col] = pd.to_datetime(df[col], errors='raise').dt.normalize()
            except:
                # Ignora colunas que n√£o podem ser convertidas para datetime
                pass
            
    # Retorna as duas primeiras linhas para visualiza√ß√£o r√°pida da transforma√ß√£o
    return df.head(2)


## <a id='toc3_1_'></a>[Tabela: olist_geolocation](#toc0_)


In [6]:
# Remove registros duplicados do DataFrame "olist_geolocation"
olist_geolocation = olist_geolocation.drop_duplicates()

# Exibe a quantidade de dados restantes ap√≥s a remo√ß√£o dos duplicados
print(f'Dados restantes: {olist_geolocation.shape}')

Dados restantes: (726819, 5)


In [7]:
# Converte os dados da coluna 'geolocation_zip_code_prefix' de string (object) para inteiro (int)
olist_geolocation["geolocation_zip_code_prefix"] = olist_geolocation["geolocation_zip_code_prefix"].astype(int)


### <a id='toc3_1_1_'></a>[Coluna "geolocation_city"](#toc0_)


In [8]:
# Fun√ß√£o para remover acentos de textos (ex: "S√£o Paulo" ‚Üí "Sao Paulo")
def remover_acentos(texto):
    return unicodedata.normalize('NFKD', str(texto)).encode('ASCII', 'ignore').decode('utf-8')

# Padronizando os nomes das cidades:
# - Convertendo para min√∫sculas
# - Removendo espa√ßos extras
# - Eliminando acentos
olist_geolocation['geolocation_city'] = (
    olist_geolocation['geolocation_city']
    .str.lower()
    .str.strip()
    .apply(remover_acentos)
)

# Conferindo resultado
print("Cidades √∫nicas (padronizadas):", olist_geolocation['geolocation_city'].nunique())

Cidades √∫nicas (padronizadas): 5967


In [9]:
# Dicion√°rio de mapeamento para padroniza√ß√£o de nomes de cidades com abrevia√ß√µes, erros ou codifica√ß√µes incorretas
mapeamento_cidades = {
    # Abrevia√ß√µes encontradas na EDA
    'sp': 'sao paulo',
    'rj': 'rio de janeiro',
    'bh': 'belo horizonte',
    
    # Corre√ß√µes de nomes com s√≠mbolos, n√∫meros ou codifica√ß√µes
    '4¬∫ centenario': 'quarto centenario',
    '4o. centenario': 'quarto centenario',
    'sao joao do pau d%26apos%3balho': "sao joao do pau d'alho",
    'lambari d%26apos%3boeste': "lambari d'oeste",
    'riacho fundo 2': 'riacho fundo ii',
}

# Aplicando as corre√ß√µes de nomes
olist_geolocation['geolocation_city'] = (
    olist_geolocation['geolocation_city']
    .replace(mapeamento_cidades)
)

In [10]:
# Conta o n√∫mero de cidades √∫nicas na coluna 'geolocation_city' ap√≥s as padroniza√ß√µes
# Espera-se que o resultado seja no m√°ximo 5570, que √© o total oficial de munic√≠pios brasileiros
olist_geolocation['geolocation_city'].nunique()


5961

#### <a id='toc3_1_1_1_'></a>[Tratando os erros de escritas no nome das cidades](#toc0_)


In [None]:
# Carrega arquivo CSV contendo a lista oficial de cidades brasileiras do IBGE
# L√™ apenas a coluna 'MUNIC√çPIO - TOM', unica necess√°ria para verifica√ß√£o
df_ibge = pd.read_csv(
    "C:/Users/Pasta/municipios.csv",
    sep=';',
    encoding='latin1',
    usecols=['MUNIC√çPIO - TOM']  # Apenas a coluna com nomes das cidades ser√° importada
)

# Renomeia a coluna para facilitar manipula√ß√£o e padroniza os nomes das cidades
df_ibge.rename(columns={'MUNIC√çPIO - TOM': 'cidade_oficial'}, inplace=True)

# Cria nova coluna com nomes normalizados: min√∫sculas, sem espa√ßos extras e sem acentos
df_ibge['cidade_oficial_normalizada'] = (
    df_ibge['cidade_oficial']
    .str.lower()
    .str.strip()
    .apply(remover_acentos)
)


In [12]:
# Fun√ß√£o para corrigir nomes de cidades via fuzzy matching
# Recebe um nome de cidade e uma lista de cidades oficiais normalizadas
# Retorna a melhor correspond√™ncia com score ‚â• 85, caso contr√°rio None
def corrigir_cidade(cidade, cidades_oficiais):
    match, score, _ = process.extractOne(cidade, cidades_oficiais, scorer=fuzz.ratio)
    return match if score >= 85 else None

print('Aplicando fuzzy')

# Aplicando a fun√ß√£o de corre√ß√£o para cada cidade da base, substituindo pelo nome normalizado mais pr√≥ximo na lista oficial do IBGE
olist_geolocation['geolocation_city'] = olist_geolocation['geolocation_city'].apply(
    lambda x: corrigir_cidade(x, df_ibge['cidade_oficial_normalizada'].tolist())
)

print('Fuzzy aplicado')
print('Criando mapeamento...')

# Cria um dicion√°rio que mapeia nomes normalizados para seus nomes oficiais com acentua√ß√£o correta
mapa_para_nome_certo = dict(zip(df_ibge['cidade_oficial_normalizada'], df_ibge['cidade_oficial']))

print('Recolocando acentos...')

# Substitui os nomes normalizados pela grafia oficial com acentos, recuperando a escrita correta
olist_geolocation['geolocation_city'] = olist_geolocation['geolocation_city'].map(mapa_para_nome_certo)

Aplicando fuzzy
Fuzzy aplicado
Criando mapeamento...
Recolocando acentos...


In [13]:
# Informa√ß√µes da coluna p√≥s tratamento
olist_geolocation['geolocation_city'].info()

<class 'pandas.core.series.Series'>
Index: 726819 entries, 0 to 1000161
Series name: geolocation_city
Non-Null Count   Dtype 
--------------   ----- 
724489 non-null  object
dtypes: object(1)
memory usage: 11.1+ MB


In [14]:
# Substitui valores nulos (cidades n√£o reconhecidas pelo fuzzy matching) pelo r√≥tulo padr√£o 'Cidade Desconhecida'
olist_geolocation['geolocation_city'] = olist_geolocation['geolocation_city'].fillna('Cidade Desconhecida')

## <a id='toc3_2_'></a>[Tabela: olist_customers](#toc0_)


In [15]:
# Converte a coluna 'customer_zip_code_prefix' do tipo object (string) para inteiro (int)
olist_customers['customer_zip_code_prefix'] = olist_customers['customer_zip_code_prefix'].astype(int)

## <a id='toc3_3_'></a>[Tabela: olist_sellers](#toc0_)


In [16]:
# Converte a coluna 'seller_zip_code_prefix' do tipo object (string) para inteiro (int)
olist_sellers['seller_zip_code_prefix'] = olist_sellers['seller_zip_code_prefix'].astype(int)

In [17]:
# Corre√ß√£o manual de valor incorreto na coluna 'seller_city':
# Foi identificado que o registro com valor num√©rico '04482255' corresponde ao CEP do Rio de Janeiro,
# ent√£o substitui esse valor pelo nome correto da cidade para garantir consist√™ncia nos dados.
olist_sellers['seller_city'] = olist_sellers['seller_city'].replace('04482255', 'rio de janeiro')

In [18]:
# Padronizando os nomes das cidades dos vendedores:
# - Convertendo para min√∫sculas
# - Removendo espa√ßos extras
# - Eliminando acentos
olist_sellers['seller_city'] = (
    olist_sellers['seller_city']
    .str.lower()
    .str.strip()
    .apply(remover_acentos)
)


In [19]:
# Dicion√°rio de mapeamento para padroniza√ß√£o de nomes de cidades com abrevia√ß√µes, erros ou codifica√ß√µes incorretas
mapeamento_cidades = {
    # Abrevia√ß√µes encontradas na EDA
    'sp': 'sao paulo',
    'sbc': 'sao bernardo do campo'
}

# Aplicando as corre√ß√µes de nomes
olist_sellers['seller_city'] = (
    olist_sellers['seller_city']
    .replace(mapeamento_cidades)
)

In [20]:
# Aplicando a fun√ß√£o de corre√ß√£o para cada cidade da base, substituindo pelo nome normalizado mais pr√≥ximo na lista oficial do IBGE
olist_sellers['seller_city'] = olist_sellers['seller_city'].apply(
    lambda x: corrigir_cidade(x, df_ibge['cidade_oficial_normalizada'].tolist())
)

In [21]:
# Substitui valores nulos (cidades n√£o reconhecidas pelo fuzzy matching) pelo r√≥tulo padr√£o 'Cidade Desconhecida'
olist_sellers['seller_city'] = olist_sellers['seller_city'].fillna('Cidade Desconhecida')

## <a id='toc3_4_'></a>[Tabela: olist_products](#toc0_)


In [None]:
# Substituindo valores ausentes (NaN) na coluna 'product_category_name' por 'N√£o Definido'
# Isso evita problemas em an√°lises e modelagens que n√£o aceitam valores nulos
olist_products['product_category_name'].fillna('N√£o Definido', inplace=True)

In [23]:
# Seleciona apenas as colunas essenciais para a an√°lise:
# - 'product_id' para identifica√ß√£o do produto
# - 'product_category_name' para classifica√ß√£o do produto
olist_products = olist_products[['product_id', 'product_category_name']]

## <a id='toc3_5_'></a>[Tabela: olist_orders](#toc0_)


In [24]:
# Verifique as colunas de data que podem ter valores nulos
colunas_data = ['order_purchase_timestamp', 'order_approved_at', 
                'order_delivered_carrier_date', 'order_delivered_customer_date']

# Filtrar as linhas onde o status √© "delivered" e h√° pelo menos um NaT em colunas de data
condicao = (olist_orders['order_status'] == 'delivered') & (olist_orders[colunas_data].isnull().any(axis=1))

# Remove essas linhas (obrigatoriamente todas as datas de pedidos entregue ("order_status" = "delivered" precisam estar preenchidas))
olist_orders = olist_orders[~condicao]


In [25]:
# Traduzindo os status dos pedidos para melhor compreens√£o

# Dicion√°rio de tradu√ß√£o dos status
traducao_status = {
    'delivered': 'entregue',
    'shipped': 'enviado',
    'canceled': 'cancelado',
    'unavailable': 'indispon√≠vel',
    'invoiced': 'faturado',
    'processing': 'em processamento',
    'created': 'criado',
    'approved': 'aprovado'
}

# Aplicar a tradu√ß√£o na coluna
olist_orders['order_status'] = olist_orders['order_status'].replace(traducao_status)

In [None]:
# Removendo a parte de hora das colunas datetime do DataFrame 'olist_orders', mantendo apenas a data
remover_hora_das_datas(olist_orders)

## <a id='toc3_6_'></a>[Tabela: olist_order_items](#toc0_)


In [27]:
# Removendo registros com shipping_limit_date fora do intervalo esperado (apenas 4, em 2020)
# Justificativa: A base de dados concentra pedidos entre 2016 e 2018, portanto 2020 √© considerado outlier temporal.
olist_order_items = olist_order_items[olist_order_items['shipping_limit_date'].dt.year != 2020]

In [None]:
# Removendo a parte de hora das colunas datetime do DataFrame 'olist_order_items', mantendo apenas a data
remover_hora_das_datas(olist_order_items)

## <a id='toc3_7_'></a>[Tabela: olist_order_payments](#toc0_)


In [29]:
# Imputa√ß√£o dos valores zerados na coluna 'payment_installments':
# - Calcula a m√©dia dos valores positivos (maiores que zero) para evitar distor√ß√£o causada por zeros
# - Arredonda a m√©dia para facilitar o entendimento e manuten√ß√£o dos dados
# - Substitui os valores iguais a zero pela m√©dia calculada, tratando poss√≠veis registros incorretos ou ausentes
media_parcelas = olist_order_payments.loc[olist_order_payments['payment_installments'] > 0, 'payment_installments'].mean()
media_parcelas = round(media_parcelas)

olist_order_payments['payment_installments'] = olist_order_payments['payment_installments'].replace(0, media_parcelas)

In [30]:
# Imputa√ß√£o dos valores zerados na coluna 'payment_value':
# - Calcula a m√©dia dos valores positivos (maiores que zero) para evitar distor√ß√£o causada por zeros
# - Arredonda a m√©dia para facilitar o entendimento e manuten√ß√£o dos dados
# - Substitui os valores iguais a zero pela m√©dia calculada, tratando poss√≠veis registros incorretos ou ausentes

media_valor = olist_order_payments.loc[olist_order_payments['payment_value'] > 0, 'payment_value'].mean()
media_valor = round(media_valor)

olist_order_payments['payment_value'] = olist_order_payments['payment_value'].replace(0, media_valor)


In [31]:
# Identifica o valor mais frequente (moda) na coluna 'payment_type', que ser√° usado para corre√ß√£o
moda_pagamento = olist_order_payments['payment_type'].mode()[0]

# Substitui os valores n√£o definidos ('not_defined') pela moda calculada,
# garantindo que a coluna n√£o contenha categorias inv√°lidas
olist_order_payments['payment_type'] = olist_order_payments['payment_type'].replace('not_defined', moda_pagamento)

## <a id='toc3_8_'></a>[Tabela: olist_order_reviews](#toc0_)


In [None]:
# Removendo a parte de hora das colunas datetime do DataFrame 'olist_order_reviews', mantendo apenas a data
remover_hora_das_datas(olist_order_reviews)

In [7]:
"""
Criando um DataFrame apenas com os coment√°rios para an√°lise de sentimento.

Algumas avalia√ß√µes possuem apenas o t√≠tulo ou apenas a mensagem ‚Äî poucas t√™m os dois preenchidos.
Portanto, para aproveitar ao m√°ximo os dados dispon√≠veis, os dois campos ser√£o combinados em uma √∫nica coluna.

Entretanto, se ambos os campos forem nulos, consideramos que n√£o h√° coment√°rio √∫til para an√°lise e marcaremos como `NaN`.
Isso √© importante para garantir que a coluna `full_review_text` represente fielmente a exist√™ncia (ou n√£o) de um coment√°rio.

As colunas `review_id` e `order_id` ser√£o mantidas para rastreabilidade do coment√°rio e poss√≠veis an√°lises cruzadas.
"""

# Inicializa um novo DataFrame vazio para armazenar os coment√°rios e dados relacionados
comentarios = pd.DataFrame()

# Copia as colunas necess√°rias do DataFrame original
comentarios["review_id"] = olist_order_reviews["review_id"]
comentarios["order_id"] = olist_order_reviews["order_id"]
comentarios["review_score"] = olist_order_reviews["review_score"]

# Cria uma m√°scara booleana onde tanto o t√≠tulo quanto a mensagem s√£o nulos
ambos_nulos = (
    olist_order_reviews["review_comment_title"].isna() & 
    olist_order_reviews["review_comment_message"].isna()
)

# Concatena os campos de t√≠tulo e mensagem, tratando nulos como strings vazias
comentarios["full_review_text"] = (
    olist_order_reviews["review_comment_title"].fillna("") + " " +
    olist_order_reviews["review_comment_message"].fillna("")
).str.strip()

# Onde ambos os campos eram nulos, substitui o texto combinado por np.nan
comentarios.loc[ambos_nulos, "full_review_text"] = np.nan

In [8]:
# An√°lise da tabela: tipos de dados, quantidade de entradas, valores nulos
comentarios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99224 entries, 0 to 99223
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   review_id         99224 non-null  object
 1   order_id          99224 non-null  object
 2   review_score      99224 non-null  int64 
 3   full_review_text  42706 non-null  object
dtypes: int64(1), object(3)
memory usage: 3.0+ MB


In [9]:
# Remove os registros sem coment√°rio (valores nulos em full_review_text)
# Na an√°lise de sentimento, s√≥ faz sentido trabalhar com textos existentes.
# Portanto, aqui estamos filtrando apenas as linhas que possuem algum conte√∫do v√°lido para an√°lise.
comentarios = comentarios.dropna()

## <a id='toc3_9_'></a>[Salvando os Dados Limpos](#toc0_)


In [None]:
# Exporta√ß√£o dos DataFrames tratados para arquivos CSV (sem o √≠ndice do pandas)

# olist_geolocation.to_csv("olist_geolocation.csv", index=False)
# olist_customers.to_csv("olist_customers.csv", index=False)
# olist_sellers.to_csv("olist_sellers.csv", index=False)
# olist_products.to_csv("olist_products.csv", index=False)
# olist_orders.to_csv("olist_orders.csv", index=False)
# olist_order_items.to_csv("olist_order_items.csv", index=False)
# olist_order_payments.to_csv("olist_order_payments.csv", index=False)
# olist_order_reviews.to_csv("olist_order_reviews.csv", index=False)
# comentarios.to_csv("comentarios.csv", index=False)