# Imports

In [62]:
from chunk_processor import ChunkProcessorCsv
from pathlib import Path
import pandas as pd
import chardet
import unicodedata
import re
import time
import logging

# Funções

In [63]:
def strip_spaces_from_columns(df: pd.DataFrame) -> pd.DataFrame:
    """
    Remove espaços extras em branco em todas as colunas de texto (object ou string) de um DataFrame.
    Valores nulos ou de outros tipos são ignorados para evitar erros.
    Entradas:
        df: DataFrame a ser processado
    Saídas:
        df: DataFrame com valores textuais limpos (sem espaços desnecessários)
    """
    for col in df.select_dtypes(include=['object', 'string']).columns:
        df[col] = df[col].apply(lambda x: x.strip() if isinstance(x, str) else x)
    return df

In [64]:
def normalize_city_column(df: pd.DataFrame) -> pd.DataFrame:
    """
    Cria uma nova coluna chamada 'CITY_ASCII' com a versão normalizada da coluna 'CITY'
    (caso exista no DataFrame), sem acentos, minúsculas ou caracteres especiais.
    Entradas:
        df: DataFrame contendo a coluna 'CITY'
    Saídas:
        df: DataFrame com nova coluna 'CITY_ASCII' adicionada
    """
    if 'CITY' in df.columns:
        df['CITY_ASCII'] = df['CITY'].apply(lambda city: 
            None if pd.isna(city) else 
            re.sub(r'[^A-Z0-9\- ]', '', unicodedata.normalize('NFKD', city).encode('ASCII', 'ignore').decode('ASCII').upper())
        )
    return df

In [65]:
def clean_phone_column(df: pd.DataFrame) -> pd.DataFrame:
    """
    Remove todos os caracteres não numéricos da coluna PHONE (caso exista no DataFrame).
    Para evitar erros, verifica se o valor não é nulo antes de processar.
    Entradas:
        df: DataFrame contendo a coluna 'PHONE'
    Saídas:
        df: DataFrame com coluna 'PHONE' contendo apenas dígitos
    """
    if 'PHONE' in df.columns:
        df['PHONE'] = df['PHONE'].apply(lambda x: re.sub(r'\D', '', x) if pd.notna(x) else x)
    return df

In [66]:
def pipeline_processing(df: pd.DataFrame) -> pd.DataFrame:
    """
    Função orquestradora que aplica todas as transformações em sequência.
    Sequência de processamento:
        1. Remoção de espaços extras das colunas
        2. Normalização da coluna de cidade
        3. Limpeza da coluna de telefone
    Entradas:
        df: DataFrame bruto a ser processado
    Saídas:
        df: DataFrame processado com todas as transformações aplicadas
    """
    df = strip_spaces_from_columns(df)
    df = normalize_city_column(df)
    df = clean_phone_column(df)
    return df

# Main

In [67]:
if __name__ == "__main__":
    # Instancia o ChunkProcessor
    processor = ChunkProcessorCsv(
        # Define o arquivo de entrada que será processado
        input_file="natal2025.csv",
        # Define o tamanho de cada lote de leitura (chunk)
        chunk_size=1000,
        # Funções que serão aplicadas em cada chunk
        processing_funcs=pipeline_processing
    )
    processor.process()

2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,374 - INFO - Iniciando processamento do arquivo: natal2025.csv
2025-09-10 10:27:44,394 - INFO - Encoding detectado: UTF-8-SIG
2025-09-10 10:27:44,394 - INFO - Encoding detectado: UTF-8-SIG
2025-09-10 10:27:44,394 - INFO - Encoding detectado: UTF-8-SIG
2025-09-10 10:27:44,394 - INFO - Encoding detectado: UTF-8-SIG
2025-09-10 10:27:44,394 - INFO - Encoding detectado: UTF-8-SIG
2025-09-10 10:27:44,3