# Responsável por tratar os dados pertinente a cliente

## Importando bibliotecas

In [38]:
import sys, os

# Carregando pacote que estao fora de /transform
path_raiz = os.path.abspath(os.path.join("..", ".."))
sys.path.append(path_raiz)

In [39]:
import pandas as pd
from src.utils import carregar_tabela_excel
import json

## Importando e tratando os dados

In [40]:
source_input = "../../data/baseTesteIXC.xlsx"
source_output = "../../data/baseTesteIXC_Transform.xlsx"
df = carregar_tabela_excel(source_input)

### Tratando CPF_CNPJ e Removendo Duplicados

In [41]:
# Garante que a coluna seja interpretada como string
df["cpf_cnpj"] = df["cpf_cnpj"].astype(str)

# Remove os caracteres '.', '-', '/' usando expressão regular
# df["cpf_cnpj"] = df["cpf_cnpj"].str.replace(r"[./-]", "", regex=True)

# Remove duplicados do CPF tratando como um unico cliente
# df = df.drop_duplicates(subset=["cpf_cnpj"], keep="first")

### Tratando numero de Celular

In [42]:
# Converte a coluna Celular em string
df["Celular"] = df["Celular"].astype(str)

# Remove os caracteres '(', ')' e '-' usando expressão regular
df["Celular"] = df["Celular"].str.replace(r"[()\-]", "", regex=True)

# Substitui valores 'nan' ou string vazia por '99999999999'
df["Celular"] = df["Celular"].replace(["nan", ""], "99999999999")

### Tratando rg_ie

In [43]:
## Substitui NaN por vazio no campo rg_ie
df["rg_ie"] = df["rg_ie"].fillna("")

### Tratando Complemento e Número 

In [44]:
## Substitui NaN por vazio no campo Complemento
df["Complemento"] = df["Complemento"].fillna("")


## Tratando número da casa
import re

def tratar_numero(valor):
    # Converte para string
    texto = str(valor)

    # Captura todos os dígitos (0-9) presentes no texto
    digits = re.findall(r"\d+", texto)

    if len(digits) > 0:
        # Se encontrar dígitos, junta tudo numa única string
        return "".join(digits)
    else:
        # Se não houver dígitos, retorna "SN"
        return "SN"

# Aplica a função na coluna Numero
df["Numero"] = df["Numero"].apply(tratar_numero)

### Trata E-mail e rg_ie

In [45]:
df["Email"] = df["Email"].fillna("email@default.com")  # Ajuste para valores reais
df["rg_ie"] = df["rg_ie"].fillna("Não informado")

### Exportando

In [46]:
# Converter colunas que devem preservar zeros à esquerda para string
colunas_texto = ['cpf_cnpj', 'Cep', 'Numero']
for coluna in colunas_texto:
    df[coluna] = df[coluna].astype(str).str.strip()  # Assegura que sejam strings e remove espaços

df.to_excel(source_output)