In [1]:
#versão da Linguagem Python
from platform import python_version
print('Versão da linguagem Python usada no ambiente virtual desse projeto:', python_version())

Versão da linguagem Python usada no ambiente virtual desse projeto: 3.12.3


In [None]:
# ==============================================================================
# CÉLULA 1: CONFIGURAÇÃO DO AMBIENTE E DEFINIÇÃO DE CAMINHOS
# ==============================================================================
#
# Objetivo:
# 1. Importar todas as bibliotecas necessárias para o projeto em um único local.
# 2. Definir os caminhos para os diretórios de dados brutos e processados.
# 3. Criar o diretório de dados processados caso ele não exista.
#
# ==============================================================================
import sys  # Módulo para interagir com o interpretador Python
import os   # Módulo para operações do sistema operacional

# Manipulação de dados
import pandas as pd
import numpy as np
import re

# --- Definição dos Caminhos Principais ---

# Define o caminho base para a pasta de dados.
# O uso de os.path.join garante que os caminhos sejam compatíveis com qualquer sistema operacional.
BASE_DIR = '../data'
RAW_DATA_PATH = os.path.join(BASE_DIR, 'raw')
PROCESSED_DATA_PATH = os.path.join(BASE_DIR, 'processed')

# --- Criação do Diretório de Saída ---

# Verifica se o diretório para salvar os arquivos processados já existe.
# Se não existir, ele é criado. O argumento 'exist_ok=True' previne erros
# caso o diretório já tenha sido criado.
os.makedirs(PROCESSED_DATA_PATH, exist_ok=True)

print(f"Diretório de dados brutos: {RAW_DATA_PATH}")
print(f"Diretório de dados processados: {PROCESSED_DATA_PATH}")
print("Configuração concluída com sucesso.")

Diretório de dados brutos: ../data/raw
Diretório de dados processados: ../data/processed
Configuração concluída com sucesso.


In [4]:
# ==============================================================================
# CÉLULA 2: CARREGAMENTO DOS DADOS BRUTOS
# ==============================================================================
#
# Objetivo:
# 1. Carregar todos os arquivos CSV da pasta 'raw' para DataFrames do pandas.
# 2. Especificar a codificação correta (encoding) e o separador (sep) para
#    garantir a leitura correta dos dados.
# 3. Exibir as primeiras linhas e informações de cada DataFrame para uma
#    verificação inicial da carga.
#
# ==============================================================================

try:
    # --- Carregando Dicionário de Cores ---
    # Contém os códigos de componente para cada tinta e suas descrições.
    file_path_cores = os.path.join(RAW_DATA_PATH, '2025-06-13 - Dicionário cores.csv')
    df_cores_raw = pd.read_csv(file_path_cores, sep=';', encoding='utf-8')
    print("1. Arquivo 'Dicionário cores.csv' carregado com sucesso.")
    
    # --- Carregando Estrutura de Produtos ---
    # Contém a lista de materiais (BOM), relacionando produtos aos seus componentes de pintura.
    file_path_estruturas = os.path.join(RAW_DATA_PATH, '2025-06-13 - Estruturas - Produto x Tinta Pó - atualizado.csv')
    df_estruturas_raw = pd.read_csv(file_path_estruturas, sep=';', encoding='utf-8')
    print("2. Arquivo 'Estruturas - Produto x Tinta Pó.csv' carregado com sucesso.")

    # --- Carregando Dados de Gancheiras/Componentes ---
    # Contém detalhes técnicos dos componentes, como dimensões e peso.
    file_path_gancheiras = os.path.join(RAW_DATA_PATH, 'dados.csv')
    df_gancheiras_raw = pd.read_csv(file_path_gancheiras, sep=';', encoding='utf-8')
    print("3. Arquivo 'dados.csv' (gancheiras) carregado com sucesso.")

except FileNotFoundError as e:
    print(f"ERRO: Arquivo não encontrado. Verifique o caminho e o nome do arquivo. Detalhes: {e}")

# --- Verificação Inicial ---
print("\n--- Verificação do DataFrame de Cores (df_cores_raw) ---")
df_cores_raw.info()
display(df_cores_raw.head())

print("\n--- Verificação do DataFrame de Estruturas (df_estruturas_raw) ---")
df_estruturas_raw.info()
display(df_estruturas_raw.head())

print("\n--- Verificação do DataFrame de Gancheiras (df_gancheiras_raw) ---")
df_gancheiras_raw.info()
display(df_gancheiras_raw.head())

1. Arquivo 'Dicionário cores.csv' carregado com sucesso.
2. Arquivo 'Estruturas - Produto x Tinta Pó.csv' carregado com sucesso.
3. Arquivo 'dados.csv' (gancheiras) carregado com sucesso.

--- Verificação do DataFrame de Cores (df_cores_raw) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54 entries, 0 to 53
Data columns (total 3 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   COR_APELIDO           54 non-null     object
 1   DESCRICAO_COMPONENTE  54 non-null     object
 2   CODIGO_COMPONENTE     54 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 1.4+ KB


Unnamed: 0,COR_APELIDO,DESCRICAO_COMPONENTE,CODIGO_COMPONENTE
0,AMARELO DOURADO,TINTA EM PO AMARELO DOURADO,504010130069
1,amarelo dourado free,TINTA HIBRID TGIC FREE AMARELO DOURADO,504010130088
2,azul clarinho,TINTA EM PO AZUL CLARINHO 283,504010130042
3,AZUL CLARINHOFREE,TINTA HIBRID TGIC FREE AZUL BEBE,504010130087
4,azul escuro,TINTA EM PO AZUL ESCURO,504010130006



--- Verificação do DataFrame de Estruturas (df_estruturas_raw) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1142 entries, 0 to 1141
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CODIGO_PRODUTO          1141 non-null   float64
 1   Complemento             1141 non-null   object 
 2   DESCRICAO_PRODUTO       1141 non-null   object 
 3   CODIGO_COMPONENTE       1141 non-null   float64
 4   Complemento_Componente  1141 non-null   object 
 5   PINTURA_ITEM            652 non-null    object 
 6   LINHA                   718 non-null    object 
 7   DESCRICAO_COMPONENTE    1141 non-null   object 
dtypes: float64(2), object(6)
memory usage: 71.5+ KB


Unnamed: 0,CODIGO_PRODUTO,Complemento,DESCRICAO_PRODUTO,CODIGO_COMPONENTE,Complemento_Componente,PINTURA_ITEM,LINHA,DESCRICAO_COMPONENTE
0,100010200000.0,,BICICLETA ARO 12 BLACK 12 4,206010200000.0,1.0,Garfo 12,Aro 12,PINTURA GARFO DIANTEIRO ARO 12 PRETO
1,100010200000.0,,BICICLETA ARO 12 BLACK 12 4,206010200000.0,1.0,Guidão 12,Aro 12,PINTURA GUIDAO ARO 12 PRETO
2,100010200000.0,,BICICLETA ARO 12 BLACK 12 4,206010200000.0,1.0,Quadro 12,Aro 12,PINTURA QUADRO ARO 12 MOD02 PRETO
3,100010200000.0,,BICICLETA ARO 12 BLACK 12 4,304510200000.0,2.0,Pedivela 12,Aro 12,PINTURA PEDIVELA BRANCO
4,100010200000.0,,BICICLETA ARO 12 BLACK 12 4,504010100000.0,,,,TINTA EM PO BRANCA



--- Verificação do DataFrame de Gancheiras (df_gancheiras_raw) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37 entries, 0 to 36
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Componente          37 non-null     object 
 1   Linha               37 non-null     object 
 2   Peças p/ gancheira  37 non-null     int64  
 3   Espaçamento         37 non-null     object 
 4   PINOS               34 non-null     float64
 5   Estoque Gancheiras  31 non-null     float64
 6   Altura              31 non-null     object 
 7   Largura             31 non-null     object 
 8   Peso (kg)           31 non-null     object 
dtypes: float64(2), int64(1), object(6)
memory usage: 2.7+ KB


Unnamed: 0,Componente,Linha,Peças p/ gancheira,Espaçamento,PINOS,Estoque Gancheiras,Altura,Largura,Peso (kg)
0,Pedivela 12,Aro 12,44,80,1.0,150.0,153,60c,2500
1,Quadro 12,Aro 12,8,90,1.0,166.0,175,30c,2300
2,Garfo 12,Aro 12,24,120,1.0,114.0,175,73c,5400
3,Guidão 12,Aro 12,26,120,1.0,116.0,194,23c,2480
4,Canote do Selim,Aro 16,26,80,1.0,116.0,194,23c,2480


In [7]:
# ==============================================================================
# CÉLULA 3: PROCESSAMENTO - CRIAÇÃO DO DICIONÁRIO DE CORES PADRONIZADO
# ==============================================================================
#
# Objetivo:
# 1. Transformar o arquivo bruto de cores em uma tabela de consulta (lookup table) limpa.
# 2. Agrupar todas as variações de apelido ('COR_APELIDO') para um mesmo código de
#    componente ('CODIGO_COMPONENTE').
# 3. Criar uma descrição de cor padronizada ('DESC_COR') removendo prefixos como
#    "TINTA EM PO" da descrição original.
# 4. Renomear as colunas para um padrão claro e salvar o resultado como um
#    arquivo processado, que servirá de base para os próximos passos.
#
# ==============================================================================

# --- 1. Função para Limpeza dos Apelidos ---
def limpar_e_unificar_apelidos(lista_apelidos):
    """
    Limpa uma lista de apelidos, convertendo para minúsculas, removendo
    espaços/vírgulas extras e eliminando duplicatas.
    """
    apelidos_unicos = set()
    for apelido in lista_apelidos:
        apelido_limpo = str(apelido).lower().strip().rstrip(',')
        if apelido_limpo:
            apelidos_unicos.add(apelido_limpo)
    return sorted(list(apelidos_unicos))

# --- 2. Agregação e Consolidação ---
df_consolidado = df_cores_raw.groupby('CODIGO_COMPONENTE').agg(
    VARIACOES_APELIDO=('COR_APELIDO', list),
    DESCRICAO_COR=('DESCRICAO_COMPONENTE', 'first'),
    QUANTIDADE=('CODIGO_COMPONENTE', 'size')
).reset_index()

df_consolidado['VARIACOES_APELIDO'] = df_consolidado['VARIACOES_APELIDO'].apply(limpar_e_unificar_apelidos)

# --- 3. Padronização da Descrição da Cor ---
prefixos_remover = ['TINTA POLIESTER', 'TINTA POLIEST', 'TINTA EM PO', 'TINTA HIBRID']
regex_prefixos = r'^(' + '|'.join(prefixos_remover) + ')'

df_consolidado['DESC_COR'] = df_consolidado['DESCRICAO_COR'].str.replace(
    regex_prefixos, '', regex=True, flags=re.IGNORECASE
).str.strip().str.lower()

# --- 4. Renomeação e Reorganização das Colunas ---
df_consolidado = df_consolidado.rename(columns={'CODIGO_COMPONENTE': 'CODIGO_COR'})
df_cores_processed = df_consolidado[['CODIGO_COR', 'DESCRICAO_COR', 'DESC_COR', 'QUANTIDADE', 'VARIACOES_APELIDO']]

# --- 5. Exportação do DataFrame Processado ---
output_path_csv = os.path.join(PROCESSED_DATA_PATH, 'Planilha_Cores.csv')
output_path_xlsx = os.path.join(PROCESSED_DATA_PATH, 'Planilha_Cores.xlsx')

df_cores_processed.to_csv(output_path_csv, index=False, encoding='utf-8')
df_cores_processed.to_excel(output_path_xlsx, index=False)

print("Dicionário de cores processado e salvo em:")
print(f"CSV: {output_path_csv}")
print(f"Excel: {output_path_xlsx}")

print("\nAmostra do Dicionário de Cores Processado:")
display(df_cores_processed.head())

Dicionário de cores processado e salvo em:
CSV: ../data/processed/Planilha_Cores.csv
Excel: ../data/processed/Planilha_Cores.xlsx

Amostra do Dicionário de Cores Processado:


Unnamed: 0,CODIGO_COR,DESCRICAO_COR,DESC_COR,QUANTIDADE,VARIACOES_APELIDO
0,504010130001,TINTA EM PO BRANCA,branca,3,"[branco, branco c /furo]"
1,504010130002,TINTA EM PO ROSA ESCURO,rosa escuro,1,[rosa escuro]
2,504010130006,TINTA EM PO AZUL ESCURO,azul escuro,2,[azul escuro]
3,504010130007,TINTA EM PO PRETA,preta,3,[preto]
4,504010130010,TINTA EM PO VERMELHO,vermelho,2,[vermelho]


In [8]:
# ==============================================================================
# CÉLULA 4: PROCESSAMENTO - EXTRAÇÃO DE CORES DA ESTRUTURA DE PRODUTOS
# ==============================================================================
#
# Objetivo:
# 1. Mapear as descrições de pintura (ex: "PINTURA QUADRO ARO 12 PRETO") para
#    uma cor padronizada (ex: "preta").
# 2. Usar uma lista de regras (MAPA_DE_CORES) para fazer essa correspondência.
#    As regras são ordenadas da mais específica para a mais geral para evitar
#    erros de mapeamento (ex: "PRETO FOSCO" é verificado antes de "PRETO").
# 3. Criar uma nova coluna 'DESC_COR' no DataFrame de estruturas.
# 4. Validar o processo, mostrando quantas cores foram mapeadas com sucesso
#    e quais falharam, para facilitar a manutenção das regras.
#
# ==============================================================================

# --- 1. Definição do Mapa de Regras de Extração ---
MAPA_DE_CORES = [
    (['GRAFITEMETALICOFOSCO'], 'grafite metalico fosco'),
    (['AZULBRILHANTEFLEX'], 'azul brilhante flex'),
    (['PRETOGRAFITE'], 'tgic free preto grafite'),
    (['AMARELODOURADO'], 'amarelo dourado'),
    (['ROSAESCURO', 'ROSAESCU'], 'rosa escuro'),
    (['AZULESCURO'], 'azul escuro'),
    (['ROSACLARO', 'ROSACLAR'], 'rosa claro'),
    (['AZULCLARO', 'AZULCLARINHO'], 'azul claro'),
    (['ROSAMETALICO', 'ROSAMETALI'], 'rosa metalico aro 26'),
    (['PRETOFOSCO'], 'preto fosco'),
    (['ROSACHICLETE', 'ROSACHICL'], 'rosa chiclete'),
    (['CORALPINK', 'CORALPI'], 'coral pink'),
    (['AZULBEBE'], 'tgic free azul bebe'),
    (['ROSABEBE'], 'tgic free rosa bebe'),
    (['ROSAPEROL'], 'tgic free rosa perolizado'),
    (['ABRACADEIRASELIM16/BALANCE'], 'preta'),
    (['AZULFLEX'], 'tgic free azul flex'),
    (['LILAS-BANDEIRANTE', 'LILASBANDEIRANTE'], 'lilas - bandeirantes'),
    (['VERDEAQ', 'VERDEAQUA'], 'verde'),
    (['GRAFITE'], 'grafite metalico fosco'),
    (['BRANCO', 'BRANCA'], 'branca'),
    (['VERMELHO'], 'vermelho'),
    (['CINZA'], 'cinza'),
    (['LILAS'], 'lilas - bandeirantes'),
    (['ROSA'], 'rosa metalico aro 26'),
    (['VERDE'], 'verde'),
    (['COBRE'], 'preto fosco'),
    (['AMARELO'], 'amarelo dourado'),
    (['PRETO'], 'preta'),
    (['PRATA'], 'tgic free prata'),
    (['LARANJA'], 'laranja fosco')
]

# --- 2. Função para Mapear a Cor ---
def mapear_e_extrair_cor(descricao):
    if not isinstance(descricao, str) or not descricao.upper().startswith('PINTURA'):
        return np.nan
    descricao_limpa = re.sub(r'[\s-]', '', descricao.upper())
    for variacoes, cor_final in MAPA_DE_CORES:
        for variacao in variacoes:
            if variacao in descricao_limpa:
                return cor_final
    return 'nao_mapeado'

# --- 3. Aplicação e Validação ---
df_estruturas_processed = df_estruturas_raw.copy()
df_estruturas_processed['DESC_COR'] = df_estruturas_processed['DESCRICAO_COMPONENTE'].apply(mapear_e_extrair_cor)

# Validação
pintura_rows = df_estruturas_processed['DESCRICAO_COMPONENTE'].str.upper().str.startswith('PINTURA', na=False)
falhas = df_estruturas_processed[pintura_rows & (df_estruturas_processed['DESC_COR'] == 'nao_mapeado')]
total_falhas = len(falhas)

print(f"Mapeamento de cores concluído. Total de falhas: {total_falhas}")
if total_falhas > 0:
    print("\n>>> ATENÇÃO: As seguintes descrições de pintura não foram mapeadas:")
    with pd.option_context('display.max_rows', 10):
        display(falhas[['DESCRICAO_COMPONENTE']])

# Substitui o marcador por NaN para o arquivo final
df_estruturas_processed['DESC_COR'].replace('nao_mapeado', np.nan, inplace=True)

# --- 4. Exportação ---
output_path = os.path.join(PROCESSED_DATA_PATH, 'produtos_com_cores_mapeadas.csv')
df_estruturas_processed.to_csv(output_path, index=False, sep=';', encoding='utf-8')
print(f"\nEstrutura de produtos com cores extraídas salva em: {output_path}")

Mapeamento de cores concluído. Total de falhas: 24

>>> ATENÇÃO: As seguintes descrições de pintura não foram mapeadas:


Unnamed: 0,DESCRICAO_COMPONENTE
286,PINTURA GARFO DIANTEIRO ARO 26 PEROLA
287,PINTURA GUIDAO ARO 26 PEROLA
288,PINTURA QUADRO ARO 26 PEROLA
289,PINTURA CESTINHA ARO 26 MARROM
290,PINTURA BAGAGUEIRO TRASEIRO ARO 26 MAR ROM
...,...
484,PINTURA QUADRO ARO 20 MOBHIS ABRAC AZU L 5019
718,PINTURA QUADRO ARO 12 BALANCE RAIADA A ZUL AZ
1010,PINTURA GARFO DIANTEIRO ARO 26 MARROM
1011,PINTURA GUIDAO ARO 26 MARROM



Estrutura de produtos com cores extraídas salva em: ../data/processed/produtos_com_cores_mapeadas.csv


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_estruturas_processed['DESC_COR'].replace('nao_mapeado', np.nan, inplace=True)


In [9]:
# ==============================================================================
# CÉLULA 5: JUNÇÃO (MERGE) - VINCULANDO CÓDIGOS DE COR À ESTRUTURA
# ==============================================================================
#
# Objetivo:
# 1. Unir (merge) o DataFrame de estruturas (com a cor extraída 'DESC_COR')
#    com o dicionário de cores processado.
# 2. A junção é feita usando a coluna 'DESC_COR' como chave, trazendo o
#    'CODIGO_COR' e a 'DESCRICAO_COR' para a tabela principal.
# 3. Usamos um 'left merge' para garantir que todas as linhas da estrutura de
#    produtos sejam mantidas, mesmo que uma cor não seja encontrada no dicionário.
#
# ==============================================================================

# --- 1. Preparação para o Merge ---
# Seleciona apenas as colunas necessárias do dicionário de cores para a junção
df_cores_lookup = df_cores_processed[['DESC_COR', 'CODIGO_COR', 'DESCRICAO_COR']].drop_duplicates(subset=['DESC_COR'])

# --- 2. Execução do Merge ---
df_merged_cores = pd.merge(
    df_estruturas_processed,
    df_cores_lookup,
    on='DESC_COR',
    how='left'
)

# --- 3. Validação ---
total_com_cor = df_merged_cores['DESC_COR'].notna().sum()
total_mapeado_com_codigo = df_merged_cores['CODIGO_COR'].notna().sum()

print("Junção com o dicionário de cores concluída.")
print(f"Linhas com 'DESC_COR' preenchida: {total_com_cor}")
print(f"Dessas, {total_mapeado_com_codigo} encontraram um 'CODIGO_COR' correspondente.")

if total_com_cor > total_mapeado_com_codigo:
    print(f"Atenção: {total_com_cor - total_mapeado_com_codigo} cores não encontraram correspondência no Dicionário de Cores.")
    cores_nao_encontradas = df_merged_cores[df_merged_cores['DESC_COR'].notna() & df_merged_cores['CODIGO_COR'].isna()]
    print("Cores não encontradas:")
    display(cores_nao_encontradas['DESC_COR'].value_counts())

# --- 4. Exportação ---
output_path = os.path.join(PROCESSED_DATA_PATH, 'produtos_com_codigo_cor_final.csv')
df_merged_cores.to_csv(output_path, index=False, sep=';', encoding='utf-8')
print(f"\nArquivo com códigos de cor vinculados salvo em: {output_path}")

Junção com o dicionário de cores concluída.
Linhas com 'DESC_COR' preenchida: 686
Dessas, 658 encontraram um 'CODIGO_COR' correspondente.
Atenção: 28 cores não encontraram correspondência no Dicionário de Cores.
Cores não encontradas:


DESC_COR
verde         17
azul claro    11
Name: count, dtype: int64


Arquivo com códigos de cor vinculados salvo em: ../data/processed/produtos_com_codigo_cor_final.csv


In [10]:
# ==============================================================================
# CÉLULA 6: JUNÇÃO (MERGE) - ADICIONANDO DADOS DE GANCHEIRAS E COMPONENTES
# ==============================================================================
#
# Objetivo:
# 1. Enriquecer a base de dados principal com informações técnicas dos
#    componentes (dimensões, peso, etc.) do arquivo 'dados.csv'.
# 2. Preparar os DataFrames para a junção:
#    - Renomear a coluna 'PINTURA_ITEM' para 'Componente' para ser a chave.
#    - Limpar nomes de colunas no arquivo de gancheiras.
# 3. Realizar um 'left merge' para adicionar as informações técnicas, mantendo
#    todas as linhas da estrutura de produtos.
#
# ==============================================================================

# --- 1. Preparação dos DataFrames ---
df_com_gancheiras = df_merged_cores.rename(columns={'PINTURA_ITEM': 'Componente'})

# Limpa os nomes das colunas de df_gancheiras_raw
df_gancheiras_clean = df_gancheiras_raw.rename(columns={
    'PeÃ§as p/ gancheira': 'Pecas_p_gancheira',
    'PINOS ': 'PINOS',
    'Peso (kg)': 'Peso_kg'
})

# Remove duplicatas na chave de merge
df_gancheiras_lookup = df_gancheiras_clean.drop_duplicates(subset=['Componente'])

# --- 2. Execução do Merge ---
df_final = pd.merge(
    df_com_gancheiras,
    df_gancheiras_lookup,
    on='Componente',
    how='left'
)

# --- 3. Validação ---
sem_match = df_final[df_final['Componente'].notna() & df_final['Peso_kg'].isna()]
if not sem_match.empty:
    print(f"ATENÇÃO: {len(sem_match)} componentes não encontraram dados correspondentes de gancheira.")
    print("Componentes não encontrados:")
    display(sem_match['Componente'].value_counts())

# --- 4. Exportação ---
output_path = os.path.join(PROCESSED_DATA_PATH, 'produtos_com_detalhes_componente.csv')
df_final.to_csv(output_path, index=False, sep=';', encoding='utf-8')
print(f"\nArquivo final com detalhes de componentes salvo em: {output_path}")

ATENÇÃO: 30 componentes não encontraram dados correspondentes de gancheira.
Componentes não encontrados:


Componente
Quadro 26               12
Roda Aro 20              9
Roda Aro 16              5
Paralama Traseiro 20     4
Name: count, dtype: int64


Arquivo final com detalhes de componentes salvo em: ../data/processed/produtos_com_detalhes_componente.csv


In [12]:
# ==============================================================================
# CÉLULA 7: LIMPEZA E CONVERSÃO FINAL DOS TIPOS DE DADOS
# ==============================================================================
#
# Objetivo:
# 1. Corrigir os tipos de dados de todo o DataFrame para garantir que números
#    sejam tratados como números (float ou int) e textos como objetos.
#    - Colunas decimais com vírgula são convertidas para ponto flutuante (float).
#    - Colunas de códigos e contagens são convertidas para Inteiro Nulável ('Int64')
#      para permitir valores ausentes (NaN) sem forçar a coluna a ser float.
#
# ==============================================================================

df_cleaned = df_final.copy()
print("Iniciando a limpeza final dos tipos de dados...")

# --- 1. Conversão de colunas com vírgula para float ---
colunas_para_float = ['Espaçamento', 'Peso_kg', 'Altura', 'Largura']
for col in colunas_para_float:
    if col in df_cleaned.columns:
        df_cleaned[col] = pd.to_numeric(
            df_cleaned[col].astype(str).str.replace(',', '.', regex=False),
            errors='coerce'
        )

# --- 2. Conversão para Inteiro Nulável ---
colunas_para_int = [
    'CODIGO_PRODUTO', 'CODIGO_COMPONENTE', 'CODIGO_COR', 
    'Pecas_p_gancheira', 'PINOS', 'Estoque Gancheiras'
]
for col in colunas_para_int:
    if col in df_cleaned.columns:
        # A conversão para float primeiro é um passo seguro para lidar
        # com possíveis NaNs antes de converter para Int64.
        df_cleaned[col] = pd.to_numeric(df_cleaned[col], errors='coerce').astype('Int64')

# --- 3. Verificação ---
print("\nTipos de dados do DataFrame final corrigido:")
df_cleaned.info()

Iniciando a limpeza final dos tipos de dados...

Tipos de dados do DataFrame final corrigido:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1142 entries, 0 to 1141
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CODIGO_PRODUTO          1141 non-null   Int64  
 1   Complemento             1141 non-null   object 
 2   DESCRICAO_PRODUTO       1141 non-null   object 
 3   CODIGO_COMPONENTE       1141 non-null   Int64  
 4   Complemento_Componente  1141 non-null   object 
 5   Componente              652 non-null    object 
 6   LINHA                   718 non-null    object 
 7   DESCRICAO_COMPONENTE    1141 non-null   object 
 8   DESC_COR                686 non-null    object 
 9   CODIGO_COR              658 non-null    Int64  
 10  DESCRICAO_COR           658 non-null    object 
 11  Linha                   652 non-null    object 
 12  Peças p/ gancheira      652 non-null    float64
 13 

In [13]:
# ==============================================================================
# CÉLULA 8: EXPORTAÇÃO DO DATASET FINAL CONSOLIDADO
# ==============================================================================
#
# Objetivo:
# 1. Salvar o DataFrame final, totalmente processado, enriquecido e com os
#    tipos de dados corretos, nos formatos CSV e Excel.
# 2. O nome do arquivo foi ajustado conforme solicitado.
#
# ==============================================================================

# --- Definindo os nomes e caminhos de saída ---
output_filename = 'Planilha_Estruturas - Produto_Cor_Dim'
output_path_csv = os.path.join(PROCESSED_DATA_PATH, f'{output_filename}.csv')
output_path_xlsx = os.path.join(PROCESSED_DATA_PATH, f'{output_filename}.xlsx')

# --- Exportando os arquivos ---
df_cleaned.to_csv(output_path_csv, index=False, sep=';', encoding='ISO-8859-1')
df_cleaned.to_excel(output_path_xlsx, index=False)

print("\nProcesso concluído com sucesso!")
print("O dataset final consolidado foi salvo em:")
print(f"CSV: {output_path_csv}")
print(f"Excel: {output_path_xlsx}")


Processo concluído com sucesso!
O dataset final consolidado foi salvo em:
CSV: ../data/processed/Planilha_Estruturas - Produto_Cor_Dim.csv
Excel: ../data/processed/Planilha_Estruturas - Produto_Cor_Dim.xlsx
