In [33]:
import pandas as pd
import os

In [34]:
df1 = pd.read_csv(
    r'../data/2025-06-13 - Dicionário cores.csv',
    sep=';',
    encoding='utf-8'  
)
df1.columns

Index(['COR_APELIDO', 'DESCRICAO_COMPONENTE', 'CODIGO_COMPONENTE'], dtype='object')

In [35]:
df1.info()
df1

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54 entries, 0 to 53
Data columns (total 3 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   COR_APELIDO           54 non-null     object
 1   DESCRICAO_COMPONENTE  54 non-null     object
 2   CODIGO_COMPONENTE     54 non-null     int64 
dtypes: int64(1), object(2)
memory usage: 1.4+ KB


Unnamed: 0,COR_APELIDO,DESCRICAO_COMPONENTE,CODIGO_COMPONENTE
0,AMARELO DOURADO,TINTA EM PO AMARELO DOURADO,504010130069
1,amarelo dourado free,TINTA HIBRID TGIC FREE AMARELO DOURADO,504010130088
2,azul clarinho,TINTA EM PO AZUL CLARINHO 283,504010130042
3,AZUL CLARINHOFREE,TINTA HIBRID TGIC FREE AZUL BEBE,504010130087
4,azul escuro,TINTA EM PO AZUL ESCURO,504010130006
5,AZUL ESCURO,TINTA EM PO AZUL ESCURO,504010130006
6,azul flex,TINTA HIBRID TGIC FREE AZUL FLEX,504010130098
7,AZUL FLEX,TINTA HIBRID TGIC FREE AZUL FLEX,504010130098
8,AZUL FLEX FREE TGIC,TINTA HIBRID TGIC FREE AZUL FLEX,504010130098
9,AZUL FLEX MAS,TINTA EM PO AZUL BRILHANTE FLEX,504010130027


In [36]:
# Agrupa o DataFrame pelo 'CODIGO_COMPONENTE' e agrega os 'COR_APELIDO' em uma lista
mapeamento_cores = df1.groupby('CODIGO_COMPONENTE')['COR_APELIDO'].apply(list).reset_index()

# Renomeia a coluna para maior clareza
mapeamento_cores.rename(columns={'COR_APELIDO': 'VARIACOES_APELIDO'}, inplace=True)

# Exibe o novo DataFrame com o mapeamento
mapeamento_cores

Unnamed: 0,CODIGO_COMPONENTE,VARIACOES_APELIDO
0,504010130001,"[branco, BRANCO, BRANCO c /furo]"
1,504010130002,[rosa escuro]
2,504010130006,"[azul escuro, AZUL ESCURO]"
3,504010130007,"[preto, PRETO, PRETO,]"
4,504010130010,"[vermelho, VERMELHO]"
5,504010130015,"[C FURO ROSA CLARO, rosa claro, rosa claro,, R..."
6,504010130019,[laranja]
7,504010130021,"[grafite, grafite /RETRABALHO]"
8,504010130025,"[lilas, LILAS]"
9,504010130027,[AZUL FLEX MAS]


In [11]:
# Quantidade de componentes por produto:
df1.groupby(['CODIGO_COMPONENTE'])['COR_APELIDO'].nunique().reset_index().sort_values('CODIGO_COMPONENTE', ascending=False)

Unnamed: 0,CODIGO_COMPONENTE,COR_APELIDO
28,504010130098,3
27,504010130097,2
26,504010130092,3
25,504010130090,3
24,504010130089,1
23,504010130088,1
22,504010130087,1
21,504010130086,1
20,504010130085,1
19,504010130084,1


In [None]:
def limpar_e_unificar_apelidos(lista_apelidos):
    """
    Esta função recebe uma lista de strings e faz a limpeza:
    1. Converte tudo para minúsculas.
    2. Remove espaços em branco no início e no fim.
    3. Remove vírgulas e outros caracteres indesejados no final.
    4. Remove valores duplicados após a limpeza.
    """
    apelidos_unicos = set()
    for apelido in lista_apelidos:
        # Garante que o apelido é uma string, converte para minúsculo e remove espaços/vírgulas
        apelido_limpo = str(apelido).lower().strip().rstrip(',')
        
        # Adiciona ao conjunto de apelidos únicos
        if apelido_limpo: # Garante que strings vazias não sejam adicionadas
            apelidos_unicos.add(apelido_limpo)
            
    # Retorna como uma lista ordenada
    return sorted(list(apelidos_unicos))

In [None]:
# AgrupaR por CODIGO_COMPONENTE e agregar as informações relevantes
df_consolidado = df1.groupby('CODIGO_COMPONENTE').agg(
    # Cria uma lista com todos os apelidos do grupo
    VARIACOES_APELIDO=('COR_APELIDO', list),
    
    # Pega a primeira descrição encontrada (assumindo que é a mesma para o mesmo código)
    DESCRICAO=('DESCRICAO_COMPONENTE', 'first'),
    
    # Conta o número de linhas (ocorrências) em cada grupo
    QUANTIDADE=('CODIGO_COMPONENTE', 'size')
).reset_index()

# Limpeza na coluna de listas
df_consolidado['VARIACOES_APELIDO'] = df_consolidado['VARIACOES_APELIDO'].apply(limpar_e_unificar_apelidos)

# Reordena as colunas 
df_consolidado = df_consolidado[['CODIGO_COMPONENTE', 'DESCRICAO', 'QUANTIDADE', 'VARIACOES_APELIDO']]

df_consolidado

Unnamed: 0,CODIGO_COMPONENTE,DESCRICAO,QUANTIDADE,VARIACOES_APELIDO
0,504010130001,TINTA EM PO BRANCA,3,"[branco, branco c /furo]"
1,504010130002,TINTA EM PO ROSA ESCURO,1,[rosa escuro]
2,504010130006,TINTA EM PO AZUL ESCURO,2,[azul escuro]
3,504010130007,TINTA EM PO PRETA,3,[preto]
4,504010130010,TINTA EM PO VERMELHO,2,[vermelho]
5,504010130015,TINTA EM PO ROSA CLARO,5,"[c furo rosa claro, rosa claro, rosa claro c/ ..."
6,504010130019,TINTA EM PO LARANJA FOSCO,1,[laranja]
7,504010130021,TINTA EM PO GRAFITE METALICO FOSCO,2,"[grafite, grafite /retrabalho]"
8,504010130025,TINTA EM PO LILAS - BANDEIRANTES,2,[lilas]
9,504010130027,TINTA EM PO AZUL BRILHANTE FLEX,1,[azul flex mas]


In [None]:
import re

# 1. lista de prefixos  a serem removidos.
#    É importante colocar os prefixos mais longos e específicos primeiro.
prefixos = [
    'TINTA POLIESTER',
    'TINTA POLIEST',
    'TINTA EM PO',
    'TINTA HIBRID'  
]

# 2. Crie uma expressão regular a partir da lista.
#    O caractere '|' funciona como um "OU".
#    O '^' garante que vamos procurar o padrão apenas no início da string.
regex_prefixos = r'^(' + '|'.join(prefixos) + ')'

# 3. Use .str.replace() com a expressão regular para criar a nova coluna.
#    - regex=True: informa ao pandas que o padrão é uma expressão regular.
#    - flags=re.IGNORECASE: ignora se o texto está em maiúsculas ou minúsculas.
#    - .str.strip(): remove espaços em branco do início e do fim.
#    - .str.lower(): padroniza tudo para minúsculas.

df_consolidado['cor_padrao'] = df_consolidado['DESCRICAO'].str.replace(
    regex_prefixos, '', regex=True, flags=re.IGNORECASE
).str.strip().str.lower()

# 4. Exiba o resultado para verificação
df_consolidado[['DESCRICAO', 'cor_padrao']].head(10)

Unnamed: 0,DESCRICAO,cor_padrao
0,TINTA EM PO BRANCA,branca
1,TINTA EM PO ROSA ESCURO,rosa escuro
2,TINTA EM PO AZUL ESCURO,azul escuro
3,TINTA EM PO PRETA,preta
4,TINTA EM PO VERMELHO,vermelho
5,TINTA EM PO ROSA CLARO,rosa claro
6,TINTA EM PO LARANJA FOSCO,laranja fosco
7,TINTA EM PO GRAFITE METALICO FOSCO,grafite metalico fosco
8,TINTA EM PO LILAS - BANDEIRANTES,lilas - bandeirantes
9,TINTA EM PO AZUL BRILHANTE FLEX,azul brilhante flex


In [None]:
# Dicionário com os nomes antigos e novos das colunas
mapa_nomes = {
    'CODIGO_COMPONENTE': 'CODIGO_COR',
    'cor_padrao': 'DESC_COR'
}

# Renomeia as colunas usando o dicionário
df_consolidado = df_consolidado.rename(columns=mapa_nomes)

# Exibe os nomes das colunas atualizados para confirmar
print("Nomes das colunas atualizados:")
print(df_consolidado.columns)

print("\nDataFrame com as colunas renomeadas:")
print(df_consolidado.head())

Nomes das colunas atualizados:
Index(['CODIGO_COR', 'DESCRICAO', 'QUANTIDADE', 'VARIACOES_APELIDO',
       'DESC_COR'],
      dtype='object')

DataFrame com as colunas renomeadas:
     CODIGO_COR                DESCRICAO  QUANTIDADE  \
0  504010130001       TINTA EM PO BRANCA           3   
1  504010130002  TINTA EM PO ROSA ESCURO           1   
2  504010130006  TINTA EM PO AZUL ESCURO           2   
3  504010130007        TINTA EM PO PRETA           3   
4  504010130010     TINTA EM PO VERMELHO           2   

          VARIACOES_APELIDO     DESC_COR  
0  [branco, branco c /furo]       branca  
1             [rosa escuro]  rosa escuro  
2             [azul escuro]  azul escuro  
3                   [preto]        preta  
4                [vermelho]     vermelho  


In [30]:
from builtins import print


df_consolidado.to_csv('dsc_cores.csv', index=False, encoding='utf-8-sig')

print("Arquivo 'dsc_cores.csv' salvo com sucesso!")

df_consolidado.to_excel('dsc_cores.xlsx', index=False)

print("Arquivo 'dsc_cores.xlsx' salvo com sucesso!")

Arquivo 'dsc_cores.csv' salvo com sucesso!
Arquivo 'dsc_cores.xlsx' salvo com sucesso!


In [62]:
df_consolidado


Unnamed: 0,CODIGO_COMPONENTE,DESCRICAO,QUANTIDADE,VARIACOES_APELIDO,cor_padrao
0,504010130001,TINTA EM PO BRANCA,3,"[branco, branco c /furo]",branca
1,504010130002,TINTA EM PO ROSA ESCURO,1,[rosa escuro],rosa escuro
2,504010130006,TINTA EM PO AZUL ESCURO,2,[azul escuro],azul escuro
3,504010130007,TINTA EM PO PRETA,3,[preto],preta
4,504010130010,TINTA EM PO VERMELHO,2,[vermelho],vermelho
5,504010130015,TINTA EM PO ROSA CLARO,5,"[c furo rosa claro, rosa claro, rosa claro c/ ...",rosa claro
6,504010130019,TINTA EM PO LARANJA FOSCO,1,[laranja],laranja fosco
7,504010130021,TINTA EM PO GRAFITE METALICO FOSCO,2,"[grafite, grafite /retrabalho]",grafite metalico fosco
8,504010130025,TINTA EM PO LILAS - BANDEIRANTES,2,[lilas],lilas - bandeirantes
9,504010130027,TINTA EM PO AZUL BRILHANTE FLEX,1,[azul flex mas],azul brilhante flex


Aqui termina o data_engeneer do dataset das cores

In [37]:
df2 = pd.read_csv(
    r'../data/2025-06-13 - Estruturas - Produto x Tinta Pó - atualizado.csv',
    encoding='ISO-8859-1',
    sep=';'
)
df2

Unnamed: 0,CODIGO_PRODUTO,Complemento,DESCRICAO_PRODUTO,CODIGO_COMPONENTE,Complemento_Componente,PINTURA_ITEM,LINHA,DESCRICAO_COMPONENTE
0,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,2.060102e+11,0001,Garfo 12,Aro 12,PINTURA GARFO DIANTEIRO ARO 12 PRETO
1,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,2.060102e+11,0001,GuidÃ£o 12,Aro 12,PINTURA GUIDAO ARO 12 PRETO
2,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,2.060102e+11,0001,Quadro 12,Aro 12,PINTURA QUADRO ARO 12 MOD02 PRETO
3,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,3.045102e+11,0002,Pedivela 12,Aro 12,PINTURA PEDIVELA BRANCO
4,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,5.040101e+11,,,,TINTA EM PO BRANCA
...,...,...,...,...,...,...,...,...
1137,2.071002e+11,0002,RODA DIANTEIRA ARO 20 - 28 FUROS PRET O,2.071002e+11,0001,Roda Aro 20,Aro 20,PINTURA DO ARO 20 PRETO
1138,2.071002e+11,0002,RODA DIANTEIRA ARO 20 - 28 FUROS PRET O,5.040101e+11,,,,TINTA EM PO PRETA
1139,2.071002e+11,0001,RODA TRASEIRA ARO 20 COM MARCHA PT/P T,2.071002e+11,0001,Roda Aro 20,Aro 20,PINTURA DO ARO 20 PRETO
1140,2.071002e+11,0001,RODA TRASEIRA ARO 20 COM MARCHA PT/P T,5.040101e+11,,,,TINTA EM PO PRETA


In [38]:
df2.columns

Index(['CODIGO_PRODUTO', 'Complemento', 'DESCRICAO_PRODUTO',
       'CODIGO_COMPONENTE', 'Complemento_Componente', 'PINTURA_ITEM', 'LINHA',
       'DESCRICAO_COMPONENTE'],
      dtype='object')

In [None]:
# --- 1. Definição do Mapa de Cores ---
# Regras mais específicas (com mais palavras) vêm ANTES de regras mais gerais.
# Ex: 'GRAFITE METALICO FOSCO' é verificado antes de 'GRAFITE'.

MAPA_DE_CORES = [
    # Regras de 3 palavras
    ('GRAFITE METALICO FOSCO', 'grafite metalico fosco'),
    ('AZUL BRILHANTE FLEX', 'azul brilhante flex'),

    # Regras de 2 palavras
    ('ROSA ESCURO', 'rosa escuro'),
    ('AZUL ESCURO', 'azul escuro'),
    ('ROSA CLARO', 'rosa claro'),
    ('ROSA METALICO', 'rosa metalico aro 26'),
    ('PRETO FOSCO', 'preto fosco'),
    ('PRETO GRAFITE', 'tgic free preto grafite'),
    ('ROSA CHICLETE', 'rosa chiclete'),
    ('AMARELO DOURADO', 'amarelo dourado'),
    ('CORAL PINK', 'coral pink'),
    ('AZUL BEBE', 'tgic free azul bebe'),
    ('ROSA BEBE', 'tgic free rosa bebe'),
    ('ROSA PEROL', 'tgic free rosa perolizado'),
    ('AZUL FLEX', 'tgic free azul flex'),
    ('AZUL CLARO', 'azul claro'),
    ('AZUL CLARINHO', 'azul claro'),
    ('BRANCO', 'branca'),
    ('BRANCA', 'branca'),
    ('VERMELHO', 'vermelho'),
    ('GRAFITE', 'grafite metalico fosco'),
    ('CINZA', 'cinza'),
    ('LILAS', 'lilas - bandeirantes'), # Pega 'LILAS - BANDEIRANTE' e 'LILAS'
    ('VERDE', 'verde'),
    ('VERDE AQUA', 'verde'),
    ('COBRE', 'preto fosco'),
    ('PRETO', 'preta'),
    ('PRATA', 'tgic free prata'),
    ('AMARELO', 'amarelo dourado'),
]

def mapear_cor(descricao_componente):
    """
    Mapeia a cor de uma descrição de componente usando o MAPA_DE_CORES.
    Ignora componentes que não começam com 'PINTURA'.
    """
    # 1. Ignorar linhas que não são de pintura
    if not isinstance(descricao_componente, str) or not descricao_componente.upper().startswith('PINTURA'):
        return np.nan

    # 2. Limpar a descrição para uma correspondência robusta
    #    - Converte para maiúsculas
    #    - Remove espaços extras entre palavras
    #    - Remove todos os espaços para lidar com erros como "BRA NCA" -> "BRANCA"
    texto_limpo = descricao_componente.upper()
    texto_limpo_sem_espacos = texto_limpo.replace(' ', '')

    # 3. Iterar sobre o mapa e encontrar a primeira correspondência
    for termo_busca, cor_padrao in MAPA_DE_CORES:
        # A busca sem espaços lida com erros de digitação (ex: "ROSAMETALICO")
        termo_busca_sem_espacos = termo_busca.replace(' ', '')
        if termo_busca_sem_espacos in texto_limpo_sem_espacos:
            return cor_padrao # Retorna a cor padrão e para a busca

    # 4. Se nenhuma correspondência for encontrada, retorna NaN
    return np.nan

# --- Bloco Principal de Execução ---

# 1. Carregamento do Arquivo
caminho_arquivo = r'../data/2025-06-13 - Estruturas - Produto x Tinta Pó - atualizado.csv'
try:
    df = pd.read_csv(caminho_arquivo, encoding='ISO-8859-1', sep=';')
    print(f"Arquivo '{caminho_arquivo}' carregado com sucesso.")
except FileNotFoundError:
    print(f"ERRO: Arquivo não encontrado em '{caminho_arquivo}'. Verifique o caminho.")
    exit()

# 2. Aplicação da Lógica de Mapeamento
print("Iniciando mapeamento de cores...")
df['DESC_COR'] = df['DESCRICAO_COMPONENTE'].apply(mapear_cor)
print("Mapeamento concluído.")

# 3. Validação e Relatório
print("\n--- RELATÓRIO DE VALIDAÇÃO ---")

# Filtra apenas as linhas que deveriam ser processadas (iniciam com PINTURA)
df_pintura = df[df['DESCRICAO_COMPONENTE'].str.upper().str.startswith('PINTURA', na=False)]
total_pintura = len(df_pintura)

# Separa as que tiveram sucesso e as que falharam
sucesso = df_pintura.dropna(subset=['DESC_COR'])
falha = df_pintura[df_pintura['DESC_COR'].isnull()]

print(f"Total de linhas com 'PINTURA' encontradas: {total_pintura}")
print(f"  - Cores extraídas com sucesso: {len(sucesso)}")
print(f"  - Falhas na extração: {len(falha)}")

if not falha.empty:
    print("\n>>> ANÁLISE NECESSÁRIA: Não foi possível extrair a cor das seguintes linhas:")
    # Apresenta o conteúdo completo das linhas com falha para análise
    with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 1000):
        print(falha)
else:
    print("\n>>> SUCESSO: Todas as linhas com 'PINTURA' foram mapeadas com sucesso!")

# Mostra uma prévia das cores extraídas com sucesso
if not sucesso.empty:
    print("\n--- AMOSTRA DAS CORES EXTRAÍDAS COM SUCESSO ---")
    print(sucesso[['DESCRICAO_COMPONENTE', 'DESC_COR']].head(10).to_string())

# 4. Salvando o Resultado
caminho_saida = 'produtos_com_cores_mapeadas.csv'
df.to_csv(caminho_saida, index=False, sep=';', encoding='ISO-8859-1')
print(f"\nArquivo final com a coluna 'DESC_COR' foi salvo em: '{caminho_saida}'")

Arquivo '../data/2025-06-13 - Estruturas - Produto x Tinta Pó - atualizado.csv' carregado com sucesso.
Iniciando mapeamento de cores...
Mapeamento concluído.

--- RELATÓRIO DE VALIDAÇÃO ---
Total de linhas com 'PINTURA' encontradas: 710
  - Cores extraídas com sucesso: 601
  - Falhas na extração: 109

>>> ANÁLISE NECESSÁRIA: Não foi possível extrair a cor das seguintes linhas:
      CODIGO_PRODUTO Complemento                                DESCRICAO_PRODUTO  CODIGO_COMPONENTE Complemento_Componente     PINTURA_ITEM    LINHA                               DESCRICAO_COMPONENTE DESC_COR
12      1.000102e+11                            BICICLETA ARO 12 CAT 01 SELIM PU        2.060102e+11                 0007           Garfo 12   Aro 12         PINTURA GARFO DIANTEIRO ARO 12 ROSA CLA R       NaN
37      1.000102e+11                                      BICICLETA ARO 12 CHARM        2.060102e+11                 0007           Garfo 12   Aro 12         PINTURA GARFO DIANTEIRO ARO 12 ROSA CLA R 

In [None]:
import re

# --- 1. Definição do Mapeamento de Cores ---
# As regras são ordenadas da mais específica para a mais geral para garantir a precisão.
# Cada regra tem uma lista de variações (o que procurar) e um valor final (o que escrever).
# As variações são escritas sem espaços e em maiúsculas para uma correspondência robusta.
MAPA_DE_CORES = [
    # Regras mais específicas (múltiplas palavras) primeiro
    (['GRAFITEMETALICOFOSCO'], 'grafite metalico fosco'),
    (['AZULBRILHANTEFLEX'], 'azul brilhante flex'),
    (['PRETOGRAFITE'], 'tgic free preto grafite'),
    (['AMARELODOURADO'], 'amarelo dourado'),
    (['ROSAESCURO', 'ROSAESCU'], 'rosa escuro'),
    (['AZULESCURO'], 'azul escuro'),
    (['ROSACLARO', 'ROSACLAR'], 'rosa claro'),
    (['AZULCLARO', 'AZULCLARINHO'], 'azul claro'),
    (['ROSAMETALICO', 'ROSAMETALI'], 'rosa metalico aro 26'),
    (['PRETOFOSCO'], 'preto fosco'),
    (['ROSACHICLETE', 'ROSACHICL'], 'rosa chiclete'),
    (['CORALPINK', 'CORALPI'], 'coral pink'),
    (['AZULBEBE'], 'tgic free azul bebe'),
    (['ROSABEBE'], 'tgic free rosa bebe'),
    (['ROSAPEROL'], 'tgic free rosa perolizado'),
    # Regra de exceção de texto específico
    (['ABRACADEIRASELIM16/BALANCE'], 'preta'),
    # Regras de uma palavra ou menos específicas
    (['AZULFLEX'], 'tgic free azul flex'),
    (['LILAS-BANDEIRANTE', 'LILASBANDEIRANTE'], 'lilas - bandeirantes'), # Corrigido para corresponder à limpeza
    (['VERDEAQ', 'VERDEAQUA'], 'verde'),
    (['GRAFITE'], 'grafite metalico fosco'),
    (['BRANCO', 'BRANCA'], 'branca'),
    (['VERMELHO'], 'vermelho'),
    (['CINZA'], 'cinza'),
    (['LILAS'], 'lilas - bandeirantes'),
    (['ROSA'], 'rosa metalico aro 26'),
    (['VERDE'], 'verde'),
    (['COBRE'], 'preto fosco'),
    (['AMARELO'], 'amarelo dourado'),
    (['PRETO'], 'preta'),
    (['PRATA'], 'tgic free prata'),
    (['LARANJA'], 'laranja fosco')
]

def mapear_e_extrair_cor(descricao):
    """
    Extrai e padroniza a cor de uma descrição com base no MAPA_DE_CORES.
    A função lida apenas com strings que começam com 'PINTURA'.
    """
    if not isinstance(descricao, str) or not descricao.upper().startswith('PINTURA'):
        return np.nan

    # Limpa a string para uma comparação robusta: maiúsculas e sem espaços.
    # Ex: "PINTURA GARFO AZUL CLA RO" -> "PINTURAGARFOAZULCLARO"
    # Também remove hífens para casos como LILAS-BANDEIRANTE
    descricao_limpa = re.sub(r'[\s-]', '', descricao.upper())

    # Itera sobre o mapa ordenado
    for variacoes, cor_final in MAPA_DE_CORES:
        for variacao in variacoes:
            if variacao in descricao_limpa:
                return cor_final  # Retorna a primeira correspondência encontrada

    return 'nao_mapeado' # Retorna um marcador se nenhuma regra corresponder

# --- 2. Carregamento e Processamento do Arquivo ---
caminho_arquivo = r'../data/2025-06-13 - Estruturas - Produto x Tinta Pó - atualizado.csv'

try:
    df = pd.read_csv(caminho_arquivo, encoding='ISO-8859-1', sep=';')
except FileNotFoundError:
    print(f"Erro: Arquivo não encontrado no caminho: {caminho_arquivo}")
    exit()

df_processado = df.copy()

# Aplica a função para criar a nova coluna
df_processado['DESC_COR'] = df_processado['DESCRICAO_COMPONENTE'].apply(mapear_e_extrair_cor)


# --- 3. Validação e Relatório de Resultados ---
print("--- ANÁLISE DA EXTRAÇÃO DE CORES ---")

# Identifica as linhas que deveriam ter sido processadas (começam com PINTURA)
pintura_rows = df_processado['DESCRICAO_COMPONENTE'].str.upper().str.startswith('PINTURA', na=False)
total_pintura = pintura_rows.sum()

# Identifica as falhas: linhas de PINTURA que não foram mapeadas
falhas = df_processado[pintura_rows & (df_processado['DESC_COR'] == 'nao_mapeado')]
total_falhas = len(falhas)

# Identifica os sucessos
sucessos = df_processado.dropna(subset=['DESC_COR'])
# Remove as falhas marcadas da contagem de sucesso
total_sucessos = len(sucessos[sucessos['DESC_COR'] != 'nao_mapeado'])

print(f"\nTotal de linhas no arquivo: {len(df_processado)}")
print(f"Total de linhas de 'PINTURA' para processar: {total_pintura}")
print("-" * 40)
print(f"Sucessos na extração: {total_sucessos}")
print(f"Falhas (não mapeadas): {total_falhas}")
print("-" * 40)

# Apresenta as linhas que não puderam ser mapeadas para análise
if total_falhas > 0:
    print("\n>>> ATENÇÃO: As seguintes linhas de 'PINTURA' não foram mapeadas por nenhuma regra:")
    # Apresenta o conteúdo completo das linhas com falha
    with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 1000):
        print(falhas)
else:
    print("\n>>> SUCESSO: Todas as linhas de 'PINTURA' foram mapeadas com sucesso!")

# Mostra uma prévia das cores extraídas com sucesso
print("\n--- Amostra de Cores Extraídas com Sucesso ---")
print(sucessos[sucessos['DESC_COR'] != 'nao_mapeado'][['DESCRICAO_COMPONENTE', 'DESC_COR']].head(10).to_string())

# Remove o marcador 'nao_mapeado' e substitui por Nulo (NaN) para o arquivo final
df_processado['DESC_COR'].replace('nao_mapeado', np.nan, inplace=True)


# --- 4. Salvando o Resultado Final ---
caminho_saida = 'produtos_com_cores_mapeadas.csv'
df_processado.to_csv(caminho_saida, index=False, sep=';', encoding='ISO-8859-1')

print(f"\nArquivo processado foi salvo com sucesso em: {caminho_saida}")

--- ANÁLISE DA EXTRAÇÃO DE CORES ---

Total de linhas no arquivo: 1142
Total de linhas de 'PINTURA' para processar: 710
----------------------------------------
Sucessos na extração: 686
Falhas (não mapeadas): 24
----------------------------------------

>>> ATENÇÃO: As seguintes linhas de 'PINTURA' não foram mapeadas por nenhuma regra:
      CODIGO_PRODUTO Complemento                    DESCRICAO_PRODUTO  CODIGO_COMPONENTE Complemento_Componente    PINTURA_ITEM    LINHA                               DESCRICAO_COMPONENTE     DESC_COR
286     1.002902e+11               BICICLETA ARO 26 ANTONELLA PEROLA        2.071502e+11                 0056          Garfo 26   Aro 26             PINTURA GARFO DIANTEIRO ARO 26 PEROLA   nao_mapeado
287     1.002902e+11               BICICLETA ARO 26 ANTONELLA PEROLA        2.071502e+11                 0056        GuidÃ£o 26   Aro 26                      PINTURA GUIDAO ARO 26 PEROLA   nao_mapeado
288     1.002902e+11               BICICLETA ARO 26 ANTONE

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_processado['DESC_COR'].replace('nao_mapeado', np.nan, inplace=True)


In [39]:
df3 = pd.read_csv(
    r'../notebook/produtos_com_cores_mapeadas.csv',
    encoding='ISO-8859-1',
    sep=';'
)

df3.columns

Index(['CODIGO_PRODUTO', 'Complemento', 'DESCRICAO_PRODUTO',
       'CODIGO_COMPONENTE', 'Complemento_Componente', 'PINTURA_ITEM', 'LINHA',
       'DESCRICAO_COMPONENTE', 'DESC_COR'],
      dtype='object')

In [40]:
df3

Unnamed: 0,CODIGO_PRODUTO,Complemento,DESCRICAO_PRODUTO,CODIGO_COMPONENTE,Complemento_Componente,PINTURA_ITEM,LINHA,DESCRICAO_COMPONENTE,DESC_COR
0,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,2.060102e+11,0001,Garfo 12,Aro 12,PINTURA GARFO DIANTEIRO ARO 12 PRETO,preta
1,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,2.060102e+11,0001,GuidÃ£o 12,Aro 12,PINTURA GUIDAO ARO 12 PRETO,preta
2,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,2.060102e+11,0001,Quadro 12,Aro 12,PINTURA QUADRO ARO 12 MOD02 PRETO,preta
3,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,3.045102e+11,0002,Pedivela 12,Aro 12,PINTURA PEDIVELA BRANCO,branca
4,1.000102e+11,,BICICLETA ARO 12 BLACK 12 4,5.040101e+11,,,,TINTA EM PO BRANCA,
...,...,...,...,...,...,...,...,...,...
1137,2.071002e+11,0002,RODA DIANTEIRA ARO 20 - 28 FUROS PRET O,2.071002e+11,0001,Roda Aro 20,Aro 20,PINTURA DO ARO 20 PRETO,preta
1138,2.071002e+11,0002,RODA DIANTEIRA ARO 20 - 28 FUROS PRET O,5.040101e+11,,,,TINTA EM PO PRETA,
1139,2.071002e+11,0001,RODA TRASEIRA ARO 20 COM MARCHA PT/P T,2.071002e+11,0001,Roda Aro 20,Aro 20,PINTURA DO ARO 20 PRETO,preta
1140,2.071002e+11,0001,RODA TRASEIRA ARO 20 COM MARCHA PT/P T,5.040101e+11,,,,TINTA EM PO PRETA,


In [None]:
df4 = pd.read_csv(
    r'../notebook/dsc_cores.csv',
    encoding='utf-8-sig',  # <-- corrige o problema do BOM
    sep=','
)
df4.columns

Index(['CODIGO_COR', 'DESCRICAO', 'QUANTIDADE', 'VARIACOES_APELIDO',
       'DESC_COR'],
      dtype='object')

In [36]:
# Renomear a coluna
df4 = df4.rename(columns={'DESCRICAO': 'DESCRICAO_COR'})

# Salvar como CSV
df4.to_csv('Planilha_Cores.csv', index=False, encoding='utf-8-sig')

# Salvar como Excel (XLSX)
df4.to_excel('Planilha_Cores.xlsx', index=False)


In [37]:
df5 = pd.read_csv(
    r'../notebook/Planilha_Cores.csv',
    encoding='utf-8-sig',  # <-- corrige o problema do BOM
    sep=','
)
df5.columns

Index(['CODIGO_COR', 'DESCRICAO_COR', 'QUANTIDADE', 'VARIACOES_APELIDO',
       'DESC_COR'],
      dtype='object')

In [38]:

# --- 1. Carregamento dos Arquivos ---
# Carrega o arquivo de produtos com as cores já mapeadas
try:
    df3 = pd.read_csv(
        r'../notebook/produtos_com_cores_mapeadas.csv',
        encoding='ISO-8859-1',
        sep=';'
    )
except FileNotFoundError:
    print("Erro: Arquivo 'produtos_com_cores_mapeadas.csv' não encontrado. Verifique o caminho.")
    exit()

# Carrega o arquivo de referência de cores (seu "de-para")
try:
    df5 = pd.read_csv(
        r'../notebook/Planilha_Cores.csv',
        encoding='utf-8-sig',
        sep=','
    )
except FileNotFoundError:
    print("Erro: Arquivo 'Planilha_Cores.csv' não encontrado. Verifique o caminho.")
    exit()


# --- 2. Preparação para o Merge ---
# Seleciona apenas as colunas necessárias do df5 para o merge.
# Isso evita adicionar colunas duplicadas ou desnecessárias.
colunas_para_trazer = ['DESC_COR', 'CODIGO_COR', 'DESCRICAO_COR']
df5_lookup = df5[colunas_para_trazer]

# Remove possíveis duplicatas na chave de merge em df5 para evitar multiplicação de linhas.
# Garante que cada 'DESC_COR' da planilha de cores seja única.
df5_lookup = df5_lookup.drop_duplicates(subset=['DESC_COR'])

print("Arquivos carregados com sucesso. Iniciando o merge...")
print(f"Total de linhas em df3 (antes do merge): {len(df3)}")
print(f"Total de cores únicas para consulta em df5: {len(df5_lookup)}")
print("-" * 50)


# --- 3. Execução do Merge ---
# 'how='left'' garante que todas as linhas de df3 sejam mantidas.
# 'on='DESC_COR'' especifica a coluna chave para a união.
df_final = pd.merge(df3, df5_lookup, on='DESC_COR', how='left')


# --- 4. Validação e Análise do Resultado ---
print("Merge concluído!")
print(f"Total de linhas em df_final (depois do merge): {len(df_final)}")

# Validação: Verifica quantas linhas do df3 tinham uma cor que foi encontrada no df5
total_com_cor = df_final['DESC_COR'].notna().sum()
total_mapeado_com_codigo = df_final['CODIGO_COR'].notna().sum()

print(f"Linhas em df_final com uma 'DESC_COR': {total_com_cor}")
print(f"Dessas, {total_mapeado_com_codigo} encontraram um 'CODIGO_COR' correspondente.")

if total_com_cor > total_mapeado_com_codigo:
    print(f"Atenção: {total_com_cor - total_mapeado_com_codigo} cores de df3 não foram encontradas na Planilha_Cores.csv.")


# Mostra as colunas do novo DataFrame e uma prévia do resultado
print("\nColunas do DataFrame final:")
print(df_final.columns)

print("\nAmostra do resultado com as novas colunas:")
# Seleciona colunas relevantes para a visualização da amostra
colunas_amostra = ['CODIGO_PRODUTO', 'DESCRICAO_COMPONENTE', 'DESC_COR', 'CODIGO_COR', 'DESCRICAO_COR']
print(df_final[colunas_amostra].head(10).to_string())


# --- 5. Salvando o Resultado ---
caminho_saida = 'produtos_com_codigo_cor_final.csv'
df_final.to_csv(caminho_saida, index=False, sep=';', encoding='ISO-8859-1')

print(f"\nArquivo final salvo com sucesso em: {caminho_saida}")

Arquivos carregados com sucesso. Iniciando o merge...
Total de linhas em df3 (antes do merge): 1142
Total de cores únicas para consulta em df5: 29
--------------------------------------------------
Merge concluído!
Total de linhas em df_final (depois do merge): 1142
Linhas em df_final com uma 'DESC_COR': 686
Dessas, 658 encontraram um 'CODIGO_COR' correspondente.
Atenção: 28 cores de df3 não foram encontradas na Planilha_Cores.csv.

Colunas do DataFrame final:
Index(['CODIGO_PRODUTO', 'Complemento', 'DESCRICAO_PRODUTO',
       'CODIGO_COMPONENTE', 'Complemento_Componente', 'PINTURA_ITEM', 'LINHA',
       'DESCRICAO_COMPONENTE', 'DESC_COR', 'CODIGO_COR', 'DESCRICAO_COR'],
      dtype='object')

Amostra do resultado com as novas colunas:
   CODIGO_PRODUTO                       DESCRICAO_COMPONENTE     DESC_COR    CODIGO_COR            DESCRICAO_COR
0    1.000102e+11      PINTURA GARFO DIANTEIRO ARO 12 PRETO         preta  5.040101e+11        TINTA EM PO PRETA
1    1.000102e+11           

In [21]:
df6 = pd.read_csv(
    r'/home/lucala/HUB AI/Nathor/SPRINT III - nathor/data/dados.csv',
    encoding='ISO-8859-1',
    sep=';'
)

df6.columns


Index(['Componente', 'Linha', 'PeÃ§as p/ gancheira', 'EspaÃ§amento', 'PINOS ',
       'Estoque Gancheiras', 'Altura', 'Largura', 'Peso (kg)'],
      dtype='object')

In [22]:
df7 = pd.read_csv(
    r'/home/lucala/HUB AI/Nathor/SPRINT III - nathor/notebook/produtos_com_codigo_cor_final.csv',
    encoding='ISO-8859-1',
    sep=';'
)

df7.columns

# --- 2. Visualização das Colunas Originais ---
print("Colunas antes da alteração:")
print(df6.columns)
print("-" * 50)


# --- 3. Renomeando a Coluna ---
# O método rename é usado com um dicionário: {'nome_antigo': 'nome_novo'}
# inplace=True modifica o DataFrame diretamente, sem precisar de reatribuição (df6 = ...)
df7.rename(columns={'PINTURA_ITEM': 'Componente'}, inplace=True)


# --- 4. Verificação e Visualização do Resultado ---
print("Coluna renomeada com sucesso!")
print("\nColunas após a alteração:")
print(df7.columns)
print("-" * 50)

# Mostra as primeiras linhas do DataFrame com a coluna já renomeada
print("\nAmostra do DataFrame com a coluna 'Componente':")
colunas_para_ver = ['CODIGO_PRODUTO', 'Componente', 'DESCRICAO_COMPONENTE', 'DESC_COR']
print(df7[colunas_para_ver].head())


Colunas antes da alteração:
Index(['Componente', 'Linha', 'PeÃ§as p/ gancheira', 'EspaÃ§amento', 'PINOS ',
       'Estoque Gancheiras', 'Altura', 'Largura', 'Peso (kg)'],
      dtype='object')
--------------------------------------------------
Coluna renomeada com sucesso!

Colunas após a alteração:
Index(['CODIGO_PRODUTO', 'Complemento', 'DESCRICAO_PRODUTO',
       'CODIGO_COMPONENTE', 'Complemento_Componente', 'Componente', 'LINHA',
       'DESCRICAO_COMPONENTE', 'DESC_COR', 'CODIGO_COR', 'DESCRICAO_COR'],
      dtype='object')
--------------------------------------------------

Amostra do DataFrame com a coluna 'Componente':
   CODIGO_PRODUTO   Componente                   DESCRICAO_COMPONENTE DESC_COR
0    1.000102e+11     Garfo 12  PINTURA GARFO DIANTEIRO ARO 12 PRETO     preta
1    1.000102e+11   GuidÃ£o 12           PINTURA GUIDAO ARO 12 PRETO     preta
2    1.000102e+11    Quadro 12     PINTURA QUADRO ARO 12 MOD02 PRETO     preta
3    1.000102e+11  Pedivela 12               PIN

In [27]:
df7.columns

Index(['CODIGO_PRODUTO', 'Complemento', 'DESCRICAO_PRODUTO',
       'CODIGO_COMPONENTE', 'Complemento_Componente', 'Componente', 'LINHA',
       'DESCRICAO_COMPONENTE', 'DESC_COR', 'CODIGO_COR', 'DESCRICAO_COR'],
      dtype='object')

In [24]:
df6.columns

Index(['Componente', 'Linha', 'PeÃ§as p/ gancheira', 'EspaÃ§amento', 'PINOS ',
       'Estoque Gancheiras', 'Altura', 'Largura', 'Peso (kg)'],
      dtype='object')

In [29]:
# --- 1. Preparação para o Merge ---

# Para evitar confusão com colunas de mesmo nome (como 'LINHA'),
# vamos selecionar apenas as colunas de df6 que queremos adicionar.
# Vamos remover a coluna 'LINHA' de df6 para não criar 'LINHA_x' e 'LINHA_y'.
# Se a coluna 'Linha' de df6 for importante, podemos renomeá-la antes.
colunas_para_trazer = df6.columns.drop('LINHA', errors='ignore') # 'errors=ignore' evita erro se a coluna não existir
df6_lookup = df6[colunas_para_trazer]

# Remove duplicatas na chave de merge para garantir uma união limpa
df6_lookup = df6_lookup.drop_duplicates(subset=['Componente'])

print("DataFrames prontos para o merge.")
print(f"Total de linhas em df7 (principal): {len(df7)}")
print(f"Total de Componentes únicos para consulta em df6: {len(df6_lookup)}")
print("-" * 50)


# --- 2. Execução do Merge ---
# 'how='left'' garante que todas as linhas de df7 sejam mantidas.
# 'on='Componente'' especifica a coluna chave.
df_final_merged = pd.merge(df7, df6_lookup, on='Componente', how='left')


# --- 3. Validação e Análise das Linhas que Ficaram de Fora ---
print("Merge concluído!")

# Para encontrar as linhas que "ficaram de fora", vamos checar onde uma das
# colunas que veio de df6 está nula, mas o 'Componente' em si não era nulo.
# Usaremos uma coluna que com certeza existe em df6 e não em df7, por exemplo 'Peso (kg)'.
# Se 'Peso (kg)' não for uma boa coluna de verificação, ajuste para outra.
coluna_verificacao = 'Peso (kg)' # Ajuste se necessário

# Condições para identificar as linhas que não tiveram match:
# 1. O componente existe em df7 (não é nulo).
# 2. A coluna de verificação (que veio de df6) está nula após o merge.
linhas_sem_match = df_final_merged[
    df_final_merged['Componente'].notna() & df_final_merged[coluna_verificacao].isna()
]

total_sem_match = len(linhas_sem_match)

if total_sem_match > 0:
    print(f"\n>>> ATENÇÃO: {total_sem_match} linhas de df7 não encontraram um 'Componente' correspondente em df6.")
    print("Abaixo estão os dados completos dessas linhas para sua análise:")
    # Mostra todas as colunas das linhas que falharam no merge
    with pd.option_context('display.max_rows', None, 'display.max_columns', None, 'display.width', 120):
        print(linhas_sem_match)
else:
    print("\n>>> SUCESSO: Todas as linhas com 'Componente' em df7 encontraram uma correspondência em df6.")


# --- 4. Visualização do Resultado e Salvamento ---
print("\nColunas do DataFrame final:")
print(df_final_merged.columns)

print("\nAmostra do DataFrame final com os dados unidos:")
print(df_final_merged.head().to_string())

# Opcional: Salvar o resultado final em um novo arquivo CSV
caminho_saida = 'dsc.csv'
df_final_merged.to_csv(caminho_saida, index=False, sep=';', encoding='ISO-8859-1')

print(f"\nArquivo final salvo com sucesso em: {caminho_saida}")

DataFrames prontos para o merge.
Total de linhas em df7 (principal): 1142
Total de Componentes únicos para consulta em df6: 36
--------------------------------------------------
Merge concluído!

>>> ATENÇÃO: 30 linhas de df7 não encontraram um 'Componente' correspondente em df6.
Abaixo estão os dados completos dessas linhas para sua análise:
      CODIGO_PRODUTO Complemento                                DESCRICAO_PRODUTO  CODIGO_COMPONENTE  \
258     1.002802e+11                    BICICLETA ARO 16 BTWIN CRUISER 500 202 2        2.070102e+11   
269     1.002802e+11                  BICICLETA ARO 16 BTWIN 500 PRATA/VERM ELHA        2.070102e+11   
279     1.002802e+11                          BICICLETA ARO 16 BTWIN 500 AMARELA        2.070102e+11   
288     1.002902e+11                           BICICLETA ARO 26 ANTONELLA PEROLA        2.071502e+11   
297     1.002902e+11                             BICICLETA ARO 26 ANTONELLA ROSA        2.071502e+11   
306     1.002902e+11           

In [30]:
df_final_merged.columns

Index(['CODIGO_PRODUTO', 'Complemento', 'DESCRICAO_PRODUTO',
       'CODIGO_COMPONENTE', 'Complemento_Componente', 'Componente', 'LINHA',
       'DESCRICAO_COMPONENTE', 'DESC_COR', 'CODIGO_COR', 'DESCRICAO_COR',
       'Linha', 'PeÃ§as p/ gancheira', 'EspaÃ§amento', 'PINOS ',
       'Estoque Gancheiras', 'Altura', 'Largura', 'Peso (kg)'],
      dtype='object')

In [31]:
import pandas as pd
import numpy as np

# --- 1. Carregamento do Arquivo ---
# Presumindo que você já tem o DataFrame 'df_final_merged' carregado.
# Se precisar carregar do arquivo:
caminho_arquivo = r'/home/lucala/HUB AI/Nathor/SPRINT III - nathor/notebook/dsc.csv'
try:
    df = pd.read_csv(caminho_arquivo, encoding='ISO-8859-1', sep=';')
except FileNotFoundError:
    print(f"Erro: Arquivo não encontrado no caminho: {caminho_arquivo}")
    exit()


# --- 2. Limpeza e Conversão das Colunas de Dimensão ---
print("Iniciando limpeza e conversão das colunas 'Altura' e 'Largura'...")

# Lista das colunas que precisamos converter
colunas_dimensao = ['Altura', 'Largura']

for col in colunas_dimensao:
    # Cria uma nova coluna numérica para não alterar a original
    col_numerica = f'{col}_numerica'
    
    # Converte a coluna para string para poder usar o .str.replace
    # Substitui a vírgula decimal por ponto decimal
    df[col_numerica] = df[col].astype(str).str.replace(',', '.', regex=False)
    
    # Converte para tipo numérico. 'errors='coerce'' transforma qualquer valor
    # que não possa ser convertido (ex: texto "N/A") em Nulo (NaN).
    df[col_numerica] = pd.to_numeric(df[col_numerica], errors='coerce')

# Preenche os valores nulos com 0 para que não atrapalhem a multiplicação.
# Se uma dimensão for nula, a área será 0.
df['Altura_numerica'].fillna(0, inplace=True)
df['Largura_numerica'].fillna(0, inplace=True)

print("\nTipos de dados após conversão:")
print(df[['Altura', 'Altura_numerica', 'Largura', 'Largura_numerica']].info())


# --- 3. Cálculo da Área e Ajuste de Unidade ---
print("\nCalculando a área...")

# Assumindo que as medidas originais estão em MILÍMETROS (mm)
# A área calculada estará em milímetros quadrados (mm²)
df['Area_mm2'] = df['Altura_numerica'] * df['Largura_numerica']

# Convertendo a área de mm² para METROS QUADRADOS (m²)
# Fator de conversão: 1 m² = 1,000,000 mm² (1000mm * 1000mm)
df['Metragem_m2'] = df['Area_mm2'] / 1000000


# --- 4. Verificação do Resultado ---
print("\nCálculo finalizado. Amostra do resultado:")

# Seleciona colunas relevantes para mostrar o resultado
colunas_para_ver = [
    'Componente',
    'Altura',
    'Largura',
    'Metragem_m2' # Nossa coluna final!
]

# Mostra as linhas onde o cálculo resultou em uma área maior que 0
print(df[df['Metragem_m2'] > 0][colunas_para_ver].head(10).to_string())


# --- 5. Opcional: Salvando o arquivo com a nova coluna ---
caminho_saida = 'produtos_com_metragem_calculada.csv'
# Remove as colunas numéricas intermediárias antes de salvar
df.drop(columns=['Altura_numerica', 'Largura_numerica', 'Area_mm2'], inplace=True)
df.to_csv(caminho_saida, index=False, sep=';', encoding='ISO-8859-1')

print(f"\nArquivo final com a metragem calculada foi salvo em: {caminho_saida}")

Iniciando limpeza e conversão das colunas 'Altura' e 'Largura'...

Tipos de dados após conversão:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1142 entries, 0 to 1141
Data columns (total 4 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Altura            622 non-null    object 
 1   Altura_numerica   1142 non-null   float64
 2   Largura           622 non-null    object 
 3   Largura_numerica  1142 non-null   float64
dtypes: float64(2), object(2)
memory usage: 35.8+ KB
None

Calculando a área...

Cálculo finalizado. Amostra do resultado:
Empty DataFrame
Columns: [Componente, Altura, Largura, Metragem_m2]
Index: []

Arquivo final com a metragem calculada foi salvo em: produtos_com_metragem_calculada.csv


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Altura_numerica'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Largura_numerica'].fillna(0, inplace=True)


In [53]:
import pandas as pd
import dataframe_image as dfi

# --- 1. CARREGAMENTO DO DATAFRAME ---
try:
    df_corrigido = pd.read_csv(
        r'/home/lucala/HUB AI/Nathor/SPRINT III - nathor/notebook/produtos_com_detalhes_componente.csv',
        sep=';'
    )
    print("DataFrame original carregado com sucesso.")

    # --- 2. CONVERSÃO E LIMPEZA DOS TIPOS DE DADOS ---
    print("\nIniciando a conversão dos tipos de dados...")

    # Dicionário para armazenar colunas que precisam de tratamento especial para números
    colunas_numericas_com_virgula = [
        'Espaçamento',
        'Peso (kg)',
        'Altura'
    ]

    for col in colunas_numericas_com_virgula:
        if col in df_corrigido.columns:
            # Substitui vírgula por ponto e converte para numérico (float)
            # O errors='coerce' transforma qualquer valor que não pode ser convertido em NaN (Nulo)
            df_corrigido[col] = pd.to_numeric(df_corrigido[col].astype(str).str.replace(',', '.'), errors='coerce')

    # Dicionário para converter outras colunas para os tipos corretos
    # Usamos 'Int64' (com 'I' maiúsculo) para permitir valores nulos (NaN) em colunas de inteiros
    tipos_de_dados = {
        'CODIGO_PRODUTO': 'Int64',
        'CODIGO_COMPONENTE': 'Int64',
        'CODIGO_COR': 'Int64',
        'Peças p/ gancheira': 'Int64',
        'PINOS': 'Int64',
        'Estoque Gancheiras': 'Int64'
    }

    # Aplica a conversão de tipos
    for coluna, tipo in tipos_de_dados.items():
        if coluna in df_corrigido.columns:
            try:
                df_corrigido[coluna] = df_corrigido[coluna].astype(tipo)
            except (ValueError, TypeError) as e:
                print(f"  - Aviso: Não foi possível converter a coluna '{coluna}' para '{tipo}'. Erro: {e}")


    print("Conversão de tipos concluída.")
    print("\nTipos de dados após a conversão:")
    print(df_corrigido.info())


    # --- 3. SALVAR O DATAFRAME CORRIGIDO COMO IMAGEM ---
    
    # Estilizando a tabela para melhor visualização
    # Usando as 20 primeiras linhas como exemplo para a imagem
    df_para_imagem = df_corrigido.head(20)

    # Formatando as colunas de ponto flutuante para exibir 2 casas decimais e usar vírgula
    estilos = df_para_imagem.style.format({
        'Espaçamento': '{:,.2f}',
        'Peso (kg)': '{:,.3f}', # 3 casas para o peso
        'Altura': '{:,.2f}'
    }).set_properties(**{'text-align': 'left'}).set_table_styles([dict(selector='th', props=[('text-align', 'left')])])

    # Exportando o DataFrame estilizado
    dfi.export(estilos, 'df_imagem_corrigida.png', table_conversion='matplotlib')

    print("\nDataFrame com tipos corrigidos foi salvo com sucesso como 'df_imagem_corrigida.png'")


except FileNotFoundError:
    print("Erro: O arquivo não foi encontrado. Verifique o caminho do seu .csv.")
except Exception as e:
    print(f"Ocorreu um erro inesperado: {e}")

DataFrame original carregado com sucesso.

Iniciando a conversão dos tipos de dados...
Conversão de tipos concluída.

Tipos de dados após a conversão:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1142 entries, 0 to 1141
Data columns (total 19 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   CODIGO_PRODUTO          1141 non-null   Int64  
 1   Complemento             1141 non-null   object 
 2   DESCRICAO_PRODUTO       1141 non-null   object 
 3   CODIGO_COMPONENTE       1141 non-null   Int64  
 4   Complemento_Componente  1141 non-null   object 
 5   Componente              652 non-null    object 
 6   LINHA                   718 non-null    object 
 7   DESCRICAO_COMPONENTE    1141 non-null   object 
 8   DESC_COR                686 non-null    object 
 9   CODIGO_COR              658 non-null    Int64  
 10  DESCRICAO_COR           658 non-null    object 
 11  Linha                   652 non-null    object 
