# O notebook abaixo será utilizado no intuito de realizar o pivot necessário na planilha de produtos da Karhub, para que fique mais organizada e que possamos fazer a analise e junções com outros dados adequadamente

## Importando bibliotecas

In [1]:
import pandas as pd

## Acessando o arquivo XLSX para tratar os dados em um DF

In [2]:
karhub_autoparts = pd.read_excel("source/karhub_autoparts_1.xlsx")

## Gerando SK
### Será necessário a criação de uma surrogate key para realizarmos um agrupamento no dataframe final, então iremos gerar de acordo com a função abaixo.

In [3]:
def gerar_surrogate_key(linha):
    """a função em questão pega as colunas que classificam cada produto individualmente quando juntas, 
    montamos uma string com todos esses campos e utilizamos a função hash, na qual cria um valor único 
    para cada valor diferente recebido, dessa forma acaba funcionando como uma chave substituta para 
    identificarmos melhor cada produto individualmente. """
    chave = f"{linha['Nome SKU']}_{linha['Fabricante']}_{linha['Código']}_{linha['Composição']}_{linha['Categoria']}"
    return hash(chave)

In [4]:
#Aplicando a função na nova coluna 'SK 'do DF
karhub_autoparts['SK'] = karhub_autoparts.apply(gerar_surrogate_key,axis=1)

## Criando DF separado para valor atributo e nome atributo, para realizar o pivot

In [195]:
df_atributos = karhub_autoparts\
    .drop("Nome SKU", axis='columns')\
    .drop("Fabricante", axis='columns')\
    .drop("Código", axis='columns')\
    .drop("Composição", axis='columns')\
    .drop("Categoria", axis='columns')\
    .drop("SK", axis='columns')

In [196]:
df_pivot = df_atributos.pivot(values='Valor Atributo', columns='Nome Atributo')

## Criando DF que realiza o join do DF original da planilha autoparts com o DF com os atributos pivotados

In [197]:
autoparts = karhub_autoparts.join(df_pivot)

## CRIANDO DICIONARIO PRO AGG
### O dicionario sera utilizado no intuito de passar as colunas que receberão o método agg do pandas para agrupar utilizando a SK criada

In [199]:
#Lendo o DF primario e pegando todos os atributos existentes
atributos = list(set(karhub_autoparts['Nome Atributo']))
#Criando o dicionario e passando os atributos como chave, acompanhando o valor "first", 
#no qual é usado para que os valores dos atributos se encontrem na mesma linha de acordo com o agrupamento em questão
dic_atributos = {}
for cont in atributos:
    dic_atributos[cont] = "first"

## Realizando o agrupamento com a surrogate key criada e utilizando o dicionário acima para unir os valores em uma mesma linha.

In [222]:
autoparts_atributo_final = autoparts.groupby("SK").agg(dic_atributos).reset_index()

In [229]:
autoparts_atributo_final['Número de Espirais'] = autoparts_atributo_final['Número de Espirais'].astype(str)
autoparts_atributo_final['Número de Espirais'] = autoparts_atributo_final['Número de Espirais'].str.replace(',', '.')


In [228]:
autoparts_atributo_final.

Unnamed: 0,SK,Número de Espirais,Peso Bruto (Kg),Motor,Altura (cm),Peso Líquido (Kg),Posição,Largura (cm),Comprimento (cm)
0,-9124663926853804447,8.58,4.5,,25,2.0,Traseira,40,25
1,-9103054833487406427,12,4.5,,25,2.0,Traseira,40,25
2,-9088501009511711434,8.5,4.5,,25,2.0,Traseira,40,25
3,-9079064606905015251,7.4,4.5,,25,2.0,Traseira,40,25
4,-9040553161577106452,11.11,4.5,,25,2.0,Dianteira,40,25
...,...,...,...,...,...,...,...,...,...
475,9081847474972484945,5.33,4.5,,25,2.0,Dianteira,40,25
476,9084844004976542260,5.6,4.5,,25,2.0,Dianteira,40,25
477,9124386768874384615,,0.600,,9.0,0.600,Dianteira,18.0,8.0
478,9132599821214403917,6.43,4.5,,25,2.0,Traseira,40,25
