# O notebook abaixo será utilizado no intuito de realizar o pivot necessário na planilha de produtos da Karhub, para que fique mais organizada e que possamos fazer a analise e junções com outros dados adequadamente

## Importando bibliotecas

In [1]:
import pandas as pd
import numpy as np
from unidecode import unidecode

# #Acessando o arquivo XLSX para tratar os dados em um DF

In [2]:
karhub_autoparts = pd.read_excel("source/karhub_autoparts_1.xlsx")

## Criando DF separado para valor atributo e nome atributo, para realizar o pivot

In [3]:
df_atributos = karhub_autoparts\
    .drop("Nome SKU", axis='columns')\
    .drop("Fabricante", axis='columns')\
    .drop("Código", axis='columns')\
    .drop("Composição", axis='columns')\
    .drop("Categoria", axis='columns')

In [4]:
#Realização do Pivot
df_pivot = df_atributos.pivot(values='Valor Atributo', columns='Nome Atributo')

## Criando DF que realiza o join do DF original da planilha autoparts com o DF com os atributos pivotados

In [5]:
autoparts = karhub_autoparts.join(df_pivot)

## CRIANDO DICIONARIO PARA O AGG
### O dicionario sera utilizado no intuito de passar as colunas que receberão o método agg do pandas para agrupar utilizando o código do produto.

In [8]:
#Lendo o DF primario e pegando todos os atributos existentes
atributos = list(set(karhub_autoparts['Nome Atributo']))
#Criando o dicionario e passando os atributos como chave, acompanhando o valor "first", 
#no qual é usado para que os valores dos atributos se encontrem na mesma linha de acordo com o agrupamento em questão
dic_atributos = {cont: "first" for cont in atributos}

## Realizando o agrupamento com a coluna código e utilizando o dicionário acima para unir os valores em uma mesma linha.

In [10]:
autoparts_atributo_final = autoparts.groupby("Código").agg(dic_atributos).reset_index()

## Realizando a manutenção sugerida na proposta de ajustar as colunas com "," para "." e transformando os valores nulos em 0

In [24]:
autoparts_atributo_final['Número de Espirais'] = autoparts_atributo_final['Número de Espirais'].astype(str)
autoparts_atributo_final['Número de Espirais'] = autoparts_atributo_final['Número de Espirais'].str.replace(',', '.').replace('None','0')
autoparts_atributo_final['Número de Espirais'] = autoparts_atributo_final['Número de Espirais'].astype(float)

## Realizando o Join dos atributos já ajustados com o DF karhub_autoparts para coletarmos nome, fabricante, composição e categoria e incluir no DF autoparts_final

In [26]:
autoparts_final = autoparts_atributo_final.join(karhub_autoparts.drop(['Código', 'Valor Atributo', 'Nome Atributo']\
                                                                      , axis="columns"))

## Realizando tratamento do nome das colunas do DF, para serem aceitas no bigquery futuramente, criamos um dict compreheesion com a intenção de ter como chave o nome original da coluna, e o valor a coluna tratada.
### na coluna tratada nós removemos os acentos, parenteses e substituímos o espaço por "_", além de deixar tudo em minúsculo.

In [27]:
header_sem_acento = {i : unidecode(i.lower().replace('(','').replace(')','').replace(' ','_'))\
                     for i in list(autoparts_final.columns)}
#passando o dicionário para corrigir os nomes adequadamente
autoparts_final = autoparts_final.rename(columns=header_sem_acento)

## Reordenando as colunas do DF karhub_autoparts para o inicio do DF final

In [28]:
autoparts_final = pd.concat([autoparts_final.iloc[:, -4:], autoparts_final.iloc[:, :-4]], axis=1)