## Script de Análise de Dados - Figaro

O script em Python a seguir realiza uma análise de dados para gerar o arquivo Figaro, incluindo a combinação de dados de diferentes fontes, processamento de informações e a geração de um arquivo final. 

*The following Python script performs data analysis to generate the Figaro file, including combining data from different sources, processing information, and generating a final file.*

#### 1. Importando bibliotecas:

Importa as bibliotecas necessárias para o script, como pandas para manipulação de dados, numpy para operações numéricas, functools para funções de alta ordem, datetime para manipulação de datas, glob para manipulação de caminhos de arquivo, os para manipulação de sistema de arquivos e relativedelta para cálculos de datas.

*Imports the necessary libraries for the script, such as pandas for data manipulation, numpy for numeric operations, functools for high-order functions, datetime for date manipulation, glob for file path manipulation, os for file system manipulation, and relativedelta for date calculations.*

In [8]:
# Importar bibliotecas
import pandas as pd     # Pandas é usado para manipulação de dados tabulares
import numpy as np      # NumPy é usado para operações numéricas eficientes
import functools as ft  # Funções de alta ordem, úteis para programação funcional
import datetime as dt   # Manipulação de datas
import glob             # Para trabalhar com caminhos de arquivo usando curingas
import os               # Funcionalidades do sistema operacional

from dateutil.relativedelta import relativedelta  # Cálculos de diferenças de datas

#### 2. Variaveis e Parâmetros:

Define algumas variáveis e parâmetros para o ciclo, como o exercício, o tipo, a versão do arquivo, o nome do arquivo va05, taxas de câmbio, e os últimos 12 meses.

*Defines some variables and parameters for the cycle, such as the fiscal year, type, file version, va05 file name, exchange rates, and the last 12 months.*

In [9]:
# Variáveis a serem revisadas em todo ciclo
exercicio = 'IBP'              # Ano fiscal
ciclo = '02-2024'              # Mês do ciclo
tipo = 'irrestrita'            # Tipo de demanda (irrestrita ou consensada)
fileversion = ' Feb-May v2'    # Versão do arquivo
va05name = '/va05 17.11.xlsx'  # Nome do arquivo va05

# Taxas de câmbio para anos fiscais futuros
fxrate = pd.DataFrame({'FY': ['FY24', 'FY25', 'FY26'], 
                       'Rate': [5.15, 5.40, 5.70]}) 

# Últimos 12 meses
last12months = ["DEC'22", "JAN'23", "FEB'23", "MAR'23", "APR'23", "MAY'23", 
                "JUN'23", "JUL'23", "AUG'23", "SEP'23", "OCT'23", "NOV'23"]  

#### 3. Defindo caminhos:

Define caminhos para diretórios e usa a biblioteca glob para obter uma lista de nomes de arquivos de demanda com base no exercício.

*Defines paths to directories and uses the glob library to obtain a list of demand file names based on the exercise.*

In [10]:
# Criando variáveis e tabelas
path = 'C:/Users/jsachetti/WestRock Co/Commercial Excellence - ComEx Brazil - Commex/02. Paper/03. Planning/Unconstrained Demand/'
path2 = 'C:/Users/jsachetti/WestRock Co/Commercial Excellence - ComEx Brazil - Commex/02. Paper/07. Data Base/Official DB/'
pathSP = 'C:/Users/jsachetti/OneDrive - WestRock Co/VA05'
demandnames = glob.glob(path + exercicio + '/*.xlsx')  # Lista de nomes de arquivos de demanda

#### 4. Definindo dicionários:

Define dicionários para mapear/especificar o produto, tipos de papel e listas de gramatura.

*Defines dictionaries to map/specify product, paper types, and weight lists.*

In [11]:
# pricenames = glob.glob(path + 'Prices/*.xlsx')
tipo_papel = {'KRAFT': 'KRAFT', 'KRAFT (KP)': 'KRAFT', 'KRAFT PONTAS MTS (PSKE)': 'KRAFT SELECT SIDE ROLLS',
              'KRAFT PONTAS MTO (PSKP)': 'KRAFT SELECT SIDE ROLLS', 'KRAFT REJECTS (KR)': 'KRAFT REJECTS',
              'MEDIUM (MP)': 'MEDIUM', 'MEDIUM PONTAS MTS (PSME)': 'MEDIUM SELECT SIDE ROLLS',
              'MEDIUM PONTAS MTO (PSMP)': 'MEDIUM SELECT SIDE ROLLS', 'MEDIUM REJECTS (MR)': 'MEDIUM REJECTS'}

gramatura = ['PONTA KRAFT', 'PONTA MIOLO', 'HPMFT170', 'MWRFT170', 'HPLFT185', 'HPLFT225', 'HPLFT120']

#### 5. Delimitando período:

Cria um calendário com base em uma data de início e gera algumas colunas relevantes, como ano fiscal, trimestre e formato da data.

*Creates a calendar based on a start date and generates some relevant columns, such as fiscal year, quarter, and date format.*

In [13]:
# Criando calendário (revisar na virada do ano fiscal)
calendar = pd.date_range(start='10/1/2023', periods=48, freq='M', name="date")
calendar2 = calendar.to_frame()
calendar2['Quarter'] = calendar.to_period('Q-SEP')
calendar2['FY'] = calendar2['Quarter'].dt.qyear
calendar2['cal'] = calendar2['date'].dt.to_period('M')
calendar2 = calendar2[['FY', 'cal']]
calendar2 = calendar2.replace([2024], "FY24")
calendar2 = calendar2.replace([2025], "FY25")
calendar2 = calendar2.replace([2026], "FY26")
calendar2['cal'] = calendar2['cal'].dt.strftime('%Y-%m')

#### 6. Concatenando dados:

Lê os arquivos de demanda, concatena e derrete para obter uma tabela de preços agregada por cliente, linha de produto, moeda e calendário.

*Reads demand files, concatenates, and melts to obtain an aggregated pricing table by customer, product line, currency, and calendar.*

In [None]:
# Trabalhando na lista de preços
prices = pd.DataFrame()
for file in demandnames:
    df = pd.concat(pd.read_excel(file, sheet_name=[1]), ignore_index=True, sort=False)
    prices = prices.append(df, ignore_index=True)
prices = pd.melt(prices, id_vars=['SALES CHANNEL', 'ID SAP', 'CUSTOMER', 'PRODUCT LINE', 'REGION', 'COUNTRY'],
                 value_name='Price', var_name='calendar')
prices['CURRENCY'] = np.where(prices['COUNTRY'] == 'Brasil', 'BRL', 'USD')
prices = prices[prices['Price'] != 0]
prices = prices.groupby(['CUSTOMER', 'PRODUCT LINE', 'CURRENCY', 'calendar'])['Price'].mean().reset_index()

#### 7. Dando oriegem a Figaro:

Realiza um processo semelhante para os arquivos do Galileo, criando uma tabela chamada "figaro" com dados de volume e outras informações.

*Performs a similar process for Galileo files, creating a table called "figaro" with volume data and other information.*

In [None]:
# juntando os arquivos do Galileo e criando versão crua do Figaro
figaro = pd.DataFrame()
for file in demandnames:
    df = pd.concat(pd.read_excel(file, sheet_name=[0]), ignore_index=True, sort=False)
    figaro = figaro.append(df, ignore_index=True)
figaro = pd.melt(figaro, id_vars=['SALES CHANNEL', 'ID SAP', 'CUSTOMER', 'PRODUCT LINE', 'REGION', 'COUNTRY'],
                 value_name='Volume', var_name='calendar')
figaro = figaro[figaro['Volume'] != 0]
figaro['ID SAP'] = np.where(figaro['ID SAP'] == '-', figaro['CUSTOMER'], figaro['ID SAP'])


#### 8. Lendo a VA05:

Lê o arquivo histórico (VA05), realiza algumas manipulações nos dados, ajusta nomes de pesquisa, emissores de ordem e gramaturas, e cria uma tabela ajustada chamada "history_ajustado".

*It reads the history file (VA05), performs some manipulations on the data, adjusts search names, order senders and weights, and creates an adjusted table called "history_adjustado".*

In [None]:
# trabalhando no arquivo histórico
sales_history = pd.read_excel(pathSP + va05name)
sales_history['Papel'] = np.where(sales_history['Tipo Venda'] + sales_history['Papel'] == 'MTOKRAFT', 'KRAFT',
                                   np.where(sales_history['Tipo Venda'] + sales_history['Papel'] == 'MTOMIOLO', 'MEDIUM',
                                            np.where(sales_history['Tipo Venda'] + sales_history['Papel'] == 'MTSKRAFT',
                                                     'KRAFT SELECT SIDE ROLLS',
                                                     np.where(sales_history['Tipo Venda'] + sales_history['Papel'] == 'MTSREFUGO',
                                                              'REJECTS', 'MEDIUM SELECT SIDE ROLLS'))))
history_ajustado = history_no = sales_history.copy()
history_ajustado['Nome Pesquisa'] = np.where(
    history_ajustado['Nome Pesquisa'].isin(['KALYAR', 'NIXON', 'PACK-O-MAT']), 'BANGKOR',
    history_ajustado['Nome Pesquisa'])
history_ajustado['Emissor da ordem'] = np.where(history_ajustado['Nome Pesquisa'] == 'BANGKOR', 111111,
                                                history_ajustado['Emissor da ordem'])
history_ajustado['Gramatura'] = history_ajustado['Gramatura'].replace(['265'], '240')
history_ajustado = history_ajustado.groupby(
    ['Emissor da ordem', 'Nome Pesquisa', 'Papel', 'Gramatura'])['Qtd.ordem'].sum().reset_index()
history_ajustado['multiplier'] = history_ajustado['Qtd.ordem'] / history_ajustado.groupby(
    ['Emissor da ordem', 'Papel'])['Qtd.ordem'].transform('sum')
history_ajustado = history_ajustado.drop(['Qtd.ordem'], axis=1)

#### 9. Segregando dados:

Segrega os dados da Smurfit em duas partes (Argentina e Chile) e concatena.

*Segregates Smurfit data into two parts (Argentina and Chile) and concatenates.*

In [None]:
# segregando Smurfit para quebrar por Argentina e Chile
smurfitA = history_ajustado[history_ajustado['Nome Pesquisa'] == 'SMURFIT USA']
smurfitB = history_ajustado[history_ajustado['Nome Pesquisa'] == 'SMURFIT USA']
smurfitA['Nome Pesquisa'] = 'SMURFIT'
smurfitA['Emissor da ordem'] = 250410
smurfitB['Nome Pesquisa'] = 'SMURFIT CHILE'
smurfitB['Emissor da ordem'] = 253727
smurfit = pd.concat([smurfitA, smurfitB])

history_ajustado = history_ajustado[history_ajustado['Nome Pesquisa'] != 'SMURFIT USA']
history_ajustado = history_ajustado[history_ajustado['Nome Pesquisa'] != 'SMURFIT BENTO']

#### 10. Fundindo a "figaro" e "history_ajustado":

Realiza uma fusão (merge) entre a tabela "figaro" e "history_ajustado", identifica os clientes que não têm histórico e cria a tabela "novos_clientes".

*Performs a merge between the "figaro" and "history_ajustado" tables, identifies customers that have no history and creates the "novos_clientes" table.*

In [None]:
# separando os clientes que não têm histórico
novos_clientes = pd.merge(figaro, history_ajustado, how='outer', left_on=['ID SAP', 'PRODUCT LINE'],
                          right_on=['Emissor da ordem', 'Papel'], indicator=True)
novos_clientes = novos_clientes[novos_clientes['_merge'] == 'left_only']
novos_clientes = novos_clientes.groupby(['ID SAP', 'CUSTOMER', 'COUNTRY', 'PRODUCT LINE'])['Volume'].sum().reset_index()
novos_clientes = novos_clientes.drop(['Volume'], axis=1)
novos_clientes = novos_clientes.rename(columns={'ID SAP': 'Emissor da ordem'})

#### 11. Gerando histórico:

Cria um histórico para clientes sem histórico, ajusta alguns valores e adiciona esses clientes ao histórico ajustado.

*Creates a history for customers with no history, adjusts some values, and adds these customers to the adjusted history.*

In [None]:
# criando histórico para clientes sem histórico e plugando no histórico ajustado
history_no = history_no.groupby(['Pais', 'Papel', 'Gramatura'])['Qtd.ordem'].sum().reset_index()
history_no['multiplier'] = history_no['Qtd.ordem'] / history_no.groupby(['Pais', 'Papel'])['Qtd.ordem'].transform('sum')
history_no['Pais'] = history_no['Pais'].str.replace('México', 'Mexico')
history_no['Pais'] = history_no['Pais'].str.replace('Colômbia', 'Colombia')
history_no['Pais'] = history_no['Pais'].str.replace('Tailândia', 'Thailand')
history_no = pd.merge(history_no, novos_clientes, how='inner', left_on=['Pais', 'Papel'],
                      right_on=['COUNTRY', 'PRODUCT LINE'])
history_no = history_no.drop(['COUNTRY', 'Pais', 'Qtd.ordem', 'PRODUCT LINE'], axis=1)
history_no = history_no[history_no['CUSTOMER'].str.contains('SMURFIT|SMURFIT CHILE') == False]
history_no = history_no.rename(columns={'CUSTOMER': 'Nome Pesquisa'})

history_ajustado = pd.concat([history_ajustado, history_no, smurfit])
history_ajustado['Emissor da ordem'] = np.where(history_ajustado['Emissor da ordem'] == '-',
                                                 history_ajustado['Nome Pesquisa'],
                                                 history_ajustado['Emissor da ordem'])

#### 11. Incrementando a "figaro":

Incrementa a tabela "figaro" com os dados do histórico ajustado, ajusta o volume com um multiplicador e remove colunas desnecessárias.

*Increments the "figaro" table with the adjusted history data, adjusts the volume with a multiplier and removes unnecessary columns.*

In [None]:
# incrementando o Figaro
figaro = pd.merge(figaro, history_ajustado, how='left', left_on=['ID SAP', 'PRODUCT LINE'],
                  right_on=['Emissor da ordem', 'Papel'])
figaro['multiplier'] = figaro['multiplier'].fillna(1)
figaro['Volume'] = figaro['Volume'] * figaro['multiplier']
figaro = figaro.drop(['Nome Pesquisa', 'Papel', 'multiplier'], axis=1)

#### 12. Dados modais:

Lê os dados modais de um arquivo Excel.

*Reads modal data from an Excel file.*

In [None]:
# trazendo modal
modal = pd.read_excel(path2 + r'Base de Dados - Figaro.xlsx', sheet_name='DADOS')
modal = modal[['SHORT NAME', 'MODAL']]
modal = modal.drop_duplicates()

#### 13. Incrementando a "figaro":

Combina as tabelas "figaro" com informações modais, de calendário, de taxas de câmbio e de preços.

*Combines "figaro" tables with modal, calendar, exchange rate and price information.*

In [None]:
# combinando MODAL | CALENDÁRIO | FX RATE | PREÇOS
figaro = pd.merge(figaro, modal, how='left', left_on='CUSTOMER', right_on='SHORT NAME')
figaro = pd.merge(figaro, calendar2, how='left', left_on='calendar', right_on='cal')
figaro = pd.merge(figaro, fxrate, how='left', on='FY')
figaro = pd.merge(figaro, prices, how='left', on=['PRODUCT LINE', 'CUSTOMER', 'calendar'])

#### 14. Ajustando multiplicador:

Lê dados de um arquivo Excel para remover volumes, ajusta um multiplicador com base no tipo, e aplica esse multiplicador aos volumes na tabela "figaro".

*Reads data from an Excel file to remove volumes, adjusts a multiplier based on the type, and applies that multiplier to the volumes in the "figaro" table.*

In [None]:
# Consensando a demanda
remover = pd.read_excel(path + r'Arquivos Suporte/Volume - Remover.xlsx', sheet_name='Sheet2')
remover = pd.melt(remover, id_vars=['PRODUCT LINE'], value_name='multiplicador', var_name='calendar')
remover['multiplicador'] = np.where(tipo == 'irrestrita', 1, remover['multiplicador'])
figaro = pd.merge(figaro, remover, how='left', on=['PRODUCT LINE', 'calendar'])
figaro['Volume'] = figaro['Volume'] * figaro['multiplicador']

#### 15. Calculo de receitas:

Calcula receitas em R$ e USD com base nas informações de moeda e taxa de câmbio.

*Calculates revenue in R$ and USD based on currency and exchange rate information.*

In [None]:
# receitas em R$ e USD
figaro['Price USD'] = np.where(figaro['CURRENCY'] == 'USD', figaro['Price'], figaro['Price'] / figaro['Rate'])
figaro['Price BRL'] = np.where(figaro['CURRENCY'] == 'BRL', figaro['Price'], figaro['Price'] * figaro['Rate'])
figaro['Receita R$'] = np.where(figaro['CURRENCY'] == 'BRL', figaro['Volume'] * figaro['Price'],
                                figaro['Volume'] * figaro['Price'] * figaro['Rate'])
figaro['Receita US$'] = np.where(figaro['CURRENCY'] == 'USD', figaro['Volume'] * figaro['Price'],
                                 (figaro['Volume'] * figaro['Price']) / figaro['Rate'])

#### 16. Refinando tabela final:

Remove colunas desnecessárias, ajusta valores nulos e salva a tabela final como um arquivo Excel.

*Removes unnecessary columns, adjusts null values, and saves the final table as an Excel file.*

In [None]:
# mudanças comésticas
figaro = figaro.drop(['cal', 'multiplicador', 'Emissor da ordem', 'SHORT NAME', 'Price'], axis=1)
# aba Raw Data
figaro['Volume'] = figaro['Volume'].fillna(0)
figaro = figaro[figaro['Volume'] != 0]
os.chdir(path + r'/Arquivos Finais')
# figaro.to_excel('Figaro '+ ciclo + fileversion + '.xlsx', index=False, sheet_name= 'Raw Data')

#### 17. Gerando segundo arquivo excel:

Ajustando o volume novamente com base em um segundo conjunto de dados, ajusta o volume conforme a região e salva a tabela final como um segundo arquivo Excel.

In [None]:
# Ajustando o acordo do Fede.
remover = pd.read_excel(path + r'Arquivos Suporte/Volume - Remover.xlsx', sheet_name='Sheet2')
remover = pd.melt(remover, id_vars=['PRODUCT LINE'], value_name='multiplicador', var_name='calendar')
figaro2 = figaro.copy()
figaro2 = pd.merge(figaro2, remover, how='left', on=['PRODUCT LINE', 'calendar'])
figaro2['Volume'] = np.where(figaro2['REGION'].isin(['Pacific End', 'South Cone']),
                             figaro2['Volume'] * figaro2['multiplicador'], figaro2['Volume'])
figaro2 = figaro2.drop(['multiplicador'], axis=1)
figaro2.to_excel('Figaro ' + ciclo + fileversion + '.xlsx', index=False, sheet_name='Raw Data')