# Sells for Via Uno



Objective:

The goal of this notebook is to construct and preprocess the "Via Uno" database for our sales analysis project. This involves extracting, cleaning, and integrating data from various sources to ensure a consistent and reliable dataset. By establishing a robust database, we lay the groundwork for further exploratory analysis, predictive modeling, and optimization strategies to enhance sales performance.


First we import the necessary librarys

In [1]:
import numpy as np
import os
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_rows', None)  # Para mostrar todas las filas
pd.set_option('display.max_columns', None)  # Para mostrar todas las columnas
pd.set_option('display.width', None)  # Para que no haya corte de texto
pd.set_option('display.max_colwidth', None)  # Para que no haya corte en el contenido de las celdas


# Extract of data

We import the necesary datas 

In [2]:
principal = pd.read_excel('/home/sebastian/Documents/Portfolio/Ventas via uno/inf vtas sobre costos 2024.xlsx')
cost= pd.read_excel('/home/sebastian/Documents/Portfolio/Ventas via uno/costos 26-02-25.xlsx')
year= pd.read_excel('/home/sebastian/Documents/Portfolio/Ventas via uno/BASE VENTA 2024 2025.xlsx',skiprows=11)



In [3]:
def apply_negative_abs(df, filter_column, filter_value, target_column):
    """
    Converts values in the target_column to negative if they match the filter_value in filter_column.

    Parameters:
    df (pd.DataFrame): Input DataFrame.
    filter_column (str): Column name to filter by.
    filter_value (str): Value in filter_column that triggers the transformation.
    target_column (str): Column where abs() * -1 will be applied.

    Returns:
    pd.DataFrame: DataFrame with updated values.
    """
    df.loc[df[filter_column] == filter_value, target_column] = df.loc[df[filter_column] == filter_value, target_column].abs() * -1
    return df

# Data cleaning

#### First clean data of cost

In [4]:
cost.head(5)

Unnamed: 0,SKU,Variante,Costo Neto
0,22231604002005,Sandalia Azul Via Uno 35,10969
1,22231604002006,Sandalia Azul Via Uno 36,10969
2,22231604002007,Sandalia Azul Via Uno 37,10969
3,22231604002008,Sandalia Azul Via Uno 38,10969
4,22231604002009,Sandalia Azul Via Uno 39,10969


In [5]:
cost.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8025 entries, 0 to 8024
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   SKU         8025 non-null   object
 1   Variante    8025 non-null   object
 2   Costo Neto  8025 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 188.2+ KB


In [6]:
cost['SKU']=cost['SKU'].str.replace('"', '', regex=False)
cost['SKU']=cost['SKU'].str.replace("=", '', regex=False)
cost.head()

Unnamed: 0,SKU,Variante,Costo Neto
0,22231604002005,Sandalia Azul Via Uno 35,10969
1,22231604002006,Sandalia Azul Via Uno 36,10969
2,22231604002007,Sandalia Azul Via Uno 37,10969
3,22231604002008,Sandalia Azul Via Uno 38,10969
4,22231604002009,Sandalia Azul Via Uno 39,10969


Create an diccionary with relation between SKU and Costo Neto

In [7]:
#Create a dictionary with the cost of each SKU
cost_dict = dict(zip(cost['SKU'], cost['Costo Neto']))
cost_dict

#Count per SKU
count = cost.groupby('SKU').size().reset_index(name='Cantidad')
count_dict = count.set_index('SKU')['Cantidad'].to_dict()

#### Cleaning year

In [8]:
year.head(5)

Unnamed: 0,Tipo Documento,Nº Documento,Tracking Number,Cliente,Rut Cliente,Condicion de Venta,Fecha Emisión,Fecha Vencimiento,Código Tributario,Fecha de generacion,Fecha de declaracion,Informado SII,Monto Neto Documento,Monto Impuestos Documento,Monto Exento Documento,Monto Documento,Monto Adeudado,ABONO DE CLIENTES,CHEQUE,CREDITO,EFECTIVO,FACTORING,Mercado Pago,NOTA CREDITO DEVOLUCION,TARJETA CREDITO,TARJETA DEBITO,TRANSFERENCIA BANCARIA,WEBPAY,Numero Comprobante Integrado,Nº Comprobante,Banco,Número,BancoValue,FACTURA COMPRA,FACTORING.1,Emisor,Vendedor,Sucursal,Estado,Orden de compra,Nota,Obser.,Nombre Contacto,Fono Contacto,Peso Neto,Peso Bruto,Volumen,PERIODO DEL SERVICIO,Marketplace,Nro. Orden,Total Descuentos,Total Doc. s/Descuentos,Descuentos Aplicados,Dirección,Ciudad,Comuna,Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento ),Documentos de Referencia,Correo Cliente,Vuelto Forma de Pago,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65
0,BOLETA ELECTRÓNICA T,39257,679d8d919190c8aa779c2102,natalia vergarag gaete,17635915-3,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,14277,2713,0,16990,0,0,0,0,0,0,0,0,0,0,16990,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,fcom,2711967664,0,16990,No aplica,,Santiago,Regi\u00f3n Metropolitana,,,,0,,,,,,
1,BOLETA ELECTRÓNICA T,39256,679d81ebb99ccf26edeaa5f5,Nathaly Muñoz,16545211-9,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,18374,3491,0,21865,0,0,0,0,0,0,0,0,0,0,21865,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,vtex,1507460561103-01,0,21865,No aplica,,,,,,nathalymunozsoto@gmail.com,0,,,,,,
2,BOLETA ELECTRÓNICA T,39255,679d80e6b99ccf26edeaa542,Sthefany Vilches Espinoza,17874155-1,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,23521,4469,0,27990,0,0,0,0,0,0,0,0,0,0,27990,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,fcom,2711865080,0,27990,No aplica,,Santiago,Regi\u00f3n Metropolitana,,,,0,,,,,,
3,BOLETA ELECTRÓNICA T,39254,679d716c691a0b5ffe9a9bea,Paulina Zarate Gonzalez,13680930-K,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,29403,5587,0,34990,0,0,0,0,0,0,0,0,0,0,34990,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,fcom,2711778354,0,34990,No aplica,,Santiago,Regi\u00f3n Metropolitana,,,,0,,,,,,
4,BOLETA ELECTRÓNICA T,39253,679d61189190c8aa779bf7cf,Marjorie Bravo,16297286-3,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-01-31 00:00:00,2025-01-31 00:00:00,Informado,50997,9690,0,60687,0,0,0,0,0,0,0,0,0,0,60687,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,vtex,1507440561101-01,0,60687,No aplica,,,,,,marjoriebravo83@gmail.com,0,,,,,,


In [9]:
year.tail(5)

Unnamed: 0,Tipo Documento,Nº Documento,Tracking Number,Cliente,Rut Cliente,Condicion de Venta,Fecha Emisión,Fecha Vencimiento,Código Tributario,Fecha de generacion,Fecha de declaracion,Informado SII,Monto Neto Documento,Monto Impuestos Documento,Monto Exento Documento,Monto Documento,Monto Adeudado,ABONO DE CLIENTES,CHEQUE,CREDITO,EFECTIVO,FACTORING,Mercado Pago,NOTA CREDITO DEVOLUCION,TARJETA CREDITO,TARJETA DEBITO,TRANSFERENCIA BANCARIA,WEBPAY,Numero Comprobante Integrado,Nº Comprobante,Banco,Número,BancoValue,FACTURA COMPRA,FACTORING.1,Emisor,Vendedor,Sucursal,Estado,Orden de compra,Nota,Obser.,Nombre Contacto,Fono Contacto,Peso Neto,Peso Bruto,Volumen,PERIODO DEL SERVICIO,Marketplace,Nro. Orden,Total Descuentos,Total Doc. s/Descuentos,Descuentos Aplicados,Dirección,Ciudad,Comuna,Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento ),Documentos de Referencia,Correo Cliente,Vuelto Forma de Pago,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65
19524,NOTA DE DÉBITO ELECTRÓNICA (3),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
19525,Tipo Documento,Nº Documento,Tracking Number,Cliente,Rut Cliente,Fecha Emisión,Fecha Vencimiento,Código Tributario,Fecha de generacion,Fecha de declaracion,Informado SII,Monto Neto Documento,Monto Impuestos Documento,Monto Exento Documento,Monto Documento,ABONO DE CLIENTES,CHEQUE,CREDITO,EFECTIVO,FACTORING,Mercado Pago,NOTA CREDITO DEVOLUCION,TARJETA CREDITO,TARJETA DEBITO,TRANSFERENCIA BANCARIA,WEBPAY,Numero Comprobante Integrado,Nº Comprobante,Banco,Número,BancoValue,FACTURA COMPRA,FACTORING,Emisor,Vendedor,Sucursal,Estado,Orden de compra,Nota,Obser.,Nombre Contacto,Fono Contacto,Peso Neto,Peso Bruto,Volumen,PERIODO DEL SERVICIO,Marketplace,Nro. Orden,Dirección,Ciudad,Comuna,Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento ),Documentos de Referencia,Correo Cliente,Vuelto Forma de Pago,,,,,,,,,,,
19526,NOTA DE DÉBITO ELECTRÓNICA,10,,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,2024-12-27 00:00:00,2024-12-27 00:00:00,56,2024-12-27 00:00:00,,Por Informar,179358,34078,0,213436,119923,0,213436,0,0,0,0,0,0,0,0,,,,,,,,San Mateo Spa ONLINE,Maria Mella,SUCURSAL MAYORISTA,Vigente,,,,,,,,,,,,JOSE LEYAN 748,TALAGANTE,TALAGANTE,[FACTURA ELECTRÓNICA/ 514/ 2024-09-02/ 306949][NOTA DE CRÉDITO ELECTRÓNICA/ 6150/ 2024-10-31/ 213436],,carcur99@gmail.com,119923,,,,,,,,,,,
19527,NOTA DE DÉBITO ELECTRÓNICA,9,,Yuselys Munoz,26567490-9,2024-04-30 00:00:00,2024-04-30 00:00:00,56,2024-05-13 00:00:00,2024-05-13 00:00:00,Informado,12597,2393,0,14990,0,0,0,14990,0,0,0,0,0,0,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,,,Centro,Santiago,Regi\u00f3n Metropolitana,[BOLETA ELECTRÓNICA T/ 27108/ 2024-03-24/ 14990][NOTA DE CRÉDITO ELECTRÓNICA/ 4466/ 2024-04-03/ 14990],,,0,,,,,,,,,,,
19528,NOTA DE DÉBITO ELECTRÓNICA,8,,Susana Triviño,18974141-3,2024-04-30 00:00:00,2024-04-30 00:00:00,56,2024-05-13 00:00:00,2024-05-13 00:00:00,Informado,5874,1116,0,6990,0,0,0,0,0,0,0,0,0,0,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,,,STGO,Santiago,Regi\u00f3n Metropolitana,[BOLETA ELECTRÓNICA T/ 23780/ 2024-01-30/ 6990][NOTA DE CRÉDITO ELECTRÓNICA/ 4060/ 2024-02-29/ 6990],,,-6990,,,,,,,,,,,


The datasets has multi tables.

In [10]:
Repeats_headers = ['Tipo Documento', 'Nº Documento', 'Rut Cliente']

# Identificar las filas donde aparecen los encabezados
header_indices = year[year['Tipo Documento'].isin(Repeats_headers)].index.tolist()

# Agregar la última fila como un límite para capturar la última tabla
header_indices.append(len(year))

# Lista donde guardaremos las tablas separadas
tables = []

# Verificar si hay una tabla antes del primer encabezado
if header_indices[0] > 0:
    first_table = year.iloc[:header_indices[0]].reset_index(drop=True)
    if not first_table.empty:
        tables.append(first_table)

# Separar las tablas detectadas y asignar los encabezados correctos
for i in range(len(header_indices) - 1):
    start = header_indices[i]  # Fila donde está el encabezado
    end = header_indices[i + 1]  # Hasta el siguiente encabezado

    # Extraer los datos y resetear el índice
    table = year.iloc[start:end].reset_index(drop=True)
    
    # Asignar la primera fila como encabezado
    table.columns = table.iloc[0]  # Convertir la primera fila en nombres de columnas
    table = table[1:].reset_index(drop=True)  # Eliminar la fila de encabezado original
    if i < 4:
        table=table.iloc[:-2]



    if not table.empty:
        tables.append(table)

columns_fill=["Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento )",'Marketplace']


In [11]:
# Arrangements for Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento )
for table in tables:
    table['Nº Documento'] =table['Nº Documento'].astype(str).str.strip()
    table[columns_fill] = table[columns_fill].fillna("Sin datos")
    table['Nº Documento new'] = table['Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento )'].str.split('/').str[1]
    table['Nº Documento'] = table['Nº Documento'].str.replace('"', '').str.replace("'", "")


marketplace_dict=tables[0].set_index('Nº Documento')['Marketplace'].to_dict()

# search Nº Documento new (Nº Documento on dictionary) in the dictionary and take the value of the marketplace
tables[4]['Nº Documento new']=tables[4]['Nº Documento new'].astype(str).str.strip()
tables[4]['Marketplace'] = tables[4]['Nº Documento new'].map(marketplace_dict).fillna("Sin datos")
marketplace_dict.update(tables[4].set_index('Nº Documento')['Marketplace'].to_dict()) #update the dictionary with the new values
tables[4].head()

Unnamed: 0,Tipo Documento,Nº Documento,Tracking Number,Cliente,Rut Cliente,Fecha Emisión,Fecha Vencimiento,Código Tributario,Fecha de generacion,Fecha de declaracion,Informado SII,Monto Neto Documento,Monto Impuestos Documento,Monto Exento Documento,Monto Documento,Emisor,Vendedor,Sucursal,Estado,Orden de compra,Nota,Obser.,Nombre Contacto,Fono Contacto,Peso Neto,Peso Bruto,Volumen,PERIODO DEL SERVICIO,Marketplace,Nro. Orden,Dirección,Ciudad,Comuna,Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento ),Documentos de Referencia,Correo Cliente,NaN,NaN.1,NaN.2,NaN.3,NaN.4,NaN.5,NaN.6,NaN.7,NaN.8,NaN.9,NaN.10,NaN.11,NaN.12,NaN.13,NaN.14,NaN.15,NaN.16,NaN.17,NaN.18,NaN.19,NaN.20,NaN.21,NaN.22,NaN.23,NaN.24,NaN.25,NaN.26,NaN.27,NaN.28,NaN.29,Nº Documento new
0,NOTA DE CRÉDITO ELECTRÓNICA,6827,,Marie Helene Ducheylard,10251278-2,2025-01-31 00:00:00,2025-01-31 00:00:00,61,2025-02-10 00:00:00,2025-02-10 00:00:00,Informado,20992,3988,0,24980,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,ripley,,STGO,STGO,STGO,[BOLETA ELECTRÓNICA T/ 38978/ 2025-01-26/ 24980],,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,38978
1,NOTA DE CRÉDITO ELECTRÓNICA,6826,,Pamela Del Carmen Pena Munoz,15393062-7,2025-01-31 00:00:00,2025-01-31 00:00:00,61,2025-02-10 00:00:00,2025-02-10 00:00:00,Informado,34445,6545,0,40990,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,ripley,,STGO,STGO,STGO,[BOLETA ELECTRÓNICA T/ 38902/ 2025-01-24/ 41980],,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,38902
2,NOTA DE CRÉDITO ELECTRÓNICA,6825,,Cecilia Riquelme,9748952-1,2025-01-31 00:00:00,2025-01-31 00:00:00,61,2025-02-10 00:00:00,2025-02-10 00:00:00,Informado,19319,3671,0,22990,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,ripley,,STGO,STGO,STGO,[BOLETA ELECTRÓNICA T/ 38594/ 2025-01-17/ 23980],,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,38594
3,NOTA DE CRÉDITO ELECTRÓNICA,6824,,Jeannette Vera,10051231-9,2025-01-31 00:00:00,2025-01-31 00:00:00,61,2025-02-10 00:00:00,2025-02-10 00:00:00,Informado,32756,6224,0,38980,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,ripley,,STGO,STGO,STGO,[BOLETA ELECTRÓNICA T/ 38369/ 2025-01-13/ 38980],,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,38369
4,NOTA DE CRÉDITO ELECTRÓNICA,6822,,Karim Lazo,12465332-0,2025-01-31 00:00:00,2025-01-31 00:00:00,61,2025-02-08 00:00:00,2025-02-08 00:00:00,Informado,17639,3351,0,20990,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,ripley,,STGO,STGO,STGO,[BOLETA ELECTRÓNICA T/ 38175/ 2025-01-09/ 20990],,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,38175


In [12]:
# Now for the other tables
tables[5]['Nº Documento new']=tables[5]['Nº Documento new'].astype(str).str.strip()
tables[5]['Marketplace'] = tables[5]['Nº Documento new'].map(marketplace_dict).fillna("Sin datos")
marketplace_dict.update(tables[5].set_index('Nº Documento')['Marketplace'].to_dict())

tables[1]['Nº Documento new']=tables[1]['Nº Documento new'].astype(str).str.strip()
tables[1]['Marketplace'] = tables[1]['Nº Documento new'].map(marketplace_dict).fillna("Sin datos")
marketplace_dict.update(tables[1].set_index('Nº Documento')['Marketplace'].to_dict())


tables[2]['Nº Documento new']=tables[2]['Nº Documento new'].astype(str).str.strip()
tables[2]['Marketplace'] = tables[2]['Nº Documento new'].map(marketplace_dict).fillna("Sin datos")
marketplace_dict.update(tables[2].set_index('Nº Documento')['Marketplace'].to_dict())


tables[3]['Nº Documento new']=tables[3]['Nº Documento new'].astype(str).str.strip()
tables[3]['Marketplace'] = tables[3]['Nº Documento new'].map(marketplace_dict).fillna("Sin datos")
marketplace_dict.update(tables[3].set_index('Nº Documento')['Marketplace'].to_dict())
tables[3].head()
principal.head(5)

Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen
0,venta,BOLETA ELECTRÓNICA T,21923.0,01/01/2024,659208472266bd053b66938c,31/12/2023 21:33:10,Casa Matriz,VENTA ONLINE,viviana salinas,13617340-5,,,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Botin,12231410000000.0,Via Uno Botin 12231407 Marron,37 Negro,,,,10076.0,10076.0,11990,1,10076,1914,11990,,0,0,0.0,13098.0,13098.0,-3022.0,-23.0
1,venta,BOLETA ELECTRÓNICA T,21924.0,01/01/2024,659213862266bd053e66957b,31/12/2023 22:21:10,Casa Matriz,VENTA ONLINE,Silvia Psijas,6693321-0,,,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Botin,12231410000000.0,Via Uno Botin 12231407 Marron,37,,,,10076.0,10076.0,11990,1,10076,1914,11990,,0,0,0.0,13098.0,13098.0,-3022.0,-23.0
2,venta,BOLETA ELECTRÓNICA T,21925.0,01/01/2024,659239f57e379f0505d14b6e,01/01/2024 01:05:09,Casa Matriz,VENTA ONLINE,Priscilla Bustos,16753486-4,,,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Sandalia,22323610000000.0,Via Uno Sandalia 22323605 Negro,36,,,,12597.0,12597.0,14990,1,12597,2393,14990,,0,0,0.0,4500.0,4500.0,8097.0,180.0
3,venta,BOLETA ELECTRÓNICA T,21926.0,01/01/2024,659239f9cb05a8054ae57022,01/01/2024 01:05:13,Casa Matriz,VENTA ONLINE,Priscilla Bustos,16753486-4,,,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Sandalia,22323610000000.0,Via Uno Sandalia 22323605 Negro,36,,,,12597.0,12597.0,14990,1,12597,2393,14990,,0,0,0.0,4500.0,4500.0,8097.0,180.0
4,venta,BOLETA ELECTRÓNICA T,21927.0,01/01/2024,65923dd57e379f0505d14ba0,01/01/2024 01:21:41,Casa Matriz,VENTA ONLINE,Carolina Montiel,15663772-6,montieliglesias@gmail.com,Caren,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Bota,12231300000000.0,Via Uno Bota 12231303 Negro,38,,,,10916.0,10916.0,12990,1,10916,2074,12990,,0,0,0.0,14222.0,14222.0,-3306.0,-23.0


In [13]:
tables[0].head(5)

Unnamed: 0,Tipo Documento,Nº Documento,Tracking Number,Cliente,Rut Cliente,Condicion de Venta,Fecha Emisión,Fecha Vencimiento,Código Tributario,Fecha de generacion,Fecha de declaracion,Informado SII,Monto Neto Documento,Monto Impuestos Documento,Monto Exento Documento,Monto Documento,Monto Adeudado,ABONO DE CLIENTES,CHEQUE,CREDITO,EFECTIVO,FACTORING,Mercado Pago,NOTA CREDITO DEVOLUCION,TARJETA CREDITO,TARJETA DEBITO,TRANSFERENCIA BANCARIA,WEBPAY,Numero Comprobante Integrado,Nº Comprobante,Banco,Número,BancoValue,FACTURA COMPRA,FACTORING.1,Emisor,Vendedor,Sucursal,Estado,Orden de compra,Nota,Obser.,Nombre Contacto,Fono Contacto,Peso Neto,Peso Bruto,Volumen,PERIODO DEL SERVICIO,Marketplace,Nro. Orden,Total Descuentos,Total Doc. s/Descuentos,Descuentos Aplicados,Dirección,Ciudad,Comuna,Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento ),Documentos de Referencia,Correo Cliente,Vuelto Forma de Pago,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65,Nº Documento new
0,BOLETA ELECTRÓNICA T,39257,679d8d919190c8aa779c2102,natalia vergarag gaete,17635915-3,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,14277,2713,0,16990,0,0,0,0,0,0,0,0,0,0,16990,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,fcom,2711967664,0,16990,No aplica,,Santiago,Regi\u00f3n Metropolitana,Sin datos,,,0,,,,,,,
1,BOLETA ELECTRÓNICA T,39256,679d81ebb99ccf26edeaa5f5,Nathaly Muñoz,16545211-9,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,18374,3491,0,21865,0,0,0,0,0,0,0,0,0,0,21865,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,vtex,1507460561103-01,0,21865,No aplica,,,,Sin datos,,nathalymunozsoto@gmail.com,0,,,,,,,
2,BOLETA ELECTRÓNICA T,39255,679d80e6b99ccf26edeaa542,Sthefany Vilches Espinoza,17874155-1,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,23521,4469,0,27990,0,0,0,0,0,0,0,0,0,0,27990,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,fcom,2711865080,0,27990,No aplica,,Santiago,Regi\u00f3n Metropolitana,Sin datos,,,0,,,,,,,
3,BOLETA ELECTRÓNICA T,39254,679d716c691a0b5ffe9a9bea,Paulina Zarate Gonzalez,13680930-K,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-02-01 00:00:00,2025-01-31 00:00:00,Informado,29403,5587,0,34990,0,0,0,0,0,0,0,0,0,0,34990,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,fcom,2711778354,0,34990,No aplica,,Santiago,Regi\u00f3n Metropolitana,Sin datos,,,0,,,,,,,
4,BOLETA ELECTRÓNICA T,39253,679d61189190c8aa779bf7cf,Marjorie Bravo,16297286-3,Al día,2025-01-31 00:00:00,2025-01-31 00:00:00,39,2025-01-31 00:00:00,2025-01-31 00:00:00,Informado,50997,9690,0,60687,0,0,0,0,0,0,0,0,0,0,60687,0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,vtex,1507440561101-01,0,60687,No aplica,,,,Sin datos,,marjoriebravo83@gmail.com,0,,,,,,,


In [14]:

# Repeat but with the dictionary updated
for table in tables:
    table['Nº Documento'] =table['Nº Documento'].astype(str).str.strip()
    table['Nº Documento new']=table['Nº Documento new'].astype(str).str.strip()
    table.loc[table['Marketplace'] == "Sin datos", 'Marketplace'] = table.loc[table['Marketplace'] == "Sin datos", 'Nº Documento new'].map(marketplace_dict).fillna("Sin datos")

# Concatenate all the tables
for i in range(len(tables)):
    # Eliminar columnas duplicadas dejando solo la primera ocurrencia
    tables[i] = tables[i].loc[:, ~tables[i].columns.duplicated()]
tables = [table.reset_index(drop=True) for table in tables]
final_table = pd.concat(tables, ignore_index=True, sort=False)
final_table= final_table.loc[:, ~pd.isna(final_table.columns)]
final_table.tail(5)

Unnamed: 0,Tipo Documento,Nº Documento,Tracking Number,Cliente,Rut Cliente,Condicion de Venta,Fecha Emisión,Fecha Vencimiento,Código Tributario,Fecha de generacion,Fecha de declaracion,Informado SII,Monto Neto Documento,Monto Impuestos Documento,Monto Exento Documento,Monto Documento,Monto Adeudado,ABONO DE CLIENTES,CHEQUE,CREDITO,EFECTIVO,FACTORING,Mercado Pago,NOTA CREDITO DEVOLUCION,TARJETA CREDITO,TARJETA DEBITO,TRANSFERENCIA BANCARIA,WEBPAY,Numero Comprobante Integrado,Nº Comprobante,Banco,Número,BancoValue,FACTURA COMPRA,FACTORING.1,Emisor,Vendedor,Sucursal,Estado,Orden de compra,Nota,Obser.,Nombre Contacto,Fono Contacto,Peso Neto,Peso Bruto,Volumen,PERIODO DEL SERVICIO,Marketplace,Nro. Orden,Total Descuentos,Total Doc. s/Descuentos,Descuentos Aplicados,Dirección,Ciudad,Comuna,Documentos Relacionados (Tipo Documento / Nº Documento / Fecha Emisión / Monto del documento ),Documentos de Referencia,Correo Cliente,Vuelto Forma de Pago,Unnamed: 60,Unnamed: 61,Unnamed: 62,Unnamed: 63,Unnamed: 64,Unnamed: 65,Nº Documento new,Clausula de Venta,Monto Clausula,Modalidad Venta,Via Transporte,Total de Bultos,Pais Destino,Tipo de Despacho,Sucursal de Destino
19511,NOTA DE CRÉDITO ELECTRÓNICA,3427,,victoria carrasco,11844669-0,,2024-02-01 00:00:00,2024-02-01 00:00:00,61,2024-02-01 00:00:00,2024-02-01 00:00:00,Informado,20151,3829,0,23980,,,,,,,,,,,,,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,Sin datos,,,,,,Santiago,Regi\u00f3n Metropolitana,[BOLETA ELECTRÓNICA T/ 22885/ 2024-01-13/ 23980],,,,,,,,,,22885,,,,,,,,
19512,NOTA DE CRÉDITO ELECTRÓNICA,3421,,jezabel mella,17395619-3,,2024-02-01 00:00:00,2024-02-01 00:00:00,61,2024-02-01 00:00:00,2024-02-01 00:00:00,Informado,10076,1914,0,11990,,,,,,,,,,,,,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,Sin datos,,,,,,Santiago,Regi\u00f3n Metropolitana,[BOLETA ELECTRÓNICA T/ 23429/ 2024-01-23/ 11990],,,,,,,,,,23429,,,,,,,,
19513,NOTA DE DÉBITO ELECTRÓNICA,10,,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,,2024-12-27 00:00:00,2024-12-27 00:00:00,56,2024-12-27 00:00:00,,Por Informar,179358,34078,0,213436,,119923.0,0.0,213436.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,San Mateo Spa ONLINE,Maria Mella,SUCURSAL MAYORISTA,Vigente,,,,,,,,,,Sin datos,,,,,JOSE LEYAN 748,TALAGANTE,TALAGANTE,[FACTURA ELECTRÓNICA/ 514/ 2024-09-02/ 306949][NOTA DE CRÉDITO ELECTRÓNICA/ 6150/ 2024-10-31/ 213436],,carcur99@gmail.com,119923.0,,,,,,,514,,,,,,,,
19514,NOTA DE DÉBITO ELECTRÓNICA,9,,Yuselys Munoz,26567490-9,,2024-04-30 00:00:00,2024-04-30 00:00:00,56,2024-05-13 00:00:00,2024-05-13 00:00:00,Informado,12597,2393,0,14990,,0.0,0.0,0.0,14990.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,fcom,,,,,Centro,Santiago,Regi\u00f3n Metropolitana,[BOLETA ELECTRÓNICA T/ 27108/ 2024-03-24/ 14990][NOTA DE CRÉDITO ELECTRÓNICA/ 4466/ 2024-04-03/ 14990],,,0.0,,,,,,,27108,,,,,,,,
19515,NOTA DE DÉBITO ELECTRÓNICA,8,,Susana Triviño,18974141-3,,2024-04-30 00:00:00,2024-04-30 00:00:00,56,2024-05-13 00:00:00,2024-05-13 00:00:00,Informado,5874,1116,0,6990,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,San Mateo Spa ONLINE,VENTA ONLINE,Casa Matriz,Vigente,,,,,,,,,,Sin datos,,,,,STGO,Santiago,Regi\u00f3n Metropolitana,[BOLETA ELECTRÓNICA T/ 23780/ 2024-01-30/ 6990][NOTA DE CRÉDITO ELECTRÓNICA/ 4060/ 2024-02-29/ 6990],,,-6990.0,,,,,,,23780,,,,,,,,


Set on tables conditions for Marketplace

In [15]:


# Set on facturas when Sucursal is SUCURSAL MAYORISTA set Marketplace as vpm
final_table['Marketplace'] = np.where(
    (final_table['Sucursal'] == 'SUCURSAL MAYORISTA') & 
    (final_table['Marketplace'] == 'Sin datos') & (final_table['Tipo Documento'] != 'BOLETA ELECTRÓNICA T'),
    'vpm',
    final_table['Marketplace']
)

# Set on facturas when Vendedor is VENTA ONLINE set Marketplace as fcom
final_table['Marketplace'] = np.where(
    (final_table['Vendedor'] == 'VENTA ONLINE') & 
    (final_table['Marketplace'] == 'Sin datos'),
    'fcom',
    final_table['Marketplace']
)

# Set on facturas when Sucursal is SUCURSAL MAYORISTA and BOLETA ELECTRÓNICA T set Marketplace as T.NAVIDEÑA
final_table['Marketplace'] = np.where(
    (final_table['Sucursal'] == 'SUCURSAL MAYORISTA') & 
    (final_table['Marketplace'] == 'Sin datos') & (final_table['Tipo Documento'] == 'BOLETA ELECTRÓNICA T'),
    'T.NAVIDEÑA',
    final_table['Marketplace']
)

# Set on facturas when Tipo Documento is FACTURA DE EXPORTACIÓN ELECTRÓNICA set Marketplace as cvd
final_table['Marketplace'] = np.where(
    (final_table['Tipo Documento'] == 'FACTURA DE EXPORTACIÓN ELECTRÓNICA') & 
    (final_table['Marketplace'] == 'Sin datos'),
    'cvd',
    final_table['Marketplace']
)

final_table.head()

# Verify conditions
print(final_table.loc[final_table['Tipo Documento'] == 'FACTURA DE EXPORTACIÓN ELECTRÓNICA', 'Marketplace'].value_counts())
print(final_table.loc[final_table['Vendedor'] == 'VENTA ONLINE', 'Marketplace'].value_counts())
print(final_table.loc[final_table['Sucursal'] == 'SUCURSAL MAYORISTA', 'Marketplace'].value_counts())
print(final_table.loc[(final_table['Sucursal'] == 'SUCURSAL MAYORISTA') & (final_table['Tipo Documento'] == 'BOLETA ELECTRÓNICA T'), 'Marketplace'].value_counts())



# Last update of the dictionary
marketplace_dict.update(final_table.set_index('Nº Documento')['Marketplace'].to_dict())



Marketplace
cvd    7
Name: count, dtype: int64
Marketplace
fcom      9510
vtex      7290
paris     1091
ripley     544
vpm        137
Name: count, dtype: int64
Marketplace
T.NAVIDEÑA    585
vpm           321
Name: count, dtype: int64
Marketplace
T.NAVIDEÑA    585
Name: count, dtype: int64


#### Working with principal

First we need to combine dictionarys with principal

In [16]:
# Clean principal
principal= principal.iloc[:-1] #Eliminate the last row
principal['SKU'] = principal['SKU'].astype(int).astype(str)
principal['SKU'] = principal['SKU'].str.replace('"', '', regex=False)
principal['SKU'] = principal['SKU'].str.strip()
principal['Costo neto unitario']=principal['Costo neto unitario'].astype(int)
principal['Cantidad']=principal['Cantidad'].astype(int)
principal['Costo Total Neto']=principal['Costo Total Neto'].astype(int)
principal['Número Documento']=principal['Número Documento'].astype(int).astype(str)
principal['Detalle de Productos/Servicios Pack/Promo']=principal['Detalle de Productos/Servicios Pack/Promo'].fillna(0).astype(int)

# fill NAN values when is object with "Sin datos"
principal[principal.select_dtypes(include='object').columns] = principal.select_dtypes(include='object').fillna("Sin datos")

# Tipo Documento with lowercase
principal['Tipo Documento'] = principal['Tipo Documento'].str.lower()


principal.info()
principal.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35438 entries, 0 to 35437
Data columns (total 39 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   Tipo Movimiento                            35438 non-null  object 
 1   Tipo Documento                             35438 non-null  object 
 2   Número Documento                           35438 non-null  object 
 3   Fecha de Emisión                           35438 non-null  object 
 4   Tracking number                            35438 non-null  object 
 5   Fecha y Hora Venta                         35438 non-null  object 
 6   Sucursal                                   35438 non-null  object 
 7   Vendedor                                   35438 non-null  object 
 8   Cliente Nombre                             35438 non-null  object 
 9   Cliente RUT                                35438 non-null  object 
 10  Cliente Email         

Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen
0,venta,boleta electrónica t,21923,01/01/2024,659208472266bd053b66938c,31/12/2023 21:33:10,Casa Matriz,VENTA ONLINE,viviana salinas,13617340-5,Sin datos,Sin datos,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Botin,12231407015007,Via Uno Botin 12231407 Marron,37 Negro,,,0,10076.0,10076.0,11990,1,10076,1914,11990,Sin datos,0,0,0.0,13098,13098,-3022.0,-23.0
1,venta,boleta electrónica t,21924,01/01/2024,659213862266bd053e66957b,31/12/2023 22:21:10,Casa Matriz,VENTA ONLINE,Silvia Psijas,6693321-0,Sin datos,Sin datos,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Botin,12231407023007,Via Uno Botin 12231407 Marron,37,,,0,10076.0,10076.0,11990,1,10076,1914,11990,Sin datos,0,0,0.0,13098,13098,-3022.0,-23.0
2,venta,boleta electrónica t,21925,01/01/2024,659239f57e379f0505d14b6e,01/01/2024 01:05:09,Casa Matriz,VENTA ONLINE,Priscilla Bustos,16753486-4,Sin datos,Sin datos,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Sandalia,22323605015006,Via Uno Sandalia 22323605 Negro,36,,,0,12597.0,12597.0,14990,1,12597,2393,14990,Sin datos,0,0,0.0,4500,4500,8097.0,180.0
3,venta,boleta electrónica t,21926,01/01/2024,659239f9cb05a8054ae57022,01/01/2024 01:05:13,Casa Matriz,VENTA ONLINE,Priscilla Bustos,16753486-4,Sin datos,Sin datos,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Sandalia,22323605015006,Via Uno Sandalia 22323605 Negro,36,,,0,12597.0,12597.0,14990,1,12597,2393,14990,Sin datos,0,0,0.0,4500,4500,8097.0,180.0
4,venta,boleta electrónica t,21927,01/01/2024,65923dd57e379f0505d14ba0,01/01/2024 01:21:41,Casa Matriz,VENTA ONLINE,Carolina Montiel,15663772-6,montieliglesias@gmail.com,Caren,Regi\u00f3n Metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Bota,12231303015008,Via Uno Bota 12231303 Negro,38,,,0,10916.0,10916.0,12990,1,10916,2074,12990,Sin datos,0,0,0.0,14222,14222,-3306.0,-23.0


In [17]:
#Create column Producto 
principal['Producto']=principal['SKU'].str[:8]

In [18]:
# For principal put dictionary of cost
principal.loc[(principal['Costo neto unitario'] == 0) & principal['SKU'].notna(), 'Costo neto unitario'] = (
    principal['SKU'].map(cost_dict))
principal['Costo neto unitario']=principal['Costo neto unitario'].fillna(0)
principal['Costo neto unitario']=principal['Costo neto unitario'].astype(int)
principal.tail()

Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen,Producto
35433,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022006,Via Uno Sandalia 22541611 Verde,36,,,0,17495.0,-17495.0,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,-8125,-16250,-18740.0,115.0,22541611
35434,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022007,Via Uno Sandalia 22541611 Verde,37,,,0,17495.0,-17495.0,20819,-3,-52485,-9973,-62458,Sin datos,0,0,0.0,-8125,-24375,-28110.0,115.0,22541611
35435,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022008,Via Uno Sandalia 22541611 Verde,38,,,0,17495.0,-17495.0,20819,-3,-52485,-9972,-62457,Sin datos,0,0,0.0,-8125,-24375,-28110.0,115.0,22541611
35436,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022009,Via Uno Sandalia 22541611 Verde,39,,,0,17495.0,-17495.0,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,-8125,-16250,-18740.0,115.0,22541611
35437,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022010,Via Uno Sandalia 22541611 Verde,40,,,0,17495.0,-17495.0,20819,-1,-17495,-3324,-20819,Sin datos,0,0,0.0,-8125,-8125,-9370.0,115.0,22541611


In [19]:
# For principal put dictionary of count
principal.loc[(principal['Cantidad'] == 0) & principal['SKU'].notna(), 'Cantidad'] = (
    principal['SKU'].map(count_dict))
principal['Cantidad']=principal['Cantidad'].fillna(0)
principal['Cantidad']=principal['Cantidad'].astype(int)
principal.tail()

Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen,Producto
35433,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022006,Via Uno Sandalia 22541611 Verde,36,,,0,17495.0,-17495.0,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,-8125,-16250,-18740.0,115.0,22541611
35434,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022007,Via Uno Sandalia 22541611 Verde,37,,,0,17495.0,-17495.0,20819,-3,-52485,-9973,-62458,Sin datos,0,0,0.0,-8125,-24375,-28110.0,115.0,22541611
35435,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022008,Via Uno Sandalia 22541611 Verde,38,,,0,17495.0,-17495.0,20819,-3,-52485,-9972,-62457,Sin datos,0,0,0.0,-8125,-24375,-28110.0,115.0,22541611
35436,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022009,Via Uno Sandalia 22541611 Verde,39,,,0,17495.0,-17495.0,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,-8125,-16250,-18740.0,115.0,22541611
35437,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022010,Via Uno Sandalia 22541611 Verde,40,,,0,17495.0,-17495.0,20819,-1,-17495,-3324,-20819,Sin datos,0,0,0.0,-8125,-8125,-9370.0,115.0,22541611


# Preparing Data principal

In [20]:

# Quantities for nota de crédito electrónica are negative
principal= apply_negative_abs(principal, 'Tipo Documento', 'nota de crédito electrónica', ['Cantidad'])

# Obtain the total cost (for notas de crédito electrónica the cost and total cost are positive)
principal.loc[principal['Tipo Documento'] == 'nota de crédito electrónica', 'Costo Total Neto'] = abs(
    principal['Costo neto unitario'] * principal['Cantidad']
)

# Subtotal Neto, Subtotal Impuestos ,Precio base and Subtotal Bruto are positive for bolenta electrónica t
principal.loc[principal['Tipo Documento'] == 'boleta electrónica t', ['Subtotal Neto', 'Subtotal Impuestos', 'Precio base', 'Subtotal Bruto']] = principal.loc[principal['Tipo Documento'] == 'boleta electrónica t', ['Subtotal Neto', 'Subtotal Impuestos', 'Precio base', 'Subtotal Bruto']].abs()

# Costo Total Neto is negative for boleta electrónica t 
principal= apply_negative_abs(principal, 'Tipo Documento', 'boleta electrónica t', ['Costo Total Neto','Costo neto unitario'])

# Subtotal Neto, Subtotal Impuestos ,Precio base and Subtotal Bruto are negative for nota de crédito electrónica
principal= apply_negative_abs(principal, 'Tipo Documento', 'nota de crédito electrónica', ['Subtotal Neto', 'Subtotal Impuestos', 'Precio base', 'Subtotal Bruto'])

# Costo Total Neto and Costo neto unitario is positive for nota de crédito electrónica
principal.loc[principal['Tipo Documento'] == 'nota de crédito electrónica', ['Costo Total Neto','Costo neto unitario']] = principal.loc[principal['Tipo Documento'] == 'nota de crédito electrónica', ['Costo Total Neto','Costo neto unitario']].abs()

principal.tail()



Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen,Producto
35433,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022006,Via Uno Sandalia 22541611 Verde,36,,,0,-17495.0,-17495.0,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,8125,16250,-18740.0,115.0,22541611
35434,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022007,Via Uno Sandalia 22541611 Verde,37,,,0,-17495.0,-17495.0,20819,-3,-52485,-9973,-62458,Sin datos,0,0,0.0,8125,24375,-28110.0,115.0,22541611
35435,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022008,Via Uno Sandalia 22541611 Verde,38,,,0,-17495.0,-17495.0,20819,-3,-52485,-9972,-62457,Sin datos,0,0,0.0,8125,24375,-28110.0,115.0,22541611
35436,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022009,Via Uno Sandalia 22541611 Verde,39,,,0,-17495.0,-17495.0,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,8125,16250,-18740.0,115.0,22541611
35437,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,TALAGANTE,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022010,Via Uno Sandalia 22541611 Verde,40,,,0,-17495.0,-17495.0,20819,-1,-17495,-3324,-20819,Sin datos,0,0,0.0,8125,8125,-9370.0,115.0,22541611


Int for Precio base, Precio Neto Unitario, Precio Bruto Unitario, Cantidad, Subtotal Neto, Subtotal Impuestos, Subtotal Bruto.

In [21]:
# Precio base	Precio Neto Unitario	Precio Bruto Unitario	Cantidad	Subtotal Neto	Subtotal Impuestos	Subtotal Bruto is int
principal['Precio base'] = principal['Precio base'].astype(int)
principal['Precio Neto Unitario'] = principal['Precio Neto Unitario'].astype(int)
principal['Precio Bruto Unitario'] = principal['Precio Bruto Unitario'].astype(int)
principal['Cantidad'] = principal['Cantidad'].astype(int)
principal['Subtotal Neto'] = principal['Subtotal Neto'].astype(int)
principal['Subtotal Impuestos'] = principal['Subtotal Impuestos'].astype(int)
principal['Subtotal Bruto'] = principal['Subtotal Bruto'].astype(int)
principal['Costo Total Neto'] = principal['Costo Total Neto'].astype(int)
principal['Costo neto unitario'] = principal['Costo neto unitario'].astype(int)


Correcting community client

In [22]:
# View Client Comuna unique values
print(principal['Cliente Comuna'].unique())


['Regi\\u00f3n Metropolitana' 'Sin datos' 'Puente Alto' 'Viña Del Mar'
 'Las Condes' 'STGO' 'Lo Barnechea' 'Santiago' 'santiago' 'Providencia'
 'Peñalolén' 'San Miguel' 'CAÑETE' 'SANTIAGO' 'Pudahuel' 'La Florida'
 'Vitacura' 'Recoleta' 'Colina' 'Quilicura' 'Rancagua' 'Maipú'
 'LA FLORIDA' 'antofagasta' 'Estación Central' 'la reina ' 'LAS CONDES'
 'Ñuñoa' 'RANCAGUA' 'Macul' 'Linares' 'Concón' 'Puerto Montt' 'Parral'
 'Antofagasta' 'COYHAIQUE' 'ARAUCO' 'LANCO' 'OSORNO' 'TRAIGUEN' 'TOME'
 'TALAGANTE' 'TALCAHUANO' 'QUILLOTA' 'La Cisterna' 'LOS ANDES'
 'PROVIDENCIA' 'La Reina' 'El Bosque' 'Hualpén' 'Los Ángeles' 'CALAMA'
 'Huechuraba' 'Lo Espejo' 'Concepción' 'LAMPA' 'San Pedro De la Paz'
 'Quinta Normal' 'Los Andes' 'PUENTE ALTO' 'EXTRANJERO' 'Copiapó'
 'CABRERO' 'SANTAIGO' 'San Felipe' 'Bulnes' 'PUERTO MONTT' 'Temuco'
 'FRUTILLAR' 'Renca' 'CONCON' 'Chiguayante' 'Talca' 'REGION METROPOLITANA'
 'xxx' 'huechuraba' 'Independencia' 'Iquique' 'INDEPENDENCIA' 'Huecguraba'
 'SAN MIGUEL']


In [23]:
# Correct Cliente Comuna
principal['Cliente Comuna']=principal['Cliente Comuna'].str.lower()
principal['Cliente Comuna']=principal['Cliente Comuna'].str.replace("stgo", "santiago", regex=False)
principal['Cliente Comuna']=principal['Cliente Comuna'].str.replace("regi\\u00f3n metropolitana", "region metropolitana", regex=False)
principal['Cliente Comuna']=principal['Cliente Comuna'].str.replace("santaigo", "santiago", regex=False)
principal['Cliente Comuna']=principal['Cliente Comuna'].str.replace("quinta noregion metropolitanaal", "region metropolitana", regex=False)
principal['Cliente Comuna']=principal['Cliente Comuna'].str.replace("huecguraba", "huechuraba", regex=False)

print(principal['Cliente Comuna'].unique())

['region metropolitana' 'sin datos' 'puente alto' 'viña del mar'
 'las condes' 'santiago' 'lo barnechea' 'providencia' 'peñalolén'
 'san miguel' 'cañete' 'pudahuel' 'la florida' 'vitacura' 'recoleta'
 'colina' 'quilicura' 'rancagua' 'maipú' 'antofagasta' 'estación central'
 'la reina ' 'ñuñoa' 'macul' 'linares' 'concón' 'puerto montt' 'parral'
 'coyhaique' 'arauco' 'lanco' 'osorno' 'traiguen' 'tome' 'talagante'
 'talcahuano' 'quillota' 'la cisterna' 'los andes' 'la reina' 'el bosque'
 'hualpén' 'los ángeles' 'calama' 'huechuraba' 'lo espejo' 'concepción'
 'lampa' 'san pedro de la paz' 'quinta normal' 'extranjero' 'copiapó'
 'cabrero' 'san felipe' 'bulnes' 'temuco' 'frutillar' 'renca' 'concon'
 'chiguayante' 'talca' 'xxx' 'independencia' 'iquique']


In [24]:
# In some cases in Tipo de Producto/Servicio Zapatilla is written as Zapatillas
principal['Tipo de Producto/Servicio']=principal['Tipo de Producto/Servicio'].str.replace("Zapatillas", "Zapatilla", regex=False)

In [25]:
# Modify with the correct Margen and % Margen for each row
principal['Margen'] = principal['Precio Neto Unitario'] * principal['Cantidad'] - abs(principal['Costo Total Neto'])
principal['% Margen'] = principal['Margen'] / (principal['Precio Neto Unitario']* abs(principal['Cantidad'])) *100
principal['% Margen'] = principal['% Margen'].round(2).fillna(0) #We want to show the percentage with 2 decimals
principal.head()

Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen,Producto
0,venta,boleta electrónica t,21923,01/01/2024,659208472266bd053b66938c,31/12/2023 21:33:10,Casa Matriz,VENTA ONLINE,viviana salinas,13617340-5,Sin datos,Sin datos,region metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Botin,12231407015007,Via Uno Botin 12231407 Marron,37 Negro,,,0,10076,10076,11990,1,10076,1914,11990,Sin datos,0,0,0.0,-13098,-13098,-3022,-29.99,12231407
1,venta,boleta electrónica t,21924,01/01/2024,659213862266bd053e66957b,31/12/2023 22:21:10,Casa Matriz,VENTA ONLINE,Silvia Psijas,6693321-0,Sin datos,Sin datos,region metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Botin,12231407023007,Via Uno Botin 12231407 Marron,37,,,0,10076,10076,11990,1,10076,1914,11990,Sin datos,0,0,0.0,-13098,-13098,-3022,-29.99,12231407
2,venta,boleta electrónica t,21925,01/01/2024,659239f57e379f0505d14b6e,01/01/2024 01:05:09,Casa Matriz,VENTA ONLINE,Priscilla Bustos,16753486-4,Sin datos,Sin datos,region metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Sandalia,22323605015006,Via Uno Sandalia 22323605 Negro,36,,,0,12597,12597,14990,1,12597,2393,14990,Sin datos,0,0,0.0,-4500,-4500,8097,64.28,22323605
3,venta,boleta electrónica t,21926,01/01/2024,659239f9cb05a8054ae57022,01/01/2024 01:05:13,Casa Matriz,VENTA ONLINE,Priscilla Bustos,16753486-4,Sin datos,Sin datos,region metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Sandalia,22323605015006,Via Uno Sandalia 22323605 Negro,36,,,0,12597,12597,14990,1,12597,2393,14990,Sin datos,0,0,0.0,-4500,-4500,8097,64.28,22323605
4,venta,boleta electrónica t,21927,01/01/2024,65923dd57e379f0505d14ba0,01/01/2024 01:21:41,Casa Matriz,VENTA ONLINE,Carolina Montiel,15663772-6,montieliglesias@gmail.com,Caren,region metropolitana,Santiago,Lista de Precios Base,retiro en tienda,CLP,Bota,12231303015008,Via Uno Bota 12231303 Negro,38,,,0,10916,10916,12990,1,10916,2074,12990,Sin datos,0,0,0.0,-14222,-14222,-3306,-30.29,12231303


We need to set the Marketplace on principal using the dictionary obtained earlier.

In [26]:
#set Marketplace for principal
principal['Marketplace'] = principal['Número Documento'].map(marketplace_dict).fillna("Sin datos")

# All rows on Marketplace with lowercase
principal['Marketplace'] = principal['Marketplace'].str.lower()

principal.tail()

Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen,Producto,Marketplace
35433,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022006,Via Uno Sandalia 22541611 Verde,36,,,0,-17495,-17495,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,8125,16250,18740,-53.56,22541611,vpm
35434,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022007,Via Uno Sandalia 22541611 Verde,37,,,0,-17495,-17495,20819,-3,-52485,-9973,-62458,Sin datos,0,0,0.0,8125,24375,28110,-53.56,22541611,vpm
35435,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022008,Via Uno Sandalia 22541611 Verde,38,,,0,-17495,-17495,20819,-3,-52485,-9972,-62457,Sin datos,0,0,0.0,8125,24375,28110,-53.56,22541611,vpm
35436,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022009,Via Uno Sandalia 22541611 Verde,39,,,0,-17495,-17495,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,8125,16250,18740,-53.56,22541611,vpm
35437,devolucion,nota de crédito electrónica,6482,31/12/2024,Sin datos,27/12/2024 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022010,Via Uno Sandalia 22541611 Verde,40,,,0,-17495,-17495,20819,-1,-17495,-3324,-20819,Sin datos,0,0,0.0,8125,8125,9370,-53.56,22541611,vpm


Now we need to create a column named Producto. This can be obtained by truncating the SKU to the first 8 digits, and convert Fecha Documento to datetime

In [27]:
#Convert Fecha Documento, y Fecha y Hora Venta  to datetime
principal['Fecha de Emisión'] = pd.to_datetime(principal['Fecha de Emisión'], errors='coerce')
principal['Fecha y Hora Venta'] = pd.to_datetime(principal['Fecha y Hora Venta'], errors='coerce')

principal.tail()

Unnamed: 0,Tipo Movimiento,Tipo Documento,Número Documento,Fecha de Emisión,Tracking number,Fecha y Hora Venta,Sucursal,Vendedor,Cliente Nombre,Cliente RUT,Cliente Email,Cliente Dirección,Cliente Comuna,Cliente Ciudad,Lista de precio,Tipo de entrega,Moneda,Tipo de Producto/Servicio,SKU,Producto/Servicio,Variante,Otros Atributos,Marca,Detalle de Productos/Servicios Pack/Promo,Precio base,Precio Neto Unitario,Precio Bruto Unitario,Cantidad,Subtotal Neto,Subtotal Impuestos,Subtotal Bruto,Nombre de dcto,Descuento Neto,Descuento Bruto,% Descuento,Costo neto unitario,Costo Total Neto,Margen,% Margen,Producto,Marketplace
35433,devolucion,nota de crédito electrónica,6482,NaT,Sin datos,2024-12-27 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022006,Via Uno Sandalia 22541611 Verde,36,,,0,-17495,-17495,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,8125,16250,18740,-53.56,22541611,vpm
35434,devolucion,nota de crédito electrónica,6482,NaT,Sin datos,2024-12-27 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022007,Via Uno Sandalia 22541611 Verde,37,,,0,-17495,-17495,20819,-3,-52485,-9973,-62458,Sin datos,0,0,0.0,8125,24375,28110,-53.56,22541611,vpm
35435,devolucion,nota de crédito electrónica,6482,NaT,Sin datos,2024-12-27 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022008,Via Uno Sandalia 22541611 Verde,38,,,0,-17495,-17495,20819,-3,-52485,-9972,-62457,Sin datos,0,0,0.0,8125,24375,28110,-53.56,22541611,vpm
35436,devolucion,nota de crédito electrónica,6482,NaT,Sin datos,2024-12-27 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022009,Via Uno Sandalia 22541611 Verde,39,,,0,-17495,-17495,20819,-2,-34990,-6648,-41638,Sin datos,0,0,0.0,8125,16250,18740,-53.56,22541611,vpm
35437,devolucion,nota de crédito electrónica,6482,NaT,Sin datos,2024-12-27 19:24:03,SUCURSAL MAYORISTA,Maria Mella,CARCUR HERMANOS Y COMPANIA LIMITADA,80161100-1,carcur99@gmail.com,JOSE LEYAN 748,talagante,TALAGANTE,Mayorista Inv 2023,retiro en tienda,CLP,Sandalia,22541611022010,Via Uno Sandalia 22541611 Verde,40,,,0,-17495,-17495,20819,-1,-17495,-3324,-20819,Sin datos,0,0,0.0,8125,8125,9370,-53.56,22541611,vpm


# Group by Marketplace table 

In [28]:
# Filter by rows that are not Despacho and envio
principal_group = principal[principal['Variante'] != 'Despacho']
principal_group = principal_group[principal_group['Variante'] != 'envio']

# Create a new column with the Precio Neto per row
principal_group['Precio Neto'] = principal_group['Subtotal Bruto'] - principal_group['Subtotal Impuestos']

# Group by Marketplace, Sucursal, Producto
principal_Marketplace = principal_group.groupby(['Marketplace']).agg(
    {'Cantidad': 'sum', 'Precio Neto': 'sum','Costo Total Neto': 'sum'}).reset_index()

# Calculate the margin
principal_Marketplace['Margen'] = principal_Marketplace['Precio Neto'] + principal_Marketplace['Costo Total Neto'] #It is positive because the cost is already negative
principal_Marketplace['% Margen'] = (principal_Marketplace['Margen'] / abs(principal_Marketplace['Precio Neto'])) * 100
principal_Marketplace['% Margen'] = principal_Marketplace['% Margen'].round(2).fillna(0)

# Order by % Margen
principal_Marketplace = principal_Marketplace.sort_values(by='% Margen', ascending=False)
principal_Marketplace['Tipo'] = np.where(principal_Marketplace['Cantidad'] < 0, 'Devolucion', 'Venta')
principal_Marketplace

Unnamed: 0,Marketplace,Cantidad,Precio Neto,Costo Total Neto,Margen,% Margen,Tipo
7,vpm,4094,111248426,64604887,175853313,158.07,Venta
0,bodega,3,75939,0,75939,100.0,Venta
1,cvd,7,90236189,0,90236189,100.0,Venta
5,sin datos,1931,44384951,-19166781,25218170,56.82,Venta
3,paris,581,15169346,-7234611,7934735,52.31,Venta
4,ripley,451,11555426,-5983975,5571451,48.22,Venta
2,fcom,4464,92273272,-52324890,39948382,43.29,Venta
6,t.navideña,1342,18284737,-10613224,7671513,41.96,Venta
8,vtex,10022,174153207,-117648967,56504240,32.45,Venta


# Group by Tipo de Producto / Servicio table

In [29]:
# Group by Tipo de Producto / Servicio 

principal_Producto = principal_group.groupby(['Tipo de Producto/Servicio']).agg(
    {'Cantidad': 'sum', 'Precio Neto': 'sum','Costo Total Neto': 'sum'}).reset_index() 
principal_Producto=principal_Producto.drop(principal_Producto[principal_Producto['Tipo de Producto/Servicio']=='Sin Tipo'].index)
# Calculate the margin
principal_Producto['Margen'] = principal_Producto['Precio Neto'] + principal_Producto['Costo Total Neto'] #It is positive because the cost is already negative
principal_Producto['% Margen'] = (principal_Producto['Margen'] / abs(principal_Producto['Precio Neto'])) * 100
principal_Producto['% Margen'] = principal_Producto['% Margen'].round(2).fillna(0)

# Order by % Margen
principal_Producto = principal_Producto.sort_values(by='% Margen', ascending=False)
principal_Producto['Tipo'] = np.where(principal_Producto['Cantidad'] < 0, 'Devolucion', 'Venta')
principal_Producto

Unnamed: 0,Tipo de Producto/Servicio,Cantidad,Precio Neto,Costo Total Neto,Margen,% Margen,Tipo
1,Botin,6688,162738560,-9682126,153056434,94.05,Venta
6,Zapato,2046,35987484,-11493330,24494154,68.06,Venta
0,Bota,2770,81722100,-28331838,53390262,65.33,Venta
3,Sandalia,10490,145811121,-93733403,52077718,35.72,Venta
5,Zapatilla,287,6036024,-3905166,2130858,35.3,Venta
2,Playera,182,887963,-1193532,-305569,-34.41,Venta


# Filter Product with % Margen <=20%

In [30]:
Low_Margen_Marketplace = principal_Marketplace[principal_Marketplace['% Margen'] <= 20]
Low_Margen_Producto = principal_Producto[principal_Producto['% Margen'] <= 20]

display(Low_Margen_Marketplace)
display(Low_Margen_Producto)



Unnamed: 0,Marketplace,Cantidad,Precio Neto,Costo Total Neto,Margen,% Margen,Tipo


Unnamed: 0,Tipo de Producto/Servicio,Cantidad,Precio Neto,Costo Total Neto,Margen,% Margen,Tipo
2,Playera,182,887963,-1193532,-305569,-34.41,Venta


# Export to Excel

In [31]:
def set_column_formatting(writer, df, sheet_name):
    workbook  = writer.book
    worksheet = writer.sheets[sheet_name]
    header_format = workbook.add_format({'bold': True, 'bg_color': '#F9DA04', 'border': 1})
    # Recorre cada columna para establecer ancho y formatear el encabezado
    for i, col in enumerate(df.columns):
        max_len = max(df[col].fillna("").astype(str).map(len).max(), len(col)) + 2
        worksheet.set_column(i, i, max_len)
        worksheet.write(0, i, col, header_format)

# Export principal.xlsx con cada DataFrame en una hoja separada
with pd.ExcelWriter("principal.xlsx", engine="xlsxwriter") as writer:
    # Hoja para el DataFrame principal
    principal.to_excel(writer, sheet_name="Principal", index=False)
    set_column_formatting(writer, principal, "Principal")
    
    # Hoja para principal_Marketplace
    principal_Marketplace.to_excel(writer, sheet_name="Principal Marketplace", index=False)
    set_column_formatting(writer, principal_Marketplace, "Principal Marketplace")
    
    # Hoja para principal_Producto
    principal_Producto.to_excel(writer, sheet_name="Principal Producto", index=False)
    set_column_formatting(writer, principal_Producto, "Principal Producto")
    
    # Hoja para Low_Margen_Marketplace
    Low_Margen_Marketplace.to_excel(writer, sheet_name="Low Margen Marketplace", index=False)
    set_column_formatting(writer, Low_Margen_Marketplace, "Low Margen Marketplace")
    
    # Hoja para Low_Margen_Producto
    Low_Margen_Producto.to_excel(writer, sheet_name="Low Margen Producto", index=False)
    set_column_formatting(writer, Low_Margen_Producto, "Low Margen Producto")

# Export final_table.xlsx en una única hoja ("Final Table")
with pd.ExcelWriter("final_table.xlsx", engine="xlsxwriter") as writer:
    final_table.to_excel(writer, sheet_name="Final Table", index=False)
    set_column_formatting(writer, final_table, "Final Table")