In [None]:
import pandas as pd 
import numpy as np
import matplotlib as plt

In [3]:
# Ruta del archivo CSV
ruta_archivo_facturacion = 'Facturación_Store123.csv'
ruta_archivo_maestro = 'Maestro.csv'


# Leer el archivo CSV
df_facturacion = pd.read_csv(ruta_archivo_facturacion)
df_maestro = pd.read_csv(ruta_archivo_maestro)

In [4]:
df_facturacion.head()

Unnamed: 0,Fecha de carga de pedido,Fecha de facturacion,Fecha de entrega de producto,Codigo de producto,SKU,Descripcion,Unidades pedidas,Unidades facturadas,Unidades entregadas,Precio unitario en pesos argentinos
0,2023-07-07,2023-07-11,2023-07-21,1818,X88879,Producto no registrado,53,6,6,1000.0
1,2023-07-09,2023-07-15,2023-07-23,6917,HJ1051,Tijera de podar para rosales,86,10,10,4165.5
2,2023-07-07,2023-07-11,2023-07-21,8414,HJ1105,Rastrillo para jardineria decorativa,34,33,33,886.59
3,2023-07-17,2023-07-24,2023-07-31,2196,X11661,Producto no registrado,75,67,67,1000.0
4,2023-07-02,2023-07-07,2023-07-14,9672,HJ1183,Pulverizador para fertilizantes liquidos,11,1,1,542.4


In [5]:
df_maestro.head()

Unnamed: 0,SKU,Categoria
0,HJ1001,Palas
1,HJ1002,Palas
2,HJ1003,Palas
3,HJ1004,Palas
4,HJ1005,Palas


Exploracion del contenido

In [6]:
# 1. Verificar los nombres y tipos de columnas
print("Tipos de datos por columna dagtaset facturacion:")
print(df_facturacion.dtypes)

print("Tipos de datos por columna dagtaset maestro:")
print(df_maestro.dtypes)



Tipos de datos por columna dagtaset facturacion:
Fecha de carga de pedido                object
Fecha de facturacion                    object
Fecha de entrega de producto            object
Codigo de producto                       int64
SKU                                     object
Descripcion                             object
Unidades pedidas                         int64
Unidades facturadas                      int64
Unidades entregadas                      int64
Precio unitario en pesos argentinos    float64
dtype: object
Tipos de datos por columna dagtaset maestro:
SKU          object
Categoria    object
dtype: object


In [7]:
# Unificar formatos de las fechas en el dataset de facturación
columnas_fechas = [
    'Fecha de carga de pedido', 
    'Fecha de facturacion', 
    'Fecha de entrega de producto'
]

for columna in columnas_fechas:
    df_facturacion[columna] = pd.to_datetime(df_facturacion[columna], errors='coerce')

# Verificar si hubo errores al convertir
print("\nVerificación de valores nulos tras convertir fechas:")
print(df_facturacion[columnas_fechas].isnull().sum())

# Verificar valores nulos y en cero en columnas críticas
columnas_criticas = [
    'SKU', 
    'Unidades pedidas', 
    'Unidades facturadas', 
    'Unidades entregadas', 
    'Precio unitario en pesos argentinos'
]

print("\nCantidad de datos nulos en columnas críticas:")
print(df_facturacion[columnas_criticas].isnull().sum())

print("\nCantidad de valores en cero en columnas críticas:")
print((df_facturacion[columnas_criticas] == 0).sum())

# Limpiar valores nulos o reemplazar según corresponda
df_facturacion = df_facturacion.dropna(subset=columnas_criticas)
print("\nDataset después de eliminar filas con nulos en columnas críticas:")
print(df_facturacion.info())

# Verificar la estructura del dataset maestro
print("\nVerificación del dataset maestro:")
print(df_maestro.info())


Verificación de valores nulos tras convertir fechas:
Fecha de carga de pedido        0
Fecha de facturacion            0
Fecha de entrega de producto    0
dtype: int64

Cantidad de datos nulos en columnas críticas:
SKU                                    0
Unidades pedidas                       0
Unidades facturadas                    0
Unidades entregadas                    0
Precio unitario en pesos argentinos    0
dtype: int64

Cantidad de valores en cero en columnas críticas:
SKU                                      0
Unidades pedidas                         0
Unidades facturadas                      0
Unidades entregadas                    674
Precio unitario en pesos argentinos      0
dtype: int64

Dataset después de eliminar filas con nulos en columnas críticas:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99990 entries, 0 to 99989
Data columns (total 10 columns):
 #   Column                               Non-Null Count  Dtype         
---  ------                           

In [8]:
# 4. Describir el DataFrame para entender rangos y distribuciones
print("\nDescripción estadística de los datos facturacion:")
print(df_facturacion.describe(include='all'))

print("\nDescripción estadística de los datos maestro:")
print(df_maestro.describe(include='all'))


Descripción estadística de los datos facturacion:
             Fecha de carga de pedido           Fecha de facturacion  \
count                           99990                          99990   
unique                            NaN                            NaN   
top                               NaN                            NaN   
freq                              NaN                            NaN   
mean    2024-03-26 19:28:09.504950784  2024-03-30 19:21:55.355535872   
min               2023-07-01 00:00:00            2023-07-02 00:00:00   
25%               2023-11-11 00:00:00            2023-11-15 00:00:00   
50%               2024-03-26 12:00:00            2024-03-30 12:00:00   
75%               2024-08-11 00:00:00            2024-08-15 00:00:00   
max               2024-12-21 00:00:00            2024-12-28 00:00:00   
std                               NaN                            NaN   

         Fecha de entrega de producto  Codigo de producto     SKU  \
count          

In [9]:
# Filtrar datos del cuarto trimestre de 2024
df_facturacion_q4 = df_facturacion[
    (df_facturacion['Fecha de facturacion'] >= '2024-10-01') & 
    (df_facturacion['Fecha de facturacion'] <= '2024-12-31')
]

# Seleccionar columnas relevantes
columnas_relevantes = [
    'Fecha de facturacion', 
    'SKU', 
    'Unidades facturadas', 
    'Precio unitario en pesos argentinos'
]
df_facturacion_q4 = df_facturacion_q4[columnas_relevantes]

# Realizar el join con el dataset maestro para agregar la categoría
df_facturacion_q4 = df_facturacion_q4.merge(df_maestro, on='SKU', how='left')

# Verificar el resultado
print("\nDataset final para Q4:")
print(df_facturacion_q4.head())


Dataset final para Q4:
  Fecha de facturacion     SKU  Unidades facturadas  \
0           2024-10-23  HJ1060                   27   
1           2024-10-05  HJ1142                   24   
2           2024-10-17  HJ1197                   20   
3           2024-10-12  HJ1143                   39   
4           2024-10-12  HJ1105                   26   

   Precio unitario en pesos argentinos         Categoria  
0                              7191.95  Tijeras de Podar  
1                              8576.12        Rastrillos  
2                              4120.75    Pulverizadores  
3                              8252.38        Rastrillos  
4                              1843.18        Rastrillos  


In [10]:
# Agregar una columna de monto facturado
df_facturacion_q4['Monto facturado'] = (
    df_facturacion_q4['Unidades facturadas'] * df_facturacion_q4['Precio unitario en pesos argentinos']
)

# Agrupación por categoría
agrupacion_categoria = df_facturacion_q4.groupby('Categoria').agg({
    'Unidades facturadas': 'sum',
    'Monto facturado': 'sum',
    'SKU': 'nunique'  # Cuenta los SKUs únicos vendidos
}).reset_index()

# Total de SKUs disponibles en el maestro
total_skus_maestro = df_maestro['SKU'].nunique()

# Calcular el ratio de SKUs comercializados
agrupacion_categoria['Ratio de SKUs vendidos'] = agrupacion_categoria['SKU'] / total_skus_maestro

# Ordenar por monto facturado (opcional)
agrupacion_categoria = agrupacion_categoria.sort_values(by='Monto facturado', ascending=False)

# Verificar los resultados
print("\nResumen por categoría:")
print(agrupacion_categoria)


Resumen por categoría:
          Categoria  Unidades facturadas  Monto facturado  SKU  \
1    Pulverizadores               115008     7.153290e+08   46   
3  Tijeras de Podar               105877     6.435121e+08   45   
2        Rastrillos               108967     6.241811e+08   43   
0             Palas                99100     5.878857e+08   38   

   Ratio de SKUs vendidos  
1                0.228856  
3                0.223881  
2                0.213930  
0                0.189055  


In [11]:
# Exportar resumen por categoría a CSV
agrupacion_categoria.to_csv('resumen_por_categoria.csv', index=False)

# Exportar datos de facturación filtrados para Q4 a CSV
df_facturacion_q4.to_csv('facturacion_q4.csv', index=False)

print("Archivos exportados: 'resumen_por_categoria.csv' y 'facturacion_q4.csv'")

Archivos exportados: 'resumen_por_categoria.csv' y 'facturacion_q4.csv'


In [12]:
# Asegurar que las columnas sean del tipo adecuado
df_facturacion_q4['Unidades facturadas'] = df_facturacion_q4['Unidades facturadas'].astype(int)
df_facturacion_q4['Precio unitario en pesos argentinos'] = df_facturacion_q4['Precio unitario en pesos argentinos'].round(2)
df_facturacion_q4['Monto facturado'] = df_facturacion_q4['Monto facturado'].round(2)

agrupacion_categoria['Unidades facturadas'] = agrupacion_categoria['Unidades facturadas'].astype(int)
agrupacion_categoria['Monto facturado'] = agrupacion_categoria['Monto facturado'].round(2)
agrupacion_categoria['Ratio de SKUs vendidos'] = agrupacion_categoria['Ratio de SKUs vendidos'].round(4)

# Verificar los cambios
print("\nDataset Q4 después de formatear:")
print(df_facturacion_q4.head())

print("\nResumen por categoría después de formatear:")
print(agrupacion_categoria.head())

# Exportar los archivos formateados
df_facturacion_q4.to_csv('facturacion_q4.csv', index=False)
agrupacion_categoria.to_csv('resumen_por_categoria.csv', index=False)

print("Archivos exportados: 'facturacion_q4.csv' y 'resumen_por_categoria.csv'")


Dataset Q4 después de formatear:
  Fecha de facturacion     SKU  Unidades facturadas  \
0           2024-10-23  HJ1060                   27   
1           2024-10-05  HJ1142                   24   
2           2024-10-17  HJ1197                   20   
3           2024-10-12  HJ1143                   39   
4           2024-10-12  HJ1105                   26   

   Precio unitario en pesos argentinos         Categoria  Monto facturado  
0                              7191.95  Tijeras de Podar        194182.65  
1                              8576.12        Rastrillos        205826.88  
2                              4120.75    Pulverizadores         82415.00  
3                              8252.38        Rastrillos        321842.82  
4                              1843.18        Rastrillos         47922.68  

Resumen por categoría después de formatear:
          Categoria  Unidades facturadas  Monto facturado  SKU  \
1    Pulverizadores               115008     7.153290e+08   46   
3 

In [14]:
# Exportar el dataset Q4 a un archivo Excel
df_facturacion_q4.to_excel('facturacion_q4_formateado.xlsx', index=False)

# Exportar el resumen por categoría a otro archivo Excel
agrupacion_categoria.to_excel('resumen_categoria_formateado.xlsx', index=False)

print("Archivos exportados:")
print("1. 'facturacion_q4_formateado.xlsx'")
print("2. 'resumen_categoria_formateado.xlsx'")

Archivos exportados:
1. 'facturacion_q4_formateado.xlsx'
2. 'resumen_categoria_formateado.xlsx'
