# Ventas plata 2023 - 2024



In [1]:
import pandas as pd
from typing import List

path_plata = "data/ventas_plata.xlsx"
ventas_plata = pd.read_excel(path_plata)

In [2]:
# FUNCTIONS
def get_sheet_names(file_path: str) -> List[str]:
    """
    Get the names of all sheets in an Excel file.

    Args:
    file_path (str): The path to the Excel file from which the sheet names are to be retrieved.

    Returns:
    List[str]: A list of strings, where each string is the name of a sheet in the Excel file.

    Functionality:
    - Reads an Excel file using pandas.
    - Retrieves the names of all sheets in the Excel file.
    """
    # Read the excel file using pandas
    xls = pd.ExcelFile(file_path)
    
    # Get the names of all the sheets in the excel file
    sheet_names = xls.sheet_names
    
    # Return the list of sheet names
    return sheet_names

In [4]:
# Guardar nombres de cada hoja de Excel en el objeto sheet_names
sheet_names = get_sheet_names(path_plata)
print("Sheet names:")
print(sheet_names)

Sheet names:
['anillos_plata', 'varios_plata', 'aretes_plata', 'sets_plata', 'pulseras_plata', 'dijes_plata', 'cadenas_plata', 'collares_plata', 'collares_varios_plata', 'juegos_piedras_plata', 'pc_piedras_plata']


In [5]:
# 3. Use a for loop to read spreadsheets in sheet_names and append them in a list
# VALIDATION: Algunas columnas en el archivo original tenían mal el año. Por ejemplo diciembre de 2024
# se necesito fix manual en el archivo original 

list_of_df = []
for s in sheet_names:
    print(f"\nSheet Name: {s}")
    # Read sheet and add new column with sheet name
    df = pd.read_excel(path_plata, sheet_name=s)
    df["source"] = s
    
    # Append and print info
    list_of_df.append(df)
    print(f"Shape: {df.shape}")
    for n in df.columns :
        print(n)


Sheet Name: anillos_plata
Shape: (362, 188)
COD
NUM
DET
2023/03/20
2023/03/23
2023/03/28
2023/03/31
2023/04/01
2023/04/04
2023/04/12
2023/04/13
2023/04/15
2023/04/18
2023/04/21
2023/04/25
2023/04/29
2023/05/02
2023/05/05
2023/05/07
2023/05/09
2023/05/10
2023/05/19
2023/05/25
2023/05/26
2023/06/01
2023/06/02
2023/06/05
2023/06/07
2023/06/09
2023/06/19
2023/06/20
2023/06/21
2023/06/24
2023/06/26
2023/07/04
2023/07/05
2023/07/07
2023/07/10
2023/07/11
2023/07/19
2023/07/26
2023/07/27
2023/08/02
2023/08/07
2023/08/11
2023/08/29
2023/08/30
2023/09/15
2023/09/18
2023/09/21
2023/09/22
2023/09/26
2023/09/30
2023/10/05
2023/10/13
2023/10/23
2023/10/27
2023/11/01
2023/11/02
2023/11/08
2023/11/09
2023/11/10
2023/11/13
2023/11/14
2023/11/16
2023/11/17
2023/11/18
2023/11/19
2023/11/20
2023/11/21
2023/11/24
2023/11/25
2023/11/26
2023/11/27
2023/11/28
2023/11/29
2023/11/30
2023/12/01
2023/12/03
2023/12/04
2023/12/05
2023/12/07
2023/12/08
2023/12/09
2023/12/12
2023/12/14
2023/12/15
2023/12/18
2023/12/

# Data Cleaning

In [37]:
# A. Creamos dataframe all concatenando todos los df de la lista list_of_df
# B. Convertimos los nombres de las columnas a str filtrando los 10 primeros caracteres
#    esto permite uniformizar los nombres de columnas repetidas en el archivo original

all = pd.concat(list_of_df)
print(f"Sheet Name: all")
print(f"Shape: {all.shape}")
all.columns= [str(c)[:10] for c in all.columns]

Sheet Name: all
Shape: (2662, 449)


In [38]:
# C. Verificar tipos de datos de cada columna
# Las columnas de fechas deben ser float ya que contienen numeros entero y valores perdidos
for columna,tipo in zip(all.columns, all.dtypes):
    print(f'La columna {columna} es de tipo {tipo}')


La columna COD es de tipo object
La columna NUM es de tipo object
La columna DET es de tipo object
La columna 2023/03/20 es de tipo float64
La columna 2023/03/23 es de tipo float64
La columna 2023/03/28 es de tipo float64
La columna 2023/03/31 es de tipo float64
La columna 2023/04/01 es de tipo float64
La columna 2023/04/04 es de tipo float64
La columna 2023/04/12 es de tipo float64
La columna 2023/04/13 es de tipo float64
La columna 2023/04/15 es de tipo float64
La columna 2023/04/18 es de tipo float64
La columna 2023/04/21 es de tipo float64
La columna 2023/04/25 es de tipo float64
La columna 2023/04/29 es de tipo float64
La columna 2023/05/02 es de tipo float64
La columna 2023/05/05 es de tipo float64
La columna 2023/05/07 es de tipo float64
La columna 2023/05/09 es de tipo float64
La columna 2023/05/10 es de tipo float64
La columna 2023/05/19 es de tipo float64
La columna 2023/05/25 es de tipo float64
La columna 2023/05/26 es de tipo float64
La columna 2023/06/01 es de tipo float64

In [39]:
# D. Melt: De formato wide a formato long
# Especificar las columnas que no deben ser melted
id_vars = ['COD', 'NUM', 'DET', 'source']

# Realizar el melt del dataframe
all_melted = pd.melt(all, id_vars=id_vars, var_name='fecha_venta', value_name='count_items')
all_melted.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1184590 entries, 0 to 1184589
Data columns (total 6 columns):
 #   Column       Non-Null Count    Dtype  
---  ------       --------------    -----  
 0   COD          1184590 non-null  object 
 1   NUM          1184590 non-null  object 
 2   DET          106355 non-null   object 
 3   source       1184590 non-null  object 
 4   fecha_venta  1184590 non-null  object 
 5   count_items  3848 non-null     float64
dtypes: float64(1), object(5)
memory usage: 54.2+ MB


In [40]:
# E. Eliminar las filas con valores perdidos en la columna 'count_items'
# Esto corresponde a items que no tienen ingresos registrados
all_melted.dropna(subset=['count_items'], inplace=True)
all_melted.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3848 entries, 174 to 1184536
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   COD          3848 non-null   object 
 1   NUM          3848 non-null   object 
 2   DET          151 non-null    object 
 3   source       3848 non-null   object 
 4   fecha_venta  3848 non-null   object 
 5   count_items  3848 non-null   float64
dtypes: float64(1), object(5)
memory usage: 210.4+ KB


In [41]:
# F. Catch values with count_items == 0 and clean in file
print("Count items with values = 0")
print(all_melted[all_melted.count_items<=0][['COD', 'NUM', 'DET','source', 'fecha_venta', 'count_items']])

# G. Fecha venta validaciónd del largo
print("\n Lenght of fecha_ingreso")
print(all_melted.fecha_venta.str.len().value_counts(dropna=False))

Count items with values = 0
Empty DataFrame
Columns: [COD, NUM, DET, source, fecha_venta, count_items]
Index: []

 Lenght of fecha_ingreso
fecha_venta
10    3848
Name: count, dtype: int64


In [31]:
# H. Ajustar los data types
# Count items to int64
all_melted["count_items"] = all_melted.count_items.astype("Int64")

# fecha_venta to datetime- Format "dd/mm/yy"
all_melted["fecha_venta"] = pd.to_datetime(all_melted.fecha_venta, errors='raise')  

all_melted.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3848 entries, 174 to 1184536
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   COD          3848 non-null   object        
 1   NUM          3848 non-null   object        
 2   DET          151 non-null    object        
 3   source       3848 non-null   object        
 4   fecha_venta  3848 non-null   datetime64[ns]
 5   count_items  3848 non-null   Int64         
dtypes: Int64(1), datetime64[ns](1), object(4)
memory usage: 214.2+ KB


In [33]:
# I. Preview del dataset
all_melted.head()

Unnamed: 0,COD,NUM,DET,source,fecha_venta,count_items
174,AP,102,,anillos_plata,2023-03-20,1
667,AR,285,,aretes_plata,2023-03-20,1
715,AR,333,,aretes_plata,2023-03-20,1
1281,PPL,33,,pulseras_plata,2023-03-20,1
1282,PPL,34,,pulseras_plata,2023-03-20,1


# Save file

In [34]:
# 4. Save dataframe as Excel
all_melted.to_excel("data/clean_files/ventas_plata_melted.xlsx", index=False)