# Ventas acero 2023 - 2024



In [7]:
import pandas as pd
from typing import List

path_acero = "data/ventas_acero.xlsx"

In [8]:
# FUNCTIONS
def get_sheet_names(file_path: str) -> List[str]:
    """
    Get the names of all sheets in an Excel file.

    Args:
    file_path (str): The path to the Excel file from which the sheet names are to be retrieved.

    Returns:
    List[str]: A list of strings, where each string is the name of a sheet in the Excel file.

    Functionality:
    - Reads an Excel file using pandas.
    - Retrieves the names of all sheets in the Excel file.
    """
    # Read the excel file using pandas
    xls = pd.ExcelFile(file_path)
    
    # Get the names of all the sheets in the excel file
    sheet_names = xls.sheet_names
    
    # Return the list of sheet names
    return sheet_names

In [9]:
# Guardar nombres de cada hoja de Excel en el objeto sheet_names
sheet_names = get_sheet_names(path_acero)
print("Sheet names:")
print(sheet_names)

Sheet names:
['aretes_acero', 'aretes_acero_2', 'anillos_acero', 'anillos_acero_2', 'cadenas_acero', 'cadenas_acero_2', 'collar_acero', 'collar_acero_2', 'set_acero', 'set_acero_2', 'pulseras_acero', 'pulseras_acero_2', 'dijes_acero', 'dijes_acero_2', 'accesorios_acero', 'varios_acero', 'ssv_acero']


In [10]:
# 3. Use a for loop to read spreadsheets in sheet_names and append them in a list
# VALIDATION: Algunas columnas en el archivo original tenían mal el año. Por ejemplo diciembre de 2024
# se necesito fix manual en el archivo original 

list_of_df = []
for s in sheet_names:
    print(f"\nSheet Name: {s}")
    # Read sheet and add new column with sheet name
    df = pd.read_excel(path_acero, sheet_name=s)
    df["source"] = s
    
    # Append and print info
    list_of_df.append(df)
    print(f"Shape: {df.shape}")
    for n in df.columns :
        print(n)


Sheet Name: aretes_acero
Shape: (380, 322)
COD
NUM
2023/03/15
2023/03/16
2023/03/17
2023/03/18
2023/03/20
2023/03/21
2023/03/22
2023/03/23
2023/03/24
2023/03/25
2023/03/28
2023/03/31
2023/04/01
2023/04/03
2023/04/04
2023/04/05
2023/04/06
2023/04/08
2023/04/10
2023/04/11
2023/04/12
2023/04/13
2023/04/14
2023/04/15
2023/04/18
2023/04/19
2023/04/20
2023/04/22
2023/04/24
2023/04/25
2023/04/26
2023/04/27
2023/04/29
2023/05/01
2023/05/02
2023/05/03
2023/05/04
2023/05/05
2023/05/06
2023/05/07
2023/05/09
2023/05/11
2023/05/12
2023/05/13
2023/05/15
2023/05/16
2023/05/17
2023/05/18
2023/05/20
2023/05/23
2023/05/25
2023/05/26
2023/05/27
2023/05/29
2023/05/30
2023/05/31
2023/06/02
2023/06/05
2023/06/08
2023/06/09
2023/06/10
2023/06/13
2023/06/16
2023/06/17
2023/06/19
2023/06/21
2023/06/22
2023/06/23
2023/06/24
2023/06/27
2023/06/29
2023/06/30
2023/07/03
2023/07/05
2023/07/06
2023/07/07
2023/07/08
2023/07/10
2023/07/12
2023/07/14
2023/07/15
2023/07/17
2023/07/18
2023/07/19
2023/07/20
2023/07/21
20

# Data Cleaning

In [11]:
# A. Creamos dataframe all concatenando todos los df de la lista list_of_df
# B. Convertimos los nombres de las columnas a str filtrando los 10 primeros caracteres
#    esto permite uniformizar los nombres de columnas repetidas en el archivo original

all = pd.concat(list_of_df)
print(f"Sheet Name: all")
print(f"Shape: {all.shape}")
all.columns= [str(c)[:10] for c in all.columns]

Sheet Name: all
Shape: (1080, 419)


In [12]:
# C. Verificar tipos de datos de cada columna
# Las columnas de fechas deben ser float ya que contienen numeros entero y valores perdidos
for columna,tipo in zip(all.columns, all.dtypes):
    print(f'La columna {columna} es de tipo {tipo}')


La columna COD es de tipo object
La columna NUM es de tipo float64
La columna 2023/03/15 es de tipo float64
La columna 2023/03/16 es de tipo float64
La columna 2023/03/17 es de tipo float64
La columna 2023/03/18 es de tipo float64
La columna 2023/03/20 es de tipo float64
La columna 2023/03/21 es de tipo float64
La columna 2023/03/22 es de tipo float64
La columna 2023/03/23 es de tipo float64
La columna 2023/03/24 es de tipo float64
La columna 2023/03/25 es de tipo float64
La columna 2023/03/28 es de tipo float64
La columna 2023/03/31 es de tipo float64
La columna 2023/04/01 es de tipo float64
La columna 2023/04/03 es de tipo float64
La columna 2023/04/04 es de tipo float64
La columna 2023/04/05 es de tipo float64
La columna 2023/04/06 es de tipo float64
La columna 2023/04/08 es de tipo float64
La columna 2023/04/10 es de tipo float64
La columna 2023/04/11 es de tipo float64
La columna 2023/04/12 es de tipo float64
La columna 2023/04/13 es de tipo float64
La columna 2023/04/14 es de tip

In [14]:
# D. Melt: De formato wide a formato long
# Especificar las columnas que no deben ser melted
id_vars = ['COD', 'NUM', 'source']

# Realizar el melt del dataframe
all_melted = pd.melt(all, id_vars=id_vars, var_name='fecha_venta', value_name='count_items')
all_melted.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 449280 entries, 0 to 449279
Data columns (total 5 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   COD          449280 non-null  object 
 1   NUM          448864 non-null  float64
 2   source       449280 non-null  object 
 3   fecha_venta  449280 non-null  object 
 4   count_items  1969 non-null    object 
dtypes: float64(1), object(4)
memory usage: 17.1+ MB


In [15]:
# E. Eliminar las filas con valores perdidos en la columna 'count_items'
# Esto corresponde a items que no tienen ingresos registrados
all_melted.dropna(subset=['count_items'], inplace=True)
all_melted.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1969 entries, 104 to 449269
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   COD          1969 non-null   object 
 1   NUM          1969 non-null   float64
 2   source       1969 non-null   object 
 3   fecha_venta  1969 non-null   object 
 4   count_items  1969 non-null   object 
dtypes: float64(1), object(4)
memory usage: 92.3+ KB


In [16]:
# F. Catch values with count_items == 0 and clean in file
print("Count items with values = 0")
print(all_melted[all_melted.count_items<=0][['COD', 'NUM', 'DET','source', 'fecha_venta', 'count_items']])

# G. Fecha venta validaciónd del largo
print("\n Lenght of fecha_ingreso")
print(all_melted.fecha_venta.str.len().value_counts(dropna=False))

Count items with values = 0


TypeError: '<=' not supported between instances of 'str' and 'int'

In [None]:
# H. Ajustar los data types
# Count items to int64
all_melted["count_items"] = all_melted.count_items.astype("Int64")

# fecha_venta to datetime- Format "dd/mm/yy"
all_melted["fecha_venta"] = pd.to_datetime(all_melted.fecha_venta, errors='raise')  

all_melted.info()

In [None]:
# I. Preview del dataset
all_melted.head()

# Save file

In [None]:
# 4. Save dataframe as Excel
all_melted.to_excel("data/clean_files/ventas_plata_melted.xlsx", index=False)