In [1]:
# Carga de modulos a emplear
import sys
import os
import pandas as pd

# Agregar la carpeta raíz del proyecto a las rutas de búsqueda de Python
base_dir = os.getcwd()  # Obtiene el directorio actual (donde está la libreta)
sys.path.append(base_dir)  # Agrega la carpeta raíz del proyecto a las rutas de búsqueda

# Importar las funciones desde helpers.importar_data
from helpers.importar_data import cargar_datos_excel
from helpers.guardar_dato import guardar_dataframe

# Extracción de datos

In [2]:
# Definimos las pestañas a cargar
sheets_to_load = ["Base Ventas", "Productos", "Ciudad"]

# Cargamos los datos desde el Excel
datos = cargar_datos_excel(base_dir, sheets=sheets_to_load)

# Accesamos a los Dataframes
ventas_df = datos["Base Ventas"]
productos_df = datos["Productos"]
ciudad_df = datos["Ciudad"]

# Limpieza del dato

## Base Ventas
**Cod_orden** tiene la pinta de ser un identificador unico (**Llave primaria**) para cada pedido, por lo cual verificariamos que no existan duplicados ni valores nulos.

In [3]:
print(f"Duplicados en Cod_orden: {ventas_df['Cod_orden'].duplicated().sum()}")
print(f"Valores nulos en Cod_orden: {ventas_df['Cod_orden'].isnull().sum()}")

Duplicados en Cod_orden: 0
Valores nulos en Cod_orden: 0


**Cod_Producto** tiene los codigos numericos del codigo de cada producto, en este caso seria una **llave foranea** de la **tabla Productos** en la columna que lleva el mismo nombre **Cod_Producto**.

Vamos a confirmar que todos los valores correspondan a codigos validos y consistentes y vamos a verificar esta columna con la tabla Productos para verificar la integridad (relación con llaves foráneas).

In [4]:
print(f"Valores únicos en Cod_Producto: {ventas_df['Cod_Producto'].nunique()}")

Valores únicos en Cod_Producto: 12


Tenemos 12 valores unicos de productos en la columna Cod_Producto, lo que es consistente con los 12 diferentes productos de la tabla Productos.

**Cod_Ciudad** tiene los codigos numericos de diferentes ciudades, en este caso seria una **llave foranea** de la **tabla Ciudad** en la columna con el mismo nombre *Cod_Ciudad*.

Vamos a segurarnos que todos los codigos correspondan a valores válidos de la tabla Ciudad y verificar si hay valores nulos.

In [5]:
print(f"Valores únicos en Cod_Ciudad: {ventas_df['Cod_Ciudad'].nunique()}")

Valores únicos en Cod_Ciudad: 5


Tenemos 5 valores unicos de productos en la columna Cod_Ciudad, lo que es consistente con los 5 diferentes productos de la tabla Ciudad.

**Unidades_Vendidas** contiene los valores numericos de ventas de los productos en una fecha determinada. Vamos a verificar si existen valores negativos o cero, asi como revisar la distribucion de las ventas para detectar valores atipicos.

In [6]:
print(ventas_df['Unidades_Vendidas'].describe())
print(f"Valores negativos en Unidades_Vendidas: {(ventas_df['Unidades_Vendidas'] < 0).sum()}")

count    1299.000000
mean        3.099307
std         1.424037
min         1.000000
25%         2.000000
50%         3.000000
75%         4.000000
max         5.000000
Name: Unidades_Vendidas, dtype: float64
Valores negativos en Unidades_Vendidas: 0


La desviación estándar es 1.42, lo que indica que las ventas están moderadamente dispersas alrededor de la media.

Dado que la media y la mediana son casi iguales, la distribución parece ser simétrica, sin una presencia significativa de valores extremos (outliers).

**Fecha_Orden** contiene las fechas de las unidades vendidas, vamos a confirmar que los valores esten en formato de fecha y buscaremos valores fuera del rango esperado (fechas futuras o inconsistencias).

In [7]:
# Cambiamos el tipo de dato a datetime.
ventas_df['Fecha_orden'] = pd.to_datetime(ventas_df['Fecha_orden'], errors='coerce')
print(f"Fechas inválidas: {ventas_df['Fecha_orden'].isnull().sum()}")
print(f"Rango de fechas: {ventas_df['Fecha_orden'].min()} - {ventas_df['Fecha_orden'].max()}")

Fechas inválidas: 0
Rango de fechas: 2024-01-01 00:00:00 - 2024-03-31 00:00:00


No tenemos formatos de fecha invalidas y el rango de fechas va del 01 de enero del 2024 al 31 de marzo del 2024.

**Tipo_Venta** contiene el giro de quien realizo la venta, Nos vamos a segurar que todos los valores sean consistentes y buscar valores inesperados o mal escritos.

In [8]:
print(f"Valores únicos en Tipo_Venta: {ventas_df['Tipo_Venta'].unique()}")

Valores únicos en Tipo_Venta: ['TIENDA' 'DOMICILIO']


In [9]:
# Cambiar los nombres de las columnas a minúsculas
ventas_df.columns = ventas_df.columns.str.lower()

In [10]:
# Ordenar por fecha
ventas_df = ventas_df.sort_values(by="fecha_orden").reset_index()

Solo existen dos valores TIENDA y DOMICILIO.

## Productos

**Cod_Producto** contiene el codigo para cada producto, es la **llave primaria de esta tabla** y es una **llave foranea en la tabla Base Ventas**. 

Vamos a verificar que no haya duplicados y asegurarnos que no existan valores nulos.

In [11]:
print(f"Duplicados en Cod_Producto: {productos_df['Cod_Producto'].duplicated().sum()}")
print(f"Valores nulos en Cod_Producto: {productos_df['Cod_Producto'].isnull().sum()}")

Duplicados en Cod_Producto: 0
Valores nulos en Cod_Producto: 0


**Nom_producto** contiene los nombres de los productos, vamos a revisar si tenemos valores duplicados y comprobar que no existan nombres en blanco o nulos.

In [12]:
print(f"Duplicados en Nom_producto: {productos_df['Nom_producto'].duplicated().sum()}")
print(f"Valores nulos en Nom_producto: {productos_df['Nom_producto'].isnull().sum()}")

Duplicados en Nom_producto: 0
Valores nulos en Nom_producto: 0


**Precio_Unitario** y **Costo_Unitario** contienen los costos y precios unitarios de los productos. Vamos a convertir los valores a formato numerico para conservar solo numeros (la columna cuanta con simbolos como *$* y comas). 


Nos vamos a asegurar de que Costo_Unitario sea menor o igual a Precio_Unitario, pues esta no deberian haber productos que se vendan por debajo de su costo.

Revisaremos posibles valores extremos o atípicos.

In [13]:
# Convertir columnas a numérico eliminando el símbolo de dólar y las comas
productos_df['Precio_Unitario'] = productos_df['Precio_Unitario'].replace('[\$,]', '', regex=True).astype(float)
productos_df['Costo_Unitario'] = productos_df['Costo_Unitario'].replace('[\$,]', '', regex=True).astype(float)

# Verificar si hay inconsistencias de costo/precio
inconsistencia_costo = productos_df[productos_df['Costo_Unitario'] > productos_df['Precio_Unitario']]
print("Productos con Costo_Unitario mayor al Precio_Unitario:")
print(inconsistencia_costo)

Productos con Costo_Unitario mayor al Precio_Unitario:
Empty DataFrame
Columns: [Cod_Producto, Nom_producto, Precio_Unitario, Categoria, Costo_Unitario]
Index: []


**Categoria** contiene valores categoricos de la calidad del producto, vamos a revisar los valores únicos para detectar categorías mal escritas o inconsistentes, asi como la cantidad de productos que pertenecen a cada categoria.

In [14]:
print(f"Categorías únicas: {productos_df['Categoria'].unique()}")
print("Conteo por categoría:")
print(productos_df['Categoria'].value_counts())

Categorías únicas: ['MEGA' 'BARRILITO' 'PREMIUM']
Conteo por categoría:
Categoria
MEGA         4
BARRILITO    4
PREMIUM      4
Name: count, dtype: int64


Podemos observar que hay 3 tipos de categorias:
* MEGA.
* BARRILITO.
* PREMIUM.

Se tienen 4 productos para cada categoria.

In [15]:
# Cambiar los nombres de las columnas a minúsculas
productos_df.columns = productos_df.columns.str.lower()

## Ciudad

**Cod_ciudad** contiene el codigo numerico asignado a diferentes ciudades. Vamos a verificar que cada código sea único, ademas de asegurarnos de que no existen valores nulos.

In [16]:
print(f"Duplicados en Cod_ciudad: {ciudad_df['Cod_ciudad'].duplicated().sum()}")
print(f"Valores nulos en Cod_ciudad: {ciudad_df['Cod_ciudad'].isnull().sum()}")

Duplicados en Cod_ciudad: 0
Valores nulos en Cod_ciudad: 1


In [17]:
# Revisamos los valores nulos en la columna Cod_ciudad
print(f"Valores unicos de en Con_ciudad: {ciudad_df['Cod_ciudad'].unique()}")

Valores unicos de en Con_ciudad: [1 2 3 4 5 nan
 '*El costo del domicilio es el mismo sin importar el número de unidades de la orden']


In [18]:
# Eliminar filas con el valor inválido
ciudad_df = ciudad_df[ciudad_df['Cod_ciudad'] != '*El costo del domicilio es el mismo sin importar el número de unidades de la orden']

# Manejar valores nulos (opción: eliminar)
ciudad_df = ciudad_df.dropna(subset=['Cod_ciudad'])

# Revisión de valores únicos después de limpiar
print(f"Valores únicos en Cod_ciudad después de limpiar: {ciudad_df['Cod_ciudad'].unique()}")

Valores únicos en Cod_ciudad después de limpiar: [1 2 3 4 5]


La columna **Ciudad** contienelos nombres de las ciudades. Vamos a revisar los nombres de las ciudades para detectar inconsistencias como duplicados con errores de escritura o espacios en blanco, ademas, vamos a normalizar los nombres (minisculas, sin espacios adicionales).

In [19]:
print(f"Ciudades únicas: {ciudad_df['Ciudad'].unique()}")
ciudad_df['Ciudad'] = ciudad_df['Ciudad'].str.strip().str.upper()  # Normalizar
print(f"Ciudades normalizadas: {ciudad_df['Ciudad'].unique()}")

Ciudades únicas: ['BOGOTA' 'LIMA' 'MONTERREY' 'LEÓN' 'MADRID']
Ciudades normalizadas: ['BOGOTA' 'LIMA' 'MONTERREY' 'LEÓN' 'MADRID']


**Costo_Asociado_al_domicilio** incluye el valor en unidades de dinero por el envio a domicilio dependiendo las ciudades. Vamos a convertir el costo a formato numérico (elimina símbolos $ y comas) y verficar si hay valores nulos o inconsistencias.

In [20]:
ciudad_df['Costo_Asociado_al_domicilio'] = ciudad_df['Costo_Asociado_al_domicilio'].replace('[\$,]', '', regex=True).astype(float)


In [21]:
# Cambiar los nombres de las columnas a minúsculas
ciudad_df.columns = ciudad_df.columns.str.lower()

# Guardar lo datos limpios

In [22]:
# Guardar el dataframe limpio de ventas
guardar_dataframe(ventas_df, base_dir, "ventas_limpio.csv")
# Guardar el dataframe limpio de productos
guardar_dataframe(productos_df, base_dir, "productos_limpio.csv")
# Guardar el dataframe limpio de ciudad
guardar_dataframe(ciudad_df, base_dir, "ciudad_limpio.csv")

Archivo limpio guardado en: f:\Python\Entrevistas\modelo\data\procesados\ventas_limpio.csv
Archivo limpio guardado en: f:\Python\Entrevistas\modelo\data\procesados\productos_limpio.csv
Archivo limpio guardado en: f:\Python\Entrevistas\modelo\data\procesados\ciudad_limpio.csv


'f:\\Python\\Entrevistas\\modelo\\data\\procesados\\ciudad_limpio.csv'