In [1]:
import pandas as pd
import numpy as np

In [2]:
# Creamos un diccionario con datos de ejemplo
data = {
    'ID_Cliente': [101, 102, 103, 104, 105, 101, 106, 107, 108, 109],
    'Region': ['Norte', 'Sur', 'Este', 'Norte', 'Oeste', 'Norte', 'Sur', 'Este', np.nan, 'Oeste'],
    'Producto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Unidades': [10, 5, 8, 12, 5, 10, 15, 9, 7, np.nan],
    'Precio_Total': [150.0, 200.5, 120.0, 300.0, 210.5, 150.0, 450.0, 180.5, 105.0, 250.0]
}

# Convertimos el diccionario a un DataFrame de Pandas
df_origen = pd.DataFrame(data)

# Guardamos el DataFrame en un archivo CSV
df_origen.to_csv('dataset_ventas.csv', index=False)

print("El archivo 'dataset_ventas.csv' ha sido creado.")

El archivo 'dataset_ventas.csv' ha sido creado.


# 1. Carga y Exploración de Datos

In [3]:
# 1.a. Importa un dataset en formato CSV en un DataFrame.
df = pd.read_csv('dataset_ventas.csv')

print("---  ---")

# 1.b. Inspecciona los datos con .head(), .info() y .describe().
print("\nInspección con .head() (primeras 5 filas):")
print(df.head())

print("\nInspección con .info() (tipos de datos y valores no nulos):")
df.info()

print("\nInspección con .describe() (estadísticas descriptivas para columnas numéricas):")
print(df.describe())

# 1.c. Identifica valores nulos y duplicados.
print("\nConteo de valores nulos por columna:")
print(df.isnull().sum())

print(f"\nNúmero total de filas duplicadas: {df.duplicated().sum()}")

--- 1. Carga y Exploración de Datos ---

Inspección con .head() (primeras 5 filas):
   ID_Cliente Region Producto  Unidades  Precio_Total
0         101  Norte        A      10.0         150.0
1         102    Sur        B       5.0         200.5
2         103   Este        A       8.0         120.0
3         104  Norte        C      12.0         300.0
4         105  Oeste        B       5.0         210.5

Inspección con .info() (tipos de datos y valores no nulos):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ID_Cliente    10 non-null     int64  
 1   Region        9 non-null      object 
 2   Producto      10 non-null     object 
 3   Unidades      9 non-null      float64
 4   Precio_Total  10 non-null     float64
dtypes: float64(2), int64(1), object(2)
memory usage: 528.0+ bytes

Inspección con .describe() (estadísticas descriptivas para co

# 2. Limpieza y Transformación de Datos

In [5]:
# Hacemos una copia para no alterar el DataFrame original cargado
df_limpio = df.copy()

# 2.a. Imputa valores nulos utilizando estrategias adecuadas.
# Para la columna numérica 'Unidades', usamos la mediana, que es robusta a outliers.
mediana_unidades = df_limpio['Unidades'].median()
df_limpio['Unidades'].fillna(mediana_unidades, inplace=True)
print(f"\nValor nulo en 'Unidades' imputado con la mediana ({mediana_unidades}).")

# Para la columna categórica 'Region', usamos la moda (el valor más frecuente).
moda_region = df_limpio['Region'].mode()[0]
df_limpio['Region'].fillna(moda_region, inplace=True)
print(f"Valor nulo en 'Region' imputado con la moda ('{moda_region}').")

# Verificamos que ya no hay nulos
print("\nConteo de nulos después de la imputación:")
print(df_limpio.isnull().sum())

# 2.b. Elimina registros duplicados.
df_limpio.drop_duplicates(inplace=True)
print("\nRegistros duplicados eliminados.")
print(f"Número de filas después de eliminar duplicados: {len(df_limpio)}")

# 2.c. Convierte columnas categóricas en variables numéricas si es necesario.
# La columna 'Region' es categórica. Usaremos One-Hot Encoding para convertirla
# en variables numéricas, lo cual es ideal para algoritmos de machine learning.
df_limpio = pd.get_dummies(df_limpio, columns=['Region'], prefix='R')
print("\nColumnas categóricas convertidas a numéricas con One-Hot Encoding:")
print(df_limpio)


--- 2. Limpieza y Transformación de Datos ---

Valor nulo en 'Unidades' imputado con la mediana (9.0).
Valor nulo en 'Region' imputado con la moda ('Norte').

Conteo de nulos después de la imputación:
ID_Cliente      0
Region          0
Producto        0
Unidades        0
Precio_Total    0
dtype: int64

Registros duplicados eliminados.
Número de filas después de eliminar duplicados: 9

Columnas categóricas convertidas a numéricas con One-Hot Encoding:
   ID_Cliente Producto  Unidades  Precio_Total  R_Este  R_Norte  R_Oeste  \
0         101        A      10.0         150.0   False     True    False   
1         102        B       5.0         200.5   False    False    False   
2         103        A       8.0         120.0    True    False    False   
3         104        C      12.0         300.0   False     True    False   
4         105        B       5.0         210.5   False    False     True   
6         106        C      15.0         450.0   False    False    False   
7         1

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_limpio['Unidades'].fillna(mediana_unidades, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_limpio['Region'].fillna(moda_region, inplace=True)


# 3. Optimización y Estructuración de Datos

In [8]:
df_optimizado = df_limpio.copy()

# 3.a. Aplica funciones de groupby y agregación.
# Vamos a agrupar por 'Producto' y calcular el total de unidades vendidas y el promedio del precio.
resumen_por_producto = df_optimizado.groupby('Producto').agg(
    Total_Unidades=('Unidades', 'sum'),
    Precio_Promedio=('Precio_Total', 'mean')
)
print("\nAgregación de datos por producto:")
print(resumen_por_producto)

# 3.b. Filtra los datos para obtener subconjuntos de interés.
# Vamos a quedarnos solo con las ventas cuyo precio total fue mayor a 200.
ventas_grandes = df_optimizado[df_optimizado['Precio_Total'] > 200].copy()
print("\nSubconjunto de datos filtrado (ventas con Precio_Total > 200):")
print(ventas_grandes)

# 3.c. Renombra y reorganiza columnas para mejorar la interpretación.
# Vamos a trabajar con el dataframe 'ventas_grandes'
ventas_grandes.rename(columns={
    'ID_Cliente': 'ID Cliente',
    'Producto': 'SKU',
    'Unidades': 'Nro Unidades',
    'Precio_Total': 'Venta Bruta'
}, inplace=True)

# Reorganizamos el orden de las columnas para que sea más lógico
columnas_ordenadas = [
    'ID Cliente', 'SKU', 'Nro Unidades', 'Venta Bruta',
    'R_Este', 'R_Norte', 'R_Oeste', 'R_Sur'
]
ventas_grandes = ventas_grandes[columnas_ordenadas]
print("\nDataFrame final con columnas renombradas y reorganizadas:")
print(ventas_grandes)


--- 3. Optimización y Estructuración de Datos ---

Agregación de datos por producto:
          Total_Unidades  Precio_Promedio
Producto                                 
A                   25.0       125.000000
B                   19.0       197.166667
C                   36.0       333.333333

Subconjunto de datos filtrado (ventas con Precio_Total > 200):
   ID_Cliente Producto  Unidades  Precio_Total  R_Este  R_Norte  R_Oeste  \
1         102        B       5.0         200.5   False    False    False   
3         104        C      12.0         300.0   False     True    False   
4         105        B       5.0         210.5   False    False     True   
6         106        C      15.0         450.0   False    False    False   
9         109        C       9.0         250.0   False    False     True   

   R_Sur  
1   True  
3  False  
4  False  
6   True  
9  False  

DataFrame final con columnas renombradas y reorganizadas:
   ID Cliente SKU  Nro Unidades  Venta Bruta  R_Este  R_No

# 4. Exportación de Datos

In [9]:
# Usaremos el DataFrame 'ventas_grandes' como nuestro resultado final a exportar.

# 4.a. Guarda el DataFrame procesado en un archivo CSV sin incluir el índice.
ventas_grandes.to_csv('reporte_ventas_filtrado.csv', index=False)
print("\nDataFrame procesado guardado en 'reporte_ventas_filtrado.csv'")

# 4.b. Exporta los datos limpios a Excel para su visualización y reporte.
ventas_grandes.to_excel('reporte_ventas_filtrado.xlsx', index=False, sheet_name='Ventas Clave')
print("DataFrame procesado exportado a 'reporte_ventas_filtrado.xlsx'")


--- 4. Exportación de Datos ---

DataFrame procesado guardado en 'reporte_ventas_filtrado.csv'
DataFrame procesado exportado a 'reporte_ventas_filtrado.xlsx'
