## 0) Importación librerías necesarias

In [1]:
# Importación de librerías necesarias
import pandas as pd
import numpy as np

# Verificación de versiones instaladas
print(f"¡Pandas importado! La versión de Pandas es: {pd.__version__}")
print(f"¡NumPy importado! La versión de NumPy es: {np.__version__}")

¡Pandas importado! La versión de Pandas es: 2.2.2
¡NumPy importado! La versión de NumPy es: 1.26.4


## 1) Carga y exploración de datos

In [2]:
#Importa un dataset en formato CSV en un DataFrame.
df_ventas = pd.read_csv('datos_ventas.csv')

#Inspecciona los datos con .head(), .info() y .describe().
print("El DataFrame Datos Ventas ha sido cargado exitosamente.")
print("\nDatos ventas\n")
print(f"{df_ventas.head()}\n")
print("\nInformación importante del DataFrame\n")
print(f"{df_ventas.info()}\n")
print("\nEstadística básica\n")
print(f"{df_ventas.describe()}\n")

#Identifica valores nulos y duplicados.
print(f"\nCantidad de nulos por columna")
print(df_ventas.isnull().sum())
print(f"\nCantidad de nulos por fila")
print(df_ventas.isnull().sum(axis=1))

duplicados = df_ventas.duplicated().sum()
print(f"\nEn el DataFrame hay {duplicados} datos duplicados")

El DataFrame Datos Ventas ha sido cargado exitosamente.

Datos ventas

   ID   Producto   Categoría  Precio  Cantidad      Ciudad Fecha_Venta
0   1     Laptop  Tecnología   800.0       5.0    Santiago  2025-01-01
1   2      Mouse  Accesorios    25.0      20.0  Valparaíso  2025-01-02
2   3    Teclado  Accesorios    45.0      10.0  Concepción  2025-01-03
3   4    Monitor  Tecnología   200.0       7.0   La Serena  2025-01-04
4   5  Impresora     Oficina   150.0       4.0    Rancagua  2025-01-05


Información importante del DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 7 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   ID           24 non-null     int64  
 1   Producto     23 non-null     object 
 2   Categoría    22 non-null     object 
 3   Precio       22 non-null     float64
 4   Cantidad     22 non-null     float64
 5   Ciudad       23 non-null     object 
 6   Fecha_Venta  22 non-

## 2) Limpieza y transformación de datos

In [10]:
print(f"Categoría: {df_ventas['Categoría'].unique()}")

Categoría: ['Tecnología' 'Accesorios' 'Oficina' 'Fotografía' nan]


In [26]:
#Imputa valores nulos utilizando estrategias adecuadas (media,mediana o moda).
df_ventas['Precio'].fillna(df_ventas['Precio'].mean(), inplace=True)
print("Se han imputado los precios faltantes con el precio promedio\n")
df_ventas['Categoría'] = np.where(df_ventas['Producto'] == 'Laptop', 'Tecnología', df_ventas['Categoría'])
print("Se han imputado para el producto 'Laptop' la categoría 'Tecnología'\n")

#Borrar filas con dos o mas nulos
df_limpio = df_ventas.dropna(thresh=df_ventas.shape[1] - 1)
print(f"Las filas con más de dos nulos han sido eliminadas\n")

#Elimina registros duplicados.
df_limpio = df_limpio.drop_duplicates()
print(f"Se han eliminado {duplicados} registros duplicados\n")

#Convierte columnas categóricas en variables numéricas si es necesario.
mapeo = {'Tecnología': 1,'Accesorios': 2, 'Oficina': 3,'Fotografía': 4}
df_limpio['Categoria_num'] = df_limpio['Categoría'].map(mapeo)
print(f"La columnas categóricas fueron convertidas a variables númericas. Manteniendo el siguiente formato:\n{mapeo}")

Se han imputado los precios faltantes con el precio promedio

Se han imputado para el producto 'Laptop' la categoría 'Tecnología'

Las filas con más de dos nulos han sido eliminadas

Se han eliminado 1 registros duplicados

La columnas categóricas fueron convertidas a variables númericas. Manteniendo el siguiente formato:
{'Tecnología': 1, 'Accesorios': 2, 'Oficina': 3, 'Fotografía': 4}


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_ventas['Precio'].fillna(df_ventas['Precio'].mean(), inplace=True)


In [39]:
df_limpio.head()

Unnamed: 0,ID,Producto,Categoría,Precio,Cantidad,Ciudad,Fecha Venta,Categoria_num,Total
0,1,Laptop,Tecnología,800.0,5.0,Santiago,2025-01-01,1,4000.0
1,2,Mouse,Accesorios,25.0,20.0,Valparaíso,2025-01-02,2,500.0
2,3,Teclado,Accesorios,45.0,10.0,Concepción,2025-01-03,2,450.0
3,4,Monitor,Tecnología,200.0,7.0,La Serena,2025-01-04,1,1400.0
4,5,Impresora,Oficina,150.0,4.0,Rancagua,2025-01-05,3,600.0


## 3) Optimización y estructuración de datos

In [45]:
#Aplica funciones de groupby y agregación.
df_limpio['Total'] = df_limpio['Precio'] * df_limpio['Cantidad']
group_total = df_limpio.groupby('Categoría')['Total'].sum().reset_index()
group_cant = df_limpio.groupby('Producto')['Cantidad'].sum().reset_index()


#Filtra los datos para obtener subconjuntos de interés.
filtro = df_limpio[df_limpio['Cantidad'] > 10]

#Renombra y reorganiza columnas para mejorar la interpretación.
df_limpio.rename(columns= {'Fecha_Venta':'Fecha Venta'}, inplace=True)
nuevo_orden = ['ID', 'Producto', 'Categoría','Categoria_num', 'Precio', 'Cantidad', 'Ciudad', 'Fecha Venta','Total']
df_limpio = df_limpio[nuevo_orden]

print("La columna 'Fecha_Venta' fue renombrada como 'Fecha Venta'\n")
print(f"Tabla total por categoría\n{group_total}\n")
print(f"Tabla cantidad de productos\n{group_cant}\n")
print(f"Productos con una cantidad mayor a 10\n{filtro}\n")
print("El orden de las columnas fue cambiado exitosamente")

df_limpio.head()

La columna 'Fecha_Venta' fue renombrada como 'Fecha Venta'

Tabla total por categoría
    Categoría    Total
0  Accesorios   6580.0
1  Fotografía   4200.0
2     Oficina   1200.0
3  Tecnología  33300.0

Tabla cantidad de productos
     Producto  Cantidad
0   Audífonos      24.0
1     Celular      30.0
2      Cámara      12.0
3   Impresora       8.0
4      Laptop      17.0
5     Monitor      14.0
6       Mouse      40.0
7  Smartwatch      16.0
8      Tablet      18.0
9     Teclado      20.0

Productos con una cantidad mayor a 10
    ID   Producto   Categoría  Categoria_num  Precio  Cantidad       Ciudad  \
1    2      Mouse  Accesorios              2    25.0      20.0   Valparaíso   
6    7    Celular  Tecnología              1   500.0      15.0  Antofagasta   
7    8  Audífonos  Accesorios              2    75.0      12.0     Valdivia   
11  12      Mouse  Accesorios              2    25.0      20.0   Valparaíso   
16  17    Celular  Tecnología              1   500.0      15.0  Antofaga

Unnamed: 0,ID,Producto,Categoría,Categoria_num,Precio,Cantidad,Ciudad,Fecha Venta,Total
0,1,Laptop,Tecnología,1,800.0,5.0,Santiago,2025-01-01,4000.0
1,2,Mouse,Accesorios,2,25.0,20.0,Valparaíso,2025-01-02,500.0
2,3,Teclado,Accesorios,2,45.0,10.0,Concepción,2025-01-03,450.0
3,4,Monitor,Tecnología,1,200.0,7.0,La Serena,2025-01-04,1400.0
4,5,Impresora,Oficina,3,150.0,4.0,Rancagua,2025-01-05,600.0


## 4) Exportación de datos:

In [None]:
#Guarda el DataFrame procesado en un archivo CSV sin incluir el índice.
df_limpio.to_csv('Ventas limpio.csv', index= False)

#Exporta los datos limpios a Excel para su visualización y reporte.
df_limpio.to_excel('Ventas limpio.xlsx', index=False)

print("Archivo 'Ventas limpio.csv' ha sido guardado exitosamente!")
print("Archivo 'Ventas limpio.xlsx' ha sido guardado exitosamente!")
