# Análisis y Limpieza de Datos de Ventas

## Contexto

Tienes un conjunto de datos que representa las ventas diarias de una tienda en línea. Este conjunto contiene información sobre los productos vendidos, la cantidad, el precio por unidad, y la fecha de venta. Sin embargo, algunos de los datos están incompletos o tienen valores nulos. El objetivo de este ejercicio es limpiar y analizar los datos, y calcular algunas medidas clave para entender mejor las ventas.

## Objetivos

* Manipular arrays con numpy: Para operaciones matemáticas básicas con los datos.
* Manejar datos con pandas: Para cargar el dataset, analizar su estructura y calcular medidas de tendencia central.
* Trabajar con archivos JSON: Para guardar y leer la información transformada.
* Manejar datos nulos: Para identificar y lidiar con valores faltantes.
* Aplicar ciclos, condicionales y operadores lógicos/matemáticos: Para realizar cálculos y aplicar reglas de negocio.


### Análisis Básico con Numpy

In [9]:
# Para cargar los datos con Numpy:

import numpy as np

def cargar_datos_numpy(ruta_archivo):
    datos = np.genfromtxt(
        ruta_archivo,
        delimiter=",",
        skip_header=1,
        dtype=[
            ('Fecha', 'U10'),
            ('producto', 'U10'),
            ('cantidad', 'f8'),
            ('precio_unitario', '<f8'),
            ('total', '<f8'),
        ]
    )
    return datos


ruta_archivo = "../data/ejercicios_integracion/ventas_tienda_simulada.csv"
datos = cargar_datos_numpy(ruta_archivo)

# Como ejemplo, para filtrado de datos:
print(datos[datos["precio_unitario"] > 10])

# Operación aritmética básica sobre columna:
print(datos["precio_unitario"] * 10)

[('2023-01-01', 'Producto_A',  2., 10.5,  21.)
 ('2023-01-02', 'Producto_B', nan, 20. ,  nan)
 ('2023-01-04', 'Producto_D',  7., 15. , 105.)
 ('2023-01-05', 'Producto_A',  1., 12. ,  12.)
 ('2023-01-06', 'Producto_B',  4., 25. , 100.)
 ('2023-01-08', 'Producto_D',  3., 30. ,  90.)
 ('2023-01-11', 'Producto_C',  6., 22. , 132.)
 ('2023-01-12', 'Producto_D',  4., 18. ,  72.)
 ('2023-01-13', 'Producto_A',  5., 20. , 100.)
 ('2023-01-14', 'Producto_B', nan, 25. ,  nan)
 ('2023-01-15', 'Producto_C',  1., 14. ,  14.)
 ('2023-01-18', 'Producto_B',  4., 11. ,  44.)
 ('2023-01-20', 'Producto_D',  6., 15. ,  90.)]
[105. 200.  nan 150. 120. 250.  nan 300. 100.  nan 220. 180. 200. 250.
 140.  90. 100. 110.  nan 150.]


### Análisis con Pandas

In [14]:
import pandas as pd

df = pd.read_csv(ruta_archivo, delimiter=",")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   fecha            20 non-null     object 
 1   producto         20 non-null     object 
 2   cantidad         16 non-null     float64
 3   precio_unitario  16 non-null     float64
 4   total            12 non-null     float64
dtypes: float64(3), object(2)
memory usage: 928.0+ bytes


In [12]:
# Descripción del DataSet
df.describe()

Unnamed: 0,cantidad,precio_unitario,total
count,16.0,16.0,12.0
mean,4.25,16.65625,67.25
std,2.175623,6.436145,41.569493
min,1.0,9.0,12.0
25%,2.75,10.875,25.5
50%,4.0,15.0,81.0
75%,6.0,20.5,100.0
max,8.0,30.0,132.0


In [22]:
# Verificar filas que tienen datos nulos por cantidad
nulos_por_cantidad = len(df[df["cantidad"].isna()])
print(f"Nulos por Cantidad: {nulos_por_cantidad}")

Nulos por Cantidad: 4


In [23]:
# Verificar filas que tienen datos nulos por precio unitario
nulos_por_cantidad = len(df[df["precio_unitario"].isna()])
print(f"Nulos por Precio Unitario: {nulos_por_cantidad}")

Nulos por Precio Unitario: 4


In [27]:
# Analizar cantidad de ventas total por producto
df.groupby("producto")["total"].sum()

producto
Producto_A    133.0
Producto_B    144.0
Producto_C    146.0
Producto_D    384.0
Name: total, dtype: float64