# Análisis y Limpieza de Datos de Ventas

## Contexto

Tienes un conjunto de datos que representa las ventas diarias de una tienda en línea. Este conjunto contiene información sobre los productos vendidos, la cantidad, el precio por unidad, y la fecha de venta. Sin embargo, algunos de los datos están incompletos o tienen valores nulos. El objetivo de este ejercicio es limpiar y analizar los datos, y calcular algunas medidas clave para entender mejor las ventas.

## Objetivos

* Manipular arrays con numpy: Para operaciones matemáticas básicas con los datos.
* Manejar datos con pandas: Para cargar el dataset, analizar su estructura y calcular medidas de tendencia central.
* Trabajar con archivos JSON: Para guardar y leer la información transformada.
* Manejar datos nulos: Para identificar y lidiar con valores faltantes.
* Aplicar ciclos, condicionales y operadores lógicos/matemáticos: Para realizar cálculos y aplicar reglas de negocio.


### Análisis Básico con Numpy

In [9]:
# Para cargar los datos con Numpy:

import numpy as np

def cargar_datos_numpy(ruta_archivo):
    datos = np.genfromtxt(
        ruta_archivo,
        delimiter=",",
        skip_header=1,
        dtype=[
            ('Fecha', 'U10'),
            ('producto', 'U10'),
            ('cantidad', 'f8'),
            ('precio_unitario', '<f8'),
            ('total', '<f8'),
        ]
    )
    return datos


ruta_archivo = "../data/ejercicios_integracion/ventas_tienda_simulada.csv"
datos = cargar_datos_numpy(ruta_archivo)

# Como ejemplo, para filtrado de datos:
print(datos[datos["precio_unitario"] > 10])

# Operación aritmética básica sobre columna:
print(datos["precio_unitario"] * 10)

[('2023-01-01', 'Producto_A',  2., 10.5,  21.)
 ('2023-01-02', 'Producto_B', nan, 20. ,  nan)
 ('2023-01-04', 'Producto_D',  7., 15. , 105.)
 ('2023-01-05', 'Producto_A',  1., 12. ,  12.)
 ('2023-01-06', 'Producto_B',  4., 25. , 100.)
 ('2023-01-08', 'Producto_D',  3., 30. ,  90.)
 ('2023-01-11', 'Producto_C',  6., 22. , 132.)
 ('2023-01-12', 'Producto_D',  4., 18. ,  72.)
 ('2023-01-13', 'Producto_A',  5., 20. , 100.)
 ('2023-01-14', 'Producto_B', nan, 25. ,  nan)
 ('2023-01-15', 'Producto_C',  1., 14. ,  14.)
 ('2023-01-18', 'Producto_B',  4., 11. ,  44.)
 ('2023-01-20', 'Producto_D',  6., 15. ,  90.)]
[105. 200.  nan 150. 120. 250.  nan 300. 100.  nan 220. 180. 200. 250.
 140.  90. 100. 110.  nan 150.]


### Análisis con Pandas

In [14]:
import pandas as pd

df = pd.read_csv(ruta_archivo, delimiter=",")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   fecha            20 non-null     object 
 1   producto         20 non-null     object 
 2   cantidad         16 non-null     float64
 3   precio_unitario  16 non-null     float64
 4   total            12 non-null     float64
dtypes: float64(3), object(2)
memory usage: 928.0+ bytes


In [12]:
# Descripción del DataSet
df.describe()

Unnamed: 0,cantidad,precio_unitario,total
count,16.0,16.0,12.0
mean,4.25,16.65625,67.25
std,2.175623,6.436145,41.569493
min,1.0,9.0,12.0
25%,2.75,10.875,25.5
50%,4.0,15.0,81.0
75%,6.0,20.5,100.0
max,8.0,30.0,132.0


In [22]:
# Verificar filas que tienen datos nulos por cantidad
nulos_por_cantidad = len(df[df["cantidad"].isna()])
print(f"Nulos por Cantidad: {nulos_por_cantidad}")

Nulos por Cantidad: 4


In [23]:
# Verificar filas que tienen datos nulos por precio unitario
nulos_por_cantidad = len(df[df["precio_unitario"].isna()])
print(f"Nulos por Precio Unitario: {nulos_por_cantidad}")

Nulos por Precio Unitario: 4


In [27]:
# Analizar cantidad de ventas total por producto
df.groupby("producto")["total"].sum()

producto
Producto_A    133.0
Producto_B    144.0
Producto_C    146.0
Producto_D    384.0
Name: total, dtype: float64

In [31]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
total,12,8,40.0
cantidad,16,4,20.0
precio_unitario,16,4,20.0
fecha,20,0,0.0
producto,20,0,0.0


In [32]:
df.loc[df.isnull()['total']]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
1,2023-01-02,Producto_B,,20.0,
2,2023-01-03,Producto_C,5.0,,
6,2023-01-07,Producto_C,,,
8,2023-01-09,Producto_A,2.0,10.0,
9,2023-01-10,Producto_B,,,
13,2023-01-14,Producto_B,,25.0,
16,2023-01-17,Producto_A,8.0,10.0,
18,2023-01-19,Producto_C,7.0,,


In [33]:
df.loc[df.producto=='Producto_A',:]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
4,2023-01-05,Producto_A,1.0,12.0,12.0
8,2023-01-09,Producto_A,2.0,10.0,
12,2023-01-13,Producto_A,5.0,20.0,100.0
16,2023-01-17,Producto_A,8.0,10.0,


In [34]:
df.loc[df.producto=='Producto_A','total'] = df.loc[df.producto=='Producto_A','cantidad'] * df.loc[df.producto=='Producto_A','precio_unitario'] 
df.loc[df.producto=='Producto_A',:] 

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
4,2023-01-05,Producto_A,1.0,12.0,12.0
8,2023-01-09,Producto_A,2.0,10.0,20.0
12,2023-01-13,Producto_A,5.0,20.0,100.0
16,2023-01-17,Producto_A,8.0,10.0,80.0


In [35]:
df.loc[df.producto=='Producto_B',:]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
1,2023-01-02,Producto_B,,20.0,
5,2023-01-06,Producto_B,4.0,25.0,100.0
9,2023-01-10,Producto_B,,,
13,2023-01-14,Producto_B,,25.0,
17,2023-01-18,Producto_B,4.0,11.0,44.0


In [36]:
df.loc[df.producto=='Producto_B',:].dropna(inplace=True)
df.loc[df.producto=='Producto_B',:]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.loc[df.producto=='Producto_B',:].dropna(inplace=True)


Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
1,2023-01-02,Producto_B,,20.0,
5,2023-01-06,Producto_B,4.0,25.0,100.0
9,2023-01-10,Producto_B,,,
13,2023-01-14,Producto_B,,25.0,
17,2023-01-18,Producto_B,4.0,11.0,44.0


In [37]:
~df.index.isin(df.dropna().index)

array([False,  True,  True, False, False, False,  True, False, False,
        True, False, False, False,  True, False, False, False, False,
        True, False])

In [38]:
# los valores que voy a conservar
(df['producto'] == 'Producto_B') & df.index.isin(df.dropna().index)

0     False
1     False
2     False
3     False
4     False
5      True
6     False
7     False
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15    False
16    False
17     True
18    False
19    False
Name: producto, dtype: bool

In [39]:
df = df[~((df['producto'] == 'Producto_B') & ~df.index.isin(df.dropna().index))]

In [40]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
precio_unitario,14,3,17.65
total,14,3,17.65
cantidad,16,1,5.88
fecha,17,0,0.0
producto,17,0,0.0


In [41]:
df.loc[df.producto=='Producto_D',:] 

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
3,2023-01-04,Producto_D,7.0,15.0,105.0
7,2023-01-08,Producto_D,3.0,30.0,90.0
11,2023-01-12,Producto_D,4.0,18.0,72.0
15,2023-01-16,Producto_D,3.0,9.0,27.0
19,2023-01-20,Producto_D,6.0,15.0,90.0


In [42]:
df.loc[df.producto=='Producto_C',:]

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
2,2023-01-03,Producto_C,5.0,,
6,2023-01-07,Producto_C,,,
10,2023-01-11,Producto_C,6.0,22.0,132.0
14,2023-01-15,Producto_C,1.0,14.0,14.0
18,2023-01-19,Producto_C,7.0,,


In [43]:
df = df[~((df['producto'] == 'Producto_C') & ~df.index.isin(df.dropna().index))]

In [44]:
qsna=df.shape[0]-df.isnull().sum(axis=0)
qna=df.isnull().sum(axis=0)
ppna=round(100*(df.isnull().sum(axis=0)/df.shape[0]),2)
aux= {'datos sin NAs en q': qsna, 'Na en q': qna ,'Na en %': ppna}
na=pd.DataFrame(data=aux)
na.sort_values(by='Na en %',ascending=False)

Unnamed: 0,datos sin NAs en q,Na en q,Na en %
fecha,14,0,0.0
producto,14,0,0.0
cantidad,14,0,0.0
precio_unitario,14,0,0.0
total,14,0,0.0


In [45]:
df

Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
3,2023-01-04,Producto_D,7.0,15.0,105.0
4,2023-01-05,Producto_A,1.0,12.0,12.0
5,2023-01-06,Producto_B,4.0,25.0,100.0
7,2023-01-08,Producto_D,3.0,30.0,90.0
8,2023-01-09,Producto_A,2.0,10.0,20.0
10,2023-01-11,Producto_C,6.0,22.0,132.0
11,2023-01-12,Producto_D,4.0,18.0,72.0
12,2023-01-13,Producto_A,5.0,20.0,100.0
14,2023-01-15,Producto_C,1.0,14.0,14.0
