#Análisis y Limpieza de Datos de Ventas

###Tienes un conjunto de datos que representa las ventas diarias de una tienda en línea. Este conjunto contiene información sobre los productos vendidos, la cantidad, el precio por unidad, y la fecha de venta. Sin embargo, algunos de los datos están incompletos o tienen valores nulos. El objetivo de este ejercicio es limpiar y analizar los datos, y calcular algunas medidas clave para entender mejor las ventas

##Objetivos:

Manipular arrays con numpy: Para operaciones matemáticas básicas con los datos.
Manejar datos con pandas: Para cargar el dataset, analizar su estructura y calcular medidas de tendencia central.
Trabajar con archivos JSON: Para guardar y leer la información transformada.
Manejar datos nulos: Para identificar y lidiar con valores faltantes.
Aplicar ciclos, condicionales y operadores lógicos/matemáticos: Para realizar cálculos y aplicar reglas de negocio.

In [21]:
import numpy as np
import pandas as pd
path = '../data/ejercicios_integracion/ventas_tienda_simulada.csv'
df1 = pd.read_csv(filepath_or_buffer=path, sep= ',')
print(df1.shape)
df1.head(10)

(20, 5)


Unnamed: 0,fecha,producto,cantidad,precio_unitario,total
0,2023-01-01,Producto_A,2.0,10.5,21.0
1,2023-01-02,Producto_B,,20.0,
2,2023-01-03,Producto_C,5.0,,
3,2023-01-04,Producto_D,7.0,15.0,105.0
4,2023-01-05,Producto_A,1.0,12.0,12.0
5,2023-01-06,Producto_B,4.0,25.0,100.0
6,2023-01-07,Producto_C,,,
7,2023-01-08,Producto_D,3.0,30.0,90.0
8,2023-01-09,Producto_A,2.0,10.0,
9,2023-01-10,Producto_B,,,


In [24]:
print(df1.isnull().sum())
df1_sin_nulos = df1.dropna(axis=0)
print(df1_sin_nulos.shape)
print(df1_sin_nulos.head(10))

fecha              0
producto           0
cantidad           4
precio_unitario    4
total              8
dtype: int64
(12, 5)
         fecha    producto  cantidad  precio_unitario  total
0   2023-01-01  Producto_A       2.0             10.5   21.0
3   2023-01-04  Producto_D       7.0             15.0  105.0
4   2023-01-05  Producto_A       1.0             12.0   12.0
5   2023-01-06  Producto_B       4.0             25.0  100.0
7   2023-01-08  Producto_D       3.0             30.0   90.0
10  2023-01-11  Producto_C       6.0             22.0  132.0
11  2023-01-12  Producto_D       4.0             18.0   72.0
12  2023-01-13  Producto_A       5.0             20.0  100.0
14  2023-01-15  Producto_C       1.0             14.0   14.0
15  2023-01-16  Producto_D       3.0              9.0   27.0


In [23]:
#manipulando con numpy
precio_unitario = np.array(df1_sin_nulos['precio_unitario'])
cantidad = np.array(df1_sin_nulos['cantidad'])
total = np.array(df1_sin_nulos['total'])
print('Media de precio_unitario: ', np.mean(precio_unitario))
print('Suma de total de productos: ', np.sum(total))
print('desviación estándar de precio_unitario: ', np.std(precio_unitario))

In [28]:
# Medidas de tendencia central con pandas
media_precios = df1_sin_nulos['precio_unitario'].mean()
mediana_precios = df1_sin_nulos['precio_unitario'].median()
std_precios = df1_sin_nulos['precio_unitario'].std()

print('Media de precio_unitario: ', media_precios)

Media de precio_unitario:  16.791666666666668
