# TRATAMIENTO DE DATOS CON DATOS SIMULADOS 

Se mostrará el uso de datos simulados y su tratamiento para hacer cálculos, gráficos y demás. 

In [6]:
# IMPORTACIÓN DE LIBRERIAS

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [8]:
# GENERACIÓN DE DATOS SIMULADOS 

data = {'Fecha': pd.date_range(start='2023-01-01', end='2023-12-31'),
        'Producto': np.random.choice(['Camisa', 'Pantalón', 'Zapatos'], size=365),
        'Precio': np.random.uniform(10, 100, size=365),
        'Cantidad': np.random.randint(1, 10, size=365),
        'Ciudad': np.random.choice(['Madrid', 'Barcelona', 'Valencia'], size=365)}
df = pd.DataFrame(data)
df

Unnamed: 0,Fecha,Producto,Precio,Cantidad,Ciudad
0,2023-01-01,Zapatos,43.801643,1,Valencia
1,2023-01-02,Zapatos,16.643537,9,Madrid
2,2023-01-03,Zapatos,52.868463,9,Valencia
3,2023-01-04,Camisa,94.000011,7,Valencia
4,2023-01-05,Zapatos,69.211084,6,Barcelona
...,...,...,...,...,...
360,2023-12-27,Pantalón,34.138659,7,Madrid
361,2023-12-28,Pantalón,25.838038,3,Barcelona
362,2023-12-29,Zapatos,10.642274,4,Madrid
363,2023-12-30,Camisa,86.628781,3,Barcelona


In [10]:
# INFORMACIÓN DE COLUMNAS 

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Fecha     365 non-null    datetime64[ns]
 1   Producto  365 non-null    object        
 2   Precio    365 non-null    float64       
 3   Cantidad  365 non-null    int32         
 4   Ciudad    365 non-null    object        
dtypes: datetime64[ns](1), float64(1), int32(1), object(2)
memory usage: 13.0+ KB


In [12]:
#VERIFICACIÓN Y CONTEO DE NULOS 

df.isna().sum()

Fecha       0
Producto    0
Precio      0
Cantidad    0
Ciudad      0
dtype: int64

In [14]:
# DESCRIPCIÓN DE COLUMNAS NÚMERICAS

df.describe()

Unnamed: 0,Fecha,Precio,Cantidad
count,365,365.0,365.0
mean,2023-07-02 00:00:00,55.496262,5.008219
min,2023-01-01 00:00:00,10.011913,1.0
25%,2023-04-02 00:00:00,34.138659,3.0
50%,2023-07-02 00:00:00,55.512967,5.0
75%,2023-10-01 00:00:00,79.000376,7.0
max,2023-12-31 00:00:00,98.920184,9.0
std,,26.050595,2.581089


In [16]:
# SUMA DE CANTIDADES VENDIDAS POR PRODUCTO

suma_producto = df.groupby(["Producto"])["Cantidad"].sum().sort_values(ascending = False)
suma_producto

Producto
Pantalón    628
Camisa      613
Zapatos     587
Name: Cantidad, dtype: int32

In [18]:
# PROMEDIO DE PRECIO POR PRODUCTO 

precio_promedio = df.groupby(["Producto"])["Precio"].mean()
precio_promedio

Producto
Camisa      54.952641
Pantalón    55.224889
Zapatos     56.427707
Name: Precio, dtype: float64

In [20]:
# SUMA DE VENTAS POR CIUDAD

ventas_ciudad = df.groupby(["Ciudad"])["Cantidad"].sum()
ventas_ciudad

Ciudad
Barcelona    621
Madrid       526
Valencia     681
Name: Cantidad, dtype: int32

In [22]:
# PROMEDIO DE PRECIO POR UNIDADES VENDIDAS 

promedio_precio_cantidad =df.groupby(["Cantidad"])["Precio"].mean()
promedio_precio_cantidad

Cantidad
1    54.464505
2    55.732203
3    54.643607
4    57.729991
5    52.977082
6    58.199603
7    55.862283
8    59.835214
9    51.692148
Name: Precio, dtype: float64

In [26]:
# VENTAS POR MES FORMA 1 (AGRUPANDO FECHAS)

ventas_por_mes = df.groupby(pd.Grouper(key='Fecha', freq='ME'))['Cantidad'].sum()
ventas_por_mes

Fecha
2023-01-31    161
2023-02-28    134
2023-03-31    150
2023-04-30    164
2023-05-31    170
2023-06-30    139
2023-07-31    138
2023-08-31    139
2023-09-30    185
2023-10-31    155
2023-11-30    148
2023-12-31    145
Freq: ME, Name: Cantidad, dtype: int32

In [30]:
# VENTAS POR MES FORMA 2 (CREANDO NUEVA COLUMNA)

df["Mes"] = df["Fecha"].dt.month
ventas_por_mes = df.groupby("Mes")['Cantidad'].sum()
ventas_por_mes

Mes
1     161
2     134
3     150
4     164
5     170
6     139
7     138
8     139
9     185
10    155
11    148
12    145
Name: Cantidad, dtype: int32