In [None]:

import numpy as np
import pandas as pd

In [None]:
# Cuando usas funciones como np.random.choice, np.random.rand, np.random.randint, etc., NumPy genera números aleatorios pseudoaleatorios (es decir, que en realidad se calculan con una fórmula matemática).
# Si no fijas una semilla (seed), cada vez que corras el código los resultados serán diferentes.
# Si sí fijas una semilla, obtendrás los mismos resultados cada vez que ejecutes el código

np.random.seed(42)  # para reproducibilidad

# Simular 30 ventas con montos normalmente distribuidos alrededor de 500 ± 100
monto_normal = np.random.normal(loc=500, scale=100, size=30).astype(int)

# Insertar algunos valores atípicos (muy altos y muy bajos)
monto_outliers = np.append(monto_normal, [50, 80, 2000, 3000])
# arr es un array de NumPy.
# arr.tolist() lo convierte en una lista de Python ([10, 20, 30]).
#El método np.random.choice() de NumPy sirve para seleccionar valores aleatorios de una lista, arreglo o rango.

ventas = {
    "id_venta": list(range(1, len(monto_outliers) + 1)),
    "producto": np.random.choice(
        ["Laptop", "Celular", "Tablet", "Audífonos", "Monitor"], 
        size=len(monto_outliers)
    ).tolist(),
    "cantidad": np.random.randint(1, 5, size=len(monto_outliers)).tolist(),
    "monto_venta": monto_outliers.tolist(),
    "ciudad": np.random.choice(
        ['Tunja','Bogota','Cali','Santa Martha','Amazonas','Medellin'],
        size=len(monto_outliers)).tolist(),
    "fecha_venta": pd.date_range("2023-01-01", periods=len(monto_outliers)).strftime("%Y-%m-%d").tolist()
}

df = pd.DataFrame(ventas)
display(df)

Unnamed: 0,id_venta,producto,cantidad,monto_venta,ciudad,fecha_venta
0,1,Audífonos,3,549,Medellin,2023-01-01
1,2,Audífonos,1,486,Amazonas,2023-01-02
2,3,Audífonos,1,564,Cali,2023-01-03
3,4,Audífonos,1,652,Santa Martha,2023-01-04
4,5,Monitor,3,476,Medellin,2023-01-05
5,6,Tablet,1,476,Cali,2023-01-06
6,7,Laptop,4,657,Cali,2023-01-07
7,8,Audífonos,1,576,Tunja,2023-01-08
8,9,Celular,4,453,Cali,2023-01-09
9,10,Audífonos,4,554,Amazonas,2023-01-10


In [None]:
#Reordenar columnas
df_reordenado= df[['id_venta','fecha_venta','producto','cantidad','monto_venta','ciudad']]
display(df_reordenado)

Unnamed: 0,id_venta,fecha_venta,producto,cantidad,monto_venta,ciudad
0,1,2023-01-01,Audífonos,3,549,Medellin
1,2,2023-01-02,Audífonos,1,486,Amazonas
2,3,2023-01-03,Audífonos,1,564,Cali
3,4,2023-01-04,Audífonos,1,652,Santa Martha
4,5,2023-01-05,Monitor,3,476,Medellin
5,6,2023-01-06,Tablet,1,476,Cali
6,7,2023-01-07,Laptop,4,657,Cali
7,8,2023-01-08,Audífonos,1,576,Tunja
8,9,2023-01-09,Celular,4,453,Cali
9,10,2023-01-10,Audífonos,4,554,Amazonas


In [10]:
#Seleccionar columnas
df_seleccion = df[['id_venta','fecha_venta','producto']]
display(df_seleccion)

Unnamed: 0,id_venta,fecha_venta,producto
0,1,2023-01-01,Audífonos
1,2,2023-01-02,Audífonos
2,3,2023-01-03,Audífonos
3,4,2023-01-04,Audífonos
4,5,2023-01-05,Monitor
5,6,2023-01-06,Tablet
6,7,2023-01-07,Laptop
7,8,2023-01-08,Audífonos
8,9,2023-01-09,Celular
9,10,2023-01-10,Audífonos


In [None]:
#Otro tipo de seleccion para columnas y filas
#Seleccionar todas las filas
df_log = df.loc[:,['producto','ciudad']]
display(df_log)


Unnamed: 0,producto,ciudad
0,Audífonos,Medellin
1,Audífonos,Amazonas
2,Audífonos,Cali
3,Audífonos,Santa Martha
4,Monitor,Medellin
5,Tablet,Cali
6,Laptop,Cali
7,Audífonos,Tunja
8,Celular,Cali
9,Audífonos,Amazonas


In [None]:
#Seleccionar 10 filas
df_log = df.loc[0:10,['producto','ciudad']]
display(df_log)


Unnamed: 0,producto,ciudad
0,Audífonos,Medellin
1,Audífonos,Amazonas
2,Audífonos,Cali
3,Audífonos,Santa Martha
4,Monitor,Medellin
5,Tablet,Cali
6,Laptop,Cali
7,Audífonos,Tunja
8,Celular,Cali
9,Audífonos,Amazonas


In [None]:
#eliminando columnas
df_sin_fecha_venta = df.drop(columns=['fecha_venta','ciudad'])
display(df_sin_fecha_venta)

Unnamed: 0,id_venta,producto,cantidad,monto_venta
0,1,Audífonos,3,549
1,2,Audífonos,1,486
2,3,Audífonos,1,564
3,4,Audífonos,1,652
4,5,Monitor,3,476
5,6,Tablet,1,476
6,7,Laptop,4,657
7,8,Audífonos,1,576
8,9,Celular,4,453
9,10,Audífonos,4,554


In [None]:
#Filtrados condicionales
#Seleccion tradicionales
#Filtrar por ciudad
filtrado_ciudad = df[df['ciudad'] == 'Tunja'] [['id_venta','producto','ciudad']] 
display(filtrado_ciudad)

Unnamed: 0,id_venta,producto,ciudad
7,8,Audífonos,Tunja
12,13,Audífonos,Tunja
17,18,Celular,Tunja
23,24,Monitor,Tunja


In [None]:
#Filtrado por valor numerico
filtrado_monto = df[df['monto_venta'] > 600] [['id_venta','producto','monto_venta']] 
display(filtrado_monto)

Unnamed: 0,id_venta,producto,monto_venta
3,4,Audífonos,652
6,7,Laptop,657
20,21,Audífonos,646
32,33,Laptop,2000
33,34,Monitor,3000


In [None]:
#Filtrado con log
#Es mas eficiente el codigo 
df.loc[df['monto_venta'] > 600,['id_venta','producto','monto_venta']]

Unnamed: 0,id_venta,producto,monto_venta
3,4,Audífonos,652
6,7,Laptop,657
20,21,Audífonos,646
32,33,Laptop,2000
33,34,Monitor,3000
