# 📊 Análisis Numérico con NumPy aplicado a datos de ventas

En este notebook vamos a aplicar **conceptos fundamentales de NumPy** para explorar un conjunto de datos de ventas de productos en distintas tiendas.

El objetivo es practicar la manipulación de arrays, operaciones vectorizadas, filtrado, estadísticas básicas y álgebra lineal, usando datos reales.

---

## 📁 Descripción del dataset (`market.csv`)

Este conjunto de datos contiene información sobre productos, tiendas y ventas. A continuación se describen las variables principales:

| Variable | Descripción |
|----------|-------------|
| `Item_Identifier` | ID del producto |
| `Item_Weight` | Peso del producto |
| `Item_Fat_Content` | Contenido de grasa del producto (Low Fat / Regular) |
| `Item_Visibility` | Porcentaje de visibilidad del producto en el total del área de exhibición |
| `Item_Type` | Categoría del producto (Dairy, Soft Drinks, etc.) |
| `Item_MRP` | Precio de venta al público máximo |
| `Outlet_Identifier` | ID de la tienda |
| `Outlet_Establishment_Year` | Año de apertura de la tienda |
| `Outlet_Size` | Tamaño de la tienda |
| `Outlet_Location_Type` | Tipo de ciudad donde se ubica la tienda |
| `Outlet_Type` | Tipo de tienda |
| `Item_Outlet_Sales` | Ventas del producto en esa tienda |

---


In [4]:
import numpy as np
import pandas as pd

# Cargar el dataset
df = pd.read_csv("market.csv")

# Visualizar primeras filas
df

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.300,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.1380
1,DRC01,5.920,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.500,Low Fat,0.016760,Meat,141.6180,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.2700
3,FDX07,19.200,Regular,0.000000,Fruits and Vegetables,182.0950,OUT010,1998,,Tier 3,Grocery Store,732.3800
4,NCD19,8.930,Low Fat,0.000000,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052
...,...,...,...,...,...,...,...,...,...,...,...,...
8518,FDF22,6.865,Low Fat,0.056783,Snack Foods,214.5218,OUT013,1987,High,Tier 3,Supermarket Type1,2778.3834
8519,FDS36,8.380,Regular,0.046982,Baking Goods,108.1570,OUT045,2002,,Tier 2,Supermarket Type1,549.2850
8520,NCJ29,10.600,Low Fat,0.035186,Health and Hygiene,85.1224,OUT035,2004,Small,Tier 2,Supermarket Type1,1193.1136
8521,FDN46,7.210,Regular,0.145221,Snack Foods,103.1332,OUT018,2009,Medium,Tier 3,Supermarket Type2,1845.5976


## 🔢 Conversión a arrays NumPy

In [9]:
# Convertir columnas numéricas a arrays
pesos = df["Item_Weight"].to_numpy()
ventas = df["Item_Outlet_Sales"].to_numpy()
precios = df["Item_MRP"].to_numpy()
visibilidad = df["Item_Visibility"].to_numpy()
print(pesos.shape)
# Mostrar dimensiones y tipos
print("Pesos:", pesos.shape, pesos.dtype)
print("Ventas:", ventas.shape, ventas.dtype)

(8523,)
Pesos: (8523,) float64
Ventas: (8523,) float64


## 📈 Estadísticas básicas con NumPy

In [None]:
print("Peso promedio:", np.nanmean(pesos))
print("Desvío estándar de ventas:", np.std(ventas))
print("Precio máximo:", np.max(precios))
print("Visibilidad mínima:", np.min(visibilidad))

In [None]:
import time 
data = np.random.rand(1_000_000)
lst = data.tolist()
t0=time.time()
total_for=0.0
for x in lst:
    total_for +=x
t1=time.time()
print(f"resultado:{total_for:.6f} - tiempo:{t1-t0:.4f}")


resultado:499883.910761 - tiempo:0.1631


In [13]:
import numpy as np
import time

# Crear un array de 1 millón de números aleatorios
data = np.random.rand(1_000_000)

# --------- Suma con for tradicional ---------
lst = data.tolist()
t0 = time.time()
total_for = 0.0
for x in lst:
    total_for += x
t1 = time.time()
print(f"FOR → resultado: {total_for:.6f} - tiempo: {t1-t0:.4f} s")

# --------- Suma vectorizada de NumPy ---------
t0 = time.time()
total_numpy = np.sum(data)
print(data.sum())
t1 = time.time()
print(f"NumPy → resultado: {total_numpy:.6f} - tiempo: {t1-t0:.4f} s")


FOR → resultado: 500522.054170 - tiempo: 0.1480 s
500522.05416962085
NumPy → resultado: 500522.054170 - tiempo: 0.0020 s


## 🔍 Filtrado de datos con condiciones

In [16]:
# Productos con peso mayor a 15 kg
pesados = pesos[pesos > 15]
print("Productos con peso > 15kg:", pesados.shape[0])

# Ventas mayores a la media
media_ventas = np.mean(ventas)
ventas_altas = ventas[ventas > media_ventas]
print("Ventas por encima del promedio:", ventas_altas.shape)

Productos con peso > 15kg: 2613
Ventas por encima del promedio: (3523,)


## ⚙️ Operaciones vectorizadas

In [32]:
# Precio por kilo estimado
precio_x_kg = precios / pesos
precio_x_kg=precio_x_kg[~np.isnan(precio_x_kg)]
print(precio_x_kg)
print("Precio por kilo (primeros 5):", precio_x_kg[:10])

[26.8612043   8.15358108  8.09245714 ...  8.03041509 14.30418863
  5.09912162]
Precio por kilo (primeros 5): [26.8612043   8.15358108  8.09245714  9.48411458  6.03151176  4.9447619
  4.22408791  5.98596296  9.78236458  3.85933898]


## ➕ Álgebra matricial con NumPy

In [37]:
# Crear matriz de dos variables
matriz = np.vstack((precios[:100], ventas[:100]))  # 2x100
print(matriz)
matriz_t = matriz.T  # 100x2

# Producto matricial (covarianza básica)
producto = matriz @ matriz_t  # 2x2
producto

[[ 249.8092   48.2692  141.618   182.095    53.8614   51.4008   57.6588
   107.7622   96.9726  187.8214   45.5402  144.1102  145.4786  119.6782
   196.4426   56.3614  115.3492   54.3614  113.2834  230.5352  250.8724
   144.5444  196.5084  107.6938  165.021    45.906    42.3112   39.1164
    45.5086   43.6454   55.7956   96.4436  256.6672   93.1436  174.8738
   146.7102  128.0678  122.5388   36.9874   87.6198  230.6352  126.002
   192.9136  259.9278  126.5046  178.1002  153.3024  265.2226   60.622
   196.8794  143.8812  141.5154  117.0492  196.3794  151.4708  249.0408
   106.1622   38.0506  194.511   180.0344  246.9144   87.3514   38.2848
    51.0692  255.8356  185.4266  172.5738  186.024   164.8526   95.841
   170.1764   59.222   164.7526  189.6188  254.3698  114.0176  172.3422
    89.9804  104.9622  222.5456  101.87    180.3344  187.9556  194.6136
   171.3764  177.0028  160.992   155.963    95.6436  117.2808  122.173
    39.9138   55.1614   57.893   114.5492  120.0414  246.046   187.4

array([[2.33314993e+06, 3.57611804e+07],
       [3.57611804e+07, 6.98390172e+08]])

## 🧠 Desafíos propuestos

1. Calcular la mediana del peso de los productos usando NumPy.
2. ¿Cuál es el valor más frecuente (moda) de `Item_Weight`?
3. Filtrar los productos que tengan un precio mayor a $250 y visibilidad menor al 0.02.
4. Crear un array que contenga la diferencia entre el precio y las ventas para los primeros 500 productos.
5. Normalizar los valores de visibilidad entre 0 y 1.
6. Crear una matriz de 3 columnas: peso, precio y ventas, y calcular su media por columna.
7. ¿Qué productos tienen un valor de peso faltante (`NaN`)? ¿Cuántos hay?
8. Simular 100 precios aleatorios con `np.random.normal()` con media 200 y desvío 30.
9. Calcular la correlación entre precios y ventas (usando `np.corrcoef`).
10. Guardar un nuevo array con los precios redondeados a 2 decimales.

💡 Tip: ¡Usá funciones como `np.isnan`, `np.round`, `np.corrcoef`, `np.nanmean`, `np.unique`!


In [38]:
print(np.nanmedian(pesos))

12.6


In [None]:
pesos=pesos[~np.isnan(pesos)]
print(pesos)
# Usamos np.unique con return_counts para contar la frecuencia de cada valor
values, counts = np.unique(pesos, return_counts=True)
# print("Valores únicos:", values)
# print("Cantidad de veces que aparece cada valor:", counts)

# Encontramos el índice del valor con máxima frecuencia
max_index = np.argmax(counts)

# Obtenemos la moda
moda = values[max_index]
print(moda)

[ 9.3   5.92 17.5  ... 10.6   7.21 14.8 ]
12.15


In [None]:
# 3. Filtrar los productos que tengan un precio mayor a $250 y visibilidad menor al 0.02.
