# 📊 Análisis Numérico con NumPy aplicado a datos de ventas

En este notebook vamos a aplicar **conceptos fundamentales de NumPy** para explorar un conjunto de datos de ventas de productos en distintas tiendas.

El objetivo es practicar la manipulación de arrays, operaciones vectorizadas, filtrado, estadísticas básicas y álgebra lineal, usando datos reales.

---

## 📁 Descripción del dataset (`market.csv`)

Este conjunto de datos contiene información sobre productos, tiendas y ventas. A continuación se describen las variables principales:

| Variable | Descripción |
|----------|-------------|
| `Item_Identifier` | ID del producto |
| `Item_Weight` | Peso del producto |
| `Item_Fat_Content` | Contenido de grasa del producto (Low Fat / Regular) |
| `Item_Visibility` | Porcentaje de visibilidad del producto en el total del área de exhibición |
| `Item_Type` | Categoría del producto (Dairy, Soft Drinks, etc.) |
| `Item_MRP` | Precio de venta al público máximo |
| `Outlet_Identifier` | ID de la tienda |
| `Outlet_Establishment_Year` | Año de apertura de la tienda |
| `Outlet_Size` | Tamaño de la tienda |
| `Outlet_Location_Type` | Tipo de ciudad donde se ubica la tienda |
| `Outlet_Type` | Tipo de tienda |
| `Item_Outlet_Sales` | Ventas del producto en esa tienda |

---


In [59]:
import numpy as np
import pandas as pd

# Cargar el dataset
df = pd.read_csv("market.csv")

# Visualizar primeras filas
df.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


In [60]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                7060 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                6113 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB


## 🔢 Conversión a arrays NumPy

In [61]:
# Convertir columnas numéricas a arrays
pesos = df["Item_Weight"].to_numpy()
ventas = df["Item_Outlet_Sales"].to_numpy()
precios = df["Item_MRP"].to_numpy()
visibilidad = df["Item_Visibility"].to_numpy()

# Mostrar dimensiones y tipos
print("Pesos:", pesos.shape, pesos.dtype)
print("Ventas:", ventas.shape, ventas.dtype)

Pesos: (8523,) float64
Ventas: (8523,) float64


## 📈 Estadísticas básicas con NumPy

In [62]:
print("Peso promedio:", np.nanmean(pesos))
print("Desvío estándar de ventas:", np.std(ventas))
print("Precio máximo:", np.max(precios))
print("Visibilidad mínima:", np.min(visibilidad))

Peso promedio: 12.857645184135977
Desvío estándar de ventas: 1706.3995013565952
Precio máximo: 266.8884
Visibilidad mínima: 0.0


## 🔍 Filtrado de datos con condiciones

In [63]:
# Productos con peso mayor a 15 kg
pesados = pesos[pesos > 15]
print("Productos con peso > 15kg:", pesados.shape[0])

# Ventas mayores a la media
media_ventas = np.mean(ventas)
ventas_altas = ventas[ventas > media_ventas]
print("Ventas por encima del promedio:", ventas_altas.shape[0])

Productos con peso > 15kg: 2613
Ventas por encima del promedio: 3523


## ⚙️ Operaciones vectorizadas

In [64]:
# Precio por kilo estimado
precio_x_kg = precios / pesos
print("Precio por kilo (primeros 5):", precio_x_kg[:5])

Precio por kilo (primeros 5): [26.8612043   8.15358108  8.09245714  9.48411458  6.03151176]


## ➕ Álgebra matricial con NumPy

In [65]:
# Crear matriz de dos variables
matriz = np.vstack((precios[:100], ventas[:100]))  # 2x100
matriz_t = matriz.T  # 100x2

# Producto matricial (covarianza básica)
producto = matriz @ matriz_t  # 2x2
producto

array([[2.33314993e+06, 3.57611804e+07],
       [3.57611804e+07, 6.98390172e+08]])

## 🧠 Desafíos propuestos

1. Calcular la mediana del peso de los productos usando NumPy.
2. ¿Cuál es el valor más frecuente (moda) de `Item_Weight`?
3. Filtrar los productos que tengan un precio mayor a $250 y visibilidad menor al 0.02.
4. Crear un array que contenga la diferencia entre el precio y las ventas para los primeros 500 productos.
5. Normalizar los valores de visibilidad entre 0 y 1.
6. Crear una matriz de 3 columnas: peso, precio y ventas, y calcular su media por columna.
7. ¿Qué productos tienen un valor de peso faltante (`NaN`)? ¿Cuántos hay?
8. Simular 100 precios aleatorios con `np.random.normal()` con media 200 y desvío 30.
9. Calcular la correlación entre precios y ventas (usando `np.corrcoef`).
10. Guardar un nuevo array con los precios redondeados a 2 decimales.

💡 Tip: ¡Usá funciones como `np.isnan`, `np.round`, `np.corrcoef`, `np.nanmean`, `np.unique`!


1. Calcular la mediana del peso de los productos usando NumPy.

In [66]:
mediana_peso = np.nanmedian(pesos)
print(f'Mediana del peso de los productos: {mediana_peso}')

Mediana del peso de los productos: 12.6


2. ¿Cuál es el valor más frecuente (moda) de `Item_Weight`?

In [67]:
pesos_sin_nan = pesos[~np.isnan(pesos)]
valores, cuentas = np.unique(pesos_sin_nan, return_counts=True)
max_cuenta = np.max(cuentas)
modas = valores[cuentas == max_cuenta]
if len(modas) == 1:
    print(f'Moda del peso de los productos: {modas[0]}, con {max_cuenta} ocurrencias')
else:
    print(f'Hay empate en la moda. Los valors mas frecuentes (cada uno con {max_cuenta} apariciones) son: ')
    for moda in modas:
        print(moda)

Moda del peso de los productos: 12.15, con 86 ocurrencias


3. Filtrar los productos que tengan un precio mayor a $250 y visibilidad menor al 0.02.

In [68]:
filtro = (precios > 250) & (visibilidad < 0.02)
productos_filtrados = df[filtro]
productos_filtrados
print(f'Cantidad de productos que cumplen la condición: {productos_filtrados.shape[0]}')
productos_filtrados.head()

Cantidad de productos que cumplen la condición: 60


Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
32,FDP33,18.7,Low Fat,0.0,Snack Foods,256.6672,OUT018,2009,Medium,Tier 3,Supermarket Type2,3068.0064
212,FDL58,5.78,Regular,0.0,Snack Foods,263.7568,OUT017,2007,,Tier 2,Supermarket Type1,2636.568
273,FDK51,19.85,Low Fat,0.005234,Dairy,264.0884,OUT035,2004,Small,Tier 2,Supermarket Type1,5829.7448
278,FDK21,7.905,Low Fat,0.016759,Snack Foods,250.4408,OUT010,1998,,Tier 3,Grocery Store,500.6816
423,FDA27,20.35,Regular,0.0,Dairy,256.7672,OUT018,2009,Medium,Tier 3,Supermarket Type2,5624.6784


4. Crear un array que contenga la diferencia entre el precio y las ventas para los primeros 500 productos.

In [69]:
diferencia_precio_ventas = precios[:500] - ventas[:500]
print(f'Diferencia entre precio y ventas (primeros 5):\n{diferencia_precio_ventas[:5]}')

Diferencia entre precio y ventas (primeros 5):
[-3485.3288  -395.1536 -1955.652   -550.285   -940.8438]


5. Normalizar los valores de visibilidad entre 0 y 1.

In [70]:
visibilidad_min = np.nanmin(visibilidad)
visibilidad_max = np.nanmax(visibilidad)
visibilidad_normalizada = (visibilidad - visibilidad_min) / (visibilidad_max - visibilidad_min)
print(f'Visibilidad normalizada (primeros 10):\n{visibilidad_normalizada[:10]}')

Visibilidad normalizada (primeros 10):
[0.04886645 0.05870508 0.05103696 0.         0.         0.
 0.03879854 0.38816495 0.05081478 0.28761326]


6. Crear una matriz de 3 columnas: peso, precio y ventas, y calcular su media por columna.

In [71]:
matriz = np.column_stack((pesos, precios, ventas))
media_columnas = np.nanmean(matriz, axis=0)
print(f'Media por columna (peso, precio, ventas):\n{media_columnas}')

Media por columna (peso, precio, ventas):
[  12.85764518  140.99278198 2181.28891358]


7. ¿Qué productos tienen un valor de peso faltante (`NaN`)? ¿Cuántos hay?

In [76]:
faltantes_peso = np.isnan(pesos)
print(f'Cantidad de productos con peso faltante (NaN):\n{np.sum(faltantes_peso)}\n')
print(f'Índices de los productos con peso faltante:\n{np.where(faltantes_peso)[0]}\n')
print(df[faltantes_peso].head())

Cantidad de productos con peso faltante (NaN):
1463

Índices de los productos con peso faltante:
[   7   18   21 ... 8488 8490 8504]

   Item_Identifier  Item_Weight Item_Fat_Content  Item_Visibility  \
7            FDP10          NaN          Low Fat         0.127470   
18           DRI11          NaN          Low Fat         0.034238   
21           FDW12          NaN          Regular         0.035400   
23           FDC37          NaN          Low Fat         0.057557   
29           FDC14          NaN          Regular         0.072222   

       Item_Type  Item_MRP Outlet_Identifier  Outlet_Establishment_Year  \
7    Snack Foods  107.7622            OUT027                       1985   
18   Hard Drinks  113.2834            OUT027                       1985   
21  Baking Goods  144.5444            OUT027                       1985   
23  Baking Goods  107.6938            OUT019                       1985   
29        Canned   43.6454            OUT019                       1985   



8. Simular 100 precios aleatorios con `np.random.normal()` con media 200 y desvío 30.

In [81]:
precios_aleatorios = np.random.normal(loc=200, scale=30, size=100)
print(f'Precios aleatorios simulados (primeros 10 con ):\n{np.round(precios_aleatorios[:10], 2)}')

Precios aleatorios simulados (primeros 10 con ):
[143.92 121.13 191.38 247.73 212.59 233.87 249.41 196.77 172.77 206.39]


9. Calcular la correlación entre precios y ventas (usando `np.corrcoef`).

In [84]:
matriz_correlacion = np.corrcoef(precios, ventas)
coef_correlacion = matriz_correlacion[0, 1]
print(f'Coeficiente de correlación entre precios y ventas:\n{coef_correlacion:.4f}')

Coeficiente de correlación entre precios y ventas:
0.5676


10. Guardar un nuevo array con los precios redondeados a 2 decimales.

In [86]:
precios_redondeados = np.round(precios, 2)
print(f'Precios redondeados (primeros 10):\n{precios_redondeados[:10]}')

Precios redondeados (primeros 10):
[249.81  48.27 141.62 182.1   53.86  51.4   57.66 107.76  96.97 187.82]
