# 📊 Análisis Numérico con NumPy aplicado a datos de ventas

En este notebook vamos a aplicar **conceptos fundamentales de NumPy** para explorar un conjunto de datos de ventas de productos en distintas tiendas.

El objetivo es practicar la manipulación de arrays, operaciones vectorizadas, filtrado, estadísticas básicas y álgebra lineal, usando datos reales.

---

## 📁 Descripción del dataset (`market.csv`)

Este conjunto de datos contiene información sobre productos, tiendas y ventas. A continuación se describen las variables principales:

| Variable | Descripción |
|----------|-------------|
| `Item_Identifier` | ID del producto |
| `Item_Weight` | Peso del producto |
| `Item_Fat_Content` | Contenido de grasa del producto (Low Fat / Regular) |
| `Item_Visibility` | Porcentaje de visibilidad del producto en el total del área de exhibición |
| `Item_Type` | Categoría del producto (Dairy, Soft Drinks, etc.) |
| `Item_MRP` | Precio de venta al público máximo |
| `Outlet_Identifier` | ID de la tienda |
| `Outlet_Establishment_Year` | Año de apertura de la tienda |
| `Outlet_Size` | Tamaño de la tienda |
| `Outlet_Location_Type` | Tipo de ciudad donde se ubica la tienda |
| `Outlet_Type` | Tipo de tienda |
| `Item_Outlet_Sales` | Ventas del producto en esa tienda |

---


In [64]:
import numpy as np
import pandas as pd

# Cargar el dataset
df = pd.read_csv("market.csv")

# Visualizar primeras filas
df.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


## 🔢 Conversión a arrays NumPy

In [65]:
# Convertir columnas numéricas a arrays
pesos = df["Item_Weight"].to_numpy()
ventas = df["Item_Outlet_Sales"].to_numpy()
precios = df["Item_MRP"].to_numpy()
visibilidad = df["Item_Visibility"].to_numpy()

# Mostrar dimensiones y tipos
print("Pesos:", pesos.shape, pesos.dtype)
print("Ventas:", ventas.shape, ventas.dtype)

Pesos: (8523,) float64
Ventas: (8523,) float64


## 📈 Estadísticas básicas con NumPy

In [66]:
print("Peso promedio:", np.nanmean(pesos))
print("Desvío estándar de ventas:", np.std(ventas))
print("Precio máximo:", np.max(precios))
print("Visibilidad mínima:", np.min(visibilidad))

Peso promedio: 12.857645184135976
Desvío estándar de ventas: 1706.3995013565955
Precio máximo: 266.8884
Visibilidad mínima: 0.0


## 🔍 Filtrado de datos con condiciones

In [67]:
# Productos con peso mayor a 15 kg
pesados = pesos[pesos > 15]
print("Productos con peso > 15kg:", pesados.shape[0])

# Ventas mayores a la media
media_ventas = np.mean(ventas)
ventas_altas = ventas[ventas > media_ventas]
print("Ventas por encima del promedio:", ventas_altas.shape[0])

Productos con peso > 15kg: 2613
Ventas por encima del promedio: 3523


## ⚙️ Operaciones vectorizadas

In [68]:
# Precio por kilo estimado
precio_x_kg = precios / pesos
print("Precio por kilo (primeros 5):", precio_x_kg[:5])

Precio por kilo (primeros 5): [26.8612043   8.15358108  8.09245714  9.48411458  6.03151176]


## ➕ Álgebra matricial con NumPy

In [69]:
# Crear matriz de dos variables
matriz = np.vstack((precios[:100], ventas[:100]))  # 2x100
matriz_t = matriz.T  # 100x2

# Producto matricial (covarianza básica)
producto = matriz @ matriz_t  # 2x2
producto

array([[2.33314993e+06, 3.57611804e+07],
       [3.57611804e+07, 6.98390172e+08]])

## 🧠 Desafíos propuestos

1. Calcular la mediana del peso de los productos usando NumPy.
2. ¿Cuál es el valor más frecuente (moda) de `Item_Weight`?
3. Filtrar los productos que tengan un precio mayor a $250 y visibilidad menor al 0.02.
4. Crear un array que contenga la diferencia entre el precio y las ventas para los primeros 500 productos.
5. Normalizar los valores de visibilidad entre 0 y 1.
6. Crear una matriz de 3 columnas: peso, precio y ventas, y calcular su media por columna.
7. ¿Qué productos tienen un valor de peso faltante (`NaN`)? ¿Cuántos hay?
8. Simular 100 precios aleatorios con `np.random.normal()` con media 200 y desvío 30.
9. Calcular la correlación entre precios y ventas (usando `np.corrcoef`).
10. Guardar un nuevo array con los precios redondeados a 2 decimales.

💡 Tip: ¡Usá funciones como `np.isnan`, `np.round`, `np.corrcoef`, `np.nanmean`, `np.unique`!


In [70]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8523 entries, 0 to 8522
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Item_Identifier            8523 non-null   object 
 1   Item_Weight                7060 non-null   float64
 2   Item_Fat_Content           8523 non-null   object 
 3   Item_Visibility            8523 non-null   float64
 4   Item_Type                  8523 non-null   object 
 5   Item_MRP                   8523 non-null   float64
 6   Outlet_Identifier          8523 non-null   object 
 7   Outlet_Establishment_Year  8523 non-null   int64  
 8   Outlet_Size                6113 non-null   object 
 9   Outlet_Location_Type       8523 non-null   object 
 10  Outlet_Type                8523 non-null   object 
 11  Item_Outlet_Sales          8523 non-null   float64
dtypes: float64(4), int64(1), object(7)
memory usage: 799.2+ KB


In [71]:
weights = df['Item_Weight'].dropna();

1. Calcular la mediana del peso de los productos usando NumPy.

In [72]:
# Calcular la mediana usando NumPy
median_weight = np.median(weights)

print(f"La mediana del peso de los productos es: {median_weight}")

La mediana del peso de los productos es: 12.6


2. ¿Cuál es el valor más frecuente (moda) de Item_Weight?

In [73]:
# Calcular frecuencias de valores únicos
unique_values, counts = np.unique(weights, return_counts=True)

# Encontrar la moda (valor con mayor frecuencia)
moda = unique_values[np.argmax(counts)]

print(f"La moda de 'Item_Weight' es: {moda}")

La moda de 'Item_Weight' es: 12.15


3. Filtrar los productos que tengan un precio mayor a $250 y visibilidad menor al 0.02.

In [74]:
product_filtered = df[(df['Item_MRP'] > 250) & (df['Item_Visibility'] < 0.02)]

# Mostrar los resultados
print(product_filtered[['Item_Identifier', 'Item_MRP', 'Item_Visibility']])

     Item_Identifier  Item_MRP  Item_Visibility
32             FDP33  256.6672         0.000000
212            FDL58  263.7568         0.000000
273            FDK51  264.0884         0.005234
278            FDK21  250.4408         0.016759
423            FDA27  256.7672         0.000000
664            FDD29  253.1698         0.018486
741            FDY02  264.7910         0.000000
831            FDA15  250.2092         0.016055
1049           FDF04  256.4304         0.013634
1326           FDF04  258.3304         0.000000
1450           FDZ20  253.0356         0.000000
1463           DRF37  263.5910         0.000000
1902           FDD29  255.3698         0.018321
2007           FDS13  263.1884         0.000000
2192           FDY45  253.0356         0.000000
2331           FDT07  256.6330         0.000000
2523           FDK21  250.7408         0.010004
2861           FDK40  262.6910         0.000000
3052           FDI15  263.7884         0.000000
3416           FDK51  266.1884         0

4. Crear un array que contenga la diferencia entre el precio y las ventas para los primeros 500 productos.

In [75]:
# Obtener los primeros 500 productos
first_500 = df.head(500)

# Calcular la diferencia entre Item_MRP y Item_Outlet_Sales para los primeros 500 productos
differences = np.array(first_500['Item_MRP'] - first_500['Item_Outlet_Sales'])

# Mostrar las primeras 10 diferencias como ejemplo
print("Primeras 10 diferencias:")
print(differences[:10])

Primeras 10 diferencias:
[-3485.3288  -395.1536 -1955.652   -550.285   -940.8438  -505.208
  -285.894  -3915.0014  -979.626  -4522.7136]


5. Normalizar los valores de visibilidad entre 0 y 1.

In [76]:
# Normalizar la columna Item_Visibility entre 0 y 1
# Se aplica la formula de normalizacion x_normalizado = (x - x_min) / (x_max - x_min)

min_visibility = df['Item_Visibility'].min()
max_visibility = df['Item_Visibility'].max()


df['Item_Visibility_Normalized'] = (df['Item_Visibility'] - min_visibility) / (max_visibility - min_visibility)

# Mostrar las primeras filas para verificar
print(df[['Item_Visibility', 'Item_Visibility_Normalized']].head())

   Item_Visibility  Item_Visibility_Normalized
0         0.016047                    0.048866
1         0.019278                    0.058705
2         0.016760                    0.051037
3         0.000000                    0.000000
4         0.000000                    0.000000


6. Crear una matriz de 3 columnas: peso, precio y ventas, y calcular su media por columna.

In [77]:
# Crear la matriz con las 3 columnas solicitadas
matriz = df[['Item_Weight', 'Item_MRP', 'Item_Outlet_Sales']].values

# Calcular las medias por columna usando numpy
medias_numpy = np.mean(matriz, axis=0)

print("Matriz de 3 columnas (peso, precio, ventas):")
print(matriz[:5])  # Mostrando solo las primeras 5 filas como ejemplo

print("\nMedias:")
print(f"Peso: {medias_numpy[0]:.2f}")
print(f"Precio: {medias_numpy[1]:.2f}")
print(f"Ventas: {medias_numpy[2]:.2f}")

Matriz de 3 columnas (peso, precio, ventas):
[[   9.3     249.8092 3735.138 ]
 [   5.92     48.2692  443.4228]
 [  17.5     141.618  2097.27  ]
 [  19.2     182.095   732.38  ]
 [   8.93     53.8614  994.7052]]

Medias:
Peso: nan
Precio: 140.99
Ventas: 2181.29


7. ¿Qué productos tienen un valor de peso faltante (NaN)? ¿Cuántos hay?

In [78]:
# Identificar productos con peso faltante
# Filtra filas donde 'Item_Weight' es NaN.
missing_weight = df[df['Item_Weight'].isna()]

# Contar cuántos hay
# Se obtiene la cantidad de filas
num_missing = missing_weight.shape[0]

# Mostrar los identificadores de productos con peso faltante
missing_identifiers = missing_weight['Item_Identifier']

print(f"Número de productos con peso faltante: {num_missing}")
print("Identificadores de productos con peso faltante:")
print(missing_identifiers)

Número de productos con peso faltante: 1463
Identificadores de productos con peso faltante:
7       FDP10
18      DRI11
21      FDW12
23      FDC37
29      FDC14
        ...  
8485    DRK37
8487    DRG13
8488    NCN14
8490    FDU44
8504    NCN18
Name: Item_Identifier, Length: 1463, dtype: object


8. Simular 100 precios aleatorios con np.random.normal() con media 200 y desvío 30.

In [79]:
#loc: Es la media de la distribución normal.
#scale: Es el desvío estándar de la distribución.
#size: Genera un array de 100 valores aleatorios.
precios = np.random.normal(loc=200, scale=30, size=100)

print(precios)

[243.12858112 204.99543987 133.8026417  209.72777678 209.09510597
 174.7990017  168.09498666 184.23127492 208.0435762  179.93536604
 194.91459632 213.67835972 218.5728151  169.54313236 172.58387739
 176.69952226 184.55957362 215.45790997 198.49363883 232.78016425
 154.1928023  196.96560507 169.27784356 214.11292004 214.46593587
 213.91461736 250.74293025 171.59204705 170.98446365 194.35595256
 213.17184019 207.09896884 129.1847096  154.79675958 129.53042762
 210.83336672 251.90692788 222.48924991 140.05961889 221.05896958
 254.38183734 193.04526698 217.14302608 186.98526018 163.3397202
 174.84759526 263.88827846 191.39225411 222.81548446 261.73867835
 113.320091   200.22828055 205.11331321 137.14163847 229.48853072
 177.79448116 201.14427644 223.50061616 234.81627809 183.89184164
 201.59851492 210.11086499 186.02863945 194.61500596 197.22316679
 175.85994053 155.27459628 187.78707295 262.4150587  196.93318506
 202.56467747 176.92837535 199.07666218 143.80232824 145.04066928
 224.725198

9. Calcular la correlación entre precios y ventas (usando np.corrcoef).

In [80]:
# Extraer las columnas de interés
prices = df['Item_MRP']
sales = df['Item_Outlet_Sales']

# Calcular la matriz de correlación
correlation_matrix = np.corrcoef(prices, sales)

# El coeficiente de correlación entre precios y ventas
correlation = correlation_matrix[0, 1]

print(f"La correlación entre precios y ventas es: {correlation:.4f}")

La correlación entre precios y ventas es: 0.5676


10. Guardar un nuevo array con los precios redondeados a 2 decimales.

In [81]:
# Obtener la columna Item_MRP y redondear a 2 decimales
precios_redondeados = np.round(df['Item_MRP'].values, 2)

# Mostrar el array resultante
print(precios_redondeados)

[249.81  48.27 141.62 ...  85.12 103.13  75.47]
