# Análisis Exploratorio de Datos (EDA)

Este cuaderno realiza un EDA básico sobre un dataset hipotético de compras. El análisis se enfoca en preguntas de negocio sencillas y aplica métodos de filtrado y agrupación para calcular métricas relevantes.

In [None]:
!wget https://raw.githubusercontent.com/javierherrera1996/IntroMachineLearning/refs/heads/main/PrimerCorte/RegresionLineal/shopping_trends.csv

--2025-02-26 22:50:57--  https://raw.githubusercontent.com/javierherrera1996/IntroMachineLearning/refs/heads/main/PrimerCorte/RegresionLineal/shopping_trends.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 453248 (443K) [text/plain]
Saving to: ‘shopping_trends.csv.1’


2025-02-26 22:50:57 (9.80 MB/s) - ‘shopping_trends.csv.1’ saved [453248/453248]



## 1. Importar librerías y cargar datos

En este ejemplo, se asume que el archivo CSV se llama `datos_compras.csv`. Ajusta el nombre o la ruta del archivo según corresponda.

In [1]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv('shopping_trends.csv')

# Mostrar las primeras filas para verificar
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'shopping_trends.csv'

Observamos que nuestro DataFrame contiene, entre otras, las siguientes columnas:

- **Customer ID**: ID único de cada cliente.
- **Age**: Edad del cliente.
- **Gender**: Género del cliente (Male/Female).
- **Item Purchased**: Nombre del producto comprado.
- **Category**: Categoría del producto (Footwear, Clothing, Accessories, etc.).
- **Purchase Amount (USD)**: Monto de la compra en dólares.
- **Location**: Ubicación/Estado.
- **Size**: Talla del producto.
- **Color**: Color del producto.
- **Season**: Temporada (Summer, Winter, etc.).
- **Review Rating**: Calificación de reseña (escala 1-5).
- **Subscription Status**: Indica si el cliente está suscrito (Yes/No).
- **Shipping Type**: Tipo de envío (Express, Store Pickup, etc.).
- **Discount Applied**: Indica si se aplicó descuento (Yes/No).
- **Promo Code Used**: Indica si se usó código promocional (Yes/No).
- **Previous Purchases**: Número de compras anteriores.
- **Payment Method**: Método de pago (Credit Card, Debit Card, PayPal, etc.).
- **Frequency of Purchases**: Frecuencia de compra (Daily, Weekly, Monthly, etc.).


## 2. Limpieza y revisión rápida de datos
Antes de responder a las preguntas de negocio, revisemos datos básicos: número de filas, columnas y valores nulos.

In [2]:
df.shape


NameError: name 'df' is not defined

In [5]:
# Ver información general
df.info()


NameError: name 'df' is not defined

In [6]:
# Ver estadísticos descriptivos de las columnas numéricas
df.describe()


NameError: name 'df' is not defined

Si encuentras valores nulos en alguna columna, podrías decidir cómo manejarlos (eliminarlos o rellenarlos). Por simplicidad, asumimos que no hay muchos datos faltantes o que no es crítico para este ejemplo.

## 3. Preguntas de negocio
A continuación, formulamos algunas preguntas de negocio y utilizamos operaciones de filtrado y/o agrupaciones para responderlas.

### 3.1 ¿Cuántos clientes únicos hay?
Esta pregunta nos ayuda a entender la base total de clientes.

In [7]:
df['ustomer ID'].nunique()


NameError: name 'df' is not defined

### 3.2 ¿Cuál es el gasto promedio por género?
Para entender si hay diferencias en el monto de compra según el género, hacemos un groupby y calculamos la media.

In [8]:
 df.groupby('Gender')['Purchase Amount (USD)'].mean()


NameError: name 'df' is not defined

### 3.3 ¿Cuál es la calificación de reseña promedio por temporada?
Si queremos ver si las reseñas cambian según la temporada, podemos hacer una agrupación por la columna `Season` y calcular la media.

In [9]:
df.groupby('Season')['Review Rating'].mean()


NameError: name 'df' is not defined

### 3.4 ¿Cuál es el método de pago más utilizado?
Una forma rápida es usar `value_counts()` en la columna `Payment Method`.

In [10]:
df.value_counts('Payment Method')


NameError: name 'df' is not defined

### 3.5 ¿Qué categoría se vende más?
Para saber la categoría más popular, también usamos `value_counts()`.

In [11]:
df.value_counts('Category')


NameError: name 'df' is not defined

### 3.6 ¿Cuántos clientes tienen suscripción activa?
Analizamos la columna `Subscription Status`.

In [12]:
df.value_counts('Subscription Status') # 1053 tienen la suscripcion activa

NameError: name 'df' is not defined

### 3.7 ¿Cuál es el gasto promedio por categoría?
Para entender mejor en qué categoría gastan más nuestros clientes.

In [13]:

df.groupby('Category')['Purchase Amount (USD)'].mean()


NameError: name 'df' is not defined

### 3.8 ¿Cuántos clientes usan código promocional?
Podemos filtrar o contar los valores de la columna `Promo Code Used`.

In [14]:
df.value_counts('Promo Code Used')



NameError: name 'df' is not defined

## 4. Conclusiones
- **Clientes únicos**: Nos indica cuántas personas diferentes compran en nuestra tienda.
- **Gasto promedio por género**: Sirve para comprender si existe diferencia significativa en el gasto entre hombres y mujeres.
- **Calificación promedio por temporada**: Ayuda a identificar en qué temporada los clientes suelen estar más satisfechos.
- **Métodos de pago preferidos**: Informa sobre la facilidad o preferencia de pago.
- **Categoría más vendida**: Podríamos enfocarnos en promocionarla o analizar por qué se vende más.
- **Suscripciones**: Entender cuántos clientes están suscritos para estrategias de marketing.
- **Uso de códigos promocionales**: Indica si las promociones son efectivas o no.

Este análisis permite identificar patrones y oportunidades para enfocar acciones comerciales y de marketing.