<a href="https://colab.research.google.com/github/heldigard/Electiva-Analitica-IA/blob/main/Clase3-Proyecto-Integrador.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üèÜ Clase 3: Proyecto Integrador - An√°lisis de E-Commerce

## Universidad UdeColombia - Especializaci√≥n en Anal√≠tica de Datos

---

### üéØ Objetivos de esta clase

Al finalizar esta sesi√≥n, ser√°s capaz de:

1. **Conectar** a APIs externas y extraer datos en tiempo real
2. **Transformar** datos JSON anidados en DataFrames analizables
3. **Aplicar** todos los conceptos aprendidos en un caso real de e-commerce
4. **Comunicar** hallazgos en un formato ejecutivo profesional

---

## üìã Contexto del Proyecto

### El Escenario:

> **Eres el nuevo analista de datos de "Fake Store"**, una tienda online en crecimiento.
> 
> La gerencia necesita entender mejor el cat√°logo de productos para tomar decisiones sobre:
> - üí∞ **Estrategia de precios**
> - üì¶ **Gesti√≥n de inventario**
> - üì£ **Marketing y promociones**

### Tu Misi√≥n:

Realizar un an√°lisis exploratorio completo del cat√°logo de productos y presentar tus hallazgos a la gerencia.

---

## üåê Parte 1: ¬øQu√© es una API?

### Definici√≥n Simple:

Una **API** (Application Programming Interface) es como un **mesero en un restaurante**:

```
T√ö (Cliente)          API (Mesero)          SERVIDOR (Cocina)
     ‚îÇ                    ‚îÇ                       ‚îÇ
     ‚îÇ‚îÄ‚îÄ‚îÄ Pides datos ‚îÄ‚îÄ‚îÄ‚ñ∫‚îÇ                       ‚îÇ
     ‚îÇ                    ‚îÇ‚îÄ‚îÄ‚îÄ Solicita datos ‚îÄ‚îÄ‚îÄ‚ñ∫‚îÇ
     ‚îÇ                    ‚îÇ                       ‚îÇ
     ‚îÇ                    ‚îÇ‚óÑ‚îÄ‚îÄ Prepara datos ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÇ
     ‚îÇ‚óÑ‚îÄ‚îÄ Entrega datos ‚îÄ‚îÄ‚îÇ                       ‚îÇ
     ‚îÇ                    ‚îÇ                       ‚îÇ
```

### Tipos de Peticiones HTTP:

| M√©todo | Descripci√≥n | Analog√≠a |
|--------|-------------|----------|
| **GET** | Obtener datos | "Tr√°eme el men√∫" |
| POST | Enviar datos | "Quiero ordenar esto" |
| PUT | Actualizar datos | "Cambia mi pedido" |
| DELETE | Eliminar datos | "Cancela mi pedido" |

**En este curso solo usaremos GET** (obtener datos).

---

## üõ†Ô∏è Configuraci√≥n Inicial

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import requests  # Para conectar a APIs

# Configuraci√≥n visual
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = [10, 6]

# Configuraci√≥n de pandas
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:,.2f}'.format)

print("‚úÖ ¬°Librer√≠as cargadas correctamente!")

---

## üîå Parte 2: Conectando a la API

### La API que usaremos:

**Fake Store API** - Una API gratuita y p√∫blica de productos de e-commerce.

- **URL Base:** `https://fakestoreapi.com`
- **Endpoint de productos:** `/products`
- **Documentaci√≥n:** [fakestoreapi.com/docs](https://fakestoreapi.com/docs)

### Paso 1: Hacer la petici√≥n a la API

In [None]:
# URL del endpoint de productos
url = "https://fakestoreapi.com/products"

# Hacer la petici√≥n GET
respuesta = requests.get(url)

# Verificar el c√≥digo de estado
print(f"üì° C√≥digo de estado: {respuesta.status_code}")

if respuesta.status_code == 200:
    print("‚úÖ ¬°Conexi√≥n exitosa! Los datos fueron recibidos.")
else:
    print(f"‚ùå Error en la conexi√≥n. C√≥digo: {respuesta.status_code}")

### üìñ C√≥digos de Estado HTTP Comunes:

| C√≥digo | Significado | ¬øQu√© hacer? |
|--------|-------------|-------------|
| **200** | ‚úÖ √âxito | ¬°Todo bien! |
| 400 | Error en tu petici√≥n | Revisa la URL |
| 401 | No autorizado | Necesitas credenciales |
| 404 | No encontrado | URL incorrecta |
| 500 | Error del servidor | Intenta m√°s tarde |

### Paso 2: Explorar los datos JSON

In [None]:
# Convertir la respuesta a JSON (diccionario de Python)
datos_json = respuesta.json()

# ¬øQu√© tipo de estructura tenemos?
print(f"üìä Tipo de datos: {type(datos_json)}")
print(f"üìä Cantidad de elementos: {len(datos_json)}")

# Ver el primer producto como ejemplo
print("\nüì¶ Ejemplo de un producto:")
print("-" * 50)
import json
print(json.dumps(datos_json[0], indent=2))

### ü§î Observaci√≥n Importante:

¬øNotaste que la columna `rating` es un **diccionario anidado**?

```json
"rating": {
    "rate": 3.9,
    "count": 120
}
```

Esto es un problema com√∫n al trabajar con APIs. ¬°Lo resolveremos!

### Paso 3: Convertir a DataFrame

In [None]:
# Convertir JSON a DataFrame
df = pd.DataFrame(datos_json)

print(f"‚úÖ DataFrame creado: {df.shape[0]} productos √ó {df.shape[1]} columnas")
print("\nüìã Primeras filas:")
df.head()

In [None]:
# Ver la estructura
df.info()

---

## üßπ Parte 3: Limpieza y Transformaci√≥n de Datos

### El Reto: La columna `rating` est√° anidada

Necesitamos separar `rating` en dos columnas:
- `rating_rate` ‚Üí La puntuaci√≥n (ej: 4.1)
- `rating_count` ‚Üí N√∫mero de votantes (ej: 120)

In [None]:
# M√©todo 1: Usar pd.json_normalize (recomendado)
# =============================================

# Paso 1: Normalizar la columna 'rating' en un nuevo DataFrame
rating_df = pd.json_normalize(df['rating'])

# Paso 2: Renombrar las columnas para mayor claridad
rating_df = rating_df.rename(columns={'rate': 'rating_rate', 'count': 'rating_count'})

# Paso 3: Unir este nuevo DataFrame con el original
df = pd.concat([df, rating_df], axis=1)

# Paso 4: Eliminar la columna original 'rating' que ya no necesitamos
df = df.drop(columns=['rating'])

print("‚úÖ Columna 'rating' transformada exitosamente")
print("\nüìã Nuevas columnas:")
df.head()

In [None]:
# Verificar que la transformaci√≥n fue exitosa
print("üìä Informaci√≥n del DataFrame limpio:")
df.info()

### ‚úèÔ∏è ACTIVIDAD 1: Exploraci√≥n Inicial (10 min)

Usa lo aprendido en las clases anteriores para responder:

1. ¬øCu√°ntas categor√≠as de productos hay?
2. ¬øCu√°l es el precio m√°s alto y m√°s bajo?
3. ¬øCu√°l es la calificaci√≥n promedio de los productos?

**Tip:** Usa `.describe()`, `.unique()`, `.value_counts()`

In [None]:
# Tu c√≥digo aqu√≠
# ==============

# 1. Categor√≠as √∫nicas
print("üì¶ Categor√≠as de productos:")
print(df['category'].unique())
print(f"\nTotal de categor√≠as: {df['category'].nunique()}")

In [None]:
# 2. Estad√≠sticas de precios
print("üí∞ Estad√≠sticas de Precios:")
df['price'].describe()

In [None]:
# 3. Calificaci√≥n promedio
print(f"‚≠ê Calificaci√≥n promedio: {df['rating_rate'].mean():.2f}")
print(f"‚≠ê Calificaci√≥n mediana: {df['rating_rate'].median():.2f}")

---

## üìä Parte 4: An√°lisis Exploratorio Completo

Vamos a responder las preguntas de negocio que nos pidi√≥ la gerencia.

### Pregunta 1: ¬øC√≥mo se distribuyen los precios?

In [None]:
# Histograma de precios
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma
axes[0].hist(df['price'], bins=15, color='steelblue', edgecolor='white', alpha=0.7)
axes[0].axvline(df['price'].mean(), color='red', linestyle='--', label=f'Promedio: ${df["price"].mean():.2f}')
axes[0].axvline(df['price'].median(), color='green', linestyle='--', label=f'Mediana: ${df["price"].median():.2f}')
axes[0].set_title('üìä Distribuci√≥n de Precios', fontsize=13, fontweight='bold')
axes[0].set_xlabel('Precio ($)')
axes[0].set_ylabel('Cantidad de Productos')
axes[0].legend()

# Boxplot
axes[1].boxplot(df['price'], vert=True)
axes[1].set_title('üì¶ Boxplot de Precios', fontsize=13, fontweight='bold')
axes[1].set_ylabel('Precio ($)')

plt.tight_layout()
plt.show()

# Productos m√°s caros y m√°s baratos
print("\nüîù Top 5 productos M√ÅS CAROS:")
print(df.nlargest(5, 'price')[['title', 'price', 'category']])

print("\nüîª Top 5 productos M√ÅS BARATOS:")
print(df.nsmallest(5, 'price')[['title', 'price', 'category']])

### üéì Interpretaci√≥n - Pregunta 1:

**Observaciones:**
- La mayor√≠a de productos est√°n en el rango de $0-50
- Hay algunos productos premium con precios altos (outliers)
- La mediana es menor que el promedio ‚Üí distribuci√≥n sesgada hacia la derecha

**Insight de negocio:**
> Fake Store es principalmente una tienda de productos **accesibles**. Los productos de alto valor son pocos, probablemente art√≠culos especializados (joyer√≠a, electr√≥nica premium).

### Pregunta 2: ¬øCu√°ntos productos hay por categor√≠a?

In [None]:
# An√°lisis por categor√≠a
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Cantidad por categor√≠a
conteo_cat = df['category'].value_counts()
colores = sns.color_palette('husl', len(conteo_cat))

axes[0].barh(conteo_cat.index, conteo_cat.values, color=colores)
axes[0].set_title('üì¶ Cantidad de Productos por Categor√≠a', fontsize=13, fontweight='bold')
axes[0].set_xlabel('Cantidad')

# Agregar etiquetas
for i, v in enumerate(conteo_cat.values):
    axes[0].text(v + 0.2, i, str(v), va='center', fontweight='bold')

# Precio promedio por categor√≠a
precio_cat = df.groupby('category')['price'].mean().sort_values(ascending=True)

axes[1].barh(precio_cat.index, precio_cat.values, color=colores)
axes[1].set_title('üí∞ Precio Promedio por Categor√≠a', fontsize=13, fontweight='bold')
axes[1].set_xlabel('Precio Promedio ($)')

# Agregar etiquetas
for i, v in enumerate(precio_cat.values):
    axes[1].text(v + 1, i, f'${v:.2f}', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

### üéì Interpretaci√≥n - Pregunta 2:

**Observaciones:**
- Las categor√≠as de **ropa** (men's/women's clothing) dominan el cat√°logo
- **Joyer√≠a** tiene menos productos pero el **precio m√°s alto**
- **Electr√≥nica** tiene precios intermedios

**Insight de negocio:**
> La tienda es principalmente de **moda/ropa**, pero la joyer√≠a podr√≠a ser m√°s rentable por unidad. Considerar expandir el cat√°logo de joyer√≠a o electr√≥nica de alto margen.

### Pregunta 3: ¬øExiste relaci√≥n entre precio y calificaci√≥n?

In [None]:
# Scatter plot: Precio vs Calificaci√≥n
plt.figure(figsize=(12, 6))

# Crear scatter con colores por categor√≠a
categorias = df['category'].unique()
colores = sns.color_palette('husl', len(categorias))

for i, cat in enumerate(categorias):
    datos_cat = df[df['category'] == cat]
    plt.scatter(datos_cat['price'], datos_cat['rating_rate'], 
                label=cat, alpha=0.7, s=100, color=colores[i])

plt.title('üìä Relaci√≥n entre Precio y Calificaci√≥n', fontsize=14, fontweight='bold')
plt.xlabel('Precio ($)')
plt.ylabel('Calificaci√≥n (‚≠ê)')
plt.legend(title='Categor√≠a', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)

# L√≠neas de referencia
plt.axhline(y=df['rating_rate'].mean(), color='red', linestyle='--', alpha=0.5, label='Calificaci√≥n promedio')

plt.tight_layout()
plt.show()

# Calcular correlaci√≥n
correlacion = df['price'].corr(df['rating_rate'])
print(f"\nüìà Correlaci√≥n precio-calificaci√≥n: {correlacion:.3f}")
print("\nüí° Interpretaci√≥n:")
if abs(correlacion) < 0.3:
    print("   ‚Üí Correlaci√≥n D√âBIL: El precio NO determina la calificaci√≥n")
elif abs(correlacion) < 0.7:
    print("   ‚Üí Correlaci√≥n MODERADA: Hay cierta relaci√≥n")
else:
    print("   ‚Üí Correlaci√≥n FUERTE: El precio influye significativamente")

### üéì Interpretaci√≥n - Pregunta 3:

**Observaciones:**
- No hay una relaci√≥n clara entre precio y calificaci√≥n
- Productos baratos pueden tener buenas calificaciones
- Productos caros no garantizan mejor satisfacci√≥n

**Insight de negocio:**
> El precio **no es el factor principal** que determina la satisfacci√≥n del cliente. Esto sugiere que otros factores (calidad, descripci√≥n, tiempo de env√≠o) son m√°s importantes. **¬°Buenas noticias para productos econ√≥micos!**

### ‚úèÔ∏è ACTIVIDAD 2: Identificar Productos Estrella (15 min)

**El Reto:**

La gerencia quiere identificar los **"productos estrella"** - aquellos que combinan alta popularidad (muchas valoraciones) con alta calidad (buena calificaci√≥n).

**Tareas:**

1. Crea una nueva columna `score` calculada como: `score = rating_rate √ó rating_count`
2. Identifica los 5 productos con mayor `score`
3. Crea una visualizaci√≥n que muestre estos productos estrella

**Usa un chatbot con este prompt:**

```
Tengo un DataFrame 'df' con las columnas:
- title: nombre del producto
- price: precio
- rating_rate: calificaci√≥n (1-5)
- rating_count: n√∫mero de valoraciones
- category: categor√≠a

TAREA:
1. Crea una columna 'score' = rating_rate * rating_count
2. Muestra los 5 productos con mayor score en una tabla
3. Crea un gr√°fico de barras horizontal con los top 5
```

In [None]:
# üìù TU C√ìDIGO AQU√ç
# =================



---

## üìù Parte 5: Resumen Ejecutivo

### ¬øQu√© es un Resumen Ejecutivo?

Un resumen ejecutivo es un documento breve que:
- Presenta los **hallazgos m√°s importantes** de un an√°lisis
- Est√° escrito para **gerentes que no tienen tiempo** de leer todo
- Incluye **recomendaciones accionables**
- Se enfoca en el **impacto de negocio**, no en la t√©cnica

### Estructura Recomendada:

```
1. CONTEXTO (1-2 oraciones)
   ‚Üí ¬øQu√© se analiz√≥ y por qu√©?

2. HALLAZGOS CLAVE (3-5 puntos)
   ‚Üí Los insights m√°s importantes

3. RECOMENDACIONES (2-3 acciones)
   ‚Üí ¬øQu√© deber√≠a hacer la empresa?
```

### üìä Ejemplo de Resumen Ejecutivo para Fake Store:

---

## Resumen Ejecutivo: An√°lisis del Cat√°logo de Fake Store

**Fecha:** Enero 2026  
**Analista:** [Tu nombre]  
**Fuente de datos:** Fake Store API (20 productos)

### Contexto
Se realiz√≥ un an√°lisis exploratorio del cat√°logo de productos para identificar oportunidades de mejora en estrategia de precios, inventario y marketing.

### Hallazgos Clave

1. **üì¶ Composici√≥n del Cat√°logo:** El cat√°logo est√° dominado por ropa (60%), seguido de electr√≥nica y joyer√≠a. Hay oportunidad de diversificaci√≥n.

2. **üí∞ Estrategia de Precios:** La mayor√≠a de productos son accesibles (<$50), pero la joyer√≠a tiene el mayor precio promedio. El margen de ganancia podr√≠a ser mayor en esta categor√≠a.

3. **‚≠ê Satisfacci√≥n del Cliente:** La calificaci√≥n promedio es alta (3.9/5). No hay correlaci√≥n entre precio y calificaci√≥n, lo que indica que los productos econ√≥micos pueden competir en calidad.

4. **üåü Productos Estrella:** Los productos con mejor combinaci√≥n de popularidad y calificaci√≥n son [listar los top 3].

### Recomendaciones

1. **Expandir joyer√≠a de alto margen:** Dado el precio promedio superior, considerar ampliar esta categor√≠a.

2. **Promocionar productos estrella:** Usar los productos con mejor "score" en campa√±as de marketing y posiciones destacadas.

3. **Mantener accesibilidad:** La estrategia de precios bajos funciona - no sacrificar este posicionamiento.

---

### ‚úèÔ∏è ACTIVIDAD FINAL: Tu Resumen Ejecutivo (20 min)

Bas√°ndote en tu an√°lisis, escribe tu propio resumen ejecutivo.

**Tip:** Puedes usar un chatbot para ayudarte a redactar, pero aseg√∫rate de que los datos sean correctos y las recomendaciones tengan sentido.

**Prompt sugerido:**
```
Ay√∫dame a escribir un resumen ejecutivo para la gerencia.

Datos del an√°lisis:
- Dataset: 20 productos de tienda online
- Categor√≠as: ropa de hombre, ropa de mujer, electr√≥nica, joyer√≠a
- Precio promedio: $X
- Calificaci√≥n promedio: X/5
- [Agrega tus hallazgos]

Escr√≠belo en espa√±ol, m√°ximo 3 p√°rrafos, con:
- 3 hallazgos clave
- 2 recomendaciones accionables
```

### üìù TU RESUMEN EJECUTIVO:

---

## Resumen Ejecutivo: [T√≠tulo de tu an√°lisis]

**Fecha:** [Fecha]  
**Analista:** [Tu nombre]

### Contexto
[Tu contexto aqu√≠]

### Hallazgos Clave
1. [Hallazgo 1]
2. [Hallazgo 2]
3. [Hallazgo 3]

### Recomendaciones
1. [Recomendaci√≥n 1]
2. [Recomendaci√≥n 2]

---

---

## üìö Diccionario de T√©rminos

| T√©rmino (Ingl√©s) | Espa√±ol | Descripci√≥n |
|------------------|---------|-------------|
| **API** | API | Interfaz para obtener datos de un servidor |
| **Endpoint** | Punto de conexi√≥n | URL espec√≠fica de la API |
| **Request** | Petici√≥n | Solicitud de datos al servidor |
| **Response** | Respuesta | Datos devueltos por el servidor |
| **JSON** | JSON | Formato de datos (texto estructurado) |
| **Status Code** | C√≥digo de estado | N√∫mero que indica si la petici√≥n fue exitosa |
| **DataFrame** | Marco de datos | Tabla de datos en pandas |
| **Nested** | Anidado | Datos dentro de otros datos |
| **Normalize** | Normalizar | Aplanar datos anidados |
| **Correlation** | Correlaci√≥n | Relaci√≥n entre dos variables |
| **Outlier** | Valor at√≠pico | Dato que se sale del rango normal |

---

## üìö Resumen del Curso Completo

### Lo que aprendiste en las 3 clases:

| Clase | Tema | Habilidades Clave |
|-------|------|-------------------|
| **1** | Fundamentos | Prompting efectivo, exploraci√≥n de datos, limpieza b√°sica |
| **2** | Visualizaci√≥n | 5 tipos de gr√°ficos, interpretaci√≥n de patrones, insights |
| **3** | Proyecto | APIs, datos anidados, an√°lisis completo, comunicaci√≥n ejecutiva |

### El Ciclo de An√°lisis con IA:

```
PLANIFICAR ‚Üí EJEMPLIFICAR ‚Üí GENERAR ‚Üí EJECUTAR ‚Üí INTERPRETAR ‚Üí ITERAR
```

### Herramientas de IA Recomendadas:

- üü¢ **ChatGPT** - [chat.openai.com](https://chat.openai.com)
- üü° **Qwen** (100% gratis) - [chat.qwen.ai](https://chat.qwen.ai)  
- üîµ **Google AI Studio** - [aistudio.google.com](https://aistudio.google.com)
- üü£ **Claude** - [claude.ai](https://claude.ai)
- ‚ö´ **Grok** - [grok.x.ai](https://grok.x.ai)
- üî¥ **Kimi K2** - [kimi.moonshot.cn](https://kimi.moonshot.cn)

### ‚ö†Ô∏è Recuerda siempre:

> **ANONIMIZA los datos sensibles antes de pegarlos en chatbots gratuitos.**  
> Las versiones gratuitas pueden usar tu informaci√≥n para entrenar sus modelos.

---

## üéì ¬°Felicitaciones!

Has completado el curso de **Anal√≠tica de Datos con IA**.

Ahora tienes las herramientas para:
- ‚úÖ Usar IA como copiloto para an√°lisis de datos
- ‚úÖ Crear visualizaciones que cuenten historias
- ‚úÖ Conectarte a APIs y procesar datos del mundo real
- ‚úÖ Comunicar hallazgos de forma profesional

**Siguiente paso:** Completa el Taller Final para aplicar todo lo aprendido.