# Proyecto Final Visualización: Análisis de Precios de Diamantes

## Objetivos del Proyecto
Realizar un **EDA visual completo** para entender qué factores influyen más en el precio de un diamante.
- Analizar la distribución de precios.
- Comparar precios según la calidad del corte (`Cut`).
- Encontrar correlaciones entre peso (`Carat`) y precio.
- Explorar relaciones multivariables con herramientas avanzadas (`Pairplot`, `Lmplot`).

## 1. Carga de Datos
Usaremos el dataset `diamonds` de Seaborn.
**Nota:** Como el dataset original tiene ~54,000 filas, crearemos una muestra aleatoria de 5,000 registros para que los gráficos complejos (como el pairplot) carguen rápido.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Configuración estética profesional
sns.set_theme(style="whitegrid", context="notebook")

# Cargar dataset completo
df_full = sns.load_dataset('diamonds')

# Tomar una muestra aleatoria de 5000 filas para agilizar la visualización
df = df_full.sample(n=5000, random_state=42)

print(f"--- Dataset Cargado: {df_full.shape[0]} filas ---")
print(f"--- Muestra para Análisis: {df.shape[0]} filas ---")
display(df.head())

## 2. Análisis Univariable: Distribución del Precio
**Objetivo:** ¿Cómo se distribuyen los precios? ¿Son comunes los diamantes caros?

In [None]:
plt.figure(figsize=(10, 6))

sns.histplot(
    data=df,
    x='price',
    kde=True,       # Línea de densidad
    color='#8e44ad', # Color morado
    bins=30
)

plt.title('Distribución de Precios de los Diamantes')
plt.xlabel('Precio ($)')
plt.ylabel('Frecuencia')
plt.show()

### Observación 1
La distribución está fuertemente **sesgada a la derecha**. La gran mayoría de los diamantes son "baratos" (menos de $5,000), mientras que los diamantes muy caros:  (+$15,000) son extremadamente raros.

## 3. Análisis Categórico: Precio vs Calidad de Corte
**Objetivo:** ¿Un mejor corte (*Ideal*) garantiza un precio más alto?
Usaremos `boxplot` para ver medianas y rangos.

In [None]:
plt.figure(figsize=(10, 6))

# Orden de calidad: Fair (Peor) -> Ideal (Mejor)
orden_calidad = ['Fair', 'Good', 'Very Good', 'Premium', 'Ideal']

sns.boxplot(
    data=df,
    x='cut',
    y='price',
    order=orden_calidad,
    palette='viridis'
)

plt.title('Precio según la Calidad del Corte')
plt.show()

### Observación 2
Ocurre algo curioso: **Los diamantes con corte "Ideal" tienen una mediana de precio más baja** que los "Premium" o "Fair".
* Esto suele suceder porque los diamantes con corte "Ideal" tienden a ser más pequeños (menos quilates) para mantener la perfección geométrica, mientras que cortes de peor calidad se usan en piedras grandes para no perder material.

## 4. Matriz de Correlación
**Objetivo:** Ver qué variables numéricas están más conectadas.

In [None]:
plt.figure(figsize=(8, 6))

# Calcular correlación solo de columnas numéricas
corr_matrix = df.corr(numeric_only=True)

sns.heatmap(
    corr_matrix,
    annot=True,     # Ver números
    cmap='coolwarm',
    fmt=".2f",
    linewidths=0.5
)

plt.title('Mapa de Calor de Correlaciones')
plt.show()

### Observación 3
* **Precio vs Quilates (Carat):** Correlación altísima de **0.92**. El peso es el factor determinante del precio.
* **Dimensiones (x, y, z):** También tienen correlación casi perfecta con el precio y los quilates.

## 5. Regresión Lineal Avanzada (`sns.lmplot`)
**Objetivo:** Visualizar la relación Peso vs Precio, separando por Color del diamante.
* `lmplot` dibuja líneas de regresión para ver tendencias.

In [None]:
# Lmplot crea su propia figura, no necesita plt.figure()
sns.lmplot(
    data=df,
    x='carat',
    y='price',
    hue='color',     # Separar líneas por color del diamante
    height=6,
    aspect=1.5,
    scatter_kws={'alpha': 0.3} # Puntos semitransparentes
)

plt.title('Regresión: Peso (Carat) vs Precio por Color')
plt.show()

### Observación 4
Se confirma la relación lineal positiva: **A mayor peso, mayor precio**.
Las líneas separadas por color nos muestran que, para un mismo peso, ciertos colores (grados de pureza) cotizan más alto que otros (líneas con pendiente más pronunciada).

## 6. Resumen Multivariable (`sns.pairplot`)
**Objetivo:** Una vista panorámica de las relaciones entre las variables más importantes: Quilataje, Profundidad y Precio.

In [None]:
# Seleccionamos solo las columnas de interés para no saturar el gráfico
vars_interes = ['carat', 'depth', 'price']

sns.pairplot(
    df,
    vars=vars_interes,
    hue='cut',      # Colorear según la calidad del corte
    palette='husl',
    plot_kws={'alpha': 0.5}
)

plt.show()

## Conclusiones del Proyecto
1.  El **Precio** de los diamantes no sigue una distribución normal; hay muchos baratos y muy pocos caros.
2.  El factor más importante para el precio es el **Peso (Carat)** (Corr: 0.92).
3.  La calidad del **Corte** no asegura un precio más alto por sí sola (posiblemente debido al tamaño de la piedra).
4.  Seaborn nos permite detectar estas relaciones complejas usando herramientas como `heatmap` y `lmplot`.