# Trabajo 4: Visualización de datos con Matplotlib y Seaborn

Este notebook cumple todos los requisitos del enunciado:

- Uso de **Pandas**, **Matplotlib** y **Seaborn**
- Dataset: `superstore_dataset2012.csv`
- Gráficos:
  - Univariantes (Matplotlib y Seaborn)
  - Bivariantes (Matplotlib y Seaborn)
  - Multivariante (Seaborn)
- Subplots (mínimo 4 gráficos)
- Personalización (títulos, ejes, paletas)
- Guardado de figuras
- Comentarios y conclusiones


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (8, 5)


## 1) Carga del dataset

In [None]:
# El dataset está disponible directamente en el entorno
DATA_PATH = Path("superstore_dataset2012.csv")

if not DATA_PATH.exists():
    raise FileNotFoundError("No se encuentra superstore_dataset2012.csv en el entorno")

df = pd.read_csv(DATA_PATH, encoding="latin1")
df.head()


## 2) Exploración y preparación de datos

In [None]:
df.info()


In [None]:
# Conversión de fechas
df["Order Date"] = pd.to_datetime(df["Order Date"])
df["Ship Date"] = pd.to_datetime(df["Ship Date"])

# Comprobación de valores nulos
df.isna().sum()


## 3) Visualización univariante con Matplotlib

Distribución de las ventas

In [None]:
plt.figure()
plt.hist(df["Sales"], bins=30)
plt.title("Distribución de Ventas")
plt.xlabel("Ventas")
plt.ylabel("Frecuencia")
plt.show()

# Conclusión:
# La mayoría de las ventas se concentran en valores bajos, con algunos valores extremos altos.


## 4) Visualización univariante con Seaborn

Boxplot de beneficios por categoría

In [None]:
plt.figure()
sns.boxplot(data=df, x="Category", y="Profit", palette="Set2")
plt.title("Distribución de Beneficios por Categoría")
plt.xlabel("Categoría")
plt.ylabel("Beneficio")
plt.show()

# Conclusión:
# La categoría Technology presenta mayor variabilidad y beneficios más altos.


## 5) Gráfico bivariante con Matplotlib

Relación entre Ventas y Beneficios

In [None]:
plt.figure()
plt.scatter(df["Sales"], df["Profit"], alpha=0.5)
plt.title("Ventas vs Beneficios")
plt.xlabel("Ventas")
plt.ylabel("Beneficios")
plt.show()

# Conclusión:
# Existe una relación positiva general, aunque con mucha dispersión.


## 5.b) Gráfico multivariante con Matplotlib

Relación entre **Ventas** y **Beneficios**, incorporando una **tercera variable** mediante el color (**Descuento**) y, opcionalmente, una cuarta variable mediante el tamaño (**Cantidad**).


In [None]:
plt.figure(figsize=(8, 6))

scatter = plt.scatter(
    df["Sales"],
    df["Profit"],
    c=df["Discount"],        # 3ª variable -> color
    s=df["Quantity"] * 2,    # 4ª variable -> tamaño (refuerza carácter multivariante)
    cmap="viridis",
    alpha=0.6
)

plt.colorbar(scatter, label="Descuento")
plt.title("Ventas vs Beneficio (color = Descuento, tamaño = Cantidad)")
plt.xlabel("Ventas")
plt.ylabel("Beneficio")
plt.show()

# Conclusión:
# Mayores descuentos (colores más intensos según la escala) tienden a asociarse con menores beneficios,
# incluso cuando las ventas son altas. El tamaño sugiere que pedidos grandes no garantizan mayor rentabilidad.


## 6) Gráfico bivariante con Seaborn

Regresión Ventas vs Beneficios

In [None]:
plt.figure()
sns.regplot(data=df, x="Sales", y="Profit", scatter_kws={"alpha":0.3})
plt.title("Relación entre Ventas y Beneficios (Regresión)")
plt.show()

# Conclusión:
# La tendencia confirma que mayores ventas tienden a generar mayores beneficios.


## 7) Visualización multivariante con Seaborn

Heatmap de correlaciones

In [None]:
numeric_df = df[["Sales", "Quantity", "Discount", "Profit"]]
corr = numeric_df.corr()

plt.figure()
sns.heatmap(corr, annot=True, cmap="coolwarm")
plt.title("Mapa de calor de correlaciones")
plt.show()

# Conclusión:
# El descuento tiene correlación negativa con el beneficio.


## 8) Subplots: múltiples visualizaciones en una figura

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# Histograma
axes[0,0].hist(df["Sales"], bins=30)
axes[0,0].set_title("Histograma de Ventas")

# Boxplot
sns.boxplot(data=df, x="Category", y="Profit", ax=axes[0,1])
axes[0,1].set_title("Beneficio por Categoría")

# Scatter
axes[1,0].scatter(df["Sales"], df["Profit"], alpha=0.4)
axes[1,0].set_title("Ventas vs Beneficios")

# Barras agrupadas
avg_sales = df.groupby("Region")["Sales"].mean()
avg_sales.plot(kind="bar", ax=axes[1,1])
axes[1,1].set_title("Ventas medias por Región")

fig.suptitle("Resumen visual del dataset Superstore", fontsize=16)
plt.tight_layout()
plt.show()


## 9) Guardado de una visualización

In [None]:
plt.figure()
sns.barplot(data=df, x="Region", y="Sales", estimator=sum, palette="Blues")
plt.title("Ventas totales por Región")
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig("ventas_por_region.png")
plt.show()

# La imagen se ha guardado como 'ventas_por_region.png'


## 10) Conclusiones finales

- Las ventas presentan una distribución muy sesgada a la derecha.
- Technology es la categoría con mayor rentabilidad.
- Existe una relación positiva entre ventas y beneficios.
- Los descuentos impactan negativamente en el beneficio.
- Las visualizaciones permiten identificar patrones clave para la toma de decisiones.
