In [None]:
# %% [markdown]
# # Análisis Visual de Superstore 2012
# 
# Este notebook realiza un análisis exploratorio del dataset `superstore_dataset2012.csv` usando **Matplotlib** y **Seaborn**, incluyendo:
# - Gráficos univariantes y bivariantes
# - Visualizaciones multivariantes
# - Subplots organizados
# - Personalización de colores, títulos y etiquetas
# - Guardado de figuras
# 
# **Ruta del dataset:**  
# `C:\Users\gonzalo\Desktop\Python\Problemas_python\proyecto_2\superstore_dataset2012.csv`

# %%
# 1. Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración general de Seaborn
sns.set(style='darkgrid')

# %%
# 2. Cargar dataset
ruta_dataset = r"C:\Users\gonzalo\Desktop\Python\Problemas_python\proyecto_2\superstore_dataset2012.csv"
df = pd.read_csv(ruta_dataset)

# %%
# 3. Exploración inicial
print(df.info())
print(df.head())
print(df.describe())
print(df.isnull().sum())  # Revisar valores nulos

# Convertir fecha a datetime si existe
if 'Order Date' in df.columns:
    df['Order Date'] = pd.to_datetime(df['Order Date'])

# %%
# 4. Gráfico univariante con Matplotlib: Histograma de Ventas
plt.figure(figsize=(8,5))
plt.hist(df['Sales'], bins=40, color='skyblue', edgecolor='black', alpha=0.7)
plt.title("Distribución de Ventas")
plt.xlabel("Ventas")
plt.ylabel("Frecuencia")
plt.show()

# Conclusión: la mayoría de las ventas están concentradas en valores bajos.

# %%
# 5. Gráfico univariante con Seaborn: Boxplot de Beneficio por Categoría
plt.figure(figsize=(8,5))
sns.boxplot(x='Category', y='Profit', data=df, palette='Set2')
plt.title("Distribución del Beneficio por Categoría")
plt.xlabel("Categoría")
plt.ylabel("Beneficio")
plt.show()

# Conclusión: se observan outliers en cada categoría, especialmente en Tecnología.

# %%
# 6. Gráfico bivariante con Matplotlib: Ventas vs Beneficio
plt.figure(figsize=(8,5))
plt.scatter(df['Sales'], df['Profit'], color='green', alpha=0.5)
plt.title("Ventas vs Beneficio")
plt.xlabel("Ventas")
plt.ylabel("Beneficio")
plt.show()

# Conclusión: existe correlación positiva moderada; algunas ventas altas no generan mucho beneficio.

# %%
# 7. Gráfico bivariante con Seaborn: Regresión de Ventas vs Beneficio
plt.figure(figsize=(8,5))
sns.regplot(x='Sales', y='Profit', data=df, scatter_kws={'alpha':0.5}, line_kws={'color':'red'})
plt.title("Regresión de Ventas vs Beneficio")
plt.xlabel("Ventas")
plt.ylabel("Beneficio")
plt.show()

# %%
# 8. Visualización multivariante: Heatmap de correlación
plt.figure(figsize=(8,6))
corr = df[['Sales','Quantity','Discount','Profit']].corr()
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Mapa de Correlación entre Variables Numéricas")
plt.show()

# %%
# 9. Organizar múltiples visualizaciones en subplots
fig, axes = plt.subplots(2,2, figsize=(15,10))

# Histograma Ventas
axes[0,0].hist(df['Sales'], bins=30, color='skyblue', edgecolor='black')
axes[0,0].set_title("Distribución de Ventas")
axes[0,0].set_xlabel("Ventas")
axes[0,0].set_ylabel("Frecuencia")

# Boxplot Beneficio por Categoría
sns.boxplot(x='Category', y='Profit', data=df, palette='Set2', ax=axes[0,1])
axes[0,1].set_title("Beneficio por Categoría")

# Scatter Ventas vs Beneficio
axes[1,0].scatter(df['Sales'], df['Profit'], color='green', alpha=0.5)
axes[1,0].set_title("Ventas vs Beneficio")
axes[1,0].set_xlabel("Ventas")
axes[1,0].set_ylabel("Beneficio")

# Heatmap correlación
sns.heatmap(corr, annot=True, cmap='coolwarm', fmt=".2f", ax=axes[1,1])
axes[1,1].set_title("Correlación Variables Numéricas")

plt.tight_layout()
plt.suptitle("Análisis Visual del Dataset Superstore 2012", fontsize=16, y=1.02)
plt.show()

# %%
# 10. Guardar una figura como archivo de imagen
plt.figure(figsize=(8,5))
sns.boxplot(x='Category', y='Profit', data=df, palette='Set2')
plt.title("Distribución del Beneficio por Categoría")
plt.savefig(r"C:\Users\gonzalo\Desktop\Python\Problemas_python\proyecto_2\beneficio_por_categoria.png")
plt.close()

# %%
# Conclusiones:
# - La mayoría de las ventas están concentradas en valores bajos.
# - Hay outliers en beneficios, especialmente en Tecnología.
# - Existe correlación positiva entre ventas y beneficio.
# - El heatmap permite identificar relaciones fuertes y débiles entre variables numéricas.
# - El uso de subplots permite comparar múltiples visualizaciones de manera clara.
