# Visualización de Datos de Ventas - Superstore

Este notebook analiza el dataset de ventas de Superstore utilizando Matplotlib y Seaborn para crear visualizaciones univariantes, bivariantes y multivariantes.

## 1. Configurar el entorno

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os

# Configurar estilo de Seaborn
sns.set_style("whitegrid")

# Configurar matplotlib para mostrar gráficos en el notebook
%matplotlib inline

## 2. Cargar y preparar los datos

In [None]:
# Cargar el dataset
ruta_csv = 'F:/UNIR/CursoPython-Workspace/python-tema-4-funciones-libreria-standard/plantilla/superstore_dataset2012.csv'
df = pd.read_csv(ruta_csv)

# Mostrar información inicial
print("Dataset cargado correctamente")
print(f"Número de filas: {len(df)}")
print(f"Número de columnas: {len(df.columns)}")
print("\nPrimeras 5 filas:")
df.head()

In [None]:
# Verificar tipos de datos
print("Tipos de datos:")
print(df.dtypes)
print("\nValores nulos por columna:")
print(df.isnull().sum())

In [None]:
# Convertir fechas al formato adecuado
df['Order Date'] = pd.to_datetime(df['Order Date'], format='%m/%d/%Y')
df['Ship Date'] = pd.to_datetime(df['Ship Date'], format='%m/%d/%Y')

print("Fechas convertidas correctamente")
print(f"Fecha mínima: {df['Order Date'].min()}")
print(f"Fecha máxima: {df['Order Date'].max()}")

## 3. Visualizaciones Univariantes con Matplotlib

### 3.1 Histograma de Ventas

In [None]:
# Histograma de Ventas usando Matplotlib
plt.figure(figsize=(10, 6))
plt.hist(df['Sales'], bins=50, color='steelblue', edgecolor='black', alpha=0.7)
plt.title('Distribución de Ventas', fontsize=14, fontweight='bold')
plt.xlabel('Ventas ($)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.axvline(df['Sales'].mean(), color='red', linestyle='--', linewidth=2, label=f'Media: ${df["Sales"].mean():.2f}')
plt.axvline(df['Sales'].median(), color='green', linestyle='--', linewidth=2, label=f'Mediana: ${df["Sales"].median():.2f}')
plt.legend()
plt.tight_layout()
plt.show()

# Conclusión: La distribución de ventas está muy sesgada a la derecha, con la mayoría de las transacciones siendo de bajo valor.

### 3.2 Diagrama de barras - Ventas por Categoría

In [None]:
# Diagrama de barras - Ventas totales por categoría
ventas_categoria = df.groupby('Category')['Sales'].sum().sort_values(ascending=False)

plt.figure(figsize=(10, 6))
colors = ['#3498db', '#e74c3c', '#2ecc71']
bars = plt.bar(ventas_categoria.index, ventas_categoria.values, color=colors, edgecolor='black')
plt.title('Ventas Totales por Categoría', fontsize=14, fontweight='bold')
plt.xlabel('Categoría', fontsize=12)
plt.ylabel('Ventas Totales ($)', fontsize=12)
plt.xticks(rotation=0)

# Agregar valores sobre las barras
for bar, valor in zip(bars, ventas_categoria.values):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 10000,
             f'${valor:,.0f}', ha='center', va='bottom', fontsize=10)

plt.tight_layout()
plt.show()

# Conclusión: Technology es la categoría con mayores ventas, seguida de Furniture y Office Supplies.

## 4. Visualizaciones Univariantes con Seaborn

### 4.1 Boxplot de Beneficios por Categoría

In [None]:
# Boxplot de Beneficios por Categoría usando Seaborn
plt.figure(figsize=(10, 6))
sns.boxplot(x='Category', y='Profit', data=df, palette='Set2')
plt.title('Distribución de Beneficios por Categoría', fontsize=14, fontweight='bold')
plt.xlabel('Categoría', fontsize=12)
plt.ylabel('Beneficio ($)', fontsize=12)
plt.tight_layout()
plt.show()

# Conclusión: Technology tiene la mayor variabilidad en beneficios, incluyendo tanto ganancias significativas como pérdidas importantes.

### 4.2 Violinplot de Descuentos por Segmento

In [None]:
# Violinplot de Descuentos por Segmento usando Seaborn
plt.figure(figsize=(10, 6))
sns.violinplot(x='Segment', y='Discount', data=df, palette='muted')
plt.title('Distribución de Descuentos por Segmento de Cliente', fontsize=14, fontweight='bold')
plt.xlabel('Segmento', fontsize=12)
plt.ylabel('Descuento', fontsize=12)
plt.tight_layout()
plt.show()

# Conclusión: Los tres segmentos (Consumer, Corporate, Home Office) tienen distribuciones similares de descuentos, con la mayoría entre 0 y 0.2.

## 5. Gráficos Bivariantes con Matplotlib

### 5.1 Scatter plot - Ventas vs Beneficios

In [None]:
# Scatter plot de Ventas vs Beneficios usando Matplotlib
plt.figure(figsize=(10, 6))
plt.scatter(df['Sales'], df['Profit'], alpha=0.5, c='steelblue', edgecolors='black', linewidth=0.5)
plt.title('Relación entre Ventas y Beneficios', fontsize=14, fontweight='bold')
plt.xlabel('Ventas ($)', fontsize=12)
plt.ylabel('Beneficios ($)', fontsize=12)
plt.axhline(y=0, color='red', linestyle='--', linewidth=1, alpha=0.7)
plt.tight_layout()
plt.show()

# Conclusión: Hay una relación positiva general entre ventas y beneficios, pero también hay casos de altas ventas con pérdidas (probablemente por descuentos excesivos).

### 5.2 Gráfico de líneas - Evolución temporal de ventas

In [None]:
# Gráfico de líneas - Ventas por mes
df['Mes'] = df['Order Date'].dt.to_period('M')
ventas_mes = df.groupby('Mes')['Sales'].sum()

plt.figure(figsize=(12, 6))
plt.plot(ventas_mes.index.astype(str), ventas_mes.values, marker='o', linewidth=2, color='#3498db')
plt.title('Evolución de Ventas a lo largo del Tiempo', fontsize=14, fontweight='bold')
plt.xlabel('Mes', fontsize=12)
plt.ylabel('Ventas Totales ($)', fontsize=12)
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# Conclusión: Las ventas muestran variaciones a lo largo del año, con picos en ciertos meses (probablemente temporadas altas).

## 6. Gráficos Bivariantes con Seaborn

### 6.1 Gráfico de barras agrupadas - Ventas por Categoría y Segmento

In [None]:
# Gráfico de barras agrupadas usando Seaborn
plt.figure(figsize=(12, 6))
sns.barplot(x='Category', y='Sales', hue='Segment', data=df, palette='Set1', estimator=sum)
plt.title('Ventas por Categoría y Segmento de Cliente', fontsize=14, fontweight='bold')
plt.xlabel('Categoría', fontsize=12)
plt.ylabel('Ventas Totales ($)', fontsize=12)
plt.legend(title='Segmento')
plt.tight_layout()
plt.show()

# Conclusión: El segmento Consumer es el que más compra en todas las categorías, seguido por Corporate y Home Office.

### 6.2 Regplot - Regresión entre Cantidad y Ventas

In [None]:
# Regplot - Relación entre Cantidad y Ventas
plt.figure(figsize=(10, 6))
sns.regplot(x='Quantity', y='Sales', data=df, scatter_kws={'alpha':0.3}, line_kws={'color':'red'})
plt.title('Relación entre Cantidad Vendida y Ventas', fontsize=14, fontweight='bold')
plt.xlabel('Cantidad', fontsize=12)
plt.ylabel('Ventas ($)', fontsize=12)
plt.tight_layout()
plt.show()

# Conclusión: Existe una relación positiva moderada entre cantidad y ventas, como es esperado.

## 7. Visualización Multivariante con Seaborn

### 7.1 Heatmap de correlación

In [None]:
# Seleccionar solo columnas numéricas para el heatmap
df_numerico = df[['Sales', 'Quantity', 'Discount', 'Profit', 'Shipping Cost']]

# Calcular matriz de correlación
correlacion = df_numerico.corr()

# Crear heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', center=0, fmt='.2f',
            square=True, linewidths=0.5)
plt.title('Mapa de Calor de Correlación entre Variables', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

# Conclusión: Shipping Cost tiene alta correlación con Sales, lo cual es lógico. Profit tiene correlación positiva moderada con Sales.

## 8. Subplots - Múltiples Visualizaciones

In [None]:
# Crear figura con múltiples subplots
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Análisis Integral de Ventas Superstore', fontsize=16, fontweight='bold')

# Subplot 1: Top 10 Ciudades por Ventas
ventas_ciudad = df.groupby('City')['Sales'].sum().sort_values(ascending=False).head(10)
axes[0, 0].barh(ventas_ciudad.index, ventas_ciudad.values, color='steelblue')
axes[0, 0].set_title('Top 10 Ciudades por Ventas')
axes[0, 0].set_xlabel('Ventas ($)')
axes[0, 0].invert_yaxis()

# Subplot 2: Distribución por Segmento
segment_counts = df['Segment'].value_counts()
axes[0, 1].pie(segment_counts, labels=segment_counts.index, autopct='%1.1f%%',
               colors=['#3498db', '#e74c3c', '#2ecc71'], startangle=90)
axes[0, 1].set_title('Distribución por Segmento')

# Subplot 3: Beneficios por Región
beneficios_region = df.groupby('Region')['Profit'].sum().sort_values()
colors = ['#e74c3c' if x < 0 else '#2ecc71' for x in beneficios_region]
axes[1, 0].barh(beneficios_region.index, beneficios_region.values, color=colors)
axes[1, 0].set_title('Beneficios por Región')
axes[1, 0].set_xlabel('Beneficio ($)')
axes[1, 0].axvline(x=0, color='black', linewidth=1)

# Subplot 4: Ventas por Categoría y Sub-Categoría
categoria_subcategoria = df.groupby(['Category', 'Sub-Category'])['Sales'].sum().unstack()
categoria_subcategoria.plot(kind='bar', ax=axes[1, 1], colormap='Set2')
axes[1, 1].set_title('Ventas por Categoría y Sub-Categoría')
axes[1, 1].set_xlabel('Categoría')
axes[1, 1].set_ylabel('Ventas ($)')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].legend(title='Sub-Categoría', bbox_to_anchor=(1.05, 1), loc='upper left')

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

# Conclusión: Este análisis integral muestra que las ventas están concentradas en ciertas ciudades, el segmento Consumer es el mayoritario, hay regiones con pérdidas, y las sub-categorías varían por categoría.

## 9. Guardar visualizaciones

In [None]:
# Guardar una visualización como archivo de imagen
output_dir = 'F:/UNIR/CursoPython-Workspace/python-trabajo-4-visualizacion-matplotlib-seaborn/'

# Guardar el heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(correlacion, annot=True, cmap='coolwarm', center=0, fmt='.2f',
            square=True, linewidths=0.5)
plt.title('Mapa de Calor de Correlación entre Variables', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig(output_dir + 'heatmap_correlacion.png', dpi=300, bbox_inches='tight')
plt.close()

print(f"Gráfico guardado en: {output_dir}heatmap_correlacion.png")

## 10. Conclusiones Generales

### Hallazgos principales del análisis:

1. **Distribución de Ventas**: La mayoría de las transacciones son de bajo valor, con algunas ventas muy altas que elevan la media.

2. **Categorías**: Technology genera las mayores ventas, seguida por Furniture.

3. **Segmentos**: El segmento Consumer es el más importante en todas las categorías.

4. **Regiones**: Algunas regiones (como Africa) tienen pérdidas, mientras que otras (como US) tienen buenos beneficios.

5. **Correlaciones**: Shipping Cost está fuertemente correlacionado con Sales; los descuentos excesivos pueden llevar a pérdidas.

6. **Temporalidad**: Las ventas varían a lo largo del año, con picos en ciertas temporadas.