# üìä An√°lisis de Ventas - Dashboard de KPIs

**Autor:** Adolfo  
**Fecha:** Enero 2025  
**Descripci√≥n:** An√°lisis exploratorio de datos de ventas con c√°lculo de KPIs clave para la toma de decisiones estrat√©gicas.

---

## üìã Tabla de Contenidos
1. [Configuraci√≥n Inicial](#1-configuracion-inicial)
2. [Carga de Datos](#2-carga-de-datos)
3. [Exploraci√≥n de Datos](#3-exploracion-de-datos)
4. [Limpieza y Transformaci√≥n](#4-limpieza-y-transformacion)
5. [An√°lisis de KPIs](#5-analisis-de-kpis)
6. [Visualizaciones](#6-visualizaciones)
7. [Conclusiones y Recomendaciones](#7-conclusiones-y-recomendaciones)
8. [Exportaci√≥n de Resultados](#8-exportacion-de-resultados)

---
## 1. Configuraci√≥n Inicial

Importaci√≥n de las librer√≠as necesarias para el an√°lisis de datos y visualizaci√≥n.

In [None]:
# Librer√≠as para manipulaci√≥n de datos
import numpy as np
import pandas as pd
import warnings

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de visualizaciones
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

---
## 2. Carga de Datos

Carga del dataset de ventas desde archivo CSV.

In [None]:
# Cargar el dataset
df = pd.read_csv("Data/ventas.csv")

print(f"Dataset cargado exitosamente")
print(f"Dimensiones: {df.shape[0]} filas x {df.shape[1]} columnas")

---
## 3. Exploraci√≥n de Datos

An√°lisis inicial para comprender la estructura y caracter√≠sticas del dataset.

In [None]:
# Vista previa de los primeros registros
print("Primeros 5 registros del dataset:\n")
df.head()

In [None]:
# Vista previa de los √∫ltimos registros
print("√öltimos 5 registros del dataset:\n")
df.tail()

In [None]:
print("Informaci√≥n del Dataset:\n")
df.info()

In [None]:
print("Estad√≠sticas Descriptivas:\n")
df.describe()

In [None]:
# Verificar valores nulos
print("Valores Nulos por Columna:\n")
null_counts = df.isnull().sum()
null_percentages = (df.isnull().sum() / len(df) * 100).round(2)

null_summary = pd.DataFrame({
    'Valores Nulos': null_counts,
    'Porcentaje (%)': null_percentages
})

In [None]:
# An√°lisis de variables categ√≥ricas
print("Productos √∫nicos:", df['producto'].nunique())
print("\nCategor√≠as √∫nicas:", df['categoria'].unique())
print("\nRegiones √∫nicas:", df['region'].unique())

---
## 4. Limpieza y Transformaci√≥n

Proceso de limpieza de datos y creaci√≥n de variables derivadas.

In [None]:
# Imputar valores nulos en la columna 'precio' con la media por categor√≠a

nulls_before = df['precio'].isnull().sum()
df['precio'] = df['precio'].fillna(df.groupby('categoria')['precio'].transform('mean'))
nulls_after = df['precio'].isnull().sum()

print(f"   Valores nulos antes: {nulls_before}")
print(f"   Valores nulos despu√©s: {nulls_after}")

In [None]:
# Convertir la columna 'fecha' a formato datetime
print("Convirtiendo columna 'fecha' a formato datetime...")

df['fecha'] = pd.to_datetime(df['fecha'])
print(f"Tipo de dato: {df['fecha'].dtype}")

In [None]:
# Crear variables derivadas temporales
print("Creando variables temporales derivadas...\n")

df['a√±o'] = df['fecha'].dt.year
df['mes'] = df['fecha'].dt.month
df['mes_nombre'] = df['fecha'].dt.month_name()
df['trimestre'] = df['fecha'].dt.quarter
df['dia_semana'] = df['fecha'].dt.day_name()

print("Nuevas columnas creadas:")
print("  - a√±o")
print("  - mes")
print("  - mes_nombre")
print("  - trimestre")
print("  - dia_semana")
print("\nVariables temporales creadas")

In [None]:
# Calcular ventas totales por producto
print("Calculando ventas totales por producto...\n")

df['ventas_producto'] = df['precio'] * df['cantidad']

print(f"Columna 'ventas_producto' creada")
print(f"Ventas totales: ${df['ventas_producto'].sum():,.2f}")

In [None]:
# Calcular porcentaje de ventas por categor√≠a

df['porcentaje_categoria'] = (
    df['ventas_producto'] / df.groupby('categoria')['ventas_producto'].transform('sum') * 100
).round(2)

print("Columna 'porcentaje_categoria' creada")
print("\nMuestra de datos transformados:")
df[['producto', 'categoria', 'ventas_producto', 'porcentaje_categoria']].head()

---
## 5. An√°lisis de KPIs

C√°lculo de indicadores clave de rendimiento (KPIs) para evaluar el desempe√±o del negocio.

### 5.1 KPI: Ventas Totales

In [None]:
# Calcular ventas totales
ventas_totales = df['ventas_producto'].sum()

print(" KPI: VENTAS TOTALES")
print(f"Total de Ventas: ${ventas_totales:,.2f}")

### 5.2 KPI: Ticket Promedio

In [None]:
# Calcular ticket promedio (venta promedio por transacci√≥n)
ticket_promedio = df['ventas_producto'].mean()
ticket_mediano = df['ventas_producto'].median()

print("KPI: TICKET PROMEDIO")
print(f"Ticket Promedio: ${ticket_promedio:,.2f}")
print(f"Ticket Mediano: ${ticket_mediano:,.2f}")


### 5.3 KPI: Top 3 Productos M√°s Vendidos

In [None]:
# Identificar los 3 productos con mayores ventas
top_productos = df.nlargest(3, 'ventas_producto')[[
    'fecha', 'producto', 'categoria', 'precio', 'cantidad', 'region', 'ventas_producto'
]].reset_index(drop=True)

print("KPI: TOP 3 PRODUCTOS M√ÅS VENDIDOS")
display(top_productos)


### 5.4 KPI: Ventas por Categor√≠a

In [None]:
# Analizar ventas por categor√≠a
ventas_categoria = df.groupby('categoria').agg({
    'ventas_producto': ['sum', 'mean', 'count']
}).round(2)

ventas_categoria.columns = ['Ventas Totales', 'Venta Promedio', 'Cantidad de Transacciones']
ventas_categoria['Participaci√≥n (%)'] = (
    ventas_categoria['Ventas Totales'] / ventas_categoria['Ventas Totales'].sum() * 100
).round(2)
ventas_categoria = ventas_categoria.sort_values('Ventas Totales', ascending=False)

print("KPI: AN√ÅLISIS POR CATEGOR√çA")
print("="*80)
display(ventas_categoria)

### 5.5 KPI: Ventas por Regi√≥n

In [None]:
# Analizar ventas por regi√≥n
ventas_region = df.groupby('region').agg({
    'ventas_producto': ['sum', 'mean', 'count']
}).round(2)

ventas_region.columns = ['Ventas Totales', 'Venta Promedio', 'Cantidad de Transacciones']
ventas_region['Participaci√≥n (%)'] = (
    ventas_region['Ventas Totales'] / ventas_region['Ventas Totales'].sum() * 100
).round(2)
ventas_region = ventas_region.sort_values('Ventas Totales', ascending=False)

print("KPI: AN√ÅLISIS POR REGI√ìN")
display(ventas_region)


### 5.6 KPI: Ventas Mensuales

In [None]:
# Analizar ventas por mes
ventas_mes = df.groupby('mes').agg({
    'ventas_producto': 'sum',
    'cantidad': 'sum'
}).round(2)

ventas_mes.columns = ['Ventas Totales', 'Unidades Vendidas']
ventas_mes.index.name = 'Mes'

# Agregar nombres de meses
meses_nombres = {1: 'Enero', 2: 'Febrero', 3: 'Marzo', 4: 'Abril', 5: 'Mayo', 6: 'Junio',
                 7: 'Julio', 8: 'Agosto', 9: 'Septiembre', 10: 'Octubre', 11: 'Noviembre', 12: 'Diciembre'}
ventas_mes['Mes Nombre'] = ventas_mes.index.map(meses_nombres)
ventas_mes = ventas_mes[['Mes Nombre', 'Ventas Totales', 'Unidades Vendidas']]

print("="*80)
print("üìÖ KPI: VENTAS MENSUALES")
print("="*80)
display(ventas_mes)
print(f"\nMes con mayores ventas: {ventas_mes['Ventas Totales'].idxmax()} - ${ventas_mes['Ventas Totales'].max():,.2f}")
print(f"Mes con menores ventas: {ventas_mes['Ventas Totales'].idxmin()} - ${ventas_mes['Ventas Totales'].min():,.2f}")
print("="*80)

### 5.7 KPI: Tasa de Crecimiento Mensual (MoM)

In [None]:
# Calcular tasa de crecimiento mes a mes (Month over Month)
ventas_mes_sorted = df.groupby('mes')['ventas_producto'].sum().sort_index()
tasa_crecimiento = ventas_mes_sorted.pct_change() * 100

crecimiento_df = pd.DataFrame({
    'Mes': ventas_mes_sorted.index.map(meses_nombres),
    'Ventas': ventas_mes_sorted.values,
    'Crecimiento MoM (%)': tasa_crecimiento.values
})

print("="*80)
print("üìà KPI: TASA DE CRECIMIENTO MENSUAL (MoM)")
print("="*80)
display(crecimiento_df.round(2))
print("="*80)

### 5.8 KPI: Precio Promedio por Categor√≠a

In [None]:
# Calcular precio promedio por categor√≠a
precio_promedio_categoria = df.groupby('categoria')['precio'].agg(['mean', 'min', 'max']).round(2)
precio_promedio_categoria.columns = ['Precio Promedio', 'Precio M√≠nimo', 'Precio M√°ximo']

print("="*80)
print("üíµ KPI: AN√ÅLISIS DE PRECIOS POR CATEGOR√çA")
print("="*80)
display(precio_promedio_categoria)
print("="*80)

### 5.9 KPI: Concentraci√≥n de Ventas (Regla 80/20)

In [None]:
# An√°lisis de Pareto: ¬øQu√© porcentaje de productos genera el 80% de las ventas?
productos_ventas = df.groupby('producto')['ventas_producto'].sum().sort_values(ascending=False)
productos_ventas_acum = productos_ventas.cumsum()
porcentaje_acumulado = (productos_ventas_acum / productos_ventas.sum() * 100)

productos_80 = (porcentaje_acumulado <= 80).sum()
total_productos = len(productos_ventas)
porcentaje_productos_80 = (productos_80 / total_productos * 100)

print("="*80)
print("üìä KPI: CONCENTRACI√ìN DE VENTAS (Principio de Pareto)")
print("="*80)
print(f"Total de productos √∫nicos: {total_productos}")
print(f"Productos que generan el 80% de ventas: {productos_80} ({porcentaje_productos_80:.1f}%)")
print(f"\n‚ú® Insight: El {porcentaje_productos_80:.1f}% de los productos genera el 80% de las ventas")
print("="*80)

### 5.10 KPI: √çndice de Rotaci√≥n de Productos

In [None]:
# Calcular frecuencia de venta por producto
frecuencia_productos = df.groupby('producto').agg({
    'cantidad': 'sum',
    'ventas_producto': 'sum',
    'fecha': 'count'
}).round(2)

frecuencia_productos.columns = ['Unidades Vendidas', 'Ventas Totales', 'Frecuencia de Venta']
frecuencia_productos = frecuencia_productos.sort_values('Frecuencia de Venta', ascending=False)

print("="*80)
print("üîÑ KPI: √çNDICE DE ROTACI√ìN DE PRODUCTOS")
print("="*80)
display(frecuencia_productos.head(10))
print("="*80)

---
## 6. Visualizaciones

Representaci√≥n gr√°fica de los KPIs principales.

In [None]:
# Configuraci√≥n de tama√±o de figuras
plt.rcParams['figure.figsize'] = (14, 6)
plt.rcParams['font.size'] = 10

### 6.1 Distribuci√≥n de Ventas por Categor√≠a

In [None]:
# Gr√°fico de barras: Ventas por categor√≠a
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico de barras
ventas_cat = df.groupby('categoria')['ventas_producto'].sum().sort_values(ascending=False)
colors = plt.cm.Set3(range(len(ventas_cat)))
ventas_cat.plot(kind='bar', ax=ax1, color=colors, edgecolor='black', linewidth=1.2)
ax1.set_title('Ventas Totales por Categor√≠a', fontsize=14, fontweight='bold', pad=20)
ax1.set_xlabel('Categor√≠a', fontsize=12, fontweight='bold')
ax1.set_ylabel('Ventas ($)', fontsize=12, fontweight='bold')
ax1.tick_params(axis='x', rotation=45)
ax1.grid(axis='y', alpha=0.3)

# Agregar valores en las barras
for i, v in enumerate(ventas_cat.values):
    ax1.text(i, v + 100, f'${v:,.0f}', ha='center', va='bottom', fontweight='bold')

# Gr√°fico de pastel
ax2.pie(ventas_cat.values, labels=ventas_cat.index, autopct='%1.1f%%', 
        colors=colors, startangle=90, textprops={'fontsize': 11, 'fontweight': 'bold'})
ax2.set_title('Participaci√≥n de Ventas por Categor√≠a', fontsize=14, fontweight='bold', pad=20)

plt.tight_layout()
plt.show()

### 6.2 Evoluci√≥n Temporal de Ventas

In [None]:
# Gr√°fico de l√≠nea: Evoluci√≥n de ventas mensuales
ventas_mensuales = df.groupby('mes')['ventas_producto'].sum()

plt.figure(figsize=(14, 6))
plt.plot(ventas_mensuales.index, ventas_mensuales.values, marker='o', 
         linewidth=2.5, markersize=10, color='#2E86AB', markerfacecolor='#A23B72')
plt.fill_between(ventas_mensuales.index, ventas_mensuales.values, alpha=0.3, color='#2E86AB')

plt.title('Evoluci√≥n de Ventas Mensuales', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Mes', fontsize=12, fontweight='bold')
plt.ylabel('Ventas ($)', fontsize=12, fontweight='bold')
plt.xticks(ventas_mensuales.index, [meses_nombres[m] for m in ventas_mensuales.index], rotation=45)
plt.grid(True, alpha=0.3, linestyle='--')

# Agregar valores en los puntos
for x, y in zip(ventas_mensuales.index, ventas_mensuales.values):
    plt.text(x, y + 150, f'${y:,.0f}', ha='center', va='bottom', fontweight='bold', fontsize=9)

plt.tight_layout()
plt.show()

### 6.3 An√°lisis de Ventas por Regi√≥n

In [None]:
# Gr√°fico de barras horizontales: Ventas por regi√≥n
ventas_reg = df.groupby('region')['ventas_producto'].sum().sort_values()

plt.figure(figsize=(12, 6))
colors_region = plt.cm.viridis(np.linspace(0.3, 0.9, len(ventas_reg)))
ventas_reg.plot(kind='barh', color=colors_region, edgecolor='black', linewidth=1.2)

plt.title('Ventas Totales por Regi√≥n', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Ventas ($)', fontsize=12, fontweight='bold')
plt.ylabel('Regi√≥n', fontsize=12, fontweight='bold')
plt.grid(axis='x', alpha=0.3)

# Agregar valores en las barras
for i, v in enumerate(ventas_reg.values):
    plt.text(v + 100, i, f'${v:,.0f}', va='center', fontweight='bold')

plt.tight_layout()
plt.show()

### 6.4 Top 10 Productos M√°s Vendidos

In [None]:
# Gr√°fico de barras: Top 10 productos
top_10_productos = df.groupby('producto')['ventas_producto'].sum().nlargest(10).sort_values()

plt.figure(figsize=(12, 8))
colors_products = plt.cm.Spectral(np.linspace(0.2, 0.8, len(top_10_productos)))
top_10_productos.plot(kind='barh', color=colors_products, edgecolor='black', linewidth=1.2)

plt.title('Top 10 Productos M√°s Vendidos', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Ventas ($)', fontsize=12, fontweight='bold')
plt.ylabel('Producto', fontsize=12, fontweight='bold')
plt.grid(axis='x', alpha=0.3)

# Agregar valores en las barras
for i, v in enumerate(top_10_productos.values):
    plt.text(v + 50, i, f'${v:,.0f}', va='center', fontweight='bold', fontsize=9)

plt.tight_layout()
plt.show()

### 6.5 Heatmap: Ventas por Categor√≠a y Regi√≥n

In [None]:
# Heatmap: Ventas por categor√≠a y regi√≥n
ventas_cat_reg = df.pivot_table(
    values='ventas_producto', 
    index='categoria', 
    columns='region', 
    aggfunc='sum',
    fill_value=0
)

plt.figure(figsize=(12, 6))
sns.heatmap(ventas_cat_reg, annot=True, fmt='.0f', cmap='YlOrRd', 
            linewidths=1, linecolor='black', cbar_kws={'label': 'Ventas ($)'})

plt.title('Mapa de Calor: Ventas por Categor√≠a y Regi√≥n', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Regi√≥n', fontsize=12, fontweight='bold')
plt.ylabel('Categor√≠a', fontsize=12, fontweight='bold')
plt.xticks(rotation=45)
plt.yticks(rotation=0)

plt.tight_layout()
plt.show()

### 6.6 Distribuci√≥n de Precios por Categor√≠a

In [None]:
# Boxplot: Distribuci√≥n de precios por categor√≠a
plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x='categoria', y='precio', palette='Set2')

plt.title('Distribuci√≥n de Precios por Categor√≠a', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('Categor√≠a', fontsize=12, fontweight='bold')
plt.ylabel('Precio ($)', fontsize=12, fontweight='bold')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

---
## 7. Conclusiones y Recomendaciones

### üìä Resumen Ejecutivo de KPIs

**M√©tricas Principales:**
- **Ventas Totales:** Se procesaron transacciones por un valor total significativo
- **Ticket Promedio:** Valor medio de cada transacci√≥n calculado
- **Productos Estrella:** Identificados los 3 productos con mejor desempe√±o

### üí° Insights Clave

1. **Categor√≠as de Producto:**
   - La categor√≠a con mayor participaci√≥n en ventas es identificada
   - Oportunidades de crecimiento en categor√≠as con menor participaci√≥n

2. **An√°lisis Geogr√°fico:**
   - Regiones con mejor desempe√±o identificadas
   - Potencial de expansi√≥n en regiones con menor penetraci√≥n

3. **Tendencias Temporales:**
   - Estacionalidad detectada en el comportamiento de ventas
   - Meses con mayor y menor actividad identificados

4. **Concentraci√≥n de Ventas:**
   - Aplicaci√≥n del principio de Pareto (80/20)
   - Focus estrat√©gico en productos de alto rendimiento

### üéØ Recomendaciones Estrat√©gicas

1. **Optimizaci√≥n de Inventario:**
   - Priorizar stock de productos con alta rotaci√≥n
   - Evaluar descontinuaci√≥n de productos de baja rotaci√≥n

2. **Estrategia de Precios:**
   - Revisar pricing en categor√≠as de bajo margen
   - Implementar promociones estrat√©gicas en meses de baja actividad

3. **Expansi√≥n Geogr√°fica:**
   - Fortalecer presencia en regiones de alto rendimiento
   - Desarrollar estrategias espec√≠ficas para regiones de bajo desempe√±o

4. **Marketing y Promociones:**
   - Campa√±as focalizadas en productos estrella
   - Promociones cruzadas para aumentar ticket promedio

---
## 8. Exportaci√≥n de Resultados

Guardar los resultados del an√°lisis en archivos CSV para su uso posterior.

In [None]:
# Exportar datasets procesados
print("üíæ Exportando resultados...\n")

# 1. Dataset completo procesado
df.to_csv('output/dataset_procesado.csv', index=False, encoding='utf-8-sig')
print("‚úÖ Dataset procesado exportado: 'output/dataset_procesado.csv'")

# 2. Top productos
top_productos.to_csv('output/top_productos.csv', index=False, encoding='utf-8-sig')
print("‚úÖ Top productos exportado: 'output/top_productos.csv'")

# 3. Resumen por categor√≠a
ventas_categoria.to_csv('output/resumen_categorias.csv', encoding='utf-8-sig')
print("‚úÖ Resumen por categor√≠a exportado: 'output/resumen_categorias.csv'")

# 4. Resumen por regi√≥n
ventas_region.to_csv('output/resumen_regiones.csv', encoding='utf-8-sig')
print("‚úÖ Resumen por regi√≥n exportado: 'output/resumen_regiones.csv'")

# 5. Ventas mensuales
ventas_mes.to_csv('output/ventas_mensuales.csv', encoding='utf-8-sig')
print("‚úÖ Ventas mensuales exportado: 'output/ventas_mensuales.csv'")

print("\nüéâ Todos los archivos han sido exportados exitosamente!")

---

## üìù Notas Finales

**Tecnolog√≠as Utilizadas:**
- Python 3.x
- Pandas: Manipulaci√≥n y an√°lisis de datos
- NumPy: Operaciones num√©ricas
- Matplotlib: Visualizaci√≥n de datos
- Seaborn: Visualizaciones estad√≠sticas avanzadas

**Autor:** Adolfo  
**Contacto:** [Tu correo o perfil de GitHub]  
**Licencia:** MIT  

---

*Este notebook forma parte del repositorio de an√°lisis de datos. Para m√°s proyectos, visita mi perfil de GitHub.*