<a href="https://colab.research.google.com/github/josechval/python-bootcamp-2508/blob/main/capstone_adp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Carga y Exploración de Datos de Café Azahar

## Contexto del Problema

Café Azahar necesita analizar sus datos de ventas para tomar mejores decisiones de negocio. Ana María, la propietaria, tiene un archivo CSV con el registro de todas las transacciones y necesita preparar estos datos para su análisis.

## Objetivos de Esta Sección

Cargar correctamente los datos de ventas
Preparar las fechas para análisis temporal
Realizar una exploración inicial de los datos

## Preparación del Ambiente

In [None]:
# Importamos las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings

# Configuración básica
warnings.filterwarnings('ignore', category=FutureWarning)
%matplotlib inline
plt.rcParams['figure.figsize'] = [10, 6]

### Carga y Preparación de Datos

In [None]:
# TODO 1: Carga el archivo 'productos.csv' usando pd.read_csv()
df = pd.read_csv('productos.csv')

# TODO 2: Convierte la columna 'fecha_venta' a formato datetime
df['fecha_venta'] = pd.to_datetime(df['fecha_venta'])

# Verificamos la carga exitosa
print(f"Datos cargados: {len(df)} registros")

# TODO 3: Muestra información básica del DataFrame
print("\nInformación del DataFrame:")
print(df.info())

print("\nEstadísticas descriptivas:")
print(df.describe())

# TODO 4: Muestra las primeras 5 filas de los datos
print("\nPrimeros registros:")
df.head()

# TODO 5: Muestra un resumen de valores únicos en columnas clave para Categorías y Métodos de Pago
print("\nCategorías únicas:")
print(df['categoria'].value_counts())

print("\nMétodos de pago:")
print(df['metodo_pago'].value_counts())


### Exploración Inicial de Datos

In [None]:
# TODO 3: Muestra información básica del DataFrame
# Hint: Usa los métodos info() y describe()
print("\nInformación del DataFrame:")
df.info()
print("\nEstadísticas descriptivas:")
df.describe()

# TODO 4: Muestra las primeras 5 filas de los datos
# Hint: Usa el método head()
print("\nPrimeros registros:")
df.head()

# TODO 5: Muestra un resumen de valores únicos en columnas clave
# Hint: Usa value_counts() para 'categoria' y 'metodo_pago'
print("\nCategorías únicas:")
print(df['categoria'].value_counts())

print("\nMétodos de pago:")
print(df['metodo_pago'].value_counts())

## Reto 1: Análisis de Patrones de Demanda

### Contexto del Negocio

Ana María necesita entender los patrones de demanda en Café Azahar para optimizar su inventario y personal. Específicamente, necesita identificar:

- Las horas de mayor venta
- Los productos más populares
- Los días con mayor actividad

### Objetivos de Análisis

- Calcular ventas por hora del día
- Identificar productos más vendidos
- Visualizar patrones temporales

### Implementación del Análisis

In [None]:

# Ventas por hora
ventas_hora = df.groupby(df['fecha_venta'].dt.hour)['total_venta'].sum()

# Productos top
productos_top = df.groupby('nombre_producto')['cantidad'].sum().sort_values(ascending=False)

# Ventas por dia
ventas_dia = df.groupby(df['fecha_venta'].dt.day_name())['total_venta'].sum()


### Visualización de Patrones

In [None]:
# Creamos una figura con tres subplots
fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(20, 6))

# TODO 4: Gráfico de Ventas por Hora
# Hint: Usa ax1.bar() con los índices y valores de ventas_hora
ax1.bar(ventas_hora.index,ventas_hora.values,color='skyblue')  # Completa los parámetros
ax1.set_title('Ventas por Hora')
ax1.set_xlabel('Hora')
ax1.set_ylabel('Ventas Totales')

#  Gráfico de Productos Top

productos_top.head(10).plot(kind='barh', ax=ax2)
ax2.set_title('Top 10 Productos')

# TODO 6: Gráfico de Ventas por Día
# Hint: Usa ventas_dia.plot(kind='bar', ax=ax3)
ventas_dia.plot(kind='bar', ax=ax3)
ax3.set_title('Ventas por Día')
ax3.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

### Análisis de Resultados

In [None]:
def analizar_patrones():
    # TODO 7: Calcula e imprime insights clave
    # Hint: Usa métodos como idxmax(), max(), mean()

    print("INSIGHTS DE PATRONES DE DEMANDA")
    print("-" * 40)

    # Hora pico
    hora_pico = ventas_hora.idxmax()
    ventas_pico = ventas_hora.max()
    print(f"Hora pico: {hora_pico}:00 (${ventas_pico:,.0f})")

    # Producto más vendido (usa index[0] para obtener el primer valor)
    producto_top = productos_top.index[0]
    # Cantidad de unidades vendidas (usa iloc[0] para obtener el primer valor)
    cantidad_top = productos_top.iloc[0]
    print(f"Producto más vendido: {producto_top} ({cantidad_top} unidades)")

    # Día más ocupado
    dia_top = ventas_dia.idxmax()
    ventas_dia_top = ventas_dia.max()
    print(f"Día más ocupado: {dia_top} (${ventas_dia_top:,.0f})")

analizar_patrones()

## Reto 2: Análisis de Experiencia del Cliente
### Contexto del Negocio

Ana María quiere entender mejor cómo sus clientes interactúan con Café Azahar. Necesitamos analizar:

- Preferencias de pago
- Patrones de consumo por categoría
- Valor promedio de compra

### Objetivos de Análisis

- Analizar métodos de pago preferidos
- Calcular ticket promedio por categoría
- Identificar patrones de consumo

### Implementación del Análisis

In [None]:
# TODO 1: Análisis de Métodos de Pago
# Calcula la distribución de métodos de pago
# Hint: Usa value_counts() en la columna 'metodo_pago'
print("Distribución de métodos de pago:")
metodos_pago = df['metodo_pago'].value_counts()
print(metodos_pago)

# TODO 2: Análisis de Ticket Promedio por Categoría
# Calcula promedio y conteo de ventas por categoría
# Hint: Usa groupby con agg() y las funciones ['mean', 'count']
print("\nEstadísticas por categoría:")
ticket_categoria = df.groupby('categoria')['total_venta'].agg(['mean', 'count'])
print(ticket_categoria.round(2))

# TODO 3: Análisis de Patrones de Consumo
# Calcula el total de ventas por categoría
# Hint: Usa groupby con sum()
print("\nVentas totales por categoría:")
ventas_categoria = df.groupby('categoria')['total_venta'].sum()
print(ventas_categoria.sort_values(ascending=False))

### Visualización de Patrones

In [None]:
# Creamos una figura con dos subplots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# TODO 4: Gráfico de Métodos de Pago
# Hint: Usa plot(kind='pie') con autopct='%1.1f%%'
# Completa los parámetros para el gráfico circular
metodos_pago.plot(
    kind='pie',
    ax=ax1,
    autopct='%1.1f%%'
)
ax1.set_title('Distribución de Métodos de Pago')

# TODO 5: Gráfico de Ticket Promedio
# Hint: Usa el resultado de ticket_categoria['mean'] con plot(kind='bar')
# Completa los parámetros para el gráfico de barras

ticket_categoria['mean'].plot(
    kind='bar',
    ax=ax2,
    color='skyblue'
)
ax2.set_title('Ticket Promedio por Categoría')
ax2.set_ylabel('Monto (COP)')
ax2.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

### Análisis Detallado

In [None]:
def analizar_experiencia_cliente():
    print("MÉTRICAS CLAVE DE EXPERIENCIA DEL CLIENTE")
    print("-" * 50)

    # Ticket promedio general
    ticket_promedio = df['total_venta'].mean()
    print(f"Ticket promedio: ${ticket_promedio:.2f}")

    # Método de pago preferido
    metodo_preferido = metodos_pago.index[0]
    uso_metodo = metodos_pago.iloc[0]
    print(f"Método de pago más usado: {metodo_preferido} ({uso_metodo} veces)")

    # Categoría más popular
    categoria_popular = ticket_categoria['count'].idxmax()
    total_ventas = ventas_categoria[categoria_popular]
    print(f"Categoría más vendida: {categoria_popular} (${total_ventas:,.0f})")  # Corregido aquí

    # Patrones por hora
    print("\nPATRONES DE CONSUMO POR HORA")
    print("-" * 50)

    # Calcula la hora más popular por categoría
    hora_categoria = df.groupby([df['fecha_venta'].dt.hour, 'categoria'])['total_venta'].sum()
    horas_pico = hora_categoria.unstack()

    # Encuentra la hora pico para cada categoría
    for categoria in horas_pico.columns:
        hora_pico = horas_pico[categoria].idxmax()
        venta_pico = horas_pico[categoria].max()
        print(f"{categoria}: Hora pico {hora_pico}:00 (${venta_pico:,.0f})")

analizar_experiencia_cliente()

## Reto 3: Análisis Regional
### Contexto del Negocio

Ana María está considerando expandir Café Azahar a nuevas ubicaciones. Necesita entender:

- El desempeño por región
- Preferencias locales
- Oportunidades de expansión

### Objetivos de Análisis

- Analizar ventas por región
- Identificar preferencias regionales
- Evaluar métodos de pago por región

### Implementación del Análisis

In [None]:

ventas_region = df.groupby('region')['total_venta'].sum()



productos_region = pd.crosstab(df['region'], df['categoria'])


pagos_region = pd.crosstab(df['region'], df['metodo_pago'])


### Visualización de Patrones Regionales

In [None]:
# Creamos una figura con dos subplots
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# TODO 4: Gráfico de Ventas por Región
# Hint: Usa plot(kind='bar') para ventas_region

ventas_region.plot(kind='bar', ax=ax1, color='skyblue')

ax1.set_title('Ventas Totales por Región')
ax1.set_xlabel('Región')
ax1.set_ylabel('Ventas (COP)')
ax1.tick_params(axis='x', rotation=45)


# TODO 5: Mapa de Calor de Categorías por Región
# Hint: Usa sns.heatmap() con productos_region
sns.heatmap(
    productos_region,
    annot=True,    # Mostrar valores
    fmt='d',       # Formato entero
    cmap='YlOrRd', # Esquema de color
    ax=ax2
)
ax2.set_title('Distribución de Categorías por Región')

plt.tight_layout()
plt.show()

### Análisis Detallado

In [None]:
def analizar_regiones():
    # TODO 6: Calcula métricas clave por región
    print("ANÁLISIS REGIONAL")
    print("-" * 40)

    # Región con mayores ventas
    region_top = ventas_region.idxmax()
    ventas_top = ventas_region.max()
    print(f"Región líder: {region_top} (${ventas_top:,.0f})")

    # Ticket promedio por región
    ticket_region = df.groupby('region')['total_venta'].mean()
    print("\nTicket promedio por región:")
    print(ticket_region.round(2))

    # TODO 7: Identifica categoría más popular por región
    print("\nCategoría favorita por región:")
    for region in productos_region.index:
        categoria_favorita = productos_region.loc[region].idxmax()
        cantidad = productos_region.loc[region].max()
        print(f"{region}: {categoria_favorita} ({cantidad} ventas)")

analizar_regiones()

### Reporte Final

In [None]:
# Generar reporte ejecutivo
def generar_reporte():
    reporte = f"""
    REPORTE EJECUTIVO - CAFÉ AZAHAR
    Fecha: {datetime.now().strftime('%Y-%m-%d')}

    1. PATRONES DE DEMANDA
    ---------------------
    • Hora pico: {ventas_hora.idxmax()}:00 (${ventas_hora.max():,.0f})
    • Producto más vendido: {productos_top.index[0]} ({productos_top.iloc[0]} unidades)

    2. EXPERIENCIA DEL CLIENTE
    ------------------------
    • Ticket promedio general: ${df['total_venta'].mean():,.2f}
    • Método de pago preferido: {metodos_pago.index[0]} ({metodos_pago.iloc[0]} usos)

    3. ANÁLISIS REGIONAL
    ------------------
    • Región principal: {ventas_region.index[0]} (${ventas_region.iloc[0]:,.0f})
    • Total regiones activas: {len(ventas_region)}
    """
    return reporte

print(generar_reporte())