### 🔗 Conexión a la Base de Datos PostgreSQL

En esta sección se establece la conexión con la base de datos **PostgreSQL** usando **SQLAlchemy**.  
También se importan las librerías necesarias para el análisis de datos (`pandas`, `numpy`, `matplotlib`, `seaborn`).

El bloque `try-except` permite manejar errores de conexión de forma controlada, mostrando un mensaje si la conexión falla.


In [None]:
# crear la conexión a la base de datos
from sqlalchemy import create_engine, text
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

try:
    engine = create_engine('postgresql+psycopg2://postgres:21211212Daly@localhost:5432/database_dump')
    print("Conexión exitosa a PostgreSQL")
except Exception as e:
    print(f"Error al conectar a PostgreSQL: {e}")

### 🔍 Verificación de la conexión a la base de datos

En este paso se realiza una comprobación práctica para confirmar que la conexión con la base de datos **PostgreSQL** se ha establecido correctamente.  
Se ejecuta una consulta sencilla (`SELECT count(*) FROM orders;`) que cuenta el número total de registros en la tabla `orders`.

- Si la conexión es exitosa, se mostrará el número de registros encontrados.  
- Si ocurre algún error (por ejemplo, la tabla no existe o hay un problema con la conexión), se mostrará un mensaje indicando el fallo.

In [None]:

if engine:
    try: 
        query_check="SELECT count(*) FROM orders;"
        df = pd.read_sql((query_check), engine)
        count = df.iloc[0,0]
        print("Conexión verificada, número de registros en la tabla orders:", count)
    except Exception as e:
        print(f"No se han encontrado registros en la tabla orders: {e}")

### 📦 Extracción de datos del esquema *Northwind*

En este paso se construye una consulta SQL que integra múltiples tablas del esquema **Northwind** mediante diferentes tipos de `JOIN`, con el objetivo de obtener una vista consolidada de la información de pedidos.

#### 🧩 Tablas involucradas:
- **`customers`** → Información del cliente (ID, ciudad).  
- **`orders`** → Datos del pedido (ID, fecha del pedido, fecha de envío).  
- **`order_details`** → Detalle transaccional de cada pedido (precio unitario, cantidad, descuento).  
- **`products`** → Nombre y características del producto.  
- **`categories`** → Categoría asociada al producto.

#### 🧮 Cálculo adicional:
Se calcula la columna **`dias_envio`**, que representa la diferencia en días entre la fecha de envío (`shipped_date`) y la fecha del pedido (`order_date`).

#### 🕒 Conversión de Fechas:
Una vez cargados los datos en el DataFrame, se realiza la conversión de las columnas **`order_date`** y **`shipped_date`** a tipo `datetime`.  
Esto permite realizar cálculos temporales, filtrados por rangos de fechas y análisis de tiempos de entrega de forma precisa.

#### 🎯 Objetivo:
Cargar los resultados en un **DataFrame de Pandas** llamado `df_preparatorio2`, con las fechas correctamente tipificadas, listo para el cálculo de costos, KPIs y análisis de ventas.

#### ✅ Resultado esperado:
Un DataFrame con información consolidada de pedidos, productos y clientes, con las fechas convertidas a formato datetime, listo para análisis avanzados y visualización posterior.


In [None]:
sql_query_northwind = """
SELECT
    -- Información del Cliente
    c.customer_id,
    c.city,

    -- Información del Pedido
    o.order_id,
    o.order_date,
    o.shipped_date, 

    -- Información de la Línea de Detalle (Valores transaccionales base)
    od.unit_price,
    od.quantity,
    od.discount,

    -- Información del Producto y Categoría
    p.product_name,
    cat.category_name,

    -- 🔴 Cálculo: Días de Envío
    (o.shipped_date - o.order_date) AS dias_envio
FROM
    order_details AS od
INNER JOIN
    orders AS o ON od.order_id = o.order_id
INNER JOIN
    customers AS c ON o.customer_id = c.customer_id
INNER JOIN
    products AS p ON od.product_id = p.product_id
INNER JOIN
    categories AS cat ON p.category_id = cat.category_id
ORDER BY
    o.order_date DESC, o.order_id;
"""

# 📥 Cargar datos desde PostgreSQL al DataFrame y convertir fechas a datetime
if engine:
    try:
        # Ejecutar la consulta SQL y cargar los resultados
        df_preparatorio2 = pd.read_sql(sql_query_northwind, engine)
        print("✅ Datos cargados en el DataFrame df_preparatorio2:", len(df_preparatorio2), "registros.")

        # 🕒 Conversión de columnas de fecha a tipo datetime
        df_preparatorio2['order_date'] = pd.to_datetime(df_preparatorio2['order_date'], errors='coerce')
        df_preparatorio2['shipped_date'] = pd.to_datetime(df_preparatorio2['shipped_date'], errors='coerce')

        print("🗓️ Columnas de fecha convertidas correctamente a tipo datetime.")

    except Exception as e:
        print(f"❌ Error al cargar los datos en el DataFrame: {e}")
        df_preparatorio2 = pd.DataFrame()

    

### 🧾 Verificación de la carga y estructura del DataFrame

Una vez cargados los datos desde PostgreSQL, es importante realizar una verificación inicial para asegurarse de que la consulta SQL se haya ejecutado correctamente y que el DataFrame contenga las columnas esperadas.

En este paso se:
- Muestran las primeras filas del DataFrame con `head()` para validar los datos.  
- Revisa la estructura general y los tipos de datos con `info()`, confirmando que las columnas de fecha estén correctamente convertidas a tipo `datetime`.

Esta validación previa es fundamental antes de continuar con los cálculos de KPIs o transformaciones adicionales.


In [None]:
# 👀 Vista previa del DataFrame resultante
print("✅ Consulta completada. Mostrando las primeras filas del DataFrame df_preparatorio2:")
display(df_preparatorio2.head())

# 🧩 Verificar estructura y tipos de datos
print("\n📋 Información general del DataFrame:")
df_preparatorio2.info()


### 🧹 Análisis y limpieza básica del DataFrame

Antes de proceder al cálculo de KPIs, se realiza una revisión de la estructura y la calidad de los datos.

En este paso se:
- Muestra la información general del DataFrame (`info()`), incluyendo nombres de columnas y tipos de datos.  
- Calcula el conteo de valores nulos por columna para detectar posibles datos faltantes.  
- Asegura que las columnas numéricas principales (`unit_price`, `quantity`, `discount`) estén correctamente tipificadas como `float`.  

Este control de calidad garantiza que los cálculos posteriores (como costos, ingresos y márgenes) se realicen sobre datos limpios y consistentes.


In [None]:
# 🧹 Análisis y limpieza básica del DataFrame
if not df_preparatorio2.empty:
    
    print("\n--- 🧾 Información general del DataFrame (df_preparatorio2) ---")
    df_preparatorio2.info()
    
    print("\n--- ❗ Conteo de valores nulos por columna ---")
    print(df_preparatorio2.isnull().sum())
    
    # Conversión de columnas numéricas a tipo float (si aplica)
    columnas_a_float = ['unit_price', 'quantity', 'discount']
    for col in columnas_a_float:
        if col in df_preparatorio2.columns:
            df_preparatorio2[col] = df_preparatorio2[col].astype(float)
    
    print("\n✅ Limpieza básica y verificación de tipos completada correctamente.")
    
else:
    print("⚠️ El DataFrame df_preparatorio2 está vacío. No se puede realizar la limpieza.")


### 💰 Cálculo del Costo Total del Ítem

En esta etapa se estima el **costo unitario del producto** y se calcula el **costo total del ítem**, según la regla definida en la guía:

> Si no existe un campo `product_cost` en la tabla `products`, se asume que el **costo unitario estimado** equivale al 70% del precio de venta (`unit_price * 0.7`).

#### 🧮 Cálculos realizados:
- **`unit_cost_estimated`** → costo unitario estimado del producto.  
- **`item_total_cost`** → costo total del ítem = `quantity * unit_cost_estimated`.

Estos cálculos son fundamentales para la posterior obtención de indicadores de desempeño (KPI) relacionados con ingresos y ganancias.


In [None]:
# 💰 Cálculo del costo estimado y costo total del ítem

# Si no existe 'product_cost', usamos unit_price * 0.7 como costo unitario estimado
df_preparatorio2['unit_cost_estimated'] = df_preparatorio2['unit_price'] * 0.7

# Costo total del ítem = costo unitario estimado * cantidad
df_preparatorio2['item_total_cost'] = df_preparatorio2['quantity'] * df_preparatorio2['unit_cost_estimated']

print("✅ Columnas 'unit_cost_estimated' y 'item_total_cost' calculadas correctamente.")
display(df_preparatorio2[['unit_price', 'unit_cost_estimated', 'item_total_cost']].head())


### 📈 Cálculo de KPI: Ingreso Bruto y Ganancia del Ítem

Una vez calculado el **costo total del ítem**, se procede a estimar los indicadores financieros clave asociados a cada línea de pedido.  
Estos KPI permiten conocer cuánto dinero genera cada producto y cuánto se gana realmente después de cubrir el costo estimado.

#### 🧮 Cálculos realizados:

1. **`item_revenue` → Ingreso Bruto del Ítem**

   Representa el dinero que entra por la venta del producto, teniendo en cuenta:
   - **`quantity`** → la cantidad de unidades vendidas.  
   - **`unit_price`** → el precio unitario al que se vendió el producto.  
   - **`discount`** → el descuento aplicado al cliente en esa venta.

   El descuento es clave porque en la base de datos **Northwind**, el precio almacenado en `order_details.unit_price` es el **precio de lista**, y `discount` indica el **porcentaje de rebaja** (por ejemplo, `0.15` equivale a un 15% de descuento).  
   Por tanto, para obtener el ingreso real recibido por esa línea de pedido, se aplica la fórmula:

   \[
   \text{item_revenue} = quantity \times unit\_price \times (1 - discount)
   \]

   De esta forma, se descuenta correctamente la reducción del precio que el cliente recibió.

2. **`item_profit` → Ganancia del Ítem**

   Una vez calculado el ingreso real, se obtiene la ganancia restando los costos:
   \[
   \text{item_profit} = item\_revenue - item\_total\_cost
   \]

   Este indicador refleja el beneficio bruto generado por cada ítem, luego de considerar tanto el descuento como el costo estimado del producto.

#### 🎯 Importancia del descuento (`discount`)
Incluir el `discount` en el cálculo es fundamental para que los KPIs reflejen la **realidad económica** del negocio.  
Si se ignorara, se estaría sobrestimando el ingreso y, en consecuencia, la rentabilidad de los productos.  
De este modo, el análisis posterior (por cliente, categoría o periodo) será más preciso y útil para la toma de decisiones.


In [None]:
# 💹 Cálculo de KPI: Ingreso Bruto y Ganancia del Ítem

# Ingreso bruto del ítem (considerando el descuento)
df_preparatorio2['item_revenue'] = df_preparatorio2['quantity'] * df_preparatorio2['unit_price'] * (1 - df_preparatorio2['discount'])

# Ganancia del ítem = Ingreso - Costo total
df_preparatorio2['item_profit'] = df_preparatorio2['item_revenue'] - df_preparatorio2['item_total_cost']

print("✅ Columnas 'item_revenue' y 'item_profit' calculadas correctamente.")
display(df_preparatorio2[['quantity', 'unit_price', 'discount', 'item_revenue', 'item_total_cost', 'item_profit']].head())


### 🧾 Extracción final y verificación de tipos de datos

Una vez calculados los indicadores de costo, ingreso y ganancia, se genera el DataFrame final **`df_avanzado`**, que será la base para los análisis posteriores.  

En este paso se:
- Crea una copia del DataFrame consolidado.  
- Se asegura que la columna `order_date` (y otras fechas) estén correctamente convertidas a tipo `datetime`.  
- Se realiza una verificación final de estructura y tipos.

Esto garantiza que los datos estén listos para generar KPIs agregados, visualizaciones y análisis temporales.


In [None]:
# 🧾 Crear DataFrame final para análisis avanzado
df_avanzado = df_preparatorio2.copy()

# Asegurar que las columnas de fecha sean tipo datetime
df_avanzado['order_date'] = pd.to_datetime(df_avanzado['order_date'], errors='coerce')
df_avanzado['shipped_date'] = pd.to_datetime(df_avanzado['shipped_date'], errors='coerce')

# Verificar estructura
print("✅ DataFrame 'df_avanzado' creado correctamente.")
df_avanzado.info()


### ⏱️ Tarea 1.2: Cálculo de Tiempo de Envío

**Objetivo:** Calcular la duración del envío de cada pedido en días.  
Se obtiene restando la fecha de envío (`shipped_date`) menos la fecha del pedido (`order_date`).

- Si alguna fecha está ausente, el valor resultará como `NaN`.  
- Este campo permite medir la eficiencia del proceso logístico.

> Nota: Aunque ya se calculó en la consulta SQL, verificaremos su validez desde Pandas para asegurar consistencia.


In [None]:
# 🔍 Verificar si la columna 'dias_envio' ya existe
if 'dias_envio' not in df_avanzado.columns:
    # Si no existe, se calcula desde Pandas
    df_avanzado['dias_envio'] = (df_avanzado['shipped_date'] - df_avanzado['order_date']).dt.days
    print("🕒 Columna 'dias_envio' calculada desde Pandas.")
else:
    print("✅ Columna 'dias_envio' ya presente en el DataFrame (calculada desde SQL).")

# Mostrar una vista previa para verificar el cálculo
df_avanzado[['order_id', 'order_date', 'shipped_date', 'dias_envio']].head(10)


### 📊 Tarea 2.1: Agregaciones Temporales y de Margen  
**Objetivo:** Analizar la evolución de la rentabilidad de la empresa a lo largo del tiempo mediante la **Ganancia Bruta Total por Mes**.

---

#### 🧠 Contexto Analítico

En etapas anteriores del proceso ETL (Extracción, Transformación y Carga), ya calculamos los siguientes indicadores por ítem (línea de pedido):

- **`item_revenue`** → Ingreso bruto del ítem = `unit_price * quantity * (1 - discount)`
- **`item_total_cost`** → Costo total del ítem = `unit_price * 0.7 * quantity`
- **`item_profit`** → Ganancia neta del ítem = `item_revenue - item_total_cost`

Cada fila del DataFrame representa una transacción individual de venta, con su producto, cliente, precio, cantidad y ganancia.

Ahora, el siguiente paso consiste en **agrupar esta información a nivel temporal (mensual)** para entender cómo evoluciona la rentabilidad de la empresa a lo largo del tiempo.

---

#### 🗓️ Transformación temporal: extracción de Año-Mes

Para poder agrupar los datos por mes y año, se toma la columna `order_date` y se convierte en un formato de período `YYYY-MM`.  
Este formato facilita visualizar tendencias y comparar el desempeño entre diferentes meses.

Ejemplo:  
- Una fecha `2023-08-15` se convierte en el período `2023-08`.

---

#### 💰 Cálculo: Ganancia Bruta Total por Mes

La ganancia bruta total de cada mes se obtiene **sumando todas las ganancias de los ítems (`item_profit`)** que fueron vendidos en ese período.

Matemáticamente:
\[
Ganancia\ Bruta\ Total_{mes} = \sum_{i=1}^{n} item\_profit_i
\]

Donde \( n \) es el número de ítems vendidos en ese mes.

Este cálculo permite responder preguntas clave como:
- ¿Qué meses fueron más rentables?
- ¿Existen patrones estacionales en la ganancia?
- ¿Hubo meses con márgenes negativos?

---

#### 🧩 Proceso Analítico

1. Confirmar que la columna `order_date` sea tipo `datetime`.
2. Crear una nueva columna `year_month` con el formato `YYYY-MM`.
3. Agrupar por `year_month` y sumar las ganancias (`item_profit`).
4. Almacenar el resultado en un nuevo DataFrame llamado `kpi_ganancia_mensual`.

---

#### ✅ Resultado Esperado

Un DataFrame con dos columnas:

| year_month | ganancia_bruta_total |
|-------------|----------------------|
| 2023-01     | 15820.45             |
| 2023-02     | 18490.72             |
| 2023-03     | 17214.33             |

Este resultado servirá como base para visualizaciones temporales y el cálculo de márgenes promedio mensuales.

---

> 💡 **Conclusión:**  
> Este indicador temporal ofrece una primera mirada a la dinámica de las ganancias, permitiendo detectar picos de rentabilidad, meses atípicos o posibles caídas en el margen.  
> En etapas posteriores, este KPI podrá complementarse con el **promedio del margen de ganancia (%)** y la **tasa de crecimiento mensual** para un análisis financiero más profundo.


In [None]:
# 🔍 Asegurar que order_date sea tipo datetime
df_avanzado['order_date'] = pd.to_datetime(df_avanzado['order_date'], errors='coerce')

# 🗓️ Crear una columna con el formato Año-Mes
df_avanzado['year_month'] = df_avanzado['order_date'].dt.to_period('M').astype(str)

# 💰 Agrupar por mes y año para calcular la ganancia bruta total
kpi_ganancia_mensual = (
    df_avanzado.groupby('year_month', as_index=False)['item_profit']
    .sum()
    .rename(columns={'item_profit': 'ganancia_bruta_total'})
)

# 📈 Mostrar resultados
print("✅ KPI: Ganancia bruta total por mes calculada correctamente.\n")
print(kpi_ganancia_mensual.head(10))


### 🏙️ Tarea 2.1: Ganancia Bruta Total por Ciudad  

**Objetivo:** Calcular la ganancia bruta total agrupada por ciudad para identificar las zonas más rentables.  

---

#### 🧩 Proceso  
- Se usa la columna `city` como clave de agrupación.  
- Se suma la ganancia de cada ítem (`item_profit`) por ciudad.  
- El resultado se almacena en un nuevo DataFrame llamado `kpi_ganancia_ciudad`.  

---

#### 📊 Resultado Esperado  
Un resumen con las ciudades y su respectiva ganancia total.  

> 💡 Este KPI permite conocer qué ciudades aportan más a la rentabilidad total y detectar oportunidades de mejora en las menos rentables.


In [None]:
# 🏙️ Ganancia Bruta Total por Ciudad
if not df_avanzado.empty:
    kpi_ganancia_ciudad = (
        df_avanzado
        .groupby('city', as_index=False)['item_profit']
        .sum()
        .rename(columns={'item_profit': 'ganancia_bruta_total'})
        .sort_values(by='ganancia_bruta_total', ascending=False)
    )

    print("✅ KPI 'Ganancia Bruta Total por Ciudad' calculado correctamente.")
    display(kpi_ganancia_ciudad.head())

else:
    print("⚠️ El DataFrame 'df_avanzado' está vacío. Verifica la carga de datos antes de continuar.")


### 📦 Tarea 2.1: Margen de Ganancia (%) por Categoría  

**Objetivo:** Calcular el **margen de ganancia porcentual** por categoría de producto, para identificar cuáles líneas de productos generan mayor rentabilidad.  

---

#### 🧩 Proceso  
- Se agrupan los datos por `category_name`.  
- Se calcula la **ganancia total (`item_profit`)** y el **ingreso total (`item_revenue`)** de cada categoría.  
- El **margen de ganancia (%)** se obtiene con la fórmula:  

\[
Margen\% = \frac{Ganancia\ Total}{Ingreso\ Total} \times 100
\]

- Los resultados se guardan en el DataFrame `kpi_margen_categoria`.

---

#### 📊 Resultado Esperado  
Un resumen con cada categoría y su margen promedio de ganancia.  

| category_name | margen_ganancia_% |
|----------------|------------------|
| Beverages      | 31.5             |
| Condiments     | 27.8             |
| Dairy Products | 25.3             |

> 💡 Este KPI ayuda a comparar la eficiencia de cada categoría en términos de rentabilidad.


In [None]:
# 📦 Margen de Ganancia Porcentual por Categoría
if not df_avanzado.empty:
    kpi_margen_categoria = (
        df_avanzado
        .groupby('category_name', as_index=False)
        .agg({
            'item_profit': 'sum',
            'item_revenue': 'sum'
        })
        .assign(margen_ganancia_pct=lambda x: (x['item_profit'] / x['item_revenue']) * 100)
        .sort_values(by='margen_ganancia_pct', ascending=False)
    )

    print("✅ KPI 'Margen de Ganancia (%) por Categoría' calculado correctamente.")
    display(kpi_margen_categoria.head())

else:
    print("⚠️ El DataFrame 'df_avanzado' está vacío. Verifica la carga de datos antes de continuar.")


### 🌎 Tarea 2.2: Segmentación Geográfica — Ciudades con Mayor y Menor Ganancia  

**Objetivo:** Identificar las ciudades más y menos rentables, basadas en la **Ganancia Bruta Total**, excluyendo aquellas sin ventas.  

---

#### 🧩 Proceso  
- Se parte del DataFrame `kpi_ganancia_ciudad` previamente calculado.  
- Se eliminan las ciudades con ganancia igual a 0.  
- Se identifican:
  - La **ciudad con mayor ganancia**.
  - La **ciudad con menor ganancia** (sin contar las de valor 0).  

---

#### 📊 Resultado Esperado  

Un resumen con las dos ciudades extremas en rentabilidad:

| tipo             | city        | ganancia_bruta_total |
|------------------|--------------|----------------------|
| Mayor Ganancia   | London       | 25,482.30            |
| Menor Ganancia   | Buenos Aires | 1,125.80             |

> 💡 Este análisis permite enfocar estrategias comerciales en las ciudades más rentables y revisar las causas de bajo desempeño en las menos productivas.


In [None]:
# 🌎 Segmentación Geográfica: Ciudades con Mayor y Menor Ganancia
if not df_avanzado.empty:
    # Asegurar que el KPI anterior esté disponible
    if 'kpi_ganancia_ciudad' in locals() and not kpi_ganancia_ciudad.empty:
        # Excluir ciudades sin ganancia
        kpi_ganancia_ciudad_filtrado = kpi_ganancia_ciudad[kpi_ganancia_ciudad['ganancia_bruta_total'] > 0]

        # Obtener ciudad con mayor y menor ganancia
        ciudad_max = kpi_ganancia_ciudad_filtrado.loc[kpi_ganancia_ciudad_filtrado['ganancia_bruta_total'].idxmax()]
        ciudad_min = kpi_ganancia_ciudad_filtrado.loc[kpi_ganancia_ciudad_filtrado['ganancia_bruta_total'].idxmin()]

        # Crear resumen
        resumen_ciudades = pd.DataFrame([
            {'tipo': 'Mayor Ganancia', 'city': ciudad_max['city'], 'ganancia_bruta_total': ciudad_max['ganancia_bruta_total']},
            {'tipo': 'Menor Ganancia', 'city': ciudad_min['city'], 'ganancia_bruta_total': ciudad_min['ganancia_bruta_total']}
        ])

        print("✅ Segmentación geográfica completada:")
        display(resumen_ciudades)
    else:
        print("⚠️ No se encontró el DataFrame 'kpi_ganancia_ciudad'. Ejecuta primero el cálculo de ganancia por ciudad.")
else:
    print("⚠️ El DataFrame 'df_avanzado' está vacío. Verifica la carga de datos antes de continuar.")


## Coeficiente de Variación (CV) del Gasto Total por Cliente

El **Coeficiente de Variación (CV)** es una medida de dispersión relativa que indica qué tan variable es una distribución respecto a su media.  
Se calcula como:

\[
CV = \frac{\text{Desviación Estándar}}{\text{Media}}
\]

- **Media**: representa el gasto promedio por cliente.  
- **Desviación Estándar**: indica cuánto se alejan los gastos individuales de la media.  

### Interpretación del CV

- **CV < 0.5** → Dispersión baja: los gastos de los clientes son relativamente homogéneos; la media es representativa.  
- **0.5 ≤ CV ≤ 1** → Dispersión moderada: existe variabilidad significativa entre los clientes; algunos compran mucho más que otros.  
- **CV > 1** → Dispersión alta: los gastos varían ampliamente; la media no refleja bien el comportamiento típico.

### Observación en nuestro caso

- Valor calculado: **`{cv_gasto:.2f}`**  
- Implicación: **{implicacion}**

> En resumen, un CV alto indica que hay clientes que gastan muchísimo mientras que otros gastan muy poco, mostrando un patrón de gasto heterogéneo.  
> Esto es útil para segmentar clientes y diseñar estrategias de marketing o promociones diferenciadas.


In [None]:
# 1. Agrupar por cliente para obtener el Gasto Total (Suma del ingreso)
gasto_por_cliente = (
    df_avanzado.groupby('customer_id', as_index=False)['item_revenue']
    .sum()
    .rename(columns={'item_revenue': 'gasto_total_cliente'})
)

print("✅ Gasto Total por Cliente (ejemplo):")
display(gasto_por_cliente.head())


In [None]:
# 2. Calcular la Media y la Desviación Estándar del Gasto Total
media_gasto = gasto_por_cliente['gasto_total_cliente'].mean()
std_dev_gasto = gasto_por_cliente['gasto_total_cliente'].std()

print(f"\nEstadísticas del Gasto Total por Cliente:")
print(f"  Media (Gasto promedio): ${media_gasto:,.2f}")
print(f"  Desviación Estándar:  ${std_dev_gasto:,.2f}")


In [None]:
# 3. Calcular el Coeficiente de Variación (CV)
# CV = (Desviación Estándar / Media)
cv_gasto = std_dev_gasto / media_gasto

print("-" * 50)
print(f"✅ Coeficiente de Variación (CV) del Gasto Total por Cliente: {cv_gasto:.2f} ({cv_gasto*100:.1f}%)")
print("-" * 50)


In [None]:
# 4. Interpretación del CV
if cv_gasto > 1:
    interpretacion = "mayor que 1"
    implicacion = ("La dispersión es ALTA. La desviación estándar es mayor que la media, "
                   "lo que indica una gran heterogeneidad en el gasto de los clientes. "
                   "El gasto promedio (la media) no es un valor muy representativo, "
                   "y existe una amplia variación entre los clientes de bajo y alto gasto.")
elif cv_gasto > 0.5:
    interpretacion = "entre 0.5 y 1"
    implicacion = ("La dispersión es MODERADA. Existe una variación significativa en el gasto. "
                   "El mercado podría estar dividido entre clientes habituales y clientes de grandes compras.")
else:
    interpretacion = "menor que 0.5"
    implicacion = ("La dispersión es BAJA. La desviación estándar es relativamente pequeña en comparación con la media. "
                   "El gasto de los clientes es bastante homogéneo, y la media es un buen representante del gasto típico.")


print(f"Interpretación:")
print(f"  - ¿Es el CV mayor o menor que 1? El CV es **{interpretacion}**.")
print(f"  - ¿Qué implica esto? **{implicacion}**")


# 📈 Tendencia de Ganancia Bruta Total Mensual (Interactivo)

En este gráfico analizamos la **evolución mensual de la Ganancia Bruta Total**.  
Usamos **Plotly** para hacerlo interactivo, de manera que se pueda explorar fácilmente cada mes y ver los valores exactos.

### Características del gráfico:

- **Línea azul** que representa la Ganancia Bruta Mensual.  
- **Marcadores en cada mes** para indicar el valor exacto.  
- **Tooltip interactivo**: al pasar el mouse sobre un punto, muestra el mes y la ganancia.  
- **Eje Y formateado como moneda** para facilitar la lectura.  
- **Eje X con formato mes/año** para visualizar la tendencia temporal.  
- Permite **zoom y desplazamiento** para explorar períodos específicos.  

> Este tipo de gráfico es muy útil para presentaciones o dashboards, ya que permite explorar los datos de manera dinámica y detectar picos, caídas o patrones de crecimiento de forma intuitiva.


In [None]:
# Asumimos que pd, plt, sns, y kpi_ganancia_mensual ya están disponibles
import matplotlib.dates as mdates
from matplotlib.ticker import FuncFormatter

if not kpi_ganancia_mensual.empty:
    
    # Convertir la columna de fecha a datetime
    kpi_ganancia_mensual['start_of_month'] = pd.to_datetime(kpi_ganancia_mensual['year_month'])

    # Configuración del estilo del gráfico
    sns.set_style("whitegrid")
    plt.figure(figsize=(14, 6))

    # Gráfico de Línea con marcadores
    sns.lineplot(
        data=kpi_ganancia_mensual,
        x='start_of_month',
        y='ganancia_bruta_total',
        marker='o', 
        color='#0077b6'
    )

    # Línea de tendencia (regresión lineal)
    sns.regplot(
        data=kpi_ganancia_mensual,
        x='start_of_month',
        y='ganancia_bruta_total',
        scatter=False,
        color='red',
        line_kws={'linestyle':'--', 'linewidth':1.5}
    )

    # Etiquetas y título
    plt.title('Tendencia de Ganancia Bruta Total Mensual', fontsize=16, fontweight='bold')
    plt.xlabel('Fecha del Pedido', fontsize=12)
    plt.ylabel('Ganancia Bruta Total ($)', fontsize=12)

    # Formato del eje Y como moneda
    def currency_formatter(x, pos):
        return f'${x:,.0f}'
    plt.gca().yaxis.set_major_formatter(FuncFormatter(currency_formatter))

    # Formato del eje X como mes y año
    plt.gca().xaxis.set_major_formatter(mdates.DateFormatter('%b %Y'))

    # Rotar las etiquetas del eje X
    plt.xticks(rotation=45, ha='right')

    # Anotar los valores sobre cada punto
    for x, y in zip(kpi_ganancia_mensual['start_of_month'], kpi_ganancia_mensual['ganancia_bruta_total']):
        plt.text(x, y, f"${y:,.0f}", ha='center', va='bottom', fontsize=9, color='black')

    plt.grid(True, linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()

else:
    print("⚠️ El DataFrame 'kpi_ganancia_mensual' está vacío. Verifica los cálculos de la Tarea 1.1 y el agrupamiento por mes.")


# 📊 Comparación de Ganancia Bruta Total por Categoría

Este análisis muestra las **categorías con mayor y menor contribución a la ganancia bruta total**.

### Objetivo:

- Identificar rápidamente qué categorías son más rentables y cuáles aportan menos a la ganancia.
- Facilitar la toma de decisiones estratégicas en inventario, promociones y marketing.

### Características del gráfico:

- **Barras horizontales**: cada barra representa la ganancia total de una categoría.  
- **Top 5 Ganancia**: categorías con mayor ganancia, coloreadas en azul.  
- **Bottom 5 Ganancia**: categorías con menor ganancia, coloreadas en rojo.  
- **Formato monetario** en el eje X para facilitar la lectura.  
- **Etiqueta de segmento** en la leyenda para distinguir Top y Bottom.

> Este gráfico permite visualizar de manera inmediata dónde se concentran los ingresos y qué categorías podrían requerir acciones estratégicas.


In [None]:
# Asumimos que pd, plt, y sns ya han sido importados.
# y que 'kpi_margen_categoria' (con 'category_name' e 'item_profit') ya existe.

if not kpi_margen_categoria.empty:
    
    # 1. Ordenar por ganancia total
    df_ganancia_ordenada = kpi_margen_categoria.sort_values(
        by='item_profit', 
        ascending=False
    )
    
    # 2. Seleccionar las Top 5 y Bottom 5
    top_5 = df_ganancia_ordenada.head(5).copy()
    bottom_5 = df_ganancia_ordenada.tail(5).copy()
    
    # 3. Crear una columna de Segmento y Concatenar
    top_5['segmento'] = 'Top 5 Ganancia'
    bottom_5['segmento'] = 'Bottom 5 Ganancia'
    
    # Unir los dos DataFrames
    df_comparacion = pd.concat([top_5, bottom_5])
    
    # 4. Crear el Gráfico de Barras
    
    sns.set_style("whitegrid")
    plt.figure(figsize=(12, 7))

    # Definir la paleta de colores contrastantes (ej: un color para Top, otro para Bottom)
    colores = {'Top 5 Ganancia': '#0077b6', 'Bottom 5 Ganancia': '#dc3545'} 
    
    sns.barplot(
        data=df_comparacion,
        x='item_profit',
        y='category_name',
        hue='segmento', # Usa el segmento para diferenciar colores
        palette=colores,
        dodge=False # Asegura que las barras se superpongan si son de la misma categoría (no aplica aquí)
    )

    # Etiquetas y Título
    plt.title('Comparación de Ganancia Bruta Total: Top 5 vs. Bottom 5 Categorías', fontsize=16, fontweight='bold')
    plt.xlabel('Ganancia Bruta Total ($)', fontsize=12)
    plt.ylabel('Categoría de Producto', fontsize=12)

    # Formato del Eje X (Ganancia) como moneda
    from matplotlib.ticker import FuncFormatter
    def currency_formatter(x, pos):
        return f'${x:,.0f}'
    
    plt.gca().xaxis.set_major_formatter(FuncFormatter(currency_formatter))
    
    plt.legend(title='Segmento', loc='lower right')
    plt.tight_layout()
    plt.show()

else:
    print("⚠️ El DataFrame 'kpi_margen_categoria' está vacío. Verifica que se haya calculado la ganancia por categoría.")

In [None]:
# Prueba de kernel
print("hola desde venv")
