# An√°lisis Exploratorio de Datos (EDA)
## Datasets: Feedback Clientes, Inventario Central y Transacciones Log√≠sticas

Este notebook contiene un an√°lisis exploratorio completo de los tres datasets disponibles.

## 1. Importaci√≥n de Librer√≠as

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuraci√≥n
warnings.filterwarnings('ignore')
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

## 2. Carga de Datos

In [None]:
# Cargar los datasets
df_feedback = pd.read_csv('datasets/feedback_clientes_v2.csv')
df_inventario = pd.read_csv('datasets/inventario_central_v2.csv')
df_transacciones = pd.read_csv('datasets/transacciones_logistica_v2.csv')

print("‚úì Datos cargados exitosamente")
print(f"  - Feedback: {df_feedback.shape[0]:,} filas √ó {df_feedback.shape[1]} columnas")
print(f"  - Inventario: {df_inventario.shape[0]:,} filas √ó {df_inventario.shape[1]} columnas")
print(f"  - Transacciones: {df_transacciones.shape[0]:,} filas √ó {df_transacciones.shape[1]} columnas")

---
## 3. Dataset: Feedback de Clientes
### 3.1 Vista Preliminar

In [None]:
print("=" * 80)
print("FEEDBACK DE CLIENTES - Vista Preliminar")
print("=" * 80)
print(f"\nDimensiones: {df_feedback.shape}")
print(f"\nPrimeras 5 filas:\n")
display(df_feedback.head())
print(f"\n√öltimas 5 filas:\n")
display(df_feedback.tail())

### 3.2 Informaci√≥n General

In [None]:
print("\nInformaci√≥n del DataFrame:")
print("-" * 80)
df_feedback.info()

print("\n\nTipos de datos:")
print("-" * 80)
print(df_feedback.dtypes)

print("\n\nEstad√≠sticas descriptivas (num√©ricas):")
print("-" * 80)
display(df_feedback.describe())

### 3.3 Valores Nulos y Duplicados

In [None]:
# Valores nulos
print("Valores nulos por columna:")
print("-" * 80)
nulos_feedback = df_feedback.isnull().sum()
porcentaje_nulos = (nulos_feedback / len(df_feedback)) * 100
df_nulos = pd.DataFrame({
    'Valores Nulos': nulos_feedback,
    'Porcentaje (%)': porcentaje_nulos.round(2)
})
print(df_nulos[df_nulos['Valores Nulos'] > 0])

print(f"\n\nDuplicados: {df_feedback.duplicated().sum()}")
print(f"IDs √∫nicos: {df_feedback['Feedback_ID'].nunique()}/{len(df_feedback)}")

### 3.4 An√°lisis de Variables Categ√≥ricas

In [None]:
print("Distribuci√≥n de variables categ√≥ricas:\n")

# Recomienda Marca
print("Recomienda_Marca:")
print(df_feedback['Recomienda_Marca'].value_counts(dropna=False))
print(f"\nPorcentaje:")
print(df_feedback['Recomienda_Marca'].value_counts(normalize=True, dropna=False).mul(100).round(2))

print("\n" + "=" * 80 + "\n")

# Ticket Soporte
print("Ticket_Soporte_Abierto:")
print(df_feedback['Ticket_Soporte_Abierto'].value_counts(dropna=False))
print(f"\nPorcentaje:")
print(df_feedback['Ticket_Soporte_Abierto'].value_counts(normalize=True, dropna=False).mul(100).round(2))

print("\n" + "=" * 80 + "\n")

# Comentarios m√°s frecuentes
print("Comentarios m√°s frecuentes (top 10):")
print(df_feedback['Comentario_Texto'].value_counts().head(10))

### 3.5 Visualizaciones - Feedback

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
fig.suptitle('An√°lisis de Feedback de Clientes', fontsize=16, fontweight='bold')

# 1. Distribuci√≥n de Rating Producto
axes[0, 0].hist(df_feedback['Rating_Producto'], bins=20, color='skyblue', edgecolor='black')
axes[0, 0].set_title('Distribuci√≥n Rating Producto')
axes[0, 0].set_xlabel('Rating')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].grid(axis='y', alpha=0.3)

# 2. Distribuci√≥n de Rating Log√≠stica
axes[0, 1].hist(df_feedback['Rating_Logistica'], bins=10, color='lightcoral', edgecolor='black')
axes[0, 1].set_title('Distribuci√≥n Rating Log√≠stica')
axes[0, 1].set_xlabel('Rating')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Distribuci√≥n de NPS
axes[0, 2].hist(df_feedback['Satisfaccion_NPS'], bins=30, color='lightgreen', edgecolor='black')
axes[0, 2].set_title('Distribuci√≥n Satisfacci√≥n NPS')
axes[0, 2].set_xlabel('NPS')
axes[0, 2].set_ylabel('Frecuencia')
axes[0, 2].axvline(df_feedback['Satisfaccion_NPS'].median(), color='red', linestyle='--', label='Mediana')
axes[0, 2].legend()
axes[0, 2].grid(axis='y', alpha=0.3)

# 4. Recomienda Marca
recomienda = df_feedback['Recomienda_Marca'].value_counts()
axes[1, 0].bar(recomienda.index.astype(str), recomienda.values, color='orange', edgecolor='black')
axes[1, 0].set_title('¬øRecomienda la Marca?')
axes[1, 0].set_xlabel('Respuesta')
axes[1, 0].set_ylabel('Cantidad')
axes[1, 0].tick_params(axis='x', rotation=45)

# 5. Ticket Soporte
ticket = df_feedback['Ticket_Soporte_Abierto'].value_counts()
axes[1, 1].bar(ticket.index.astype(str), ticket.values, color='mediumpurple', edgecolor='black')
axes[1, 1].set_title('Ticket de Soporte Abierto')
axes[1, 1].set_xlabel('Estado')
axes[1, 1].set_ylabel('Cantidad')
axes[1, 1].tick_params(axis='x', rotation=45)

# 6. Distribuci√≥n de Edad
axes[1, 2].hist(df_feedback['Edad_Cliente'], bins=30, color='gold', edgecolor='black')
axes[1, 2].set_title('Distribuci√≥n Edad de Clientes')
axes[1, 2].set_xlabel('Edad')
axes[1, 2].set_ylabel('Frecuencia')
axes[1, 2].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

### 3.6 Matriz de Correlaci√≥n - Feedback

In [None]:
# Seleccionar solo columnas num√©ricas
numeric_cols = df_feedback.select_dtypes(include=[np.number]).columns.tolist()
correlation_matrix = df_feedback[numeric_cols].corr()

# Visualizar matriz de correlaci√≥n
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            fmt='.2f', linewidths=0.5, square=True, cbar_kws={"shrink": 0.8})
plt.title('Matriz de Correlaci√≥n - Feedback Clientes', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("\nCorrelaciones m√°s altas con Satisfaccion_NPS:")
print(correlation_matrix['Satisfaccion_NPS'].sort_values(ascending=False))

---
## 4. Dataset: Inventario Central
### 4.1 Vista Preliminar

In [None]:
print("=" * 80)
print("INVENTARIO CENTRAL - Vista Preliminar")
print("=" * 80)
print(f"\nDimensiones: {df_inventario.shape}")
print(f"\nPrimeras 10 filas:\n")
display(df_inventario.head(10))
print(f"\n√öltimas 5 filas:\n")
display(df_inventario.tail())

### 4.2 Informaci√≥n General

In [None]:
print("\nInformaci√≥n del DataFrame:")
print("-" * 80)
df_inventario.info()

print("\n\nEstad√≠sticas descriptivas (num√©ricas):")
print("-" * 80)
display(df_inventario.describe())

print("\n\nEstad√≠sticas descriptivas (categ√≥ricas):")
print("-" * 80)
display(df_inventario.describe(include=['object']))

### 4.3 Valores Nulos y Duplicados

In [None]:
print("Valores nulos por columna:")
print("-" * 80)
nulos_inventario = df_inventario.isnull().sum()
porcentaje_nulos_inv = (nulos_inventario / len(df_inventario)) * 100
df_nulos_inv = pd.DataFrame({
    'Valores Nulos': nulos_inventario,
    'Porcentaje (%)': porcentaje_nulos_inv.round(2)
})
display(df_nulos_inv)

print(f"\n\nDuplicados: {df_inventario.duplicated().sum()}")
print(f"SKUs √∫nicos: {df_inventario['SKU_ID'].nunique()}/{len(df_inventario)}")

### 4.4 An√°lisis de Variables Categ√≥ricas

In [None]:
print("An√°lisis de categor√≠as:\n")

# Categor√≠as
print("Categor√≠a:")
print(df_inventario['Categoria'].value_counts(dropna=False))
print(f"\nCategor√≠as √∫nicas: {df_inventario['Categoria'].nunique()}")

print("\n" + "=" * 80 + "\n")

# Bodegas
print("Bodega_Origen:")
print(df_inventario['Bodega_Origen'].value_counts(dropna=False))
print(f"\nBodegas √∫nicas: {df_inventario['Bodega_Origen'].nunique()}")

print("\n" + "=" * 80 + "\n")

# Lead Time
print("Lead_Time_Dias:")
print(df_inventario['Lead_Time_Dias'].value_counts(dropna=False).head(15))

### 4.5 Visualizaciones - Inventario

In [None]:
fig, axes = plt.subplots(2, 3, figsize=(18, 10))
fig.suptitle('An√°lisis de Inventario Central', fontsize=16, fontweight='bold')

# 1. Distribuci√≥n de Stock
axes[0, 0].hist(df_inventario['Stock_Actual'].dropna(), bins=30, color='skyblue', edgecolor='black')
axes[0, 0].set_title('Distribuci√≥n de Stock Actual')
axes[0, 0].set_xlabel('Stock')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].grid(axis='y', alpha=0.3)

# 2. Distribuci√≥n de Costo Unitario
axes[0, 1].hist(df_inventario['Costo_Unitario_USD'].dropna(), bins=30, color='lightcoral', edgecolor='black')
axes[0, 1].set_title('Distribuci√≥n de Costo Unitario (USD)')
axes[0, 1].set_xlabel('Costo USD')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Distribuci√≥n de Punto Reorden
axes[0, 2].hist(df_inventario['Punto_Reorden'].dropna(), bins=30, color='lightgreen', edgecolor='black')
axes[0, 2].set_title('Distribuci√≥n de Punto de Reorden')
axes[0, 2].set_xlabel('Punto de Reorden')
axes[0, 2].set_ylabel('Frecuencia')
axes[0, 2].grid(axis='y', alpha=0.3)

# 4. Categor√≠as
categoria_counts = df_inventario['Categoria'].value_counts().head(10)
axes[1, 0].barh(range(len(categoria_counts)), categoria_counts.values, color='orange', edgecolor='black')
axes[1, 0].set_yticks(range(len(categoria_counts)))
axes[1, 0].set_yticklabels(categoria_counts.index)
axes[1, 0].set_title('Top 10 Categor√≠as')
axes[1, 0].set_xlabel('Cantidad de Productos')
axes[1, 0].invert_yaxis()

# 5. Bodegas
bodega_counts = df_inventario['Bodega_Origen'].value_counts()
axes[1, 1].bar(range(len(bodega_counts)), bodega_counts.values, color='mediumpurple', edgecolor='black')
axes[1, 1].set_xticks(range(len(bodega_counts)))
axes[1, 1].set_xticklabels(bodega_counts.index, rotation=45, ha='right')
axes[1, 1].set_title('Distribuci√≥n por Bodega')
axes[1, 1].set_ylabel('Cantidad de Productos')

# 6. Box plot Costo por Categor√≠a (Top 5)
top_categories = df_inventario['Categoria'].value_counts().head(5).index
df_top_cat = df_inventario[df_inventario['Categoria'].isin(top_categories)]
df_top_cat.boxplot(column='Costo_Unitario_USD', by='Categoria', ax=axes[1, 2])
axes[1, 2].set_title('Costo Unitario por Categor√≠a (Top 5)')
axes[1, 2].set_xlabel('Categor√≠a')
axes[1, 2].set_ylabel('Costo USD')
axes[1, 2].tick_params(axis='x', rotation=45)
plt.suptitle('')  # Eliminar t√≠tulo duplicado del boxplot

plt.tight_layout()
plt.show()

---
## 5. Dataset: Transacciones Log√≠stica
### 5.1 Vista Preliminar

In [None]:
print("=" * 80)
print("TRANSACCIONES LOG√çSTICA - Vista Preliminar")
print("=" * 80)
print(f"\nDimensiones: {df_transacciones.shape}")
print(f"\nPrimeras 10 filas:\n")
display(df_transacciones.head(10))
print(f"\n√öltimas 5 filas:\n")
display(df_transacciones.tail())

### 5.2 Informaci√≥n General

In [None]:
print("\nInformaci√≥n del DataFrame:")
print("-" * 80)
df_transacciones.info()

print("\n\nEstad√≠sticas descriptivas (num√©ricas):")
print("-" * 80)
display(df_transacciones.describe())

print("\n\nEstad√≠sticas descriptivas (categ√≥ricas):")
print("-" * 80)
display(df_transacciones.describe(include=['object']))

### 5.3 Valores Nulos y Duplicados

In [None]:
print("Valores nulos por columna:")
print("-" * 80)
nulos_trans = df_transacciones.isnull().sum()
porcentaje_nulos_trans = (nulos_trans / len(df_transacciones)) * 100
df_nulos_trans = pd.DataFrame({
    'Valores Nulos': nulos_trans,
    'Porcentaje (%)': porcentaje_nulos_trans.round(2)
})
display(df_nulos_trans)

print(f"\n\nDuplicados: {df_transacciones.duplicated().sum()}")
print(f"IDs √∫nicos: {df_transacciones['Transaccion_ID'].nunique()}/{len(df_transacciones)}")

### 5.4 An√°lisis de Variables Categ√≥ricas

In [None]:
print("An√°lisis de variables categ√≥ricas:\n")

# Estado Env√≠o
print("Estado_Envio:")
print(df_transacciones['Estado_Envio'].value_counts(dropna=False))
print(f"\nPorcentaje:")
print(df_transacciones['Estado_Envio'].value_counts(normalize=True, dropna=False).mul(100).round(2))

print("\n" + "=" * 80 + "\n")

# Ciudad Destino
print("Ciudad_Destino (Top 15):")
print(df_transacciones['Ciudad_Destino'].value_counts(dropna=False).head(15))

print("\n" + "=" * 80 + "\n")

# Canal Venta
print("Canal_Venta:")
print(df_transacciones['Canal_Venta'].value_counts(dropna=False))
print(f"\nPorcentaje:")
print(df_transacciones['Canal_Venta'].value_counts(normalize=True, dropna=False).mul(100).round(2))

### 5.5 Visualizaciones - Transacciones

In [None]:
fig, axes = plt.subplots(3, 3, figsize=(18, 14))
fig.suptitle('An√°lisis de Transacciones Log√≠sticas', fontsize=16, fontweight='bold')

# 1. Distribuci√≥n de Cantidad Vendida
axes[0, 0].hist(df_transacciones['Cantidad_Vendida'], bins=30, color='skyblue', edgecolor='black')
axes[0, 0].set_title('Distribuci√≥n Cantidad Vendida')
axes[0, 0].set_xlabel('Cantidad')
axes[0, 0].set_ylabel('Frecuencia')
axes[0, 0].grid(axis='y', alpha=0.3)

# 2. Distribuci√≥n de Precio Venta Final
axes[0, 1].hist(df_transacciones['Precio_Venta_Final'], bins=30, color='lightcoral', edgecolor='black')
axes[0, 1].set_title('Distribuci√≥n Precio Venta Final')
axes[0, 1].set_xlabel('Precio')
axes[0, 1].set_ylabel('Frecuencia')
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Distribuci√≥n de Costo Env√≠o
axes[0, 2].hist(df_transacciones['Costo_Envio'].dropna(), bins=30, color='lightgreen', edgecolor='black')
axes[0, 2].set_title('Distribuci√≥n Costo de Env√≠o')
axes[0, 2].set_xlabel('Costo')
axes[0, 2].set_ylabel('Frecuencia')
axes[0, 2].grid(axis='y', alpha=0.3)

# 4. Distribuci√≥n de Tiempo Entrega
axes[1, 0].hist(df_transacciones['Tiempo_Entrega_Real'], bins=30, color='gold', edgecolor='black')
axes[1, 0].set_title('Distribuci√≥n Tiempo de Entrega (d√≠as)')
axes[1, 0].set_xlabel('D√≠as')
axes[1, 0].set_ylabel('Frecuencia')
axes[1, 0].grid(axis='y', alpha=0.3)

# 5. Estado de Env√≠o
estado_counts = df_transacciones['Estado_Envio'].value_counts()
axes[1, 1].bar(range(len(estado_counts)), estado_counts.values, color='orange', edgecolor='black')
axes[1, 1].set_xticks(range(len(estado_counts)))
axes[1, 1].set_xticklabels(estado_counts.index, rotation=45, ha='right')
axes[1, 1].set_title('Estado de Env√≠o')
axes[1, 1].set_ylabel('Cantidad')

# 6. Canal de Venta
canal_counts = df_transacciones['Canal_Venta'].value_counts()
axes[1, 2].bar(canal_counts.index, canal_counts.values, color='mediumpurple', edgecolor='black')
axes[1, 2].set_title('Canal de Venta')
axes[1, 2].set_xlabel('Canal')
axes[1, 2].set_ylabel('Cantidad')
axes[1, 2].tick_params(axis='x', rotation=45)

# 7. Top 10 Ciudades Destino
ciudad_counts = df_transacciones['Ciudad_Destino'].value_counts().head(10)
axes[2, 0].barh(range(len(ciudad_counts)), ciudad_counts.values, color='teal', edgecolor='black')
axes[2, 0].set_yticks(range(len(ciudad_counts)))
axes[2, 0].set_yticklabels(ciudad_counts.index)
axes[2, 0].set_title('Top 10 Ciudades Destino')
axes[2, 0].set_xlabel('Cantidad de Transacciones')
axes[2, 0].invert_yaxis()

# 8. Box plot Precio por Canal
df_transacciones.boxplot(column='Precio_Venta_Final', by='Canal_Venta', ax=axes[2, 1])
axes[2, 1].set_title('Precio Venta por Canal')
axes[2, 1].set_xlabel('Canal')
axes[2, 1].set_ylabel('Precio')
axes[2, 1].tick_params(axis='x', rotation=45)
plt.suptitle('')  # Eliminar t√≠tulo duplicado

# 9. Box plot Tiempo Entrega por Estado
df_transacciones.boxplot(column='Tiempo_Entrega_Real', by='Estado_Envio', ax=axes[2, 2])
axes[2, 2].set_title('Tiempo Entrega por Estado')
axes[2, 2].set_xlabel('Estado')
axes[2, 2].set_ylabel('D√≠as')
axes[2, 2].tick_params(axis='x', rotation=45)
plt.suptitle('')  # Eliminar t√≠tulo duplicado

plt.tight_layout()
plt.show()

### 5.6 An√°lisis Temporal

In [None]:
# Convertir fecha a datetime
df_transacciones['Fecha_Venta_dt'] = pd.to_datetime(df_transacciones['Fecha_Venta'], format='%d/%m/%Y', errors='coerce')

# Extraer componentes temporales
df_transacciones['A√±o'] = df_transacciones['Fecha_Venta_dt'].dt.year
df_transacciones['Mes'] = df_transacciones['Fecha_Venta_dt'].dt.month
df_transacciones['Dia_Semana'] = df_transacciones['Fecha_Venta_dt'].dt.day_name()

print("Rango de fechas:")
print(f"Fecha m√≠nima: {df_transacciones['Fecha_Venta_dt'].min()}")
print(f"Fecha m√°xima: {df_transacciones['Fecha_Venta_dt'].max()}")

# Gr√°ficos temporales
fig, axes = plt.subplots(2, 2, figsize=(16, 10))
fig.suptitle('An√°lisis Temporal de Transacciones', fontsize=16, fontweight='bold')

# 1. Transacciones por mes
transacciones_mes = df_transacciones.groupby('Mes').size()
axes[0, 0].plot(transacciones_mes.index, transacciones_mes.values, marker='o', linewidth=2, markersize=8, color='blue')
axes[0, 0].set_title('Transacciones por Mes')
axes[0, 0].set_xlabel('Mes')
axes[0, 0].set_ylabel('Cantidad de Transacciones')
axes[0, 0].grid(True, alpha=0.3)
axes[0, 0].set_xticks(range(1, 13))

# 2. Ventas totales por mes
ventas_mes = df_transacciones.groupby('Mes')['Precio_Venta_Final'].sum()
axes[0, 1].bar(ventas_mes.index, ventas_mes.values, color='green', edgecolor='black')
axes[0, 1].set_title('Ventas Totales por Mes')
axes[0, 1].set_xlabel('Mes')
axes[0, 1].set_ylabel('Ventas Totales ($)')
axes[0, 1].set_xticks(range(1, 13))
axes[0, 1].grid(axis='y', alpha=0.3)

# 3. Transacciones por a√±o
transacciones_a√±o = df_transacciones.groupby('A√±o').size()
axes[1, 0].bar(transacciones_a√±o.index.astype(str), transacciones_a√±o.values, color='orange', edgecolor='black')
axes[1, 0].set_title('Transacciones por A√±o')
axes[1, 0].set_xlabel('A√±o')
axes[1, 0].set_ylabel('Cantidad de Transacciones')
axes[1, 0].grid(axis='y', alpha=0.3)

# 4. Evoluci√≥n temporal
df_temp = df_transacciones.groupby(df_transacciones['Fecha_Venta_dt'].dt.to_period('M')).size()
axes[1, 1].plot(df_temp.index.astype(str), df_temp.values, marker='o', linewidth=2, color='purple')
axes[1, 1].set_title('Evoluci√≥n Temporal de Transacciones')
axes[1, 1].set_xlabel('Periodo (A√±o-Mes)')
axes[1, 1].set_ylabel('Cantidad de Transacciones')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

---
## 6. An√°lisis de Calidad de Datos

Vamos a identificar problemas de calidad en los datasets

In [None]:
print("=" * 80)
print("PROBLEMAS DE CALIDAD DETECTADOS")
print("=" * 80)

print("\n### FEEDBACK DE CLIENTES ###\n")

# Valores an√≥malos en Rating_Producto
print("1. Ratings de Producto fuera de rango (1-5):")
rating_anomalo = df_feedback[(df_feedback['Rating_Producto'] < 1) | (df_feedback['Rating_Producto'] > 5)]
print(f"   Cantidad: {len(rating_anomalo)}")
if len(rating_anomalo) > 0:
    print(f"   Ejemplos: {rating_anomalo['Rating_Producto'].unique()[:10]}")

# Edades an√≥malas
print("\n2. Edades de clientes an√≥malas:")
print(f"   Edad m√≠nima: {df_feedback['Edad_Cliente'].min()}")
print(f"   Edad m√°xima: {df_feedback['Edad_Cliente'].max()}")
edad_anomala = df_feedback[(df_feedback['Edad_Cliente'] < 18) | (df_feedback['Edad_Cliente'] > 100)]
print(f"   Clientes con edad < 18 o > 100: {len(edad_anomala)}")

# NPS fuera de rango
print("\n3. NPS fuera de rango (-100 a 100):")
nps_anomalo = df_feedback[(df_feedback['Satisfaccion_NPS'] < -100) | (df_feedback['Satisfaccion_NPS'] > 100)]
print(f"   Cantidad: {len(nps_anomalo)}")

# Valores inconsistentes en campos categ√≥ricos
print("\n4. Valores inconsistentes en Ticket_Soporte_Abierto:")
print(f"   Valores √∫nicos: {df_feedback['Ticket_Soporte_Abierto'].unique()}")

print("\n" + "=" * 80)
print("\n### INVENTARIO CENTRAL ###\n")

# Stock negativo o nulo
print("1. Productos con Stock nulo o inconsistente:")
stock_nulo = df_inventario[df_inventario['Stock_Actual'].isnull()]
print(f"   Stock nulo: {len(stock_nulo)}")

# Categor√≠as con valores inconsistentes
print("\n2. Categor√≠as inconsistentes:")
print(f"   Valores √∫nicos en Categoria: {df_inventario['Categoria'].nunique()}")
print(f"   Categor√≠as con '???': {len(df_inventario[df_inventario['Categoria'] == '???'])}")

# Bodegas inconsistentes
print("\n3. Bodegas con nombres inconsistentes:")
print(f"   Valores √∫nicos: {df_inventario['Bodega_Origen'].unique()}")

# Lead Time inconsistente
print("\n4. Lead_Time_Dias con valores inconsistentes:")
print(f"   Valores √∫nicos: {df_inventario['Lead_Time_Dias'].unique()}")

# Costos an√≥malos
print("\n5. Costos unitarios an√≥malos:")
costo_bajo = df_inventario[df_inventario['Costo_Unitario_USD'] < 1]
print(f"   Costos < $1: {len(costo_bajo)}")

print("\n" + "=" * 80)
print("\n### TRANSACCIONES LOG√çSTICA ###\n")

# Cantidad vendida negativa
print("1. Cantidades vendidas negativas:")
cantidad_neg = df_transacciones[df_transacciones['Cantidad_Vendida'] < 0]
print(f"   Cantidad: {len(cantidad_neg)}")

# Ciudades inconsistentes
print("\n2. Ciudades destino inconsistentes:")
ciudades_unicas = df_transacciones['Ciudad_Destino'].unique()
print(f"   Valores √∫nicos: {len(ciudades_unicas)}")
print(f"   Ejemplos: {ciudades_unicas[:20]}")

# Estados de env√≠o nulos
print("\n3. Estados de env√≠o nulos:")
estado_nulo = df_transacciones[df_transacciones['Estado_Envio'].isnull()]
print(f"   Cantidad: {len(estado_nulo)}")

# Tiempo de entrega alto
print("\n4. Tiempos de entrega an√≥malos:")
tiempo_alto = df_transacciones[df_transacciones['Tiempo_Entrega_Real'] > 100]
print(f"   Entregas > 100 d√≠as: {len(tiempo_alto)}")
if len(tiempo_alto) > 0:
    print(f"   M√°ximo: {df_transacciones['Tiempo_Entrega_Real'].max()} d√≠as")

print("\n" + "=" * 80)

---
## 7. Resumen Ejecutivo del EDA

In [None]:
print("=" * 80)
print("RESUMEN EJECUTIVO - AN√ÅLISIS EXPLORATORIO DE DATOS")
print("=" * 80)

print(f"""
üìä DIMENSIONES DE LOS DATASETS:
   ‚Ä¢ Feedback de Clientes:    {df_feedback.shape[0]:,} filas √ó {df_feedback.shape[1]} columnas
   ‚Ä¢ Inventario Central:      {df_inventario.shape[0]:,} filas √ó {df_inventario.shape[1]} columnas
   ‚Ä¢ Transacciones Log√≠stica: {df_transacciones.shape[0]:,} filas √ó {df_transacciones.shape[1]} columnas

üîç HALLAZGOS PRINCIPALES:

1. FEEDBACK DE CLIENTES:
   ‚Ä¢ Rating promedio productos: {df_feedback['Rating_Producto'].mean():.2f}
   ‚Ä¢ Rating promedio log√≠stica: {df_feedback['Rating_Logistica'].mean():.2f}
   ‚Ä¢ NPS promedio: {df_feedback['Satisfaccion_NPS'].mean():.2f}
   ‚Ä¢ Tickets de soporte abiertos: {(df_feedback['Ticket_Soporte_Abierto'] == 'S√≠').sum():,} ({(df_feedback['Ticket_Soporte_Abierto'] == 'S√≠').sum()/len(df_feedback)*100:.1f}%)

2. INVENTARIO CENTRAL:
   ‚Ä¢ Total de productos √∫nicos: {df_inventario['SKU_ID'].nunique():,}
   ‚Ä¢ Valor total del inventario: ${(df_inventario['Stock_Actual'].fillna(0) * df_inventario['Costo_Unitario_USD']).sum():,.2f}
   ‚Ä¢ Stock promedio por producto: {df_inventario['Stock_Actual'].mean():.0f} unidades
   ‚Ä¢ Categor√≠as principales: {', '.join(df_inventario['Categoria'].value_counts().head(3).index.tolist())}

3. TRANSACCIONES LOG√çSTICAS:
   ‚Ä¢ Total de transacciones: {len(df_transacciones):,}
   ‚Ä¢ Ventas totales: ${df_transacciones['Precio_Venta_Final'].sum():,.2f}
   ‚Ä¢ Ticket promedio: ${df_transacciones['Precio_Venta_Final'].mean():.2f}
   ‚Ä¢ Tiempo promedio de entrega: {df_transacciones['Tiempo_Entrega_Real'].mean():.1f} d√≠as
   ‚Ä¢ Canal m√°s usado: {df_transacciones['Canal_Venta'].mode()[0] if not df_transacciones['Canal_Venta'].mode().empty else 'N/A'}

‚ö†Ô∏è PROBLEMAS DE CALIDAD DETECTADOS:
   ‚Ä¢ Ratings fuera de rango en Feedback
   ‚Ä¢ Edades an√≥malas en clientes
   ‚Ä¢ Categor√≠as inconsistentes en Inventario ('{df_inventario['Categoria'].value_counts().index[-1]}')
   ‚Ä¢ Nombres de bodegas inconsistentes (may√∫sculas/min√∫sculas)
   ‚Ä¢ Cantidades vendidas negativas en Transacciones
   ‚Ä¢ Valores nulos en campos cr√≠ticos
   ‚Ä¢ Ciudades con nombres inconsistentes

‚úÖ RECOMENDACIONES:
   1. Estandarizar valores categ√≥ricos (Bodegas, Ciudades, Categor√≠as)
   2. Validar rangos de valores num√©ricos (Ratings, Edades, Cantidades)
   3. Completar valores nulos en campos cr√≠ticos
   4. Revisar transacciones con cantidades negativas
   5. Normalizar formato de fechas y tiempos de entrega
""")

print("=" * 80)