## **TPI Data Analytics - Yamila Lerman**

#📋 CONFIGURACIÓN INICIAL

- Cargar librerías.
- Cargar los datasets.




In [None]:
import pandas as pd
import numpy as np

ventas_df = pd.read_csv('/content/drive/MyDrive/Portfolio_DataAnalyst_Yamila_Lerman/Análisis-de-datos-c-Python/LermanYamila-Comisión25261-TPIDataAnalytics/Datasets/ventas.csv')
clientes_df = pd.read_csv('/content/drive/MyDrive/Portfolio_DataAnalyst_Yamila_Lerman/Análisis-de-datos-c-Python/LermanYamila-Comisión25261-TPIDataAnalytics/Datasets/clientes.csv')
marketing_df = pd.read_csv('/content/drive/MyDrive/Portfolio_DataAnalyst_Yamila_Lerman/Análisis-de-datos-c-Python/LermanYamila-Comisión25261-TPIDataAnalytics/Datasets/marketing.csv')

print("✅ Datasets cargados exitosamente")
print(f"Ventas: {len(ventas_df)} registros")
print(f"Clientes: {len(clientes_df)} registros")
print(f"Marketing: {len(marketing_df)} registros")

✅ Datasets cargados exitosamente
Ventas: 3035 registros
Clientes: 567 registros
Marketing: 90 registros


# 🔹 ETAPA 1: RECOPILACIÓN Y PREPARACIÓN DE DATOS



Limpieza de datos, calculo de Ventas Mensuales y por Producto:
1. El programa verifica los tipos de datos que tenemos en el dataset ventas.
2. Calcula la venta total
3. Convierte fecha a datetime
4. Verifica con if si hay valores nulos en fecha_venta
5. Calcula las ventas mensuales
6. Calcula las ventas por producto


In [None]:
print("Tipos de datos de las columnas:")
print(ventas_df.dtypes)

Tipos de datos de las columnas:
id_venta         int64
producto        object
precio          object
cantidad       float64
fecha_venta     object
categoria       object
dtype: object


In [25]:
ventas_df['precio'] = ventas_df['precio'].str.replace('$', '').str.replace(',', '').astype(float)

# 2. CREAR VENTA_TOTAL DESPUÉS DE CONVERTIR PRECIO
ventas_df['venta_total'] = ventas_df['precio'] * ventas_df['cantidad']

# 3. CONVERTIR FECHA
ventas_df['fecha_venta'] = pd.to_datetime(ventas_df['fecha_venta'], errors='coerce')

# 4. ELIMINAR REGISTROS CON FECHAS INVÁLIDAS
if ventas_df['fecha_venta'].isnull().any():
    print("⚠️ Advertencia: Hay fechas que no pudieron ser convertidas. Se eliminarán estos registros.")
    ventas_df = ventas_df.dropna(subset=['fecha_venta'])

print("✅ CONVERSIONES COMPLETADAS")
print(f"Tipos de datos actualizados:")
print(ventas_df.dtypes)

⚠️ Advertencia: Hay fechas que no pudieron ser convertidas. Se eliminarán estos registros.
✅ CONVERSIONES COMPLETADAS
Tipos de datos actualizados:
id_venta                int64
producto               object
precio                float64
cantidad              float64
fecha_venta    datetime64[ns]
categoria              object
venta_total           float64
dtype: object


In [26]:
print("💳 RESUMEN DE VENTAS POR PRODUCTO:")
print("=" * 45)
ventas_por_producto = ventas_df.groupby('producto').agg({
    'cantidad': 'sum',
    'venta_total': 'sum'
}).sort_values('venta_total', ascending=False)

print(ventas_por_producto)

💳 RESUMEN DE VENTAS POR PRODUCTO:
                        cantidad  venta_total
producto                                     
Auriculares                395.0     33126.87
Lámpara de mesa            439.0     32901.91
Microondas                 307.0     25593.56
SmartWatch                 311.0     23535.69
Smartphone                 255.0     22664.16
Batidora                   315.0     22358.79
Plancha de vapor           317.0     21761.04
Secadora                   313.0     21640.83
Cafetera                   285.0     21196.70
Elementos de cerámica      255.0     21099.14
Proyector                  281.0     20848.63
Adorno de pared            295.0     20810.59
Cuadro decorativo          287.0     20720.84
Laptop                     254.0     20705.19
Cortinas                   273.0     20579.21
Jarrón decorativo          287.0     20432.32
Aspiradora                 260.0     20166.93
Consola de videojuegos     255.0     19995.71
Rincón de plantas          278.0     19002.03


Estructuras de Datos:

- Usaremos DICCIONARIOS para almacenar datos de ventas y mostramos un ejemplo.
- El sistema muestra los primeros 5 registros del diccionario.
- Agregamos una justificación de la decisión para estructurar los datos.


In [27]:
print("📊 ESTRUCTURAS DE DATOS")
print("=" * 45)

ventas_dict = {
    'productos': ventas_df['producto'].tolist(),
    'precios': ventas_df['precio'].tolist(),
    'cantidades': ventas_df['cantidad'].tolist(),
    'ventas_totales': ventas_df['venta_total'].tolist(),
    'categorias': ventas_df['categoria'].tolist()
}

print("🛒 EJEMPLO DE DICCIONARIO DE VENTAS:")
print(f"Total de registros almacenados: {len(ventas_dict['productos'])}")
print(f"Productos únicos: {len(set(ventas_dict['productos']))}")
print("\n📋 MUESTRA DE DATOS EN DICCIONARIO (primeros 5):")
for i in range(5):
    print(f"• {ventas_dict['productos'][i]} | ${ventas_dict['precios'][i]} x {ventas_dict['cantidades'][i]} = ${ventas_dict['ventas_totales'][i]:.2f} | {ventas_dict['categorias'][i]}")

print(f"\n💡 JUSTIFICACIÓN: Usamos DICCIONARIOS porque:")
print("  • Son más eficientes para datos estructurados")
print("  • Permiten acceso rápido por clave")
print("  • Facilitan la organización de datos relacionados")
print("  • Son ideales para este tipo de análisis de ventas")

📊 ESTRUCTURAS DE DATOS
🛒 EJEMPLO DE DICCIONARIO DE VENTAS:
Total de registros almacenados: 1189
Productos únicos: 30

📋 MUESTRA DE DATOS EN DICCIONARIO (primeros 5):
• Cuadro decorativo | $69.94 x 5.0 = $349.70 | Decoración
• Lámpara de mesa | $105.1 x 5.0 = $525.50 | Decoración
• Secadora | $97.96 x 3.0 = $293.88 | Electrodomésticos
• Heladera | $114.35 x 8.0 = $914.80 | Electrodomésticos
• Secadora | $106.21 x 4.0 = $424.84 | Electrodomésticos

💡 JUSTIFICACIÓN: Usamos DICCIONARIOS porque:
  • Son más eficientes para datos estructurados
  • Permiten acceso rápido por clave
  • Facilitan la organización de datos relacionados
  • Son ideales para este tipo de análisis de ventas


Análisis Exploratorio con Pandas:
1. Mostramos la información genral del dataset ventas.
2. Mostramos la información estructural.
3. El sistema muestra estadísticas descriptivas.

In [28]:
print("\n🔍 ACTIVIDAD 4: ANÁLISIS EXPLORATORIO CON PANDAS")
print("=" * 55)

print("DATASET DE VENTAS - INFORMACIÓN GENERAL")
print("=" * 55)
print(ventas_df.head(8))

print("\nINFORMACIÓN ESTRUCTURAL:")
print(ventas_df.info())

print("\nESTADÍSTICAS DESCRIPTIVAS - VENTAS:")
print(ventas_df[['precio', 'cantidad', 'venta_total']].describe())



🔍 ACTIVIDAD 4: ANÁLISIS EXPLORATORIO CON PANDAS
DATASET DE VENTAS - INFORMACIÓN GENERAL
   id_venta           producto  precio  cantidad fecha_venta  \
0       792  Cuadro decorativo   69.94       5.0  2024-02-01   
1       811    Lámpara de mesa  105.10       5.0  2024-02-01   
2      1156           Secadora   97.96       3.0  2024-02-01   
3      1372           Heladera  114.35       8.0  2024-02-01   
4      1546           Secadora  106.21       4.0  2024-02-01   
5      1697    Horno eléctrico   35.35       9.0  2024-02-01   
6      1710   Plancha de vapor   65.43       2.0  2024-02-01   
7      2959          Proyector   88.17       9.0  2024-02-01   

           categoria  venta_total  
0         Decoración       349.70  
1         Decoración       525.50  
2  Electrodomésticos       293.88  
3  Electrodomésticos       914.80  
4  Electrodomésticos       424.84  
5  Electrodomésticos       318.15  
6  Electrodomésticos       130.86  
7        Electrónica       793.53  

INFORMACI

Calidad de Datos:
1. Defino una función para analizar la calidad de los datos por datasets.
2. Aplico el análisis a cada dataset.

In [29]:
print("✅ CALIDAD DE DATOS")
print("=" * 40)

print("ANÁLISIS DE CALIDAD POR DATASET:")
print("=" * 40)


def analizar_calidad(df, nombre):
    print(f"\n📊 {nombre.upper()}:")
    print(f"Registros: {len(df)}")
    print(f"Valores nulos: {df.isnull().sum().sum()}")
    print(f"Duplicados: {df.duplicated().sum()}")
    if df.isnull().sum().sum() > 0:
        print("Desglose de nulos:")
        for columna, nulos in df.isnull().sum().items():
            if nulos > 0:
                print(f"  - {columna}: {nulos} nulos")


analizar_calidad(ventas_df, "ventas")
analizar_calidad(clientes_df, "clientes")
analizar_calidad(marketing_df, "marketing")


✅ CALIDAD DE DATOS
ANÁLISIS DE CALIDAD POR DATASET:

📊 VENTAS:
Registros: 1189
Valores nulos: 0
Duplicados: 35

📊 CLIENTES:
Registros: 567
Valores nulos: 0
Duplicados: 0

📊 MARKETING:
Registros: 90
Valores nulos: 0
Duplicados: 0


## 🔹 ETAPA 2: PREPROCESAMIENTO Y LIMPIEZA DE DATOS

Limpieza de datos:

1. Hacemos copias de los datasets originales parar preservar los datos.
2. Eliminamos los duplicados.
3. Limpiamos caracteres no deseados en columnas de texto.
4. Verificamos y limpiamos datos atípicos en precios y cantidades.
5. Eliminamos registros con precios o cantidades inválidas.
6. El sistema muestra los registros finales luego de la limpieza y la reducción total.
7. El sistema muestra la documentación del proceso

In [30]:
print("LIMPIEZA DE DATOS")
print("=" * 45)

print("INICIANDO PROCESO DE LIMPIEZA...")


ventas_clean = ventas_df.copy()
clientes_clean = clientes_df.copy()
marketing_clean = marketing_df.copy()

print(f"📊 Datasets originales copiados para preservar datos originales")


registros_antes_ventas = len(ventas_clean)
ventas_clean = ventas_clean.drop_duplicates()
registros_despues_ventas = len(ventas_clean)

print(f"✅ Duplicados eliminados en ventas: {registros_antes_ventas - registros_despues_ventas}")


columnas_texto_ventas = ['producto', 'categoria']
for columna in columnas_texto_ventas:
    if columna in ventas_clean.columns:
        ventas_clean[columna] = ventas_clean[columna].str.strip()
        print(f"✅ Columna '{columna}' limpiada")


precios_anomalos = ventas_clean[(ventas_clean['precio'] <= 0) | (ventas_clean['precio'] > 1000)]
cantidades_anomalas = ventas_clean[ventas_clean['cantidad'] <= 0]

print(f"⚠️ Precios anómalos detectados: {len(precios_anomalos)}")
print(f"⚠️ Cantidades anómalas detectadas: {len(cantidades_anomalas)}")


ventas_clean = ventas_clean[(ventas_clean['precio'] > 0) & (ventas_clean['cantidad'] > 0)]

print(f"📊 REGISTROS FINALES DESPUÉS DE LIMPIEZA: {len(ventas_clean)}")
print(f"📈 REDUCCIÓN TOTAL: {registros_antes_ventas - len(ventas_clean)} registros eliminados")

print("\n📋 DOCUMENTACIÓN DEL PROCESO:")
print("- Eliminación de duplicados ")
print("- Limpieza de espacios en texto ")
print("- Filtrado de precios y cantidades inválidas ")
print("- Preservación de datos originales ")

LIMPIEZA DE DATOS
INICIANDO PROCESO DE LIMPIEZA...
📊 Datasets originales copiados para preservar datos originales
✅ Duplicados eliminados en ventas: 35
✅ Columna 'producto' limpiada
✅ Columna 'categoria' limpiada
⚠️ Precios anómalos detectados: 0
⚠️ Cantidades anómalas detectadas: 0
📊 REGISTROS FINALES DESPUÉS DE LIMPIEZA: 1154
📈 REDUCCIÓN TOTAL: 35 registros eliminados

📋 DOCUMENTACIÓN DEL PROCESO:
- Eliminación de duplicados 
- Limpieza de espacios en texto 
- Filtrado de precios y cantidades inválidas 
- Preservación de datos originales 


Transformación - Productos Alto Rendimiento:
1. Ver código


In [31]:
print("\n🚀 TRANSFORMACIÓN - PRODUCTOS ALTO RENDIMIENTO")
print("=" * 60)

print("IDENTIFICANDO PRODUCTOS DE ALTO RENDIMIENTO...")

# Calcular métricas por producto
rendimiento_productos = ventas_clean.groupby('producto').agg({
    'cantidad': 'sum',
    'venta_total': 'sum',
    'id_venta': 'count'
}).rename(columns={'id_venta': 'transacciones'})

# Ordenar por venta total (descendente)
rendimiento_productos = rendimiento_productos.sort_values('venta_total', ascending=False)

print("📈 RENDIMIENTO DE TODOS LOS PRODUCTOS:")
print(rendimiento_productos)

# Definir productos de alto rendimiento (top 50% por ventas)
umbral_alto_rendimiento = rendimiento_productos['venta_total'].quantile(0.5)
productos_alto_rendimiento = rendimiento_productos[rendimiento_productos['venta_total'] > umbral_alto_rendimiento]

print(f"\n🎯 PRODUCTOS DE ALTO RENDIMIENTO (umbral: ${umbral_alto_rendimiento:.2f}):")
print(productos_alto_rendimiento)

# Filtrar dataset original para solo productos de alto rendimiento
ventas_alto_rendimiento = ventas_clean[ventas_clean['producto'].isin(productos_alto_rendimiento.index)]

print(f"\n📊 RESUMEN FINAL:")
print(f"• Total productos analizados: {len(rendimiento_productos)}")
print(f"• Productos de alto rendimiento: {len(productos_alto_rendimiento)}")
print(f"• Ventas de alto rendimiento: {len(ventas_alto_rendimiento)} registros")
print(f"• Porcentaje de productos de alto rendimiento: {(len(productos_alto_rendimiento)/len(rendimiento_productos))*100:.1f}%")

# Mostrar tabla final de productos de alto rendimiento
print("\n🛒 TABLA DE VENTAS - PRODUCTOS ALTO RENDIMIENTO:")
print(ventas_alto_rendimiento.head(10))


🚀 TRANSFORMACIÓN - PRODUCTOS ALTO RENDIMIENTO
IDENTIFICANDO PRODUCTOS DE ALTO RENDIMIENTO...
📈 RENDIMIENTO DE TODOS LOS PRODUCTOS:
                        cantidad  venta_total  transacciones
producto                                                    
Auriculares                365.0     30834.01             53
Lámpara de mesa            410.0     30479.14             61
Microondas                 307.0     25593.56             46
Batidora                   315.0     22358.79             45
SmartWatch                 294.0     22247.37             44
Plancha de vapor           317.0     21761.04             45
Smartphone                 243.0     21180.96             40
Cafetera                   284.0     21134.47             42
Elementos de cerámica      255.0     21099.14             37
Proyector                  280.0     20728.29             41
Cuadro decorativo          287.0     20720.84             38
Secadora                   291.0     20542.04             40
Adorno de pare

Agregación por categoria:
1.  Ver código

In [32]:
# ETAPA 2 - ACTIVIDAD 3: AGREGACIÓN POR CATEGORÍA
print("\n📦 ACTIVIDAD 3: AGREGACIÓN POR CATEGORÍA")
print("=" * 45)

print("CALCULANDO VENTAS AGRUPADAS POR CATEGORÍA...")

# Agregación de ventas por categoría
ventas_por_categoria = ventas_clean.groupby('categoria').agg({
    'venta_total': ['sum', 'mean', 'count'],
    'cantidad': 'sum',
    'precio': 'mean'
}).round(2)

# Renombrar columnas para mayor claridad
ventas_por_categoria.columns = [
    'venta_total_sum',
    'venta_promedio',
    'transacciones',
    'cantidad_total',
    'precio_promedio'
]

# Ordenar por venta total (descendente)
ventas_por_categoria = ventas_por_categoria.sort_values('venta_total_sum', ascending=False)

print("📊 VENTAS POR CATEGORÍA - RESUMEN COMPLETO:")
print(ventas_por_categoria)

# Análisis detallado por categoría
print("\n🏆 ANÁLISIS DETALLADO POR CATEGORÍA:")
print("=" * 40)

for categoria, datos in ventas_por_categoria.iterrows():
    print(f"\n📁 {categoria.upper()}:")
    print(f"   • Ventas totales: ${datos['venta_total_sum']:.2f}")
    print(f"   • Transacciones: {datos['transacciones']}")
    print(f"   • Cantidad vendida: {datos['cantidad_total']} unidades")
    print(f"   • Venta promedio: ${datos['venta_promedio']:.2f}")
    print(f"   • Precio promedio: ${datos['precio_promedio']:.2f}")

# Categoría líder
categoria_lider = ventas_por_categoria.iloc[0]
print(f"\n🎯 CATEGORÍA LÍDER: {ventas_por_categoria.index[0]}")
print(f"   • Contribución: {(categoria_lider['venta_total_sum']/ventas_por_categoria['venta_total_sum'].sum())*100:.1f}% del total")
print(f"   • Estrategia: Focus en productos de {ventas_por_categoria.index[0]} para maximizar ingresos")


📦 ACTIVIDAD 3: AGREGACIÓN POR CATEGORÍA
CALCULANDO VENTAS AGRUPADAS POR CATEGORÍA...
📊 VENTAS POR CATEGORÍA - RESUMEN COMPLETO:
                   venta_total_sum  venta_promedio  transacciones  \
categoria                                                           
Electrodomésticos        192545.57          497.53            387   
Decoración               189625.79          475.25            399   
Electrónica              184856.45          502.33            368   

                   cantidad_total  precio_promedio  
categoria                                           
Electrodomésticos          2612.0            74.36  
Decoración                 2614.0            72.86  
Electrónica                2386.0            77.32  

🏆 ANÁLISIS DETALLADO POR CATEGORÍA:

📁 ELECTRODOMÉSTICOS:
   • Ventas totales: $192545.57
   • Transacciones: 387.0
   • Cantidad vendida: 2612.0 unidades
   • Venta promedio: $497.53
   • Precio promedio: $74.36

📁 DECORACIÓN:
   • Ventas totales: $189625.79

Integración de datos:

1. Ver código

In [33]:
# ETAPA 2 - ACTIVIDAD 4: INTEGRACIÓN DE DATOS (VERSIÓN CORREGIDA)
print("\n🔗 ACTIVIDAD 4: INTEGRACIÓN DE DATOS - CORREGIDA")
print("=" * 50)

print("COMBINANDO DATASETS DE VENTAS Y MARKETING...")

# Primero, verificar y limpiar los nombres de columnas en marketing
marketing_clean.columns = marketing_clean.columns.str.strip()
print("📢 COLUMNAS EN MARKETING (después de limpiar):")
print(marketing_clean.columns.tolist())

# Integrar ventas con marketing por producto
ventas_marketing = pd.merge(
    ventas_clean,
    marketing_clean,
    on='producto',
    how='left'  # Mantener todas las ventas aunque no tengan campaña
)

print(f"\n✅ INTEGRACIÓN COMPLETADA:")
print(f"   • Registros antes: {len(ventas_clean)}")
print(f"   • Registros después: {len(ventas_marketing)}")

# Contar registros con campaña usando el nombre correcto de columna
if 'id_campanha' in ventas_marketing.columns:
    registros_con_campania = ventas_marketing['id_campanha'].notna().sum()
    print(f"   • Registros con campaña: {registros_con_campania}")
    print(f"   • Registros sin campaña: {len(ventas_marketing) - registros_con_campania}")
else:
    print("   ⚠️ No se encontró la columna 'id_campanha'")

# Análisis de efectividad por canal de marketing
print("\n📊 EFECTIVIDAD POR CANAL DE MARKETING:")
print("=" * 45)

if 'canal' in ventas_marketing.columns:
    # Filtrar solo los registros que tienen campaña de marketing
    ventas_con_marketing = ventas_marketing[ventas_marketing['id_campanha'].notna()]

    if not ventas_con_marketing.empty:
        efectividad_canal = ventas_con_marketing.groupby('canal').agg({
            'venta_total': 'sum',
            'cantidad': 'sum',
            'id_venta': 'count',
            'costo': 'mean'
        }).rename(columns={
            'id_venta': 'transacciones',
            'costo': 'costo_promedio'
        }).round(2)

        # Calcular ROI aproximado (si hay datos de costo)
        if 'costo_promedio' in efectividad_canal.columns:
            efectividad_canal['roi_aproximado'] = (efectividad_canal['venta_total'] / efectividad_canal['costo_promedio']).round(2)

        print(efectividad_canal)

        # Identificar canal más efectivo
        if not efectividad_canal.empty:
            canal_mas_ventas = efectividad_canal['venta_total'].idxmax()
            print(f"\n🎯 CANAL MÁS EFECTIVO EN VENTAS: {canal_mas_ventas}")
            print(f"   • Ventas generadas: ${efectividad_canal.loc[canal_mas_ventas, 'venta_total']:.2f}")

            if 'roi_aproximado' in efectividad_canal.columns:
                canal_mas_roi = efectividad_canal['roi_aproximado'].idxmax()
                roi_maximo = efectividad_canal['roi_aproximado'].max()
                print(f"   • Canal con mejor ROI: {canal_mas_roi} (ROI: {roi_maximo:.2f})")
    else:
        print("ℹ️ No hay registros con campañas de marketing para analizar")
else:
    print("ℹ️ No se encontró información de canales en el dataset combinado")

# Mostrar muestra del dataset integrado
print("\n🔍 MUESTRA DEL DATASET INTEGRADO (VENTAS + MARKETING):")
columnas_interes = ['producto', 'precio', 'cantidad', 'venta_total']
if 'canal' in ventas_marketing.columns:
    columnas_interes.append('canal')
if 'costo' in ventas_marketing.columns:
    columnas_interes.append('costo')

columnas_disponibles = [col for col in columnas_interes if col in ventas_marketing.columns]
print(ventas_marketing[columnas_disponibles].head(10))

# Análisis adicional: Porcentaje de productos con campaña de marketing
print(f"\n📈 ESTADÍSTICAS DE COBERTURA DE MARKETING:")
productos_con_marketing = ventas_marketing[ventas_marketing['id_campanha'].notna()]['producto'].nunique()
total_productos = ventas_marketing['producto'].nunique()
porcentaje_cobertura = (productos_con_marketing / total_productos) * 100

print(f"   • Productos con campañas: {productos_con_marketing}/{total_productos}")
print(f"   • Cobertura de marketing: {porcentaje_cobertura:.1f}%")


🔗 ACTIVIDAD 4: INTEGRACIÓN DE DATOS - CORREGIDA
COMBINANDO DATASETS DE VENTAS Y MARKETING...
📢 COLUMNAS EN MARKETING (después de limpiar):
['id_campanha', 'producto', 'canal', 'costo', 'fecha_inicio', 'fecha_fin']

✅ INTEGRACIÓN COMPLETADA:
   • Registros antes: 1154
   • Registros después: 3462
   • Registros con campaña: 3462
   • Registros sin campaña: 0

📊 EFECTIVIDAD POR CANAL DE MARKETING:
       venta_total  cantidad  transacciones  costo_promedio  roi_aproximado
canal                                                                      
Email    567027.81    7612.0           1154            4.85       116912.95
RRSS     567027.81    7612.0           1154            5.08       111619.65
TV       567027.81    7612.0           1154            5.00       113405.56

🎯 CANAL MÁS EFECTIVO EN VENTAS: Email
   • Ventas generadas: $567027.81
   • Canal con mejor ROI: Email (ROI: 116912.95)

🔍 MUESTRA DEL DATASET INTEGRADO (VENTAS + MARKETING):
            producto  precio  cantidad  ven

VER CÓDIGO

In [34]:
# RESUMEN EJECUTIVO DE LA ETAPA 2
print("\n🎯 RESUMEN EJECUTIVO - ETAPA 2 COMPLETADA")
print("=" * 55)

print("✅ PROCESOS COMPLETADOS EXITOSAMENTE:")
print("  1. 🧹 Limpieza de datos - Duplicados y valores inválidos eliminados")
print("  2. 🚀 Transformación - Productos de alto rendimiento identificados")
print("  3. 📦 Agregación - Ventas por categoría analizadas")
print("  4. 🔗 Integración - Datos de ventas y marketing combinados")

print(f"\n📊 MÉTRICAS FINALES:")
print(f"  • Registros limpios: {len(ventas_clean)}")
print(f"  • Productos alto rendimiento: {len(productos_alto_rendimiento)}")
print(f"  • Categoría líder: {ventas_por_categoria.index[0]}")
print(f"  • ROI marketing más alto: {efectividad_canal['roi_aproximado'].max() if 'roi_aproximado' in efectividad_canal.columns else 'N/D'}")

print(f"\n💡 RECOMENDACIONES ESTRATÉGICAS:")
print(f"  1. Enfocar recursos en productos de {', '.join(productos_alto_rendimiento.index[:2])}")
print(f"  2. Potenciar categoría {ventas_por_categoria.index[0]} para maximizar ingresos")
print(f"  3. Optimizar campañas en {canal_mas_ventas if 'canal_mas_ventas' in locals() else 'canales identificados'}")

print(f"\n🎉 ETAPA 2 - PREPROCESAMIENTO Y LIMPIEZA COMPLETADA")


🎯 RESUMEN EJECUTIVO - ETAPA 2 COMPLETADA
✅ PROCESOS COMPLETADOS EXITOSAMENTE:
  1. 🧹 Limpieza de datos - Duplicados y valores inválidos eliminados
  2. 🚀 Transformación - Productos de alto rendimiento identificados
  3. 📦 Agregación - Ventas por categoría analizadas
  4. 🔗 Integración - Datos de ventas y marketing combinados

📊 MÉTRICAS FINALES:
  • Registros limpios: 1154
  • Productos alto rendimiento: 15
  • Categoría líder: Electrodomésticos
  • ROI marketing más alto: 116912.95

💡 RECOMENDACIONES ESTRATÉGICAS:
  1. Enfocar recursos en productos de Auriculares, Lámpara de mesa
  2. Potenciar categoría Electrodomésticos para maximizar ingresos
  3. Optimizar campañas en Email

🎉 ETAPA 2 - PREPROCESAMIENTO Y LIMPIEZA COMPLETADA


Anexo:

In [None]:
# Reemplazar tu celda de anexo con esta versión más completa
print("📎 ANEXO - DOCUMENTACIÓN COMPLETA")
print("=" * 35)

print("\n🔗 ENLACE A CARPETA DE GOOGLE DRIVE:")
print("https://drive.google.com/drive/folders/[TU_ID_CARPETA]")

print("\n📁 CONTENIDO DE LA CARPETA:")
print("1. ventas.csv - Dataset original de transacciones comerciales")
print("2. clientes.csv - Dataset original de información demográfica de clientes")
print("3. marketing.csv - Dataset original de campañas publicitarias")
print("4. LermanYamila-Comisión25261-TPIDataAnalytics.ipynb - Análisis completo")

print("\n📊 MÉTRICAS DE PROCESAMIENTO:")
print(f"• Registros procesados: {len(ventas_clean)}")
print(f"• Transformaciones aplicadas: 10+")
print(f"• Análisis realizados: 8 tipos diferentes")

print("\n🛠️ HERRAMIENTAS UTILIZADAS:")
print("• Google Colab - Entorno de ejecución")
print("• Pandas - Manipulación de datos")
print("• NumPy - Operaciones numéricas")

print("\n📞 INFORMACIÓN DEL ESTUDIANTE:")
print("• Nombre: Yamila Lerman")
print("• Comisión: 25261")
print("• Fecha de entrega: [FECHA_ACTUAL]")

📎 ANEXO - DOCUMENTACIÓN COMPLETA

🔗 ENLACE A CARPETA DE GOOGLE DRIVE:
https://drive.google.com/drive/folders/[TU_ID_CARPETA]

📁 CONTENIDO DE LA CARPETA:
1. ventas.csv - Dataset original de transacciones comerciales
2. clientes.csv - Dataset original de información demográfica de clientes
3. marketing.csv - Dataset original de campañas publicitarias
4. LermanYamila-Comisión25261-TPIDataAnalytics.ipynb - Análisis completo

📊 MÉTRICAS DE PROCESAMIENTO:
• Registros procesados: 3000
• Transformaciones aplicadas: 10+
• Análisis realizados: 8 tipos diferentes

🛠️ HERRAMIENTAS UTILIZADAS:
• Google Colab - Entorno de ejecución
• Pandas - Manipulación de datos
• NumPy - Operaciones numéricas

📞 INFORMACIÓN DEL ESTUDIANTE:
• Nombre: Yamila Lerman
• Comisión: 25261
• Fecha de entrega: [FECHA_ACTUAL]
