# Análisis Exploratorio y Procesamiento Basico de los Datos

Este notebook realiza un análisis exploratorio y procesamiento basico de los datos de opiniones turísticas usando módulos especializados.

## Objetivo
- Cargar y procesar datos usando el módulo de procesamiento
- Realizar análisis exploratorio usando el módulo de exploración
- Mantener código limpio y modular

## Estructura
- **scripts/procesamiento_datos.py**: Funciones que modifican el dataset (limpieza, transformación)
- **scripts/exploracion_datos.py**: Funciones de análisis descriptivo (sin modificar datos)

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import sys
import os
from pathlib import Path

# Agregar el directorio scripts al path para importar nuestros módulos
sys.path.append('../scripts')

# Importar nuestros módulos personalizados
import procesamiento_datos as proc
import exploracion_datos as exp

# Configuración para gráficos
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

print("✅ Librerías y módulos importados correctamente")
print("📁 Módulos disponibles:")
print("   - procesamiento_datos: Funciones para limpiar y transformar datos")
print("   - exploracion_datos: Funciones para análisis descriptivo")

✅ Librerías y módulos importados correctamente
📁 Módulos disponibles:
   - procesamiento_datos: Funciones para limpiar y transformar datos
   - exploracion_datos: Funciones para análisis descriptivo


## 1. Procesamiento Completo de Datos

Usando el pipeline completo de procesamiento que incluye: carga, limpieza de fechas, limpieza de OrigenAutor, completado de nulos, eliminación de duplicados, corrección de contenidos mal ubicados y creación de texto consolidado.

In [2]:
# Ejecutar el pipeline completo de procesamiento
print("🚀 Iniciando procesamiento completo del dataset...")
print("="*60)

# El pipeline incluye todos los pasos de procesamiento:
# 1. Carga de datos de todas las ciudades
# 2. Conversión de fechas
# 3. Limpieza de OrigenAutor
# 4. Completado de valores nulos
# 5. Eliminación de duplicados
# 6. Corrección de contenidos mal ubicados
# 7. Creación de texto consolidado
# 8. Guardado del dataset final

df_opiniones = proc.procesar_dataset_completo('../data')

if df_opiniones is not None:
    print(f"\n🎉 ¡Procesamiento exitoso!")
    print(f"📊 Dataset final: {len(df_opiniones):,} filas × {len(df_opiniones.columns)} columnas")
    print(f"📁 Guardado como: dataset_opiniones_consolidado.csv")
else:
    print("❌ Error en el procesamiento")

# Crear copia para análisis (preservar original)
df_analisis = df_opiniones.copy() if df_opiniones is not None else None
print(f"\n✅ Dataset de análisis creado: {len(df_analisis):,} filas" if df_analisis is not None else "❌ No se pudo crear dataset de análisis")

🚀 Iniciando procesamiento completo del dataset...
             PIPELINE DE PROCESAMIENTO COMPLETO

🔄 PASO 1: Cargando datos...
Ciudades encontradas: ['cancun', 'cdmx', 'datasets_por_ciudad']

Procesando ciudad: cancun
Archivos encontrados: 10
  - cancun-museo-maya-de-cancun-y-zona-arqueologica-de-san-miguelito.csv: 64 filas
  - cancun-acuario-interactivo.csv: 67 filas
  - cancun-la-isla.csv: 70 filas
  - cancun-playa-delfines.csv: 70 filas
  - cancun-ventura-park.csv: 72 filas
  - cancun-las-plazas-outlet-cancun.csv: 72 filas
  - cancun-xoximilco-cancun-by-xcaret.csv: 69 filas
  - cancun-avenida-kukulkan.csv: 72 filas
  - cancun-playa-tortugas.csv: 71 filas
  - cancun-puerto-maya-cancun.csv: 73 filas

Procesando ciudad: cdmx
Archivos encontrados: 10
  - cdmx-jardines-flotantes-de-xochimilco.csv: 69 filas
  - cdmx-mercado-de-artesanias-la-ciudadela.csv: 63 filas
  - cdmx-palacio-de-bellas-artes.csv: 65 filas
  - cdmx-basilica-de-la-virgen-guadalupe.csv: 68 filas
  - cdmx-museo-nacional-

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Titulo'].fillna('sin titulo', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['TipoViaje'].fillna('desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting 

In [3]:
# Verificación rápida del dataset procesado
if df_opiniones is not None:
    print("=== VERIFICACIÓN RÁPIDA DEL DATASET PROCESADO ===")
    print(f"Forma del dataset: {df_opiniones.shape}")
    print(f"Columnas disponibles:")
    for i, col in enumerate(df_opiniones.columns, 1):
        print(f"  {i:2d}. {col}")
    
    print(f"\nMuestra de datos (primeras 5 filas):")
    display(df_opiniones.head())
    
    print(f"\nEstado de valores nulos:")
    nulos = df_opiniones.isnull().sum()
    for col, nulo in nulos.items():
        estado = "✅" if nulo == 0 else "⚠️"
        print(f"  {estado} {col}: {nulo} nulos")
else:
    print("❌ No hay datos para verificar")

=== VERIFICACIÓN RÁPIDA DEL DATASET PROCESADO ===
Forma del dataset: (2628, 10)
Columnas disponibles:
   1. Titulo
   2. Review
   3. TipoViaje
   4. Calificacion
   5. OrigenAutor
   6. FechaOpinion
   7. FechaEstadia
   8. Ciudad
   9. Atraccion
  10. TituloReview

Muestra de datos (primeras 5 filas):


Unnamed: 0,Titulo,Review,TipoViaje,Calificacion,OrigenAutor,FechaOpinion,FechaEstadia,Ciudad,Atraccion,TituloReview
0,Promiedo la verdad no para volver,El museo la verdad no está tan lindo y les fa...,desconocido,3,anonimo,2025-08-09,2025-08-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,Promiedo la verdad no para volver. El museo la...
1,"Identidad, Cultura y Patrimonio",El Museo Maya en verdad que nos muestra como f...,Amigos,5,Sami.Frank,2025-07-11,2025-07-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,"Identidad, Cultura y Patrimonio. El Museo Maya..."
2,Decepcionada del lugar que debería ser un refe...,"Es un lugar abandonado por el gobierno, no fun...",Familia,1,anonimo,2025-07-03,2025-07-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,Decepcionada del lugar que debería ser un refe...
3,¡Recomiendo!,Realmente encantador museo muy barato y un mon...,Familia,4,"Aberdeen, UK",2025-06-18,2025-06-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,¡Recomiendo!. Realmente encantador museo muy b...
4,¡Ciudad Iguana!,¡El museo fue un descanso muy necesario de la ...,Amigos,4,"Nottingham, UK",2025-06-09,2025-06-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,¡Ciudad Iguana!. ¡El museo fue un descanso muy...



Estado de valores nulos:
  ✅ Titulo: 0 nulos
  ✅ Review: 0 nulos
  ✅ TipoViaje: 0 nulos
  ✅ Calificacion: 0 nulos
  ✅ OrigenAutor: 0 nulos
  ⚠️ FechaOpinion: 1314 nulos
  ⚠️ FechaEstadia: 1314 nulos
  ✅ Ciudad: 0 nulos
  ✅ Atraccion: 0 nulos
  ✅ TituloReview: 0 nulos


## 2. Análisis Exploratorio usando Módulos Especializados

Ahora usaremos las funciones del módulo de exploración para realizar análisis descriptivos sin modificar los datos.

In [4]:
# Análisis de información general del dataset
if df_analisis is not None:
    exp.analizar_informacion_general(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== INFORMACIÓN GENERAL DEL DATASET ===
Dimensiones: (2628, 10)
Número de filas: 2,628
Número de columnas: 10

Columnas del dataset:
1. Titulo
2. Review
3. TipoViaje
4. Calificacion
5. OrigenAutor
6. FechaOpinion
7. FechaEstadia
8. Ciudad
9. Atraccion
10. TituloReview

=== TIPOS DE DATOS ===
<class 'pandas.core.frame.DataFrame'>
Index: 2628 entries, 0 to 2638
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Titulo        2628 non-null   object        
 1   Review        2628 non-null   object        
 2   TipoViaje     2628 non-null   object        
 3   Calificacion  2628 non-null   int64         
 4   OrigenAutor   2628 non-null   object        
 5   FechaOpinion  1314 non-null   datetime64[ns]
 6   FechaEstadia  1314 non-null   datetime64[ns]
 7   Ciudad        2628 non-null   object        
 8   Atraccion     2628 non-null   object        
 9   TituloReview  2628 non-null   object        
dtype

In [5]:
# Análisis de valores nulos y calidad de datos
if df_analisis is not None:
    exp.analizar_valores_nulos(df_analisis)
    print("\n")
    exp.analizar_duplicados(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE VALORES NULOS ===
              Valores_Nulos  Porcentaje
FechaOpinion           1314        50.0
FechaEstadia           1314        50.0
Titulo                    0         0.0
Review                    0         0.0
TipoViaje                 0         0.0
Calificacion              0         0.0
OrigenAutor               0         0.0
Ciudad                    0         0.0
Atraccion                 0         0.0
TituloReview              0         0.0


=== ANÁLISIS DE DUPLICADOS ===
Filas completamente duplicadas encontradas: 0
Duplicados por título + review + ciudad + atracción: 0


## 3. Análisis Descriptivo por Categorías

In [6]:
# Análisis de distribuciones categóricas
if df_analisis is not None:
    exp.analizar_distribuciones_categoricas(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== DISTRIBUCIÓN POR CIUDADES ===
Ciudad
Datasets_por_ciudad    1314
Cancun                  700
Cdmx                    614
Name: count, dtype: int64

Porcentaje por ciudad:
Ciudad
Datasets_por_ciudad    50.00
Cancun                 26.64
Cdmx                   23.36
Name: count, dtype: float64

=== TOP 10 ATRACCIONES CON MÁS OPINIONES ===
Atraccion
Dataset_cancun                     700
Dataset_cdmx                       614
Acuario Michin Ciudad De Mexico     74
Puerto Maya Cancun                  73
Ventura Park                        72
Las Plazas Outlet Cancun            72
Avenida Kukulkan                    72
Playa Tortugas                      71
La Isla                             70
Playa Delfines                      70
Name: count, dtype: int64

=== ANÁLISIS DE TIPOS DE VIAJE ===
TipoViaje
desconocido    1517
Familia         471
Pareja          338
Amigos          175
Solitario       115
Negocios         12
Name: count, dtype: int64

Porcentaje por tipo de viaje:
TipoViaj

In [7]:
# Análisis de calificaciones
if df_analisis is not None:
    exp.analizar_calificaciones(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE CALIFICACIONES ===
Estadísticas descriptivas de calificaciones:
count    2628.000000
mean        4.259513
std         1.131783
min         1.000000
25%         4.000000
50%         5.000000
75%         5.000000
max         5.000000
Name: Calificacion, dtype: float64

Distribución de calificaciones:
Calificacion
1     156
2      68
3     290
4     538
5    1576
Name: count, dtype: int64

Calificación promedio general: 4.26


## 4. Análisis de Longitud de Textos y Temporal

In [8]:
# Análisis de longitud de textos
if df_analisis is not None:
    exp.analizar_longitud_textos(df_analisis)
    
    print("\n")
    
    # Análisis temporal
    exp.analizar_temporal(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE LONGITUD DE TÍTULOS ===
count    2628.000000
mean       27.614155
std        19.991117
min         2.000000
25%        14.000000
50%        22.000000
75%        35.000000
max       129.000000
Name: Titulo, dtype: float64

=== ANÁLISIS DE LONGITUD DE REVIEWS ===
count    2628.000000
mean      312.919330
std       276.477092
min       100.000000
25%       145.000000
50%       203.000000
75%       367.000000
max      2162.000000
Name: Review, dtype: float64

=== NÚMERO DE PALABRAS EN REVIEWS ===
count    2628.000000
mean       53.611872
std        47.712198
min        11.000000
25%        25.000000
50%        35.000000
75%        63.000000
max       361.000000
Name: Review, dtype: float64


=== ANÁLISIS TEMPORAL DE OPINIONES ===
Ejemplos de fechas en el dataset:
[Timestamp('2025-08-09 00:00:00'), Timestamp('2025-07-11 00:00:00'), Timestamp('2025-07-03 00:00:00'), Timestamp('2025-06-18 00:00:00'), Timestamp('2025-06-09 00:00:00'), Timestamp('2025-05-31 00:00:00'), Timestamp

## 5. Resumen Ejecutivo

In [9]:
# Resumen ejecutivo del análisis
if df_analisis is not None:
    exp.resumen_ejecutivo(df_analisis)
else:
    print("❌ No hay datos para generar resumen")


                    RESUMEN EJECUTIVO
📊 VOLUMEN DE DATOS:
   • Total de opiniones: 2,628
   • Ciudades analizadas: 3
   • Atracciones totales: 22

🏙️ DISTRIBUCIÓN POR CIUDADES:
   • DATASETS_POR_CIUDAD: 1,314 opiniones (50.0%)
   • CANCUN: 700 opiniones (26.6%)
   • CDMX: 614 opiniones (23.4%)

⭐ CALIFICACIONES:
   • Promedio general: 4.26/5
   • Mediana: 5.0/5

👥 TIPO DE VIAJE:
   • Más común: desconocido

🔍 CALIDAD DE DATOS:
   • Duplicados completos: 0
   • Campos con valores nulos: 2

✅ Dataset listo para análisis más profundos!


## 6. Análisis Final Completo

In [10]:
# Análisis final completo del dataset limpio
if df_analisis is not None:
    exp.analisis_final_completo(df_analisis)
else:
    print("❌ No hay datos para análisis final")

                     ANÁLISIS FINAL COMPLETO
                    DATASET COMPLETAMENTE LIMPIO

📊 RESUMEN GENERAL:
   • Total de registros finales: 2,628
   • Total de columnas: 10
   • Ciudades: 3
   • Atracciones: 22

🔍 CALIDAD DE DATOS FINAL:
   • Valores nulos totales: 2628
   • Duplicados restantes: 0
   • Integridad de datos: ⚠️ REVISAR

🏙️ DISTRIBUCIÓN FINAL POR CIUDADES:
   • DATASETS_POR_CIUDAD: 1,314 (50.0%)
   • CANCUN: 700 (26.6%)
   • CDMX: 614 (23.4%)

⭐ ANÁLISIS DE CALIFICACIONES FINAL:
   • Promedio general: 4.26/5
   • Mediana: 5.0/5
   • Moda: 5/5
   • Desviación estándar: 1.13

   Distribución de calificaciones:
     1 estrellas: 156 (5.9%)
     2 estrellas: 68 (2.6%)
     3 estrellas: 290 (11.0%)
     4 estrellas: 538 (20.5%)
     5 estrellas: 1,576 (60.0%)

📅 ANÁLISIS TEMPORAL FINAL:
   • Rango de fechas: 11/04/2018 - 01/09/2025
   • Período cubierto: 2700 días
   • Distribución por año:
     2018.0: 17 opiniones (0.6%)
     2019.0: 62 opiniones (2.4%)
     2020.0: 

In [11]:
# Mostrar muestra final del dataset
if df_analisis is not None:
    print("=== MUESTRA FINAL DEL DATASET ===")
    display(df_analisis.head())
    
    print(f"\n=== RESUMEN FINAL ===")
    print(f"✅ Análisis exploratorio completado exitosamente")
    print(f"📊 Dataset procesado: {len(df_analisis):,} filas × {len(df_analisis.columns)} columnas")
    print(f"🗂️  Archivo guardado: dataset_opiniones_consolidado.csv")
    
    if 'texto_consolidado' in df_analisis.columns:
        print(f"📝 Texto consolidado disponible para análisis de sentimientos")
        longitud_promedio = df_analisis['texto_consolidado'].str.len().mean()
        print(f"📏 Longitud promedio del texto: {longitud_promedio:.1f} caracteres")
    
    print(f"\n🎯 Dataset listo para:")
    print(f"   • Análisis de sentimientos")
    print(f"   • Modelado de machine learning")
    print(f"   • Visualizaciones avanzadas")
    print(f"   • Reportes automáticos")
else:
    print("❌ No se pudo completar el análisis")

=== MUESTRA FINAL DEL DATASET ===


Unnamed: 0,Titulo,Review,TipoViaje,Calificacion,OrigenAutor,FechaOpinion,FechaEstadia,Ciudad,Atraccion,TituloReview
0,Promiedo la verdad no para volver,El museo la verdad no está tan lindo y les fa...,desconocido,3,anonimo,2025-08-09,2025-08-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,Promiedo la verdad no para volver. El museo la...
1,"Identidad, Cultura y Patrimonio",El Museo Maya en verdad que nos muestra como f...,Amigos,5,Sami.Frank,2025-07-11,2025-07-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,"Identidad, Cultura y Patrimonio. El Museo Maya..."
2,Decepcionada del lugar que debería ser un refe...,"Es un lugar abandonado por el gobierno, no fun...",Familia,1,anonimo,2025-07-03,2025-07-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,Decepcionada del lugar que debería ser un refe...
3,¡Recomiendo!,Realmente encantador museo muy barato y un mon...,Familia,4,"Aberdeen, UK",2025-06-18,2025-06-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,¡Recomiendo!. Realmente encantador museo muy b...
4,¡Ciudad Iguana!,¡El museo fue un descanso muy necesario de la ...,Amigos,4,"Nottingham, UK",2025-06-09,2025-06-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,¡Ciudad Iguana!. ¡El museo fue un descanso muy...



=== RESUMEN FINAL ===
✅ Análisis exploratorio completado exitosamente
📊 Dataset procesado: 2,628 filas × 10 columnas
🗂️  Archivo guardado: dataset_opiniones_consolidado.csv

🎯 Dataset listo para:
   • Análisis de sentimientos
   • Modelado de machine learning
   • Visualizaciones avanzadas
   • Reportes automáticos


## 7. Generación de Datasets por Ciudad

Creación de datasets separados por ciudad con las columnas específicas solicitadas: Titulo, Review, Calificacion, FechaEstadia, Ciudad, Atraccion, TituloReview

In [12]:
# Generar datasets separados por ciudad
if df_opiniones is not None:
    print("=== GENERANDO DATASETS POR CIUDAD ===")
    
    # Definir las columnas que queremos mantener
    columnas_deseadas = ['Titulo', 'Review', 'Calificacion', 'FechaEstadia', 'Ciudad', 'Atraccion', 'TituloReview']
    
    # Verificar que todas las columnas existen en el dataset
    columnas_existentes = [col for col in columnas_deseadas if col in df_opiniones.columns]
    columnas_faltantes = [col for col in columnas_deseadas if col not in df_opiniones.columns]
    
    print(f"📋 Columnas solicitadas: {len(columnas_deseadas)}")
    print(f"✅ Columnas encontradas: {len(columnas_existentes)} - {columnas_existentes}")
    if columnas_faltantes:
        print(f"⚠️  Columnas faltantes: {len(columnas_faltantes)} - {columnas_faltantes}")
    
    # Obtener ciudades únicas
    ciudades_unicas = df_opiniones['Ciudad'].unique()
    print(f"\n🏙️  Ciudades encontradas: {len(ciudades_unicas)}")
    for i, ciudad in enumerate(ciudades_unicas, 1):
        print(f"  {i}. {ciudad}")
    
    # Crear directorio para los datasets por ciudad si no existe
    directorio_ciudades = '../data/datasets_por_ciudad'
    os.makedirs(directorio_ciudades, exist_ok=True)
    print(f"\n📁 Directorio creado/verificado: {directorio_ciudades}")
    
    # Generar dataset para cada ciudad
    print(f"\n🔄 Generando datasets por ciudad...")
    datasets_creados = []
    
    for ciudad in ciudades_unicas:
        # Filtrar datos por ciudad
        df_ciudad = df_opiniones[df_opiniones['Ciudad'] == ciudad].copy()
        
        # Seleccionar solo las columnas existentes
        df_ciudad_filtrado = df_ciudad[columnas_existentes].copy()
        
        # Crear nombre de archivo (limpiar nombre de ciudad para usar como nombre de archivo)
        nombre_ciudad_archivo = ciudad.lower().replace(' ', '_').replace('á', 'a').replace('é', 'e').replace('í', 'i').replace('ó', 'o').replace('ú', 'u')
        nombre_archivo = f"dataset_{nombre_ciudad_archivo}.csv"
        ruta_archivo = os.path.join(directorio_ciudades, nombre_archivo)
        
        # Guardar el dataset
        df_ciudad_filtrado.to_csv(ruta_archivo, index=False)
        
        # Información del dataset creado
        info_dataset = {
            'ciudad': ciudad,
            'archivo': nombre_archivo,
            'filas': len(df_ciudad_filtrado),
            'columnas': len(df_ciudad_filtrado.columns),
            'ruta': ruta_archivo
        }
        datasets_creados.append(info_dataset)
        
        print(f"  ✅ {ciudad}: {len(df_ciudad_filtrado):,} filas → {nombre_archivo}")
    
    print(f"\n🎉 ¡Datasets por ciudad creados exitosamente!")
    print(f"📊 Total de datasets generados: {len(datasets_creados)}")
    print(f"📁 Ubicación: {directorio_ciudades}")
    
else:
    print("❌ No hay datos disponibles para generar datasets por ciudad")

=== GENERANDO DATASETS POR CIUDAD ===
📋 Columnas solicitadas: 7
✅ Columnas encontradas: 7 - ['Titulo', 'Review', 'Calificacion', 'FechaEstadia', 'Ciudad', 'Atraccion', 'TituloReview']

🏙️  Ciudades encontradas: 3
  1. Cancun
  2. Cdmx
  3. Datasets_por_ciudad

📁 Directorio creado/verificado: ../data/datasets_por_ciudad

🔄 Generando datasets por ciudad...
  ✅ Cancun: 700 filas → dataset_cancun.csv
  ✅ Cdmx: 614 filas → dataset_cdmx.csv
  ✅ Datasets_por_ciudad: 1,314 filas → dataset_datasets_por_ciudad.csv

🎉 ¡Datasets por ciudad creados exitosamente!
📊 Total de datasets generados: 3
📁 Ubicación: ../data/datasets_por_ciudad


In [13]:
# Mostrar resumen detallado de los datasets creados
if df_opiniones is not None and 'datasets_creados' in locals():
    print("=== RESUMEN DETALLADO DE DATASETS POR CIUDAD ===")
    
    total_filas = sum(dataset['filas'] for dataset in datasets_creados)
    
    print(f"\n📊 Estadísticas generales:")
    print(f"   • Total de ciudades: {len(datasets_creados)}")
    print(f"   • Total de filas en todos los datasets: {total_filas:,}")
    print(f"   • Columnas por dataset: {len(columnas_existentes)}")
    print(f"   • Columnas incluidas: {', '.join(columnas_existentes)}")
    
    print(f"\n📋 Detalle por ciudad:")
    for i, dataset in enumerate(datasets_creados, 1):
        porcentaje = (dataset['filas'] / total_filas) * 100
        print(f"   {i:2d}. {dataset['ciudad']:15} → {dataset['archivo']:25} ({dataset['filas']:,} filas, {porcentaje:5.1f}%)")
    
    # Verificar que los archivos se crearon correctamente
    print(f"\n🔍 Verificación de archivos:")
    archivos_verificados = 0
    for dataset in datasets_creados:
        if os.path.exists(dataset['ruta']):
            tamaño_archivo = os.path.getsize(dataset['ruta']) / 1024  # KB
            print(f"   ✅ {dataset['archivo']} - {tamaño_archivo:.1f} KB")
            archivos_verificados += 1
        else:
            print(f"   ❌ {dataset['archivo']} - Archivo no encontrado")
    
    print(f"\n✅ Verificación completada: {archivos_verificados}/{len(datasets_creados)} archivos creados correctamente")
    
    # Mostrar muestra de uno de los datasets
    if datasets_creados:
        dataset_ejemplo = datasets_creados[0]
        print(f"\n📖 Muestra del dataset '{dataset_ejemplo['archivo']}':")
        df_muestra = pd.read_csv(dataset_ejemplo['ruta'])
        display(df_muestra.head(3))
        
else:
    print("❌ No se pudieron verificar los datasets creados")

=== RESUMEN DETALLADO DE DATASETS POR CIUDAD ===

📊 Estadísticas generales:
   • Total de ciudades: 3
   • Total de filas en todos los datasets: 2,628
   • Columnas por dataset: 7
   • Columnas incluidas: Titulo, Review, Calificacion, FechaEstadia, Ciudad, Atraccion, TituloReview

📋 Detalle por ciudad:
    1. Cancun          → dataset_cancun.csv        (700 filas,  26.6%)
    2. Cdmx            → dataset_cdmx.csv          (614 filas,  23.4%)
    3. Datasets_por_ciudad → dataset_datasets_por_ciudad.csv (1,314 filas,  50.0%)

🔍 Verificación de archivos:
   ✅ dataset_cancun.csv - 509.0 KB
   ✅ dataset_cdmx.csv - 446.8 KB
   ✅ dataset_datasets_por_ciudad.csv - 948.0 KB

✅ Verificación completada: 3/3 archivos creados correctamente

📖 Muestra del dataset 'dataset_cancun.csv':


Unnamed: 0,Titulo,Review,Calificacion,FechaEstadia,Ciudad,Atraccion,TituloReview
0,Promiedo la verdad no para volver,El museo la verdad no está tan lindo y les fa...,3,2025-08-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,Promiedo la verdad no para volver. El museo la...
1,"Identidad, Cultura y Patrimonio",El Museo Maya en verdad que nos muestra como f...,5,2025-07-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,"Identidad, Cultura y Patrimonio. El Museo Maya..."
2,Decepcionada del lugar que debería ser un refe...,"Es un lugar abandonado por el gobierno, no fun...",1,2025-07-01,Cancun,Museo Maya De Cancun Y Zona Arqueologica De Sa...,Decepcionada del lugar que debería ser un refe...
