# Análisis Exploratorio y Procesamiento Básico de los Datos

Este notebook realiza un análisis exploratorio y procesamiento básico de los datos de opiniones turísticas usando módulos especializados con una estructura modular mejorada.

## Objetivo
- Cargar y procesar datos usando los módulos de procesamiento modular
- Realizar análisis exploratorio usando los módulos de exploración especializados
- Mantener código limpio, modular y bien organizado

## Nueva Estructura Modular
- **scripts/procesamiento/**: Clases especializadas para procesamiento de datos
  - `CargadorDatos`: Carga de archivos CSV
  - `LimpiadorDatos`: Limpieza y validación
  - `TransformadorDatos`: Transformaciones y creación de columnas
  - `ValidadorDatos`: Validación de calidad de datos
  
- **scripts/exploracion/**: Clases especializadas para análisis exploratorio
  - `AnalizadorGeneral`: Información general y valores nulos
  - `AnalizadorCategorico`: Distribuciones categóricas y calificaciones
  - `AnalizadorTemporal`: Análisis de fechas y tendencias temporales
  - `AnalizadorTexto`: Análisis de longitud y características de texto
  - `DetectorProblemas`: Detección de duplicados y contenidos mal ubicados

In [57]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import sys
import os
from pathlib import Path

# Agregar el directorio scripts al path para importar nuestros módulos
sys.path.append('../scripts')

# Importar nuestros módulos personalizados con la nueva estructura
from exploracion import (
    AnalizadorGeneral, 
    AnalizadorCategorico,
    AnalizadorTemporal,
    AnalizadorTexto,
    DetectorProblemas,
    resumen_ejecutivo,
    analisis_final_completo
)

from procesamiento import (
    CargadorDatos,
    LimpiadorDatos,
    TransformadorDatos,
    ValidadorDatos,
    procesar_dataset_completo
)

# Configuración para gráficos
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

print("✅ Librerías y módulos importados correctamente")
print("📁 Nueva estructura de módulos disponible:")
print("   - exploracion: AnalizadorGeneral, AnalizadorCategorico, AnalizadorTemporal, etc.")
print("   - procesamiento: CargadorDatos, LimpiadorDatos, TransformadorDatos, etc.")

✅ Librerías y módulos importados correctamente
📁 Nueva estructura de módulos disponible:
   - exploracion: AnalizadorGeneral, AnalizadorCategorico, AnalizadorTemporal, etc.
   - procesamiento: CargadorDatos, LimpiadorDatos, TransformadorDatos, etc.


## 1. Procesamiento Completo de Datos

Usando el pipeline completo de procesamiento que incluye: carga, limpieza de fechas, limpieza de OrigenAutor, completado de nulos, eliminación de duplicados, corrección de contenidos mal ubicados y creación de texto consolidado.

In [58]:
# Ejecutar el pipeline completo de procesamiento usando la nueva estructura
print("🚀 Iniciando procesamiento completo del dataset...")
print("="*60)

# El pipeline incluye todos los pasos de procesamiento:
# 1. Carga de datos de todas las ciudades
# 2. Conversión de fechas
# 3. Limpieza de OrigenAutor
# 4. Completado de valores nulos
# 5. Eliminación de duplicados
# 6. Corrección de contenidos mal ubicados
# 7. Creación de texto consolidado
# 8. Guardado del dataset final

df_opiniones = procesar_dataset_completo('../data')

if df_opiniones is not None:
    print(f"\n🎉 ¡Procesamiento exitoso!")
    print(f"📊 Dataset final: {len(df_opiniones):,} filas × {len(df_opiniones.columns)} columnas")
    print(f"📁 Guardado como: dataset_opiniones_consolidado.csv")
else:
    print("❌ Error en el procesamiento")

# Crear copia para análisis (preservar original)
df_analisis = df_opiniones.copy() if df_opiniones is not None else None
print(f"\n✅ Dataset de análisis creado: {len(df_analisis):,} filas" if df_analisis is not None else "❌ No se pudo crear dataset de análisis")

🚀 Iniciando procesamiento completo del dataset...
             PIPELINE DE PROCESAMIENTO COMPLETO
✅ Directorios verificados: ../data/raw, ../data/processed

🔄 PASO 1: Cargando datos...
Ciudades encontradas en raw: ['cancun', 'cdmx', 'puebla', 'mazatlan', 'puerto_vallarta']

Procesando ciudad: cancun
Archivos encontrados: 10
✓ cancun-xoximilco-cancun-by-xcaret.csv: 50 filas cargadas
✓ cancun-la-isla.csv: 50 filas cargadas
✓ cancun-acuario-interactivo.csv: 50 filas cargadas
✓ cancun-ventura-park.csv: 50 filas cargadas
✓ cancun-playa-delfines.csv: 50 filas cargadas
✓ cancun-ultramar-cancun.csv: 50 filas cargadas
✓ cancun-avenida-kukulkan.csv: 50 filas cargadas
✓ cancun-museo-maya-de-cancun-y-zona-arqueologica-de-san-miguelito.csv: 50 filas cargadas
✓ cancun-puerto-maya-cancun.csv: 50 filas cargadas
✓ cancun-playa-tortugas.csv: 50 filas cargadas

Procesando ciudad: cdmx
Archivos encontrados: 10
✓ cdmx-castillo-de-chapultepec.csv: 50 filas cargadas
✓ cdmx-museo-del-templo-mayor.csv: 50 fila

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  self.df['Titulo'].fillna('sin titulo', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  self.df['TipoViaje'].fillna('desconocido', inplace=True)
  self.df['TipoViaje'].fillna('desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method wil

💾 dataset_cancun.csv: 483 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_cancun.csv
💾 dataset_cdmx.csv: 490 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_cdmx.csv
💾 dataset_puebla.csv: 500 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_puebla.csv
💾 dataset_mazatlan.csv: 500 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_mazatlan.csv
💾 dataset_puerto_vallarta.csv: 491 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_puerto_vallarta.csv
✅ Exportación por ciudades completada en: ../data/processed/datasets_por_ciudad
� 5 datasets de ciudades creados

✅ PIPELINE DE PROCESAMIENTO COMPLETADO EXITOSAMENTE
📊 Dataset final: 2464 filas, 9 columnas

📁 NUEVA ESTRUCTURA DE DATOS ORGANIZADA:
   📋 Datasets base: data/processed/datasets_por_ciudad/base/
   💭 Sentimientos: data/processed/datasets_por_ciudad/sentimientos/
   🎯 Subjetividad: da

In [59]:
# Verificación rápida del dataset procesado
if df_opiniones is not None:
    print("=== VERIFICACIÓN RÁPIDA DEL DATASET PROCESADO ===")
    print(f"Forma del dataset: {df_opiniones.shape}")
    print(f"Columnas disponibles:")
    for i, col in enumerate(df_opiniones.columns, 1):
        print(f"  {i:2d}. {col}")
    
    print(f"\nMuestra de datos (primeras 5 filas):")
    display(df_opiniones.head())
    
    print(f"\nEstado de valores nulos:")
    nulos = df_opiniones.isnull().sum()
    for col, nulo in nulos.items():
        estado = "✅" if nulo == 0 else "⚠️"
        print(f"  {estado} {col}: {nulo} nulos")
else:
    print("❌ No hay datos para verificar")

=== VERIFICACIÓN RÁPIDA DEL DATASET PROCESADO ===
Forma del dataset: (2464, 9)
Columnas disponibles:
   1. Titulo
   2. Review
   3. TipoViaje
   4. Calificacion
   5. OrigenAutor
   6. FechaEstadia
   7. Ciudad
   8. Atraccion
   9. TituloReview

Muestra de datos (primeras 5 filas):


Unnamed: 0,Titulo,Review,TipoViaje,Calificacion,OrigenAutor,FechaEstadia,Ciudad,Atraccion,TituloReview
0,Noche diferente,Speechless. I never thought I'd have such a pl...,desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Noche diferente. Speechless. I never thought I...
1,Fun and exciting,Transportation was organized. Reception at th...,desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Fun and exciting. Transportation was organized...
2,Increíble,"Ninguno, me encantó toda la experiencias fue i...",desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,"Increíble. Ninguno, me encantó toda la experie..."
3,Great fun in Cancun,"This is a fabulous show, high energy and great...",desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,"Great fun in Cancun. This is a fabulous show, ..."
4,Xochimilco excelente experiencia,Joss y Roberto dieron muy buen servicio y ambi...,desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Xochimilco excelente experiencia. Joss y Rober...



Estado de valores nulos:
  ✅ Titulo: 0 nulos
  ✅ Review: 0 nulos
  ✅ TipoViaje: 0 nulos
  ✅ Calificacion: 0 nulos
  ✅ OrigenAutor: 0 nulos
  ✅ FechaEstadia: 0 nulos
  ✅ Ciudad: 0 nulos
  ✅ Atraccion: 0 nulos
  ✅ TituloReview: 0 nulos


## 2. Análisis Exploratorio usando Módulos Especializados

Ahora usaremos las funciones del módulo de exploración para realizar análisis descriptivos sin modificar los datos.

In [60]:
# Análisis de información general del dataset usando la nueva estructura
if df_analisis is not None:
    analizador_general = AnalizadorGeneral(df_analisis)
    analizador_general.analizar_informacion_general()
else:
    print("❌ No hay datos para analizar")

=== INFORMACIÓN GENERAL DEL DATASET ===
Dimensiones: (2464, 9)
Número de filas: 2,464
Número de columnas: 9

Columnas del dataset:
1. Titulo
2. Review
3. TipoViaje
4. Calificacion
5. OrigenAutor
6. FechaEstadia
7. Ciudad
8. Atraccion
9. TituloReview

=== TIPOS DE DATOS ===
<class 'pandas.core.frame.DataFrame'>
Index: 2464 entries, 0 to 2492
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Titulo        2464 non-null   object        
 1   Review        2464 non-null   object        
 2   TipoViaje     2464 non-null   object        
 3   Calificacion  2464 non-null   int64         
 4   OrigenAutor   2464 non-null   object        
 5   FechaEstadia  2464 non-null   datetime64[ns]
 6   Ciudad        2464 non-null   object        
 7   Atraccion     2464 non-null   object        
 8   TituloReview  2464 non-null   object        
dtypes: datetime64[ns](1), int64(1), object(7)
memory usage: 192.5+ KB


In [61]:
# Análisis de valores nulos y calidad de datos usando la nueva estructura
if df_analisis is not None:
    analizador_general = AnalizadorGeneral(df_analisis)
    
    analizador_general.analizar_valores_nulos()
    print("\n")
    analizador_general.analizar_duplicados()
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE VALORES NULOS ===
              Valores_Nulos  Porcentaje
Titulo                    0         0.0
Review                    0         0.0
TipoViaje                 0         0.0
Calificacion              0         0.0
OrigenAutor               0         0.0
FechaEstadia              0         0.0
Ciudad                    0         0.0
Atraccion                 0         0.0
TituloReview              0         0.0


=== ANÁLISIS DE DUPLICADOS ===
Filas completamente duplicadas encontradas: 0
Duplicados por título + review + ciudad + atracción: 0


In [62]:
# Detección de contenidos mal ubicados usando la nueva estructura
if df_analisis is not None:
    detector_problemas = DetectorProblemas(df_analisis)
    resultados, problemas = detector_problemas.detectar_contenidos_mal_ubicados()
else:
    print("❌ No hay datos para detectar problemas")

=== ANÁLISIS AVANZADO DE CONTENIDOS MAL UBICADOS ===
Detectando cuando el contenido de una columna aparece en otra columna diferente...
Analizando columnas de texto: ['Titulo', 'Review', 'TipoViaje', 'OrigenAutor']
Longitud mínima de texto: 10 caracteres

⚠️  PROBLEMA DETECTADO: Titulo ↔ Review
   Contenidos duplicados encontrados: 10
   📝 Ejemplo: 'esta capilla esta dentro del templo de santo domin...'
      - En Titulo: filas [1250]
      - En Review: filas [1250]
   📝 Ejemplo: 'increíble mejor servicio y la tripulación se queda...'
      - En Titulo: filas [427]
      - En Review: filas [427]
   📝 Ejemplo: 'las vistas eran increíbles y me lo pasé muy bien! ...'
      - En Titulo: filas [2266]
      - En Review: filas [2266]

⚠️  PROBLEMA DETECTADO: Review ↔ Titulo
   Contenidos duplicados encontrados: 10
   📝 Ejemplo: 'esta capilla esta dentro del templo de santo domin...'
      - En Review: filas [1250]
      - En Titulo: filas [1250]
   📝 Ejemplo: 'increíble mejor servicio y la tr

## 3. Análisis Descriptivo por Categorías

In [63]:
# Análisis de distribuciones categóricas usando la nueva estructura
if df_analisis is not None:
    analizador_categorico = AnalizadorCategorico(df_analisis)
    analizador_categorico.analizar_distribuciones_categoricas()
else:
    print("❌ No hay datos para analizar")

=== DISTRIBUCIÓN POR CIUDADES ===
Ciudad
Puebla             500
Mazatlan           500
Puerto_vallarta    491
Cdmx               490
Cancun             483
Name: count, dtype: int64

Porcentaje por ciudad:
Ciudad
Puebla             20.29
Mazatlan           20.29
Puerto_vallarta    19.93
Cdmx               19.89
Cancun             19.60
Name: count, dtype: float64

=== TOP 10 ATRACCIONES CON MÁS OPINIONES ===
Atraccion
La Isla                                                      50
Acuario Interactivo                                          50
Museo Soumaya                                                50
Ventura Park                                                 50
Playa Delfines                                               50
Avenida Kukulkan                                             50
Playa Tortugas                                               50
Museo Maya De Cancun Y Zona Arqueologica De San Miguelito    50
Acuario Michin Ciudad De Mexico                              50
Mu

In [64]:
# Análisis de calificaciones usando la nueva estructura
if df_analisis is not None:
    analizador_categorico = AnalizadorCategorico(df_analisis)
    analizador_categorico.analizar_calificaciones()
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE CALIFICACIONES ===
Estadísticas descriptivas de calificaciones:
count    2464.000000
mean        4.428977
std         1.014625
min         1.000000
25%         4.000000
50%         5.000000
75%         5.000000
max         5.000000
Name: Calificacion, dtype: float64

Distribución de calificaciones:
Calificacion
1     101
2      60
3     180
4     463
5    1660
Name: count, dtype: int64

Calificación promedio general: 4.43


## 4. Análisis de Longitud de Textos y Temporal

In [65]:
# Análisis de longitud de textos y temporal usando la nueva estructura
if df_analisis is not None:
    analizador_texto = AnalizadorTexto(df_analisis)
    analizador_temporal = AnalizadorTemporal(df_analisis)
    
    analizador_texto.analizar_longitud_textos()
    
    print("\n")
    
    # Análisis temporal
    analizador_temporal.analizar_temporal()
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE LONGITUD DE TÍTULOS ===
count    2464.000000
mean       28.555601
std        30.737520
min         1.000000
25%        14.000000
50%        22.000000
75%        35.000000
max      1008.000000
Name: Titulo, dtype: float64

=== ANÁLISIS DE LONGITUD DE REVIEWS ===
count    2464.000000
mean      304.135552
std       289.893020
min        98.000000
25%       143.000000
50%       204.000000
75%       348.250000
max      4962.000000
Name: Review, dtype: float64

=== NÚMERO DE PALABRAS EN REVIEWS ===
count    2464.000000
mean       52.486201
std        50.237065
min         9.000000
25%        25.000000
50%        35.000000
75%        60.000000
max       816.000000
Name: Review, dtype: float64



=== NÚMERO DE PALABRAS EN REVIEWS ===
count    2464.000000
mean       52.486201
std        50.237065
min         9.000000
25%        25.000000
50%        35.000000
75%        60.000000
max       816.000000
Name: Review, dtype: float64




## 5. Resumen Ejecutivo

In [66]:
# Resumen ejecutivo del análisis usando la nueva estructura
if df_analisis is not None:
    resumen_ejecutivo(df_analisis)
else:
    print("❌ No hay datos para generar resumen")


                    RESUMEN EJECUTIVO
📊 VOLUMEN DE DATOS:
   • Total de opiniones: 2,464
   • Ciudades analizadas: 5
   • Atracciones totales: 50

🏙️ DISTRIBUCIÓN POR CIUDADES:
   • PUEBLA: 500 opiniones (20.3%)
   • MAZATLAN: 500 opiniones (20.3%)
   • PUERTO_VALLARTA: 491 opiniones (19.9%)
   • CDMX: 490 opiniones (19.9%)
   • CANCUN: 483 opiniones (19.6%)

⭐ CALIFICACIONES:
   • Promedio general: 4.43/5
   • Mediana: 5.0/5

👥 TIPO DE VIAJE:
   • Más común: desconocido

🔍 CALIDAD DE DATOS:
   • Duplicados completos: 0
   • Sin valores nulos detectados

✅ Dataset listo para análisis más profundos!


## 6. Análisis Final Completo

In [67]:
# Análisis final completo del dataset limpio usando la nueva estructura
if df_analisis is not None:
    analisis_final_completo(df_analisis)
else:
    print("❌ No hay datos para análisis final")

                     ANÁLISIS FINAL COMPLETO
                    DATASET COMPLETAMENTE LIMPIO

📊 RESUMEN GENERAL:
   • Total de registros finales: 2,464
   • Total de columnas: 9
   • Ciudades: 5
   • Atracciones: 50

🔍 CALIDAD DE DATOS FINAL:
   • Valores nulos totales: 0
   • Duplicados restantes: 0
   • Integridad de datos: ✅ PERFECTA

🏙️ DISTRIBUCIÓN FINAL POR CIUDADES:
   • PUEBLA: 500 (20.3%)
   • MAZATLAN: 500 (20.3%)
   • PUERTO_VALLARTA: 491 (19.9%)
   • CDMX: 490 (19.9%)
   • CANCUN: 483 (19.6%)

⭐ ANÁLISIS DE CALIFICACIONES FINAL:
   • Promedio general: 4.43/5
   • Mediana: 5.0/5
   • Moda: 5/5
   • Desviación estándar: 1.01

   Distribución de calificaciones:
     1 estrellas: 101 (4.1%)
     2 estrellas: 60 (2.4%)
     3 estrellas: 180 (7.3%)
     4 estrellas: 463 (18.8%)
     5 estrellas: 1,660 (67.4%)

👥 TIPOS DE VIAJE FINAL:
   • desconocido: 2,464 (100.0%)

🏆 TOP 5 ATRACCIONES POR CALIFICACIÓN PROMEDIO:
   • Vallarta Edenva Parque Ecoturistico (Puerto_vallarta): 4.98/5

In [68]:
# Mostrar muestra final del dataset
if df_analisis is not None:
    print("=== MUESTRA FINAL DEL DATASET ===")
    display(df_analisis.head())
    
    print(f"\n=== RESUMEN FINAL ===")
    print(f"✅ Análisis exploratorio completado exitosamente")
    print(f"📊 Dataset procesado: {len(df_analisis):,} filas × {len(df_analisis.columns)} columnas")
    print(f"🗂️  Archivo guardado: dataset_opiniones_consolidado.csv")
    
    if 'texto_consolidado' in df_analisis.columns:
        print(f"📝 Texto consolidado disponible para análisis de sentimientos")
        longitud_promedio = df_analisis['texto_consolidado'].str.len().mean()
        print(f"📏 Longitud promedio del texto: {longitud_promedio:.1f} caracteres")
    
    print(f"\n🎯 Dataset listo para:")
    print(f"   • Análisis de sentimientos")
    print(f"   • Modelado de machine learning")
    print(f"   • Visualizaciones avanzadas")
    print(f"   • Reportes automáticos")
else:
    print("❌ No se pudo completar el análisis")

=== MUESTRA FINAL DEL DATASET ===


Unnamed: 0,Titulo,Review,TipoViaje,Calificacion,OrigenAutor,FechaEstadia,Ciudad,Atraccion,TituloReview
0,Noche diferente,Speechless. I never thought I'd have such a pl...,desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Noche diferente. Speechless. I never thought I...
1,Fun and exciting,Transportation was organized. Reception at th...,desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Fun and exciting. Transportation was organized...
2,Increíble,"Ninguno, me encantó toda la experiencias fue i...",desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,"Increíble. Ninguno, me encantó toda la experie..."
3,Great fun in Cancun,"This is a fabulous show, high energy and great...",desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,"Great fun in Cancun. This is a fabulous show, ..."
4,Xochimilco excelente experiencia,Joss y Roberto dieron muy buen servicio y ambi...,desconocido,5,anonimo,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Xochimilco excelente experiencia. Joss y Rober...



=== RESUMEN FINAL ===
✅ Análisis exploratorio completado exitosamente
📊 Dataset procesado: 2,464 filas × 9 columnas
🗂️  Archivo guardado: dataset_opiniones_consolidado.csv

🎯 Dataset listo para:
   • Análisis de sentimientos
   • Modelado de machine learning
   • Visualizaciones avanzadas
   • Reportes automáticos


## 7. Generación de Datasets por Ciudad

Creación de datasets separados por ciudad con las columnas específicas solicitadas: Titulo, Review, Calificacion, FechaEstadia, Ciudad, Atraccion, TituloReview

In [69]:
# Exportar datasets separados por ciudad - VERSIÓN MODULAR
from procesamiento import exportar_datasets_por_ciudad, verificar_datasets_creados

print("🚀 Iniciando exportación de datasets por ciudad...")
print("="*50)

try:
    # Usar la función modular optimizada para exportar
    directorio_ciudades = exportar_datasets_por_ciudad(df_opiniones, '../data')
    directorio_ciudades = os.path.join(directorio_ciudades, 'base')  # Ajustar ruta al subdirectorio 'base'

    print(f"\n✅ EXPORTACIÓN COMPLETADA EXITOSAMENTE")
    print(f"📁 Ubicación: {directorio_ciudades}")

    # Verificar y obtener estadísticas de los datasets creados usando función modular
    datasets_creados = verificar_datasets_creados(directorio_ciudades, df_opiniones)

    print(f"\n🎯 ¡{len(datasets_creados)} datasets de ciudades listos para análisis!")

except Exception as e:
    print(f"❌ Error durante la exportación: {e}")
    print("🔄 Revisar configuración del directorio de datos...")

    # Variables para compatibilidad con la siguiente celda
    datasets_creados = []
    directorio_ciudades = '../data/processed/datasets_por_ciudad/base'

🚀 Iniciando exportación de datasets por ciudad...
📁 Directorio creado/verificado: ../data/processed/datasets_por_ciudad/base
💾 dataset_cancun.csv: 483 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_cancun.csv
💾 dataset_cdmx.csv: 490 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_cdmx.csv
💾 dataset_puebla.csv: 500 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_puebla.csv
💾 dataset_mazatlan.csv: 500 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_mazatlan.csv
💾 dataset_puerto_vallarta.csv: 491 filas guardadas
📁 Ubicación: ../data/processed/datasets_por_ciudad/base/dataset_puerto_vallarta.csv
✅ Exportación por ciudades completada en: ../data/processed/datasets_por_ciudad
� 5 datasets de ciudades creados

✅ EXPORTACIÓN COMPLETADA EXITOSAMENTE
📁 Ubicación: ../data/processed/datasets_por_ciudad/base

📊 RESUMEN:
   • Archivos encontrados: 5
   • Total de filas en 

In [70]:
# Mostrar resumen detallado de los datasets creados - VERSIÓN OPTIMIZADA
from procesamiento import mostrar_resumen_detallado_datasets, resumen_rapido_datasets

if df_opiniones is not None and 'datasets_creados' in locals() and datasets_creados:
    # Usar función modular optimizada (sin lecturas innecesarias de archivos)
    mostrar_resumen_detallado_datasets(datasets_creados, df_opiniones)
    
elif df_opiniones is not None:
    print("⚠️ Los datasets por ciudad no se crearon correctamente")
    print("💡 Ejecutando verificación rápida...")
    
    # Usar resumen rápido en lugar de verificación lenta
    if 'directorio_ciudades' in locals():
        try:
            # Función ultra-rápida que no lee archivos CSV
            resumen = resumen_rapido_datasets(directorio_ciudades, df_opiniones)
            
            if resumen.get("total_archivos", 0) > 0:
                print(f"✅ Se encontraron {resumen['total_archivos']} archivos CSV")
                print("📁 Los datasets están disponibles para análisis")
            else:
                print("❌ No se encontraron archivos CSV válidos")
                
        except Exception as e:
            print(f"❌ Error en verificación rápida: {e}")
            print("💡 Intenta ejecutar nuevamente la celda de exportación")
else:
    print("❌ No hay datos principales disponibles para verificar")

print(f"\n✅ Verificación completada - Los datasets están listos para análisis de sentimientos")

=== RESUMEN DETALLADO DE DATASETS POR CIUDAD ===

📊 Estadísticas generales:
   • Total de ciudades: 5
   • Total de filas en dataset principal: 2,464
   • Ciudades reales: Cancun, Cdmx, Puebla, Mazatlan, Puerto_vallarta

📋 Detalle por ciudad:
    1. Puebla          → dataset_puebla.csv       
       📊 500 filas ( 20.3%) | 9 columnas | 301.6 KB
    2. Puerto_Vallarta → dataset_puerto_vallarta.csv
       📊 491 filas ( 19.9%) | 9 columnas | 379.9 KB
    3. Cdmx            → dataset_cdmx.csv         
       📊 490 filas ( 19.9%) | 9 columnas | 373.2 KB
    4. Cancun          → dataset_cancun.csv       
       📊 483 filas ( 19.6%) | 9 columnas | 382.6 KB
    5. Mazatlan        → dataset_mazatlan.csv     
       📊 500 filas ( 20.3%) | 9 columnas | 382.8 KB

🔍 VERIFICACIÓN DE INTEGRIDAD:
   • Archivos creados correctamente: 5/5
   • Total filas calculadas: 2,464
   • Total filas en dataset principal: 2,464
   ✅ Integridad verificada: todas las filas están presentes

📋 Columnas disponibles en d