# Análisis Exploratorio y Procesamiento Basico de los Datos

Este notebook realiza un análisis exploratorio y procesamiento basico de los datos de opiniones turísticas usando módulos especializados.

## Objetivo
- Cargar y procesar datos usando el módulo de procesamiento
- Realizar análisis exploratorio usando el módulo de exploración
- Mantener código limpio y modular

## Estructura
- **scripts/procesamiento_datos.py**: Funciones que modifican el dataset (limpieza, transformación)
- **scripts/exploracion_datos.py**: Funciones de análisis descriptivo (sin modificar datos)

In [7]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import sys
import os
from pathlib import Path

# Agregar el directorio scripts al path para importar nuestros módulos
sys.path.append('../scripts')

# Importar nuestros módulos personalizados
import procesamiento_datos as proc
import exploracion_datos as exp

# Configuración para gráficos
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

print("✅ Librerías y módulos importados correctamente")
print("📁 Módulos disponibles:")
print("   - procesamiento_datos: Funciones para limpiar y transformar datos")
print("   - exploracion_datos: Funciones para análisis descriptivo")

✅ Librerías y módulos importados correctamente
📁 Módulos disponibles:
   - procesamiento_datos: Funciones para limpiar y transformar datos
   - exploracion_datos: Funciones para análisis descriptivo


## 1. Procesamiento Completo de Datos

Usando el pipeline completo de procesamiento que incluye: carga, limpieza de fechas, limpieza de OrigenAutor, completado de nulos, eliminación de duplicados, corrección de contenidos mal ubicados y creación de texto consolidado.

In [8]:
# Ejecutar el pipeline completo de procesamiento
print("🚀 Iniciando procesamiento completo del dataset...")
print("="*60)

# El pipeline incluye todos los pasos de procesamiento:
# 1. Carga de datos de todas las ciudades
# 2. Conversión de fechas
# 3. Limpieza de OrigenAutor
# 4. Completado de valores nulos
# 5. Eliminación de duplicados
# 6. Corrección de contenidos mal ubicados
# 7. Creación de texto consolidado
# 8. Guardado del dataset final

df_opiniones = proc.procesar_dataset_completo('../data')

if df_opiniones is not None:
    print(f"\n🎉 ¡Procesamiento exitoso!")
    print(f"📊 Dataset final: {len(df_opiniones):,} filas × {len(df_opiniones.columns)} columnas")
    print(f"📁 Guardado como: dataset_opiniones_consolidado.csv")
else:
    print("❌ Error en el procesamiento")

# Crear copia para análisis (preservar original)
df_analisis = df_opiniones.copy() if df_opiniones is not None else None
print(f"\n✅ Dataset de análisis creado: {len(df_analisis):,} filas" if df_analisis is not None else "❌ No se pudo crear dataset de análisis")

🚀 Iniciando procesamiento completo del dataset...
             PIPELINE DE PROCESAMIENTO COMPLETO

🔄 PASO 1: Cargando datos...
Ciudades encontradas: ['cancun', 'cdmx']

Procesando ciudad: cancun
Archivos encontrados: 10
  - cancun-xoximilco-cancun-by-xcaret.csv: 69 filas
  - cancun-la-isla.csv: 70 filas
  - cancun-acuario-interactivo.csv: 67 filas
  - cancun-ventura-park.csv: 72 filas
  - cancun-playa-delfines.csv: 70 filas
  - cancun-avenida-kukulkan.csv: 72 filas
  - cancun-museo-maya-de-cancun-y-zona-arqueologica-de-san-miguelito.csv: 64 filas
  - cancun-las-plazas-outlet-cancun.csv: 72 filas
  - cancun-puerto-maya-cancun.csv: 73 filas
  - cancun-playa-tortugas.csv: 71 filas

Procesando ciudad: cdmx
Archivos encontrados: 10
  - cdmx-paseo-de-la-reforma.csv: 61 filas
  - cdmx-polanco.csv: 57 filas
  - cdmx-museo-del-templo-mayor.csv: 53 filas
  - cdmx-acuario-michin-ciudad-de-mexico.csv: 74 filas
  - cdmx-mercado-de-artesanias-la-ciudadela.csv: 63 filas
  - cdmx-basilica-de-la-virgen

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Titulo'].fillna('sin titulo', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['TipoViaje'].fillna('desconocido', inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting 

In [9]:
# Aplicar función de capitalización a las columnas Ciudad y Atraccion
print("=== APLICANDO CAPITALIZACIÓN A COLUMNAS ===")
print("Aplicando capitalización a las columnas Ciudad y Atraccion...")

# Aplicar la función de capitalización
df_opiniones['Ciudad'] = df_opiniones['Ciudad'].apply(proc.capitalizar_palabras)
df_opiniones['Atraccion'] = df_opiniones['Atraccion'].apply(proc.capitalizar_palabras)

print("✅ Capitalización aplicada exitosamente")
print(f"\nEjemplos de ciudades capitalizadas:")
print(df_opiniones['Ciudad'].unique()[:5])
print(f"\nEjemplos de atracciones capitalizadas:")
print(df_opiniones['Atraccion'].unique()[:5])

=== APLICANDO CAPITALIZACIÓN A COLUMNAS ===
Aplicando capitalización a las columnas Ciudad y Atraccion...
✅ Capitalización aplicada exitosamente

Ejemplos de ciudades capitalizadas:
['Cancun' 'Cdmx']

Ejemplos de atracciones capitalizadas:
['Xoximilco Cancun By Xcaret' 'La Isla' 'Acuario Interactivo'
 'Ventura Park' 'Playa Delfines']


In [10]:
# Verificación rápida del dataset procesado
if df_opiniones is not None:
    print("=== VERIFICACIÓN RÁPIDA DEL DATASET PROCESADO ===")
    print(f"Forma del dataset: {df_opiniones.shape}")
    print(f"Columnas disponibles:")
    for i, col in enumerate(df_opiniones.columns, 1):
        print(f"  {i:2d}. {col}")
    
    print(f"\nMuestra de datos (primeras 5 filas):")
    display(df_opiniones.head())
    
    print(f"\nEstado de valores nulos:")
    nulos = df_opiniones.isnull().sum()
    for col, nulo in nulos.items():
        estado = "✅" if nulo == 0 else "⚠️"
        print(f"  {estado} {col}: {nulo} nulos")
else:
    print("❌ No hay datos para verificar")

=== VERIFICACIÓN RÁPIDA DEL DATASET PROCESADO ===
Forma del dataset: (1314, 10)
Columnas disponibles:
   1. Titulo
   2. Review
   3. TipoViaje
   4. Calificacion
   5. OrigenAutor
   6. FechaOpinion
   7. FechaEstadia
   8. Ciudad
   9. Atraccion
  10. TituloReview

Muestra de datos (primeras 5 filas):


Unnamed: 0,Titulo,Review,TipoViaje,Calificacion,OrigenAutor,FechaOpinion,FechaEstadia,Ciudad,Atraccion,TituloReview
0,Divertido y emocionante,Se organizó el transporte. La recepción en el ...,Pareja,5,anonimo,2025-08-31,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Divertido y emocionante. Se organizó el transp...
1,Increíble,"Ninguno, me encantó toda la experiencias fue i...",Pareja,5,anonimo,2025-08-28,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,"Increíble. Ninguno, me encantó toda la experie..."
2,Xochimilco excelente experiencia,Joss y Roberto dieron muy buen servicio y ambi...,Pareja,5,anonimo,2025-08-22,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Xochimilco excelente experiencia. Joss y Rober...
3,Xoximilco increible experiencia,Fue una experiencia maravillosa el ambiente de...,Amigos,5,anonimo,2025-08-21,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Xoximilco increible experiencia. Fue una exper...
4,Xochimilco tiene el mejor ambiente de fiesta!!,Fui con mis amigos a celebrar mi cumpleaños y ...,Amigos,5,María Elena F,2025-08-19,2025-08-01,Cancun,Xoximilco Cancun By Xcaret,Xochimilco tiene el mejor ambiente de fiesta!!...



Estado de valores nulos:
  ✅ Titulo: 0 nulos
  ✅ Review: 0 nulos
  ✅ TipoViaje: 0 nulos
  ✅ Calificacion: 0 nulos
  ✅ OrigenAutor: 0 nulos
  ✅ FechaOpinion: 0 nulos
  ✅ FechaEstadia: 0 nulos
  ✅ Ciudad: 0 nulos
  ✅ Atraccion: 0 nulos
  ✅ TituloReview: 0 nulos


## 2. Análisis Exploratorio usando Módulos Especializados

Ahora usaremos las funciones del módulo de exploración para realizar análisis descriptivos sin modificar los datos.

In [11]:
# Análisis de información general del dataset
if df_analisis is not None:
    exp.analizar_informacion_general(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== INFORMACIÓN GENERAL DEL DATASET ===
Dimensiones: (1314, 10)
Número de filas: 1,314
Número de columnas: 10

Columnas del dataset:
1. Titulo
2. Review
3. TipoViaje
4. Calificacion
5. OrigenAutor
6. FechaOpinion
7. FechaEstadia
8. Ciudad
9. Atraccion
10. TituloReview

=== TIPOS DE DATOS ===
<class 'pandas.core.frame.DataFrame'>
Index: 1314 entries, 0 to 1324
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   Titulo        1314 non-null   object        
 1   Review        1314 non-null   object        
 2   TipoViaje     1314 non-null   object        
 3   Calificacion  1314 non-null   int64         
 4   OrigenAutor   1314 non-null   object        
 5   FechaOpinion  1314 non-null   datetime64[ns]
 6   FechaEstadia  1314 non-null   datetime64[ns]
 7   Ciudad        1314 non-null   object        
 8   Atraccion     1314 non-null   object        
 9   TituloReview  1314 non-null   object        
dtype

In [12]:
# Análisis de valores nulos y calidad de datos
if df_analisis is not None:
    exp.analizar_valores_nulos(df_analisis)
    print("\n")
    exp.analizar_duplicados(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE VALORES NULOS ===
              Valores_Nulos  Porcentaje
Titulo                    0         0.0
Review                    0         0.0
TipoViaje                 0         0.0
Calificacion              0         0.0
OrigenAutor               0         0.0
FechaOpinion              0         0.0
FechaEstadia              0         0.0
Ciudad                    0         0.0
Atraccion                 0         0.0
TituloReview              0         0.0


=== ANÁLISIS DE DUPLICADOS ===
Filas completamente duplicadas encontradas: 0
Filas completamente duplicadas encontradas: 0


KeyError: Index(['atraccion', 'ciudad'], dtype='object')

## 3. Análisis Descriptivo por Categorías

In [None]:
# Análisis de distribuciones categóricas
if df_analisis is not None:
    exp.analizar_distribuciones_categoricas(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== DISTRIBUCIÓN POR CIUDADES ===
ciudad
cancun    700
cdmx      614
Name: count, dtype: int64

Porcentaje por ciudad:
ciudad
cancun    53.27
cdmx      46.73
Name: count, dtype: float64

=== TOP 10 ATRACCIONES CON MÁS OPINIONES ===
atraccion
acuario michin ciudad de mexico     74
puerto maya cancun                  73
ventura park                        72
las plazas outlet cancun            72
avenida kukulkan                    72
playa tortugas                      71
la isla                             70
playa delfines                      70
jardines flotantes de xochimilco    69
xoximilco cancun by xcaret          69
Name: count, dtype: int64

=== ANÁLISIS DE TIPOS DE VIAJE ===
TipoViaje
Familia        471
Pareja         338
desconocido    203
Amigos         175
Solitario      115
Negocios        12
Name: count, dtype: int64

Porcentaje por tipo de viaje:
TipoViaje
Familia        35.84
Pareja         25.72
desconocido    15.45
Amigos         13.32
Solitario       8.75
Negocios  

In [None]:
# Análisis de calificaciones
if df_analisis is not None:
    exp.analizar_calificaciones(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE CALIFICACIONES ===
Estadísticas descriptivas de calificaciones:
count    1314.000000
mean        4.259513
std         1.131999
min         1.000000
25%         4.000000
50%         5.000000
75%         5.000000
max         5.000000
Name: Calificacion, dtype: float64

Distribución de calificaciones:
Calificacion
1     78
2     34
3    145
4    269
5    788
Name: count, dtype: int64

Calificación promedio general: 4.26


## 4. Análisis de Longitud de Textos y Temporal

In [None]:
# Análisis de longitud de textos
if df_analisis is not None:
    exp.analizar_longitud_textos(df_analisis)
    
    print("\n")
    
    # Análisis temporal
    exp.analizar_temporal(df_analisis)
else:
    print("❌ No hay datos para analizar")

=== ANÁLISIS DE LONGITUD DE TÍTULOS ===
count    1314.000000
mean       27.614155
std        19.994923
min         2.000000
25%        14.000000
50%        22.000000
75%        35.000000
max       129.000000
Name: Titulo, dtype: float64

=== ANÁLISIS DE LONGITUD DE REVIEWS ===
count    1314.000000
mean      312.919330
std       276.529729
min       100.000000
25%       145.000000
50%       203.000000
75%       366.750000
max      2162.000000
Name: Review, dtype: float64

=== NÚMERO DE PALABRAS EN REVIEWS ===
count    1314.000000
mean       53.611872
std        47.721281
min        11.000000
25%        25.000000
50%        35.000000
75%        63.000000
max       361.000000
Name: Review, dtype: float64


=== ANÁLISIS TEMPORAL DE OPINIONES ===
Ejemplos de fechas en el dataset:
[Timestamp('2025-08-31 00:00:00'), Timestamp('2025-08-28 00:00:00'), Timestamp('2025-08-22 00:00:00'), Timestamp('2025-08-21 00:00:00'), Timestamp('2025-08-19 00:00:00'), Timestamp('2025-08-19 00:00:00'), Timestamp

## 5. Resumen Ejecutivo

In [None]:
# Resumen ejecutivo del análisis
if df_analisis is not None:
    exp.resumen_ejecutivo(df_analisis)
else:
    print("❌ No hay datos para generar resumen")


                    RESUMEN EJECUTIVO
📊 VOLUMEN DE DATOS:
   • Total de opiniones: 1,314
   • Ciudades analizadas: 2
   • Atracciones totales: 20

🏙️ DISTRIBUCIÓN POR CIUDADES:
   • CANCUN: 700 opiniones (53.3%)
   • CDMX: 614 opiniones (46.7%)

⭐ CALIFICACIONES:
   • Promedio general: 4.26/5
   • Mediana: 5.0/5

👥 TIPO DE VIAJE:
   • Más común: Familia

🔍 CALIDAD DE DATOS:
   • Duplicados completos: 0
   • Sin valores nulos detectados

✅ Dataset listo para análisis más profundos!


## 6. Análisis Final Completo

In [None]:
# Análisis final completo del dataset limpio
if df_analisis is not None:
    exp.analisis_final_completo(df_analisis)
else:
    print("❌ No hay datos para análisis final")

                     ANÁLISIS FINAL COMPLETO
                    DATASET COMPLETAMENTE LIMPIO

📊 RESUMEN GENERAL:
   • Total de registros finales: 1,314
   • Total de columnas: 10
   • Ciudades: 2
   • Atracciones: 20

🔍 CALIDAD DE DATOS FINAL:
   • Valores nulos totales: 0
   • Duplicados restantes: 0
   • Integridad de datos: ✅ PERFECTA

🏙️ DISTRIBUCIÓN FINAL POR CIUDADES:
   • CANCUN: 700 (53.3%)
   • CDMX: 614 (46.7%)

⭐ ANÁLISIS DE CALIFICACIONES FINAL:
   • Promedio general: 4.26/5
   • Mediana: 5.0/5
   • Moda: 5/5
   • Desviación estándar: 1.13

   Distribución de calificaciones:
     1 estrellas: 78 (5.9%)
     2 estrellas: 34 (2.6%)
     3 estrellas: 145 (11.0%)
     4 estrellas: 269 (20.5%)
     5 estrellas: 788 (60.0%)

📅 ANÁLISIS TEMPORAL FINAL:
   • Rango de fechas: 11/04/2018 - 01/09/2025
   • Período cubierto: 2700 días
   • Distribución por año:
     2018: 17 opiniones (1.3%)
     2019: 62 opiniones (4.7%)
     2020: 50 opiniones (3.8%)
     2021: 39 opiniones (3.0%)
 

In [None]:
# Mostrar muestra final del dataset
if df_analisis is not None:
    print("=== MUESTRA FINAL DEL DATASET ===")
    display(df_analisis.head())
    
    print(f"\n=== RESUMEN FINAL ===")
    print(f"✅ Análisis exploratorio completado exitosamente")
    print(f"📊 Dataset procesado: {len(df_analisis):,} filas × {len(df_analisis.columns)} columnas")
    print(f"🗂️  Archivo guardado: dataset_opiniones_consolidado.csv")
    
    if 'texto_consolidado' in df_analisis.columns:
        print(f"📝 Texto consolidado disponible para análisis de sentimientos")
        longitud_promedio = df_analisis['texto_consolidado'].str.len().mean()
        print(f"📏 Longitud promedio del texto: {longitud_promedio:.1f} caracteres")
    
    print(f"\n🎯 Dataset listo para:")
    print(f"   • Análisis de sentimientos")
    print(f"   • Modelado de machine learning")
    print(f"   • Visualizaciones avanzadas")
    print(f"   • Reportes automáticos")
else:
    print("❌ No se pudo completar el análisis")

=== MUESTRA FINAL DEL DATASET ===


Unnamed: 0,Titulo,Review,TipoViaje,Calificacion,OrigenAutor,FechaOpinion,FechaEstadia,ciudad,atraccion,texto_consolidado
0,Divertido y emocionante,Se organizó el transporte. La recepción en el ...,Pareja,5,anonimo,2025-08-31,2025-08-01,cancun,xoximilco cancun by xcaret,Divertido y emocionante. Se organizó el transp...
1,Increíble,"Ninguno, me encantó toda la experiencias fue i...",Pareja,5,anonimo,2025-08-28,2025-08-01,cancun,xoximilco cancun by xcaret,"Increíble. Ninguno, me encantó toda la experie..."
2,Xochimilco excelente experiencia,Joss y Roberto dieron muy buen servicio y ambi...,Pareja,5,anonimo,2025-08-22,2025-08-01,cancun,xoximilco cancun by xcaret,Xochimilco excelente experiencia. Joss y Rober...
3,Xoximilco increible experiencia,Fue una experiencia maravillosa el ambiente de...,Amigos,5,anonimo,2025-08-21,2025-08-01,cancun,xoximilco cancun by xcaret,Xoximilco increible experiencia. Fue una exper...
4,Xochimilco tiene el mejor ambiente de fiesta!!,Fui con mis amigos a celebrar mi cumpleaños y ...,Amigos,5,María Elena F,2025-08-19,2025-08-01,cancun,xoximilco cancun by xcaret,Xochimilco tiene el mejor ambiente de fiesta!!...



=== RESUMEN FINAL ===
✅ Análisis exploratorio completado exitosamente
📊 Dataset procesado: 1,314 filas × 10 columnas
🗂️  Archivo guardado: dataset_opiniones_consolidado.csv
📝 Texto consolidado disponible para análisis de sentimientos
📏 Longitud promedio del texto: 366.3 caracteres

🎯 Dataset listo para:
   • Análisis de sentimientos
   • Modelado de machine learning
   • Visualizaciones avanzadas
   • Reportes automáticos
