# Análisis Exploratorio y Procesamiento Básico de los Datos

Este notebook realiza un análisis exploratorio y procesamiento básico de los datos de opiniones turísticas usando módulos especializados con una estructura modular mejorada.

## Objetivo
- Cargar y procesar datos usando los módulos de procesamiento modular

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import sys
import os
from pathlib import Path

sys.path.append('../scripts')

from exploracion import (
    AnalizadorGeneral, 
    AnalizadorCategorico,
    AnalizadorTemporal,
    AnalizadorTexto,

    analisis_final_completo
)

from procesamiento import (
    procesar_dataset_completo
)

import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('default')
sns.set_palette("husl")
%matplotlib inline

print("✅ Librerías y módulos importados correctamente")

✅ Librerías y módulos importados correctamente


## 1. Procesamiento Completo de Datos

Usando el pipeline completo de procesamiento que incluye: carga, limpieza de fechas, eliminación de duplicados y creación de texto consolidado.

In [2]:
print("🚀 Iniciando procesamiento completo del dataset...")
print("="*60)

df_opiniones = procesar_dataset_completo('../data')

print(f"\n🎉 ¡Procesamiento exitoso!")
print(f"📊 Dataset final: {len(df_opiniones):,} filas × {len(df_opiniones.columns)} columnas")
print(f"📁 Guardado como: dataset_opiniones_consolidado.csv")

df_analisis = df_opiniones.copy() if df_opiniones is not None else None

🚀 Iniciando procesamiento completo del dataset...
             PIPELINE DE PROCESAMIENTO COMPLETO
✅ Directorios verificados: ../data/raw, ../data/processed

🔄 PASO 1: Cargando datos...
Ciudades encontradas en raw: ['mazatlan', 'cancun', 'puebla', 'puerto_vallarta', 'cdmx']

Procesando ciudad: mazatlan
Archivos encontrados: 10
✓ mazatlan-malecon-de-mazatlan.csv: 50 filas cargadas
✓ mazatlan-playa-cerritos.csv: 50 filas cargadas
✓ mazatlan-playa-brujas.csv: 50 filas cargadas
✓ mazatlan-acuario-mazatlan.csv: 50 filas cargadas
✓ mazatlan-viejo-mazatlan.csv: 50 filas cargadas
✓ mazatlan-isla-de-los-venados.csv: 50 filas cargadas
✓ mazatlan-el-faro-de-mazatlan.csv: 50 filas cargadas
✓ mazatlan-plaza-machado.csv: 50 filas cargadas
✓ mazatlan-isla-de-la-piedras.csv: 50 filas cargadas
✓ mazatlan-catedral-mazatlan-basilica-de-la-inmaculada-concepcion.csv: 50 filas cargadas

Procesando ciudad: cancun
Archivos encontrados: 10
✓ cancun-ultramar-cancun.csv: 50 filas cargadas
✓ cancun-museo-maya-de-c

In [3]:
df_opiniones.head()


Unnamed: 0,Titulo,Review,Calificacion,FechaEstadia,Ciudad,Atraccion,TituloReview
0,¡Divertido y seguro!,"Estoy muy impresionado con Mazatlán, Mx. . La ...",5,2025-08-01,Mazatlan,Malecon De Mazatlan,¡Divertido y seguro!. Estoy muy impresionado c...
1,Un mes en Mazatlán,Acabamos de pasar un mes en Mazatlán. No estoy...,3,2025-01-01,Mazatlan,Malecon De Mazatlan,Un mes en Mazatlán. Acabamos de pasar un mes e...
2,Maravilloso,"Ubicado en la zona más turística de Mazatlán, ...",5,2025-01-01,Mazatlan,Malecon De Mazatlan,Maravilloso. Ubicado en la zona más turística ...
3,Caminando por el Malecón,Hermoso El Malecón de Mazatlán he caminado en ...,5,2024-12-01,Mazatlan,Malecon De Mazatlan,Caminando por el Malecón. Hermoso El Malecón d...
4,"Nunca más, por desgracia","Mazatlán no es seguro. Lamento escribir esto, ...",1,2024-12-01,Mazatlan,Malecon De Mazatlan,"Nunca más, por desgracia. Mazatlán no es segur..."


## 2. Análisis Exploratorio Basico

Ahora usaremos las funciones del módulo de exploración para realizar análisis descriptivos sin modificar los datos.

In [4]:
analizador_general = AnalizadorGeneral(df_analisis)

analizador_general.analizar_valores_nulos()

=== ANÁLISIS DE VALORES NULOS ===
              Valores_Nulos  Porcentaje
Titulo                    0         0.0
Review                    0         0.0
Calificacion              0         0.0
FechaEstadia              0         0.0
Ciudad                    0         0.0
Atraccion                 0         0.0
TituloReview              0         0.0


Unnamed: 0,Valores_Nulos,Porcentaje
Titulo,0,0.0
Review,0,0.0
Calificacion,0,0.0
FechaEstadia,0,0.0
Ciudad,0,0.0
Atraccion,0,0.0
TituloReview,0,0.0


In [5]:
analizador_general.analizar_duplicados()

=== ANÁLISIS DE DUPLICADOS ===
Filas completamente duplicadas encontradas: 0
Duplicados por título + review + ciudad + atracción: 0


0

## 3. Análisis Descriptivo por Categorías

In [6]:
analizador_categorico = AnalizadorCategorico(df_analisis)

analizador_categorico.analizar_distribuciones_categoricas()


=== DISTRIBUCIÓN POR CIUDADES ===
Ciudad
Mazatlan           500
Puebla             500
Puerto_vallarta    491
Cdmx               490
Cancun             483
Name: count, dtype: int64

Porcentaje por ciudad:
Ciudad
Mazatlan           20.29
Puebla             20.29
Puerto_vallarta    19.93
Cdmx               19.89
Cancun             19.60
Name: count, dtype: float64


In [7]:
analizador_categorico = AnalizadorCategorico(df_analisis)
analizador_categorico.analizar_calificaciones()

=== ANÁLISIS DE CALIFICACIONES ===
Estadísticas descriptivas de calificaciones:
count    2464.000000
mean        4.428977
std         1.014625
min         1.000000
25%         4.000000
50%         5.000000
75%         5.000000
max         5.000000
Name: Calificacion, dtype: float64

Distribución de calificaciones:
Calificacion
1     101
2      60
3     180
4     463
5    1660
Name: count, dtype: int64

Calificación promedio general: 4.43


## 4. Análisis de Longitud de Textos y Temporal

In [8]:


analizador_texto = AnalizadorTexto(df_analisis)

analizador_temporal = AnalizadorTemporal(df_analisis)

analizador_texto.analizar_longitud_textos()
print("\n")
analizador_temporal.analizar_temporal()




=== ANÁLISIS DE LONGITUD DE TÍTULOS ===
count    2464.000000
mean       28.555601
std        30.737520
min         1.000000
25%        14.000000
50%        22.000000
75%        35.000000
max      1008.000000
Name: Titulo, dtype: float64

=== ANÁLISIS DE LONGITUD DE REVIEWS ===
count    2464.000000
mean      304.135552
std       289.893020
min        98.000000
25%       143.000000
50%       204.000000
75%       348.250000
max      4962.000000
Name: Review, dtype: float64

=== NÚMERO DE PALABRAS EN REVIEWS ===
count    2464.000000
mean       52.486201
std        50.237065
min         9.000000
25%        25.000000
50%        35.000000
75%        60.000000
max       816.000000
Name: Review, dtype: float64


=== ANÁLISIS TEMPORAL DE OPINIONES ===
Ejemplos de fechas en el dataset:
[Timestamp('2025-08-01 00:00:00'), Timestamp('2025-01-01 00:00:00'), Timestamp('2025-01-01 00:00:00'), Timestamp('2024-12-01 00:00:00'), Timestamp('2024-12-01 00:00:00'), Timestamp('2024-12-01 00:00:00'), Timestamp

## 5. Análisis Descriptivo final

In [9]:
analisis_final_completo(df_analisis)


                     ANÁLISIS FINAL COMPLETO
                    DATASET COMPLETAMENTE LIMPIO

📊 RESUMEN GENERAL:
   • Total de registros finales: 2,464
   • Total de columnas: 7
   • Ciudades: 5
   • Atracciones: 50

🔍 CALIDAD DE DATOS FINAL:
   • Valores nulos totales: 0
   • Duplicados restantes: 0
   • Integridad de datos: ✅ PERFECTA

🏙️ DISTRIBUCIÓN FINAL POR CIUDADES:
   • MAZATLAN: 500 (20.3%)
   • PUEBLA: 500 (20.3%)
   • PUERTO_VALLARTA: 491 (19.9%)
   • CDMX: 490 (19.9%)
   • CANCUN: 483 (19.6%)

⭐ ANÁLISIS DE CALIFICACIONES FINAL:
   • Promedio general: 4.43/5
   • Mediana: 5.0/5
   • Moda: 5/5
   • Desviación estándar: 1.01

   Distribución de calificaciones:
     1 estrellas: 101 (4.1%)
     2 estrellas: 60 (2.4%)
     3 estrellas: 180 (7.3%)
     4 estrellas: 463 (18.8%)
     5 estrellas: 1,660 (67.4%)

🏆 TOP 5 ATRACCIONES POR CALIFICACIÓN PROMEDIO:
   • Vallarta Edenva Parque Ecoturistico (Puerto_vallarta): 4.98/5 (48 opiniones)
   • Puerto Maya Cancun (Cancun): 4.93/5 (

In [10]:
df_analisis.head()

Unnamed: 0,Titulo,Review,Calificacion,FechaEstadia,Ciudad,Atraccion,TituloReview
0,¡Divertido y seguro!,"Estoy muy impresionado con Mazatlán, Mx. . La ...",5,2025-08-01,Mazatlan,Malecon De Mazatlan,¡Divertido y seguro!. Estoy muy impresionado c...
1,Un mes en Mazatlán,Acabamos de pasar un mes en Mazatlán. No estoy...,3,2025-01-01,Mazatlan,Malecon De Mazatlan,Un mes en Mazatlán. Acabamos de pasar un mes e...
2,Maravilloso,"Ubicado en la zona más turística de Mazatlán, ...",5,2025-01-01,Mazatlan,Malecon De Mazatlan,Maravilloso. Ubicado en la zona más turística ...
3,Caminando por el Malecón,Hermoso El Malecón de Mazatlán he caminado en ...,5,2024-12-01,Mazatlan,Malecon De Mazatlan,Caminando por el Malecón. Hermoso El Malecón d...
4,"Nunca más, por desgracia","Mazatlán no es seguro. Lamento escribir esto, ...",1,2024-12-01,Mazatlan,Malecon De Mazatlan,"Nunca más, por desgracia. Mazatlán no es segur..."
