# TFM - Ingesta de Datos desde Yelp a MongoDB Atlas

Este notebook implementa el pipeline de ingesta de datos para el proyecto:

**Título del TFM**: Análisis de Datos y Procesamiento de Lenguaje Natural para la Extracción de Opiniones y Modelado de Tópicos en Restaurantes: Un Enfoque de Big Data y Ciencia de Datos Aplicado al Estudio Integral del Sector Gastronómico

## Objetivo del Notebook
Implementar un pipeline de datos que:
1. Lea los archivos JSON del dataset de Yelp
2. Filtre los negocios relevantes (restaurantes)
3. Cargue los datos en MongoDB Atlas para su posterior análisis
   
## Estructura de Datos
El dataset de Yelp incluye varios archivos JSON:
- `yelp_academic_dataset_business.json`: Información de negocios (ubicación, categorías, etc.)
- `yelp_academic_dataset_review.json`: Reseñas de usuarios con texto y calificaciones
- `yelp_academic_dataset_user.json`: Información de usuarios
- `yelp_academic_dataset_checkin.json`: Check-ins en negocios
- `yelp_academic_dataset_tip.json`: Tips cortos de usuarios

## 1. Instalación y Configuración

Necesitamos las siguientes librerías:
- `pymongo`: Para conectar con MongoDB Atlas
- `pandas`: Para el manejo eficiente de datos
- `tqdm`: Para barras de progreso en operaciones largas

### Nota sobre las herramientas utilizadas

En este notebook usamos:
- **uv**: Un instalador de paquetes Python ultrarrápido y confiable que reemplaza a pip.
- **tqdm**: Para barras de progreso en operaciones de procesamiento.

Estas herramientas modernas mejoran la experiencia de desarrollo y la visualización del progreso durante la ejecución de tareas largas.

### Instalamos las dependencias necesarias con uv (instalador rápido de Python)

`uv add pymongo tqdm python-dotenv pandas`

## 2. Conexión a MongoDB Atlas

⚠️ **IMPORTANTE: Seguridad de las Credenciales**
- Nunca subas tu contraseña a un repositorio
- Usa variables de entorno o archivos .env para las credenciales
- Asegúrate de que tu IP esté en la whitelist de MongoDB Atlas

### Configuración del archivo .env

Para mayor seguridad, es recomendable guardar las credenciales en un archivo `.env` en el directorio raíz del proyecto:

```
# Archivo .env (coloca este archivo en la raíz del proyecto)
MONGODB_PASSWORD=tu_contraseña_real
```

Asegúrate de que este archivo esté incluido en `.gitignore` para evitar subirlo accidentalmente al repositorio.

In [1]:
import os
from dotenv import load_dotenv
from pymongo import MongoClient
from pymongo.server_api import ServerApi

# Cargar variables de entorno desde archivo .env
# El archivo .env debe estar en la raíz del proyecto o especificar la ruta
dotenv_path = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath("__file__"))), '.env')
load_dotenv(dotenv_path)

# Configuración de la conexión a MongoDB Atlas
PASSWORD = os.environ.get("MONGODB_PASSWORD")  # Obtener la contraseña del archivo .env

# Verificar que la contraseña existe
if not PASSWORD:
    print("❌ Error: No se encontró la variable MONGODB_PASSWORD en el archivo .env")
    print("Por favor, crea un archivo .env con la variable MONGODB_PASSWORD=tu_contraseña_real")
else:
    uri = f"mongodb+srv://juank920621:{PASSWORD}@cluster0.tsbdbxg.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

    # Crear cliente de MongoDB
    client = MongoClient(uri, server_api=ServerApi('1'))

    try:
        # Verificar la conexión
        client.admin.command('ping')
        print("✅ Conexión exitosa a MongoDB Atlas")
        
        # Crear/seleccionar la base de datos y colecciones
        db = client['tfm_yelp_db']
        businesses_collection = db['businesses']
        reviews_collection = db['reviews']
        users_collection = db['clients']
        
        print("📁 Base de datos y colecciones configuradas:")
        print(f"   - Database: {db.name}")
        print(f"   - Collections: {', '.join([businesses_collection.name, reviews_collection.name, users_collection.name])}")
        
    except Exception as e:
        print("❌ Error al conectar a MongoDB Atlas:")
        print(e)

✅ Conexión exitosa a MongoDB Atlas
📁 Base de datos y colecciones configuradas:
   - Database: tfm_yelp_db
   - Collections: businesses, reviews, clients


### Importación de datos JSON a MongoDB Atlas

En esta sección se realiza la importación de los archivos principales del *Yelp Open Dataset* (`business`, `review` y `user`) a una base de datos en MongoDB Atlas. Para ello, se utiliza PyMongo y la conexión segura configurada mediante un archivo `.env` que contiene la contraseña.

**Pasos realizados:**

1. **Conexión a MongoDB Atlas:**  
   Se establece la conexión usando la URI personalizada, cargando la contraseña desde variables de entorno. Se verifica que la conexión sea exitosa antes de realizar cualquier operación.

2. **Carga de archivos JSON Lines:**  
   Cada uno de los archivos (`yelp_academic_dataset_business.json`, `yelp_academic_dataset_review.json`, `yelp_academic_dataset_user.json`) se encuentra en formato JSON Lines, es decir, cada línea del archivo representa un documento individual.

3. **Importación eficiente en lotes:**  
   Para evitar problemas de memoria, los documentos se insertan en la base de datos en lotes de 1,000 registros por operación. Se utiliza la barra de progreso de `tqdm` para visualizar el avance.

4. **Colecciones creadas:**  
   - `businesses`: Información sobre los negocios.
   - `reviews`: Reseñas realizadas por los usuarios.
   - `clients`: Información de los usuarios.

Este proceso deja todos los datos necesarios disponibles en la base de datos MongoDB Atlas para su posterior análisis y explotación dentro del proyecto del Trabajo de Fin de Máster.

> **Nota:** Si los archivos son muy grandes, es recomendable contar con una conexión estable a internet y evitar ejecutar varias veces la importación para no duplicar datos (puede limpiarse la colección antes de cada importación si es necesario).

In [2]:
# Supón que ya tienes el cliente y la base de datos conectada (db = client['tfm_yelp_db'])
# Limpia cada colección relevante (puedes poner esto antes del bucle de importación)
db['businesses'].delete_many({})
db['reviews'].delete_many({})
db['clients'].delete_many({})

print("✅ Colecciones limpiadas correctamente.")

✅ Colecciones limpiadas correctamente.


In [3]:
import json
from tqdm import tqdm

ARCHIVOS = {
    "businesses": "../data/raw/yelp_academic_dataset_business.json",
    "reviews": "../data/raw/yelp_academic_dataset_review.json",
    "clients": "../data/raw/yelp_academic_dataset_user.json",
}

BATCH_SIZE = 5000

for coleccion, ruta in ARCHIVOS.items():
    print(f"\n🚀 Importando archivo '{ruta}' a colección '{coleccion}' ...")
    collection = db[coleccion]

    # (Opcional) Limpiar la colección antes de importar
    # collection.delete_many({})

    # Contar líneas para la barra de progreso
    with open(ruta, 'r') as f:
        total = sum(1 for _ in f)

    with open(ruta, 'r') as f:
        batch = []
        for line in tqdm(f, total=total, desc=f"Importando {coleccion}"):
            doc = json.loads(line)
            batch.append(doc)
            if len(batch) >= BATCH_SIZE:
                collection.insert_many(batch)
                batch = []
        if batch:
            collection.insert_many(batch)

    print(f"✅ Colección '{coleccion}' importada correctamente con {total} documentos.")

print("\n🎉 Todos los archivos han sido importados con éxito.")


🚀 Importando archivo '../data/raw/yelp_academic_dataset_business.json' a colección 'businesses' ...


Importando businesses: 100%|██████████| 150346/150346 [01:46<00:00, 1414.88it/s]


✅ Colección 'businesses' importada correctamente con 150346 documentos.

🚀 Importando archivo '../data/raw/yelp_academic_dataset_review.json' a colección 'reviews' ...


Importando reviews: 100%|██████████| 6990280/6990280 [1:15:12<00:00, 1548.98it/s]


✅ Colección 'reviews' importada correctamente con 6990280 documentos.

🚀 Importando archivo '../data/raw/yelp_academic_dataset_user.json' a colección 'clients' ...


Importando clients: 100%|██████████| 1987897/1987897 [46:52<00:00, 706.84it/s] 


✅ Colección 'clients' importada correctamente con 1987897 documentos.

🎉 Todos los archivos han sido importados con éxito.


## 3. Funciones Auxiliares para la Ingesta de Datos

Definimos funciones helper para procesar y cargar los datos de manera eficiente:

In [None]:
from tqdm.rich import tqdm
import os
import json
from datetime import datetime

def read_json_in_chunks(file_path, chunk_size=1000):
    """Lee un archivo JSON línea por línea en chunks.
    
    Args:
        file_path: Ruta al archivo JSON
        chunk_size: Tamaño de cada chunk
    """
    chunk = []
    
    # Abrimos el archivo y procesamos línea por línea
    with open(file_path, 'r', encoding='utf-8') as file:
        # Contamos líneas para la barra de progreso (opcional, pero más preciso)
        total_lines = sum(1 for _ in open(file_path, 'r', encoding='utf-8'))
        
        # Usamos tqdm.rich para una barra de progreso visualmente atractiva
        for line in tqdm(file, desc=f"Leyendo {os.path.basename(file_path)}", 
                         total=total_lines):
            try:
                data = json.loads(line.strip())
                chunk.append(data)
                
                if len(chunk) >= chunk_size:
                    yield chunk
                    chunk = []
            except json.JSONDecodeError as e:
                print(f"Error al decodificar JSON: {e}")
                continue
    
    if chunk:  # Yield the last chunk if it exists
        yield chunk

def is_restaurant(business):
    """Verifica si un negocio es un restaurante basado en sus categorías."""
    if not business.get('categories'):
        return False
    categories = business['categories'].lower()
    restaurant_keywords = ['restaurant', 'food', 'cafe', 'bar', 'pub', 'bistro', 'diner', 
                           'pizzeria', 'bakery', 'coffee', 'grill', 'steakhouse', 'sushi', 
                           'taco', 'burger', 'sandwich', 'BBQ', 'kitchen']
    return any(keyword in categories for keyword in restaurant_keywords)

def enrich_business_data(business):
    """Enriquece los datos del negocio con campos adicionales."""
    business['processed_at'] = datetime.utcnow()
    business['is_restaurant'] = is_restaurant(business)
    return business

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from rich.console import Console
from rich.table import Table

console = Console()

def analyze_sample_data(collection, sample_size=5, fields_to_show=None):
    """Analiza una muestra de datos de una colección.
    
    Args:
        collection: Colección de MongoDB
        sample_size: Tamaño de la muestra
        fields_to_show: Lista de campos a mostrar
    """
    sample = list(collection.aggregate([{'$sample': {'size': sample_size}}]))
    
    if not sample:
        print("❌ No se encontraron documentos en la colección.")
        return
    
    # Si no se especifican campos, mostrar todos
    if not fields_to_show:
        fields_to_show = list(sample[0].keys())
    
    # Crear una tabla bonita con Rich
    table = Table(title=f"Muestra de {collection.name}", show_header=True, header_style="bold blue")
    
    # Añadir columnas
    for field in fields_to_show:
        table.add_column(field, overflow="fold")
    
    # Añadir filas
    for doc in sample:
        row = []
        for field in fields_to_show:
            if field in doc:
                # Truncar valores largos
                value = str(doc[field])
                if len(value) > 100:
                    value = value[:97] + "..."
                row.append(value)
            else:
                row.append("N/A")
        table.add_row(*row)
    
    console.print(table)
    
def export_filtered_data(db, output_file, pipeline=None):
    """Exporta datos filtrados desde MongoDB a un archivo CSV.
    
    Args:
        db: Base de datos de MongoDB
        output_file: Nombre del archivo CSV de salida
        pipeline: Pipeline de agregación para MongoDB (opcional)
    """
    # Pipeline por defecto: unir restaurantes con sus reseñas y calcular promedio de estrellas
    if pipeline is None:
        pipeline = [
            # Etapa 1: Obtener solo restaurantes
            {'$match': {'is_restaurant': True}},
            
            # Etapa 2: Lookup para unir con reseñas
            {'$lookup': {
                'from': 'reviews',
                'localField': 'business_id',
                'foreignField': 'business_id',
                'as': 'reviews'
            }},
            
            # Etapa 3: Añadir campos calculados
            {'$addFields': {
                'avg_rating': {'$avg': '$reviews.stars'},
                'review_count': {'$size': '$reviews'},
                'has_reviews': {'$gt': [{'$size': '$reviews'}, 0]}
            }},
            
            # Etapa 4: Filtrar los que tienen reseñas
            {'$match': {'has_reviews': True}},
            
            # Etapa 5: Proyecto solo los campos que nos interesan
            {'$project': {
                '_id': 0,
                'business_id': 1,
                'name': 1,
                'city': 1,
                'state': 1,
                'stars': 1,
                'avg_rating': 1,
                'review_count': 1,
                'categories': 1
            }}
        ]
    
    # Ejecutar el pipeline y convertir a DataFrame
    print(f"🔍 Ejecutando pipeline de agregación...")
    result = list(db.businesses.aggregate(pipeline))
    
    if not result:
        print("❌ No se encontraron resultados.")
        return None
    
    print(f"✅ Se obtuvieron {len(result):,} documentos.")
    df = pd.DataFrame(result)
    
    # Guardar a CSV
    df.to_csv(output_file, index=False)
    print(f"💾 Datos exportados a {output_file}")
    
    return df

def analyze_dataframe(df, output_image=None):
    """Realiza un análisis básico de un DataFrame.
    
    Args:
        df: DataFrame de pandas
        output_image: Ruta para guardar una imagen con visualizaciones
    """
    print("\n📊 Análisis del DataFrame:")
    print(f"   - Dimensiones: {df.shape[0]} filas x {df.shape[1]} columnas")
    print(f"   - Columnas: {', '.join(df.columns.tolist())}")
    
    # Mostrar los primeros registros
    print("\n🔍 Primeras filas:")
    display(df.head())
    
    # Estadísticas descriptivas
    print("\n📈 Estadísticas descriptivas:")
    display(df.describe())
    
    # Verificar valores nulos
    null_counts = df.isnull().sum()
    print("\n❓ Valores nulos por columna:")
    display(null_counts[null_counts > 0] if null_counts.any() > 0 else "No hay valores nulos")
    
    # Crear visualizaciones
    if 'avg_rating' in df.columns and 'review_count' in df.columns:
        plt.figure(figsize=(12, 5))
        
        plt.subplot(1, 2, 1)
        sns.histplot(df['avg_rating'].dropna(), kde=True)
        plt.title('Distribución de Calificaciones Promedio')
        plt.xlabel('Calificación Promedio')
        
        plt.subplot(1, 2, 2)
        sns.histplot(df['review_count'].dropna(), kde=True, log_scale=True)
        plt.title('Distribución de Cantidad de Reseñas (escala log)')
        plt.xlabel('Cantidad de Reseñas')
        
        plt.tight_layout()
        
        if output_image:
            plt.savefig(output_image)
            print(f"📷 Gráficos guardados en {output_image}")
        
        plt.show()

## 4. Carga de Datos de Negocios

Primero cargamos los datos de negocios, enfocándonos en restaurantes:

In [None]:
# Configuración de rutas
BUSINESS_FILE = '../data/raw/yelp_academic_dataset_business.json'

# Contadores para estadísticas
total_businesses = 0
restaurants = 0

# Procesar y cargar negocios
for chunk in read_json_in_chunks(BUSINESS_FILE):
    # Enriquecer datos
    enriched_businesses = [enrich_business_data(business) for business in chunk]
    
    # Filtrar solo restaurantes
    restaurant_chunk = [b for b in enriched_businesses if b['is_restaurant']]
    
    # Actualizar contadores
    total_businesses += len(chunk)
    restaurants += len(restaurant_chunk)
    
    # Insertar en MongoDB si hay datos
    if restaurant_chunk:
        businesses_collection.insert_many(restaurant_chunk)

print(f"\n📊 Estadísticas de carga de negocios:")
print(f"   - Total de negocios procesados: {total_businesses:,}")
print(f"   - Restaurantes encontrados: {restaurants:,}")


## 5. Carga de Reseñas

Ahora cargamos las reseñas, pero solo aquellas relacionadas con los restaurantes que ya identificamos:

In [None]:
# Obtener IDs de restaurantes
restaurant_business_ids = set(businesses_collection.distinct('business_id'))
print(f"🔍 Buscando reseñas para {len(restaurant_business_ids):,} restaurantes")

# Configuración
REVIEW_FILE = '../data/raw/yelp_academic_dataset_review.json'
reviews_processed = 0
reviews_restaurants = 0

# Procesar reseñas
for chunk in read_json_in_chunks(REVIEW_FILE):
    # Filtrar reseñas de restaurantes
    restaurant_reviews = [
        {
            **review,
            'processed_at': datetime.utcnow()
        }
        for review in chunk
        if review['business_id'] in restaurant_business_ids
    ]
    
    # Actualizar contadores
    reviews_processed += len(chunk)
    reviews_restaurants += len(restaurant_reviews)
    
    # Insertar en MongoDB si hay datos
    if restaurant_reviews:
        reviews_collection.insert_many(restaurant_reviews)
    
    # Mostrar progreso cada 100,000 reseñas
    if reviews_processed % 100_000 == 0:
        print(f"   Procesadas {reviews_processed:,} reseñas...")

print(f"\n📊 Estadísticas de carga de reseñas:")
print(f"   - Total de reseñas procesadas: {reviews_processed:,}")
print(f"   - Reseñas de restaurantes: {reviews_restaurants:,}")


## 6. Carga Completa de los Tres Archivos Principales

A continuación, implementaremos la carga completa de los tres archivos principales del dataset de Yelp:
1. Business
2. Reviews
3. Users

Esto nos permitirá tener un conjunto de datos completo para realizar análisis más profundos.

In [None]:
# Configuración de rutas
BUSINESS_FILE = '../data/raw/yelp_academic_dataset_business.json'
REVIEW_FILE = '../data/raw/yelp_academic_dataset_review.json'
USER_FILE = '../data/raw/yelp_academic_dataset_user.json'

# Cargar usuarios relacionados con restaurantes
# En este caso, cargamos solo los usuarios que han escrito reseñas sobre restaurantes
print("\n🔄 Cargando datos de usuarios...")

# 1. Primero obtenemos IDs de usuarios que han escrito reseñas sobre restaurantes
user_ids = set(reviews_collection.distinct('user_id'))
print(f"🔍 Encontrados {len(user_ids):,} usuarios con reseñas en restaurantes")

# 2. Ahora cargamos solo esos usuarios
users_processed = 0
users_loaded = 0

for chunk in read_json_in_chunks(USER_FILE, chunk_size=5000):
    # Filtrar usuarios que han escrito reseñas de restaurantes
    restaurant_users = [
        {
            **user,
            'processed_at': datetime.utcnow()
        }
        for user in chunk
        if user['user_id'] in user_ids
    ]
    
    # Actualizar contadores
    users_processed += len(chunk)
    users_loaded += len(restaurant_users)
    
    # Insertar en MongoDB si hay datos
    if restaurant_users:
        users_collection.insert_many(restaurant_users)
    
    # Mostrar progreso cada 100,000 usuarios
    if users_processed % 100_000 == 0:
        print(f"   Procesados {users_processed:,} usuarios...")

print(f"\n📊 Estadísticas de carga de usuarios:")
print(f"   - Total de usuarios procesados: {users_processed:,}")
print(f"   - Usuarios con reseñas en restaurantes: {users_loaded:,}")

# Recuento final de datos en las colecciones
print("\n📊 Resumen completo de datos en MongoDB:")
print(f"   - Total de restaurantes: {businesses_collection.count_documents({'is_restaurant': True}):,}")
print(f"   - Total de reseñas de restaurantes: {reviews_collection.count_documents({}):,}")
print(f"   - Total de usuarios cargados: {users_collection.count_documents({}):,}")

## 7. Análisis y Exploración con PyMongo

MongoDB proporciona potentes capacidades de consulta y agregación que nos permiten analizar los datos directamente en la base de datos. A continuación, exploramos algunos ejemplos de análisis de datos utilizando el framework de agregación de MongoDB.

In [None]:
# Exploremos los datos usando consultas y agregaciones avanzadas de MongoDB

# 1. Verificar los campos disponibles en cada colección
print("📋 Campos disponibles en negocios:")
business_fields = list(businesses_collection.find_one({}, {'_id': 0}).keys())
print(f"   {', '.join(business_fields[:10])}...")

print("\n📋 Campos disponibles en reseñas:")
review_fields = list(reviews_collection.find_one({}, {'_id': 0}).keys())
print(f"   {', '.join(review_fields)}")

print("\n📋 Campos disponibles en usuarios:")
user_fields = list(users_collection.find_one({}, {'_id': 0}).keys())
print(f"   {', '.join(user_fields[:10])}...")

# 2. Analizar una muestra de cada colección
print("\n🔍 Muestra de restaurantes:")
analyze_sample_data(
    businesses_collection, 
    sample_size=3, 
    fields_to_show=['name', 'city', 'state', 'stars', 'review_count', 'categories']
)

print("\n🔍 Muestra de reseñas:")
analyze_sample_data(
    reviews_collection, 
    sample_size=3, 
    fields_to_show=['business_id', 'user_id', 'stars', 'date', 'text']
)

print("\n🔍 Muestra de usuarios:")
analyze_sample_data(
    users_collection, 
    sample_size=3, 
    fields_to_show=['user_id', 'name', 'review_count', 'yelping_since', 'average_stars']
)

In [None]:
# Consultas de agregación avanzadas

# 1. Top 10 ciudades con más restaurantes
print("\n🏙️ Top 10 ciudades con más restaurantes:")
city_pipeline = [
    {'$match': {'is_restaurant': True}},
    {'$group': {
        '_id': {'city': '$city', 'state': '$state'},
        'count': {'$sum': 1}
    }},
    {'$sort': {'count': -1}},
    {'$limit': 10}
]

for result in businesses_collection.aggregate(city_pipeline):
    city_info = result['_id']
    print(f"   - {city_info['city']}, {city_info['state']}: {result['count']:,} restaurantes")

# 2. Distribución de calificaciones de restaurantes
print("\n⭐ Distribución de calificaciones de restaurantes:")
rating_pipeline = [
    {'$match': {'is_restaurant': True}},
    {'$group': {
        '_id': '$stars',
        'count': {'$sum': 1}
    }},
    {'$sort': {'_id': 1}}
]

ratings = []
counts = []
for result in businesses_collection.aggregate(rating_pipeline):
    ratings.append(result['_id'])
    counts.append(result['count'])
    print(f"   - {result['_id']} estrellas: {result['count']:,} restaurantes")

# 3. Usuarios más activos en reseñas de restaurantes
print("\n👥 Top 5 usuarios con más reseñas de restaurantes:")
user_pipeline = [
    {'$group': {
        '_id': '$user_id',
        'review_count': {'$sum': 1}
    }},
    {'$sort': {'review_count': -1}},
    {'$limit': 5}
]

for idx, result in enumerate(reviews_collection.aggregate(user_pipeline), 1):
    user = users_collection.find_one({'user_id': result['_id']})
    if user:
        print(f"   {idx}. {user['name']}: {result['review_count']:,} reseñas")
    else:
        print(f"   {idx}. Usuario {result['_id']}: {result['review_count']:,} reseñas")

# 4. Longitud promedio de reseñas por calificación
print("\n📏 Longitud promedio de reseñas por calificación:")
length_pipeline = [
    {'$addFields': {
        'text_length': {'$strLenCP': '$text'}
    }},
    {'$group': {
        '_id': '$stars',
        'avg_length': {'$avg': '$text_length'},
        'count': {'$sum': 1}
    }},
    {'$sort': {'_id': 1}}
]

for result in reviews_collection.aggregate(length_pipeline):
    print(f"   - {result['_id']} estrellas: {result['avg_length']:.1f} caracteres (basado en {result['count']:,} reseñas)")

## 8. Exportación de Datos para Modelaje

Para facilitar el modelaje de los datos, es útil exportar un conjunto de datos filtrado y procesado a un archivo CSV. Esto permite utilizar herramientas como pandas, scikit-learn o bibliotecas de NLP para realizar análisis avanzados.

A continuación, exportaremos un conjunto de datos que incluya información de restaurantes junto con estadísticas de sus reseñas, que será utilizado posteriormente para modelaje de tópicos y análisis de sentimientos.

In [None]:
# Definir pipeline para exportar datos de restaurantes con sus reseñas
# Este pipeline creará un dataset enriquecido para modelaje

export_pipeline = [
    # Etapa 1: Solo restaurantes
    {'$match': {'is_restaurant': True}},
    
    # Etapa 2: Lookup para unir con reseñas
    {'$lookup': {
        'from': 'reviews',
        'localField': 'business_id',
        'foreignField': 'business_id',
        'as': 'reviews'
    }},
    
    # Etapa 3: Añadir campos calculados
    {'$addFields': {
        'avg_rating': {'$avg': '$reviews.stars'},
        'review_count': {'$size': '$reviews'},
        'recent_reviews': {
            '$slice': [  # Solo incluir las 3 reseñas más recientes
                {'$sortArray': {
                    'input': '$reviews',
                    'sortBy': {'date': -1}
                }},
                0, 3
            ]
        }
    }},
    
    # Etapa 4: Filtrar solo los que tienen al menos 5 reseñas para tener datos significativos
    {'$match': {'review_count': {'$gte': 5}}},
    
    # Etapa 5: Proyecto final con campos relevantes
    {'$project': {
        '_id': 0,
        'business_id': 1,
        'name': 1,
        'city': 1,
        'state': 1,
        'postal_code': 1,
        'stars': 1,  # Rating promedio en Yelp
        'avg_rating': 1,  # Rating promedio calculado de las reseñas que tenemos
        'review_count': 1,
        'categories': 1,
        # Extraer textos de las reseñas recientes
        'recent_review_1': {'$arrayElemAt': ['$recent_reviews.text', 0]},
        'recent_review_2': {'$arrayElemAt': ['$recent_reviews.text', 1]},
        'recent_review_3': {'$arrayElemAt': ['$recent_reviews.text', 2]},
        'all_review_count': '$review_count'  # Total de reseñas en nuestra base
    }},
    
    # Etapa 6: Limitar a 10,000 restaurantes para el archivo de modelo
    {'$limit': 10000}
]

# Crear carpeta de outputs si no existe
import os
output_dir = '../data/processed'
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Exportar datos
output_file = os.path.join(output_dir, 'restaurants_for_modeling.csv')
model_df = export_filtered_data(db, output_file, export_pipeline)

# Analizar el dataset resultante
if model_df is not None:
    # Verificar dimensiones
    print(f"\n📊 Dataset para modelaje:")
    print(f"   - Dimensiones: {model_df.shape[0]} filas x {model_df.shape[1]} columnas")
    
    # Ver distribución de categorías
    if 'categories' in model_df.columns:
        # Crear un conjunto de todas las categorías
        all_categories = set()
        for cats in model_df['categories'].dropna():
            if isinstance(cats, str):
                all_categories.update([c.strip() for c in cats.split(',')])
        
        print(f"   - Se encontraron {len(all_categories)} categorías diferentes")
        print(f"   - Muestra de categorías: {', '.join(list(all_categories)[:10])}")
    
    # Ver los tipos de datos
    print("\n📋 Tipos de datos en el dataset:")
    display(model_df.dtypes)
    
    # Guardar un gráfico de análisis
    output_image = os.path.join(output_dir, 'restaurants_analysis.png')
    analyze_dataframe(model_df, output_image)

## 9. Integración con Modelaje de Topics y NLP

Con el dataset exportado, ahora podemos proceder a la siguiente fase del TFM que incluiría:

1. **Preprocesamiento de texto** para el análisis NLP:
   - Limpieza de texto (eliminación de stopwords, normalización, tokenización)
   - Extracción de características (TF-IDF, Word Embeddings)
   - Análisis de sentimiento en las reseñas

2. **Modelado de tópicos** usando técnicas como:
   - Latent Dirichlet Allocation (LDA)
   - BERTopic
   - Top2Vec

3. **Visualizaciones interactivas** de los resultados:
   - Representaciones de tópicos
   - Evolución del sentimiento por categoría de restaurante
   - Mapas geoespaciales de distribución de opiniones

El archivo CSV generado contiene toda la información necesaria para estos análisis, incluyendo:
- Datos básicos de los restaurantes
- Categorías para agrupar y segmentar
- Texto de reseñas recientes para análisis NLP
- Métricas cuantitativas (ratings) para correlación con hallazgos de NLP

In [None]:
# Demostración básica de algunas técnicas NLP con el dataset exportado
try:
    from wordcloud import WordCloud
    import nltk
    from nltk.corpus import stopwords
    
    # Primero verificamos si el dataset existe
    if 'model_df' in locals() and isinstance(model_df, pd.DataFrame) and len(model_df) > 0:
        print("🔬 Demostración de técnicas NLP básicas con las reseñas:")
        
        # Crear un corpus de texto combinando las reseñas recientes
        corpus = []
        for col in ['recent_review_1', 'recent_review_2', 'recent_review_3']:
            if col in model_df.columns:
                corpus.extend(model_df[col].dropna().tolist())
        
        # Eliminar valores nulos y convertir a strings
        corpus = [str(text) for text in corpus if text is not None]
        
        # Imprimir estadísticas del corpus
        print(f"\n📊 Estadísticas del corpus de reseñas:")
        print(f"   - Total de reseñas en el corpus: {len(corpus):,}")
        print(f"   - Longitud promedio de las reseñas: {sum(len(text) for text in corpus) / len(corpus):.1f} caracteres")
        
        # Intentar descargar stopwords si no existen
        try:
            nltk.download('stopwords', quiet=True)
            stop_words = set(stopwords.words('english'))
            
            # Unir todo el texto para la nube de palabras
            all_text = ' '.join(corpus)
            
            # Crear y mostrar nube de palabras
            plt.figure(figsize=(12, 8))
            wordcloud = WordCloud(
                width=800, height=400,
                background_color='white',
                stopwords=stop_words,
                max_words=100
            ).generate(all_text)
            
            plt.imshow(wordcloud, interpolation='bilinear')
            plt.axis("off")
            plt.title("Nube de Palabras de Reseñas de Restaurantes", fontsize=20)
            plt.tight_layout()
            
            # Guardar la nube de palabras
            wordcloud_path = os.path.join(output_dir, 'reviews_wordcloud.png')
            plt.savefig(wordcloud_path)
            print(f"\n💾 Nube de palabras guardada en: {wordcloud_path}")
            
            plt.show()
            
        except Exception as e:
            print(f"⚠️ No se pudo generar la nube de palabras: {e}")
    
    else:
        print("⚠️ No hay un dataset disponible para el análisis NLP")
        
except ImportError:
    print("⚠️ Para análisis NLP completo, instale las librerías adicionales:")
    print("   - wordcloud: para nubes de palabras")
    print("   - nltk: para procesamiento de lenguaje natural")
    print("   - scikit-learn: para vectorización y modelado")

## 10. Conclusiones y Resumen del Pipeline de Ingesta

✅ **Completado en este notebook**:

1. **Ingesta completa de datos**
   - Carga selectiva de restaurantes del dataset de Yelp
   - Ingesta de reseñas asociadas a estos restaurantes
   - Carga de usuarios que han escrito las reseñas

2. **Análisis exploratorio con PyMongo**
   - Uso del framework de agregación para obtener insights
   - Análisis de distribución geográfica, calificaciones y patrones de reseñas
   - Identificación de usuarios más activos y tendencias en el contenido

3. **Exportación para modelaje**
   - Creación de un dataset enriquecido para análisis NLP
   - Muestra de reseñas recientes para modelado de tópicos
   - Inclusión de campos de metadata para análisis contextual

4. **Demo básica de técnicas NLP**
   - Procesamiento preliminar del corpus de reseñas
   - Visualización de términos frecuentes con WordCloud

➡️ **Próximos Pasos**:

1. Profundizar en el análisis exploratorio de datos
2. Implementar pipeline de preprocesamiento de texto completo
3. Desarrollar modelos de extracción de tópicos y análisis de sentimiento
4. Integrar hallazgos en un dashboard interactivo con Streamlit

Esta fase de ingesta sienta las bases para todo el análisis posterior, proporcionando un conjunto de datos limpio, filtrado y estructurado para aplicar técnicas avanzadas de NLP y machine learning.

In [None]:
# Estadísticas finales
print("📊 Resumen de datos en MongoDB:")
print(f"   - Total de restaurantes: {businesses_collection.count_documents({'is_restaurant': True}):,}")
print(f"   - Total de reseñas cargadas: {reviews_collection.count_documents({}):,}")

# Ejemplo de agregación: Promedio de estrellas por restaurante
pipeline = [
    {'$group': {
        '_id': '$business_id',
        'avg_stars': {'$avg': '$stars'},
        'review_count': {'$sum': 1}
    }},
    {'$sort': {'review_count': -1}},
    {'$limit': 5}
]

print("\n🌟 Top 5 restaurantes por número de reseñas:")
for result in reviews_collection.aggregate(pipeline):
    business = businesses_collection.find_one({'business_id': result['_id']})
    if business:
        print(f"   - {business['name']}: {result['review_count']:,} reseñas, {result['avg_stars']:.1f} estrellas promedio")
