# TFM - Ingesta de Datos desde Yelp a MongoDB Atlas

Este notebook implementa el pipeline de ingesta de datos para el proyecto:

**T√≠tulo del TFM**: An√°lisis de Datos y Procesamiento de Lenguaje Natural para la Extracci√≥n de Opiniones y Modelado de T√≥picos en Restaurantes: Un Enfoque de Big Data y Ciencia de Datos Aplicado al Estudio Integral del Sector Gastron√≥mico

## Objetivo del Notebook
Implementar un pipeline de datos que:
1. Lea los archivos JSON del dataset de Yelp
2. Filtre los negocios relevantes (restaurantes)
3. Cargue los datos en MongoDB Atlas para su posterior an√°lisis
   
## Estructura de Datos
El dataset de Yelp incluye varios archivos JSON:
- `yelp_academic_dataset_business.json`: Informaci√≥n de negocios (ubicaci√≥n, categor√≠as, etc.)
- `yelp_academic_dataset_review.json`: Rese√±as de usuarios con texto y calificaciones
- `yelp_academic_dataset_user.json`: Informaci√≥n de usuarios
- `yelp_academic_dataset_checkin.json`: Check-ins en negocios
- `yelp_academic_dataset_tip.json`: Tips cortos de usuarios

## 1. Instalaci√≥n y Configuraci√≥n

Necesitamos las siguientes librer√≠as:
- `pymongo`: Para conectar con MongoDB Atlas
- `pandas`: Para el manejo eficiente de datos
- `tqdm`: Para barras de progreso en operaciones largas

### Nota sobre las herramientas utilizadas

En este notebook usamos:
- **uv**: Un instalador de paquetes Python ultrarr√°pido y confiable que reemplaza a pip.
- **tqdm**: Para barras de progreso en operaciones de procesamiento.

Estas herramientas modernas mejoran la experiencia de desarrollo y la visualizaci√≥n del progreso durante la ejecuci√≥n de tareas largas.

### Instalamos las dependencias necesarias con uv (instalador r√°pido de Python)

`uv add pymongo tqdm python-dotenv pandas`

## 2. Conexi√≥n a MongoDB Atlas

‚ö†Ô∏è **IMPORTANTE: Seguridad de las Credenciales**
- Nunca subas tu contrase√±a a un repositorio
- Usa variables de entorno o archivos .env para las credenciales
- Aseg√∫rate de que tu IP est√© en la whitelist de MongoDB Atlas

### Configuraci√≥n del archivo .env

Para mayor seguridad, es recomendable guardar las credenciales en un archivo `.env` en el directorio ra√≠z del proyecto:

```
# Archivo .env (coloca este archivo en la ra√≠z del proyecto)
MONGODB_PASSWORD=tu_contrase√±a_real
```

Aseg√∫rate de que este archivo est√© incluido en `.gitignore` para evitar subirlo accidentalmente al repositorio.

In [1]:
import os
from dotenv import load_dotenv
from pymongo import MongoClient
from pymongo.server_api import ServerApi

# Cargar variables de entorno desde archivo .env
# El archivo .env debe estar en la ra√≠z del proyecto o especificar la ruta
dotenv_path = os.path.join(os.path.dirname(os.path.dirname(os.path.abspath("__file__"))), '.env')
load_dotenv(dotenv_path)

# Configuraci√≥n de la conexi√≥n a MongoDB Atlas
PASSWORD = os.environ.get("MONGODB_PASSWORD")  # Obtener la contrase√±a del archivo .env

# Verificar que la contrase√±a existe
if not PASSWORD:
    print("‚ùå Error: No se encontr√≥ la variable MONGODB_PASSWORD en el archivo .env")
    print("Por favor, crea un archivo .env con la variable MONGODB_PASSWORD=tu_contrase√±a_real")
else:
    uri = f"mongodb+srv://juank920621:{PASSWORD}@cluster0.tsbdbxg.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

    # Crear cliente de MongoDB
    client = MongoClient(uri, server_api=ServerApi('1'))

    try:
        # Verificar la conexi√≥n
        client.admin.command('ping')
        print("‚úÖ Conexi√≥n exitosa a MongoDB Atlas")
        
        # Crear/seleccionar la base de datos y colecciones
        db = client['tfm_yelp_db']
        businesses_collection = db['businesses']
        reviews_collection = db['reviews']
        users_collection = db['clients']
        
        print("üìÅ Base de datos y colecciones configuradas:")
        print(f"   - Database: {db.name}")
        print(f"   - Collections: {', '.join([businesses_collection.name, reviews_collection.name, users_collection.name])}")
        
    except Exception as e:
        print("‚ùå Error al conectar a MongoDB Atlas:")
        print(e)

‚úÖ Conexi√≥n exitosa a MongoDB Atlas
üìÅ Base de datos y colecciones configuradas:
   - Database: tfm_yelp_db
   - Collections: businesses, reviews, clients


### Importaci√≥n de datos JSON a MongoDB Atlas

En esta secci√≥n se realiza la importaci√≥n de los archivos principales del *Yelp Open Dataset* (`business`, `review` y `user`) a una base de datos en MongoDB Atlas. Para ello, se utiliza PyMongo y la conexi√≥n segura configurada mediante un archivo `.env` que contiene la contrase√±a.

**Pasos realizados:**

1. **Conexi√≥n a MongoDB Atlas:**  
   Se establece la conexi√≥n usando la URI personalizada, cargando la contrase√±a desde variables de entorno. Se verifica que la conexi√≥n sea exitosa antes de realizar cualquier operaci√≥n.

2. **Carga de archivos JSON Lines:**  
   Cada uno de los archivos (`yelp_academic_dataset_business.json`, `yelp_academic_dataset_review.json`, `yelp_academic_dataset_user.json`) se encuentra en formato JSON Lines, es decir, cada l√≠nea del archivo representa un documento individual.

3. **Importaci√≥n eficiente en lotes:**  
   Para evitar problemas de memoria, los documentos se insertan en la base de datos en lotes de 1,000 registros por operaci√≥n. Se utiliza la barra de progreso de `tqdm` para visualizar el avance.

4. **Colecciones creadas:**  
   - `businesses`: Informaci√≥n sobre los negocios.
   - `reviews`: Rese√±as realizadas por los usuarios.
   - `clients`: Informaci√≥n de los usuarios.

Este proceso deja todos los datos necesarios disponibles en la base de datos MongoDB Atlas para su posterior an√°lisis y explotaci√≥n dentro del proyecto del Trabajo de Fin de M√°ster.

> **Nota:** Si los archivos son muy grandes, es recomendable contar con una conexi√≥n estable a internet y evitar ejecutar varias veces la importaci√≥n para no duplicar datos (puede limpiarse la colecci√≥n antes de cada importaci√≥n si es necesario).

In [2]:
# Sup√≥n que ya tienes el cliente y la base de datos conectada (db = client['tfm_yelp_db'])
# Limpia cada colecci√≥n relevante (puedes poner esto antes del bucle de importaci√≥n)
db['businesses'].delete_many({})
db['reviews'].delete_many({})
db['clients'].delete_many({})

print("‚úÖ Colecciones limpiadas correctamente.")

‚úÖ Colecciones limpiadas correctamente.


In [3]:
import json
from tqdm import tqdm

ARCHIVOS = {
    "businesses": "../data/raw/yelp_academic_dataset_business.json",
    "reviews": "../data/raw/yelp_academic_dataset_review.json",
    "clients": "../data/raw/yelp_academic_dataset_user.json",
}

BATCH_SIZE = 5000

for coleccion, ruta in ARCHIVOS.items():
    print(f"\nüöÄ Importando archivo '{ruta}' a colecci√≥n '{coleccion}' ...")
    collection = db[coleccion]

    # (Opcional) Limpiar la colecci√≥n antes de importar
    # collection.delete_many({})

    # Contar l√≠neas para la barra de progreso
    with open(ruta, 'r') as f:
        total = sum(1 for _ in f)

    with open(ruta, 'r') as f:
        batch = []
        for line in tqdm(f, total=total, desc=f"Importando {coleccion}"):
            doc = json.loads(line)
            batch.append(doc)
            if len(batch) >= BATCH_SIZE:
                collection.insert_many(batch)
                batch = []
        if batch:
            collection.insert_many(batch)

    print(f"‚úÖ Colecci√≥n '{coleccion}' importada correctamente con {total} documentos.")

print("\nüéâ Todos los archivos han sido importados con √©xito.")


üöÄ Importando archivo '../data/raw/yelp_academic_dataset_business.json' a colecci√≥n 'businesses' ...


Importando businesses: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 150346/150346 [01:46<00:00, 1414.88it/s]


‚úÖ Colecci√≥n 'businesses' importada correctamente con 150346 documentos.

üöÄ Importando archivo '../data/raw/yelp_academic_dataset_review.json' a colecci√≥n 'reviews' ...


Importando reviews: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 6990280/6990280 [1:15:12<00:00, 1548.98it/s]


‚úÖ Colecci√≥n 'reviews' importada correctamente con 6990280 documentos.

üöÄ Importando archivo '../data/raw/yelp_academic_dataset_user.json' a colecci√≥n 'clients' ...


Importando clients: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1987897/1987897 [46:52<00:00, 706.84it/s] 


‚úÖ Colecci√≥n 'clients' importada correctamente con 1987897 documentos.

üéâ Todos los archivos han sido importados con √©xito.


## 3. Funciones Auxiliares para la Ingesta de Datos

Definimos funciones helper para procesar y cargar los datos de manera eficiente:

In [None]:
from tqdm.rich import tqdm
import os
import json
from datetime import datetime

def read_json_in_chunks(file_path, chunk_size=1000):
    """Lee un archivo JSON l√≠nea por l√≠nea en chunks.
    
    Args:
        file_path: Ruta al archivo JSON
        chunk_size: Tama√±o de cada chunk
    """
    chunk = []
    
    # Abrimos el archivo y procesamos l√≠nea por l√≠nea
    with open(file_path, 'r', encoding='utf-8') as file:
        # Contamos l√≠neas para la barra de progreso (opcional, pero m√°s preciso)
        total_lines = sum(1 for _ in open(file_path, 'r', encoding='utf-8'))
        
        # Usamos tqdm.rich para una barra de progreso visualmente atractiva
        for line in tqdm(file, desc=f"Leyendo {os.path.basename(file_path)}", 
                         total=total_lines):
            try:
                data = json.loads(line.strip())
                chunk.append(data)
                
                if len(chunk) >= chunk_size:
                    yield chunk
                    chunk = []
            except json.JSONDecodeError as e:
                print(f"Error al decodificar JSON: {e}")
                continue
    
    if chunk:  # Yield the last chunk if it exists
        yield chunk

def is_restaurant(business):
    """Verifica si un negocio es un restaurante basado en sus categor√≠as."""
    if not business.get('categories'):
        return False
    categories = business['categories'].lower()
    restaurant_keywords = ['restaurant', 'food', 'cafe', 'bar', 'pub', 'bistro', 'diner', 
                           'pizzeria', 'bakery', 'coffee', 'grill', 'steakhouse', 'sushi', 
                           'taco', 'burger', 'sandwich', 'BBQ', 'kitchen']
    return any(keyword in categories for keyword in restaurant_keywords)

def enrich_business_data(business):
    """Enriquece los datos del negocio con campos adicionales."""
    business['processed_at'] = datetime.utcnow()
    business['is_restaurant'] = is_restaurant(business)
    return business

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from rich.console import Console
from rich.table import Table

console = Console()

def analyze_sample_data(collection, sample_size=5, fields_to_show=None):
    """Analiza una muestra de datos de una colecci√≥n.
    
    Args:
        collection: Colecci√≥n de MongoDB
        sample_size: Tama√±o de la muestra
        fields_to_show: Lista de campos a mostrar
    """
    sample = list(collection.aggregate([{'$sample': {'size': sample_size}}]))
    
    if not sample:
        print("‚ùå No se encontraron documentos en la colecci√≥n.")
        return
    
    # Si no se especifican campos, mostrar todos
    if not fields_to_show:
        fields_to_show = list(sample[0].keys())
    
    # Crear una tabla bonita con Rich
    table = Table(title=f"Muestra de {collection.name}", show_header=True, header_style="bold blue")
    
    # A√±adir columnas
    for field in fields_to_show:
        table.add_column(field, overflow="fold")
    
    # A√±adir filas
    for doc in sample:
        row = []
        for field in fields_to_show:
            if field in doc:
                # Truncar valores largos
                value = str(doc[field])
                if len(value) > 100:
                    value = value[:97] + "..."
                row.append(value)
            else:
                row.append("N/A")
        table.add_row(*row)
    
    console.print(table)
    
def export_filtered_data(db, output_file, pipeline=None):
    """Exporta datos filtrados desde MongoDB a un archivo CSV.
    
    Args:
        db: Base de datos de MongoDB
        output_file: Nombre del archivo CSV de salida
        pipeline: Pipeline de agregaci√≥n para MongoDB (opcional)
    """
    # Pipeline por defecto: unir restaurantes con sus rese√±as y calcular promedio de estrellas
    if pipeline is None:
        pipeline = [
            # Etapa 1: Obtener solo restaurantes
            {'$match': {'is_restaurant': True}},
            
            # Etapa 2: Lookup para unir con rese√±as
            {'$lookup': {
                'from': 'reviews',
                'localField': 'business_id',
                'foreignField': 'business_id',
                'as': 'reviews'
            }},
            
            # Etapa 3: A√±adir campos calculados
            {'$addFields': {
                'avg_rating': {'$avg': '$reviews.stars'},
                'review_count': {'$size': '$reviews'},
                'has_reviews': {'$gt': [{'$size': '$reviews'}, 0]}
            }},
            
            # Etapa 4: Filtrar los que tienen rese√±as
            {'$match': {'has_reviews': True}},
            
            # Etapa 5: Proyecto solo los campos que nos interesan
            {'$project': {
                '_id': 0,
                'business_id': 1,
                'name': 1,
                'city': 1,
                'state': 1,
                'stars': 1,
                'avg_rating': 1,
                'review_count': 1,
                'categories': 1
            }}
        ]
    
    # Ejecutar el pipeline y convertir a DataFrame
    print(f"üîç Ejecutando pipeline de agregaci√≥n...")
    result = list(db.businesses.aggregate(pipeline))
    
    if not result:
        print("‚ùå No se encontraron resultados.")
        return None
    
    print(f"‚úÖ Se obtuvieron {len(result):,} documentos.")
    df = pd.DataFrame(result)
    
    # Guardar a CSV
    df.to_csv(output_file, index=False)
    print(f"üíæ Datos exportados a {output_file}")
    
    return df

def analyze_dataframe(df, output_image=None):
    """Realiza un an√°lisis b√°sico de un DataFrame.
    
    Args:
        df: DataFrame de pandas
        output_image: Ruta para guardar una imagen con visualizaciones
    """
    print("\nüìä An√°lisis del DataFrame:")
    print(f"   - Dimensiones: {df.shape[0]} filas x {df.shape[1]} columnas")
    print(f"   - Columnas: {', '.join(df.columns.tolist())}")
    
    # Mostrar los primeros registros
    print("\nüîç Primeras filas:")
    display(df.head())
    
    # Estad√≠sticas descriptivas
    print("\nüìà Estad√≠sticas descriptivas:")
    display(df.describe())
    
    # Verificar valores nulos
    null_counts = df.isnull().sum()
    print("\n‚ùì Valores nulos por columna:")
    display(null_counts[null_counts > 0] if null_counts.any() > 0 else "No hay valores nulos")
    
    # Crear visualizaciones
    if 'avg_rating' in df.columns and 'review_count' in df.columns:
        plt.figure(figsize=(12, 5))
        
        plt.subplot(1, 2, 1)
        sns.histplot(df['avg_rating'].dropna(), kde=True)
        plt.title('Distribuci√≥n de Calificaciones Promedio')
        plt.xlabel('Calificaci√≥n Promedio')
        
        plt.subplot(1, 2, 2)
        sns.histplot(df['review_count'].dropna(), kde=True, log_scale=True)
        plt.title('Distribuci√≥n de Cantidad de Rese√±as (escala log)')
        plt.xlabel('Cantidad de Rese√±as')
        
        plt.tight_layout()
        
        if output_image:
            plt.savefig(output_image)
            print(f"üì∑ Gr√°ficos guardados en {output_image}")
        
        plt.show()

## 4. Carga de Datos de Negocios

Primero cargamos los datos de negocios, enfoc√°ndonos en restaurantes:

In [None]:
# Configuraci√≥n de rutas
BUSINESS_FILE = '../data/raw/yelp_academic_dataset_business.json'

# Contadores para estad√≠sticas
total_businesses = 0
restaurants = 0

# Procesar y cargar negocios
for chunk in read_json_in_chunks(BUSINESS_FILE):
    # Enriquecer datos
    enriched_businesses = [enrich_business_data(business) for business in chunk]
    
    # Filtrar solo restaurantes
    restaurant_chunk = [b for b in enriched_businesses if b['is_restaurant']]
    
    # Actualizar contadores
    total_businesses += len(chunk)
    restaurants += len(restaurant_chunk)
    
    # Insertar en MongoDB si hay datos
    if restaurant_chunk:
        businesses_collection.insert_many(restaurant_chunk)

print(f"\nüìä Estad√≠sticas de carga de negocios:")
print(f"   - Total de negocios procesados: {total_businesses:,}")
print(f"   - Restaurantes encontrados: {restaurants:,}")


## 5. Carga de Rese√±as

Ahora cargamos las rese√±as, pero solo aquellas relacionadas con los restaurantes que ya identificamos:

In [None]:
# Obtener IDs de restaurantes
restaurant_business_ids = set(businesses_collection.distinct('business_id'))
print(f"üîç Buscando rese√±as para {len(restaurant_business_ids):,} restaurantes")

# Configuraci√≥n
REVIEW_FILE = '../data/raw/yelp_academic_dataset_review.json'
reviews_processed = 0
reviews_restaurants = 0

# Procesar rese√±as
for chunk in read_json_in_chunks(REVIEW_FILE):
    # Filtrar rese√±as de restaurantes
    restaurant_reviews = [
        {
            **review,
            'processed_at': datetime.utcnow()
        }
        for review in chunk
        if review['business_id'] in restaurant_business_ids
    ]
    
    # Actualizar contadores
    reviews_processed += len(chunk)
    reviews_restaurants += len(restaurant_reviews)
    
    # Insertar en MongoDB si hay datos
    if restaurant_reviews:
        reviews_collection.insert_many(restaurant_reviews)
    
    # Mostrar progreso cada 100,000 rese√±as
    if reviews_processed % 100_000 == 0:
        print(f"   Procesadas {reviews_processed:,} rese√±as...")

print(f"\nüìä Estad√≠sticas de carga de rese√±as:")
print(f"   - Total de rese√±as procesadas: {reviews_processed:,}")
print(f"   - Rese√±as de restaurantes: {reviews_restaurants:,}")


## 6. Carga Completa de los Tres Archivos Principales

A continuaci√≥n, implementaremos la carga completa de los tres archivos principales del dataset de Yelp:
1. Business
2. Reviews
3. Users

Esto nos permitir√° tener un conjunto de datos completo para realizar an√°lisis m√°s profundos.

In [None]:
# Configuraci√≥n de rutas
BUSINESS_FILE = '../data/raw/yelp_academic_dataset_business.json'
REVIEW_FILE = '../data/raw/yelp_academic_dataset_review.json'
USER_FILE = '../data/raw/yelp_academic_dataset_user.json'

# Cargar usuarios relacionados con restaurantes
# En este caso, cargamos solo los usuarios que han escrito rese√±as sobre restaurantes
print("\nüîÑ Cargando datos de usuarios...")

# 1. Primero obtenemos IDs de usuarios que han escrito rese√±as sobre restaurantes
user_ids = set(reviews_collection.distinct('user_id'))
print(f"üîç Encontrados {len(user_ids):,} usuarios con rese√±as en restaurantes")

# 2. Ahora cargamos solo esos usuarios
users_processed = 0
users_loaded = 0

for chunk in read_json_in_chunks(USER_FILE, chunk_size=5000):
    # Filtrar usuarios que han escrito rese√±as de restaurantes
    restaurant_users = [
        {
            **user,
            'processed_at': datetime.utcnow()
        }
        for user in chunk
        if user['user_id'] in user_ids
    ]
    
    # Actualizar contadores
    users_processed += len(chunk)
    users_loaded += len(restaurant_users)
    
    # Insertar en MongoDB si hay datos
    if restaurant_users:
        users_collection.insert_many(restaurant_users)
    
    # Mostrar progreso cada 100,000 usuarios
    if users_processed % 100_000 == 0:
        print(f"   Procesados {users_processed:,} usuarios...")

print(f"\nüìä Estad√≠sticas de carga de usuarios:")
print(f"   - Total de usuarios procesados: {users_processed:,}")
print(f"   - Usuarios con rese√±as en restaurantes: {users_loaded:,}")

# Recuento final de datos en las colecciones
print("\nüìä Resumen completo de datos en MongoDB:")
print(f"   - Total de restaurantes: {businesses_collection.count_documents({'is_restaurant': True}):,}")
print(f"   - Total de rese√±as de restaurantes: {reviews_collection.count_documents({}):,}")
print(f"   - Total de usuarios cargados: {users_collection.count_documents({}):,}")

## 7. An√°lisis y Exploraci√≥n con PyMongo

MongoDB proporciona potentes capacidades de consulta y agregaci√≥n que nos permiten analizar los datos directamente en la base de datos. A continuaci√≥n, exploramos algunos ejemplos de an√°lisis de datos utilizando el framework de agregaci√≥n de MongoDB.

In [None]:
# Exploremos los datos usando consultas y agregaciones avanzadas de MongoDB

# 1. Verificar los campos disponibles en cada colecci√≥n
print("üìã Campos disponibles en negocios:")
business_fields = list(businesses_collection.find_one({}, {'_id': 0}).keys())
print(f"   {', '.join(business_fields[:10])}...")

print("\nüìã Campos disponibles en rese√±as:")
review_fields = list(reviews_collection.find_one({}, {'_id': 0}).keys())
print(f"   {', '.join(review_fields)}")

print("\nüìã Campos disponibles en usuarios:")
user_fields = list(users_collection.find_one({}, {'_id': 0}).keys())
print(f"   {', '.join(user_fields[:10])}...")

# 2. Analizar una muestra de cada colecci√≥n
print("\nüîç Muestra de restaurantes:")
analyze_sample_data(
    businesses_collection, 
    sample_size=3, 
    fields_to_show=['name', 'city', 'state', 'stars', 'review_count', 'categories']
)

print("\nüîç Muestra de rese√±as:")
analyze_sample_data(
    reviews_collection, 
    sample_size=3, 
    fields_to_show=['business_id', 'user_id', 'stars', 'date', 'text']
)

print("\nüîç Muestra de usuarios:")
analyze_sample_data(
    users_collection, 
    sample_size=3, 
    fields_to_show=['user_id', 'name', 'review_count', 'yelping_since', 'average_stars']
)

In [None]:
# Consultas de agregaci√≥n avanzadas

# 1. Top 10 ciudades con m√°s restaurantes
print("\nüèôÔ∏è Top 10 ciudades con m√°s restaurantes:")
city_pipeline = [
    {'$match': {'is_restaurant': True}},
    {'$group': {
        '_id': {'city': '$city', 'state': '$state'},
        'count': {'$sum': 1}
    }},
    {'$sort': {'count': -1}},
    {'$limit': 10}
]

for result in businesses_collection.aggregate(city_pipeline):
    city_info = result['_id']
    print(f"   - {city_info['city']}, {city_info['state']}: {result['count']:,} restaurantes")

# 2. Distribuci√≥n de calificaciones de restaurantes
print("\n‚≠ê Distribuci√≥n de calificaciones de restaurantes:")
rating_pipeline = [
    {'$match': {'is_restaurant': True}},
    {'$group': {
        '_id': '$stars',
        'count': {'$sum': 1}
    }},
    {'$sort': {'_id': 1}}
]

ratings = []
counts = []
for result in businesses_collection.aggregate(rating_pipeline):
    ratings.append(result['_id'])
    counts.append(result['count'])
    print(f"   - {result['_id']} estrellas: {result['count']:,} restaurantes")

# 3. Usuarios m√°s activos en rese√±as de restaurantes
print("\nüë• Top 5 usuarios con m√°s rese√±as de restaurantes:")
user_pipeline = [
    {'$group': {
        '_id': '$user_id',
        'review_count': {'$sum': 1}
    }},
    {'$sort': {'review_count': -1}},
    {'$limit': 5}
]

for idx, result in enumerate(reviews_collection.aggregate(user_pipeline), 1):
    user = users_collection.find_one({'user_id': result['_id']})
    if user:
        print(f"   {idx}. {user['name']}: {result['review_count']:,} rese√±as")
    else:
        print(f"   {idx}. Usuario {result['_id']}: {result['review_count']:,} rese√±as")

# 4. Longitud promedio de rese√±as por calificaci√≥n
print("\nüìè Longitud promedio de rese√±as por calificaci√≥n:")
length_pipeline = [
    {'$addFields': {
        'text_length': {'$strLenCP': '$text'}
    }},
    {'$group': {
        '_id': '$stars',
        'avg_length': {'$avg': '$text_length'},
        'count': {'$sum': 1}
    }},
    {'$sort': {'_id': 1}}
]

for result in reviews_collection.aggregate(length_pipeline):
    print(f"   - {result['_id']} estrellas: {result['avg_length']:.1f} caracteres (basado en {result['count']:,} rese√±as)")

## 8. Exportaci√≥n de Datos para Modelaje

Para facilitar el modelaje de los datos, es √∫til exportar un conjunto de datos filtrado y procesado a un archivo CSV. Esto permite utilizar herramientas como pandas, scikit-learn o bibliotecas de NLP para realizar an√°lisis avanzados.

A continuaci√≥n, exportaremos un conjunto de datos que incluya informaci√≥n de restaurantes junto con estad√≠sticas de sus rese√±as, que ser√° utilizado posteriormente para modelaje de t√≥picos y an√°lisis de sentimientos.

In [None]:
# Definir pipeline para exportar datos de restaurantes con sus rese√±as
# Este pipeline crear√° un dataset enriquecido para modelaje

export_pipeline = [
    # Etapa 1: Solo restaurantes
    {'$match': {'is_restaurant': True}},
    
    # Etapa 2: Lookup para unir con rese√±as
    {'$lookup': {
        'from': 'reviews',
        'localField': 'business_id',
        'foreignField': 'business_id',
        'as': 'reviews'
    }},
    
    # Etapa 3: A√±adir campos calculados
    {'$addFields': {
        'avg_rating': {'$avg': '$reviews.stars'},
        'review_count': {'$size': '$reviews'},
        'recent_reviews': {
            '$slice': [  # Solo incluir las 3 rese√±as m√°s recientes
                {'$sortArray': {
                    'input': '$reviews',
                    'sortBy': {'date': -1}
                }},
                0, 3
            ]
        }
    }},
    
    # Etapa 4: Filtrar solo los que tienen al menos 5 rese√±as para tener datos significativos
    {'$match': {'review_count': {'$gte': 5}}},
    
    # Etapa 5: Proyecto final con campos relevantes
    {'$project': {
        '_id': 0,
        'business_id': 1,
        'name': 1,
        'city': 1,
        'state': 1,
        'postal_code': 1,
        'stars': 1,  # Rating promedio en Yelp
        'avg_rating': 1,  # Rating promedio calculado de las rese√±as que tenemos
        'review_count': 1,
        'categories': 1,
        # Extraer textos de las rese√±as recientes
        'recent_review_1': {'$arrayElemAt': ['$recent_reviews.text', 0]},
        'recent_review_2': {'$arrayElemAt': ['$recent_reviews.text', 1]},
        'recent_review_3': {'$arrayElemAt': ['$recent_reviews.text', 2]},
        'all_review_count': '$review_count'  # Total de rese√±as en nuestra base
    }},
    
    # Etapa 6: Limitar a 10,000 restaurantes para el archivo de modelo
    {'$limit': 10000}
]

# Crear carpeta de outputs si no existe
import os
output_dir = '../data/processed'
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Exportar datos
output_file = os.path.join(output_dir, 'restaurants_for_modeling.csv')
model_df = export_filtered_data(db, output_file, export_pipeline)

# Analizar el dataset resultante
if model_df is not None:
    # Verificar dimensiones
    print(f"\nüìä Dataset para modelaje:")
    print(f"   - Dimensiones: {model_df.shape[0]} filas x {model_df.shape[1]} columnas")
    
    # Ver distribuci√≥n de categor√≠as
    if 'categories' in model_df.columns:
        # Crear un conjunto de todas las categor√≠as
        all_categories = set()
        for cats in model_df['categories'].dropna():
            if isinstance(cats, str):
                all_categories.update([c.strip() for c in cats.split(',')])
        
        print(f"   - Se encontraron {len(all_categories)} categor√≠as diferentes")
        print(f"   - Muestra de categor√≠as: {', '.join(list(all_categories)[:10])}")
    
    # Ver los tipos de datos
    print("\nüìã Tipos de datos en el dataset:")
    display(model_df.dtypes)
    
    # Guardar un gr√°fico de an√°lisis
    output_image = os.path.join(output_dir, 'restaurants_analysis.png')
    analyze_dataframe(model_df, output_image)

## 9. Integraci√≥n con Modelaje de Topics y NLP

Con el dataset exportado, ahora podemos proceder a la siguiente fase del TFM que incluir√≠a:

1. **Preprocesamiento de texto** para el an√°lisis NLP:
   - Limpieza de texto (eliminaci√≥n de stopwords, normalizaci√≥n, tokenizaci√≥n)
   - Extracci√≥n de caracter√≠sticas (TF-IDF, Word Embeddings)
   - An√°lisis de sentimiento en las rese√±as

2. **Modelado de t√≥picos** usando t√©cnicas como:
   - Latent Dirichlet Allocation (LDA)
   - BERTopic
   - Top2Vec

3. **Visualizaciones interactivas** de los resultados:
   - Representaciones de t√≥picos
   - Evoluci√≥n del sentimiento por categor√≠a de restaurante
   - Mapas geoespaciales de distribuci√≥n de opiniones

El archivo CSV generado contiene toda la informaci√≥n necesaria para estos an√°lisis, incluyendo:
- Datos b√°sicos de los restaurantes
- Categor√≠as para agrupar y segmentar
- Texto de rese√±as recientes para an√°lisis NLP
- M√©tricas cuantitativas (ratings) para correlaci√≥n con hallazgos de NLP

In [None]:
# Demostraci√≥n b√°sica de algunas t√©cnicas NLP con el dataset exportado
try:
    from wordcloud import WordCloud
    import nltk
    from nltk.corpus import stopwords
    
    # Primero verificamos si el dataset existe
    if 'model_df' in locals() and isinstance(model_df, pd.DataFrame) and len(model_df) > 0:
        print("üî¨ Demostraci√≥n de t√©cnicas NLP b√°sicas con las rese√±as:")
        
        # Crear un corpus de texto combinando las rese√±as recientes
        corpus = []
        for col in ['recent_review_1', 'recent_review_2', 'recent_review_3']:
            if col in model_df.columns:
                corpus.extend(model_df[col].dropna().tolist())
        
        # Eliminar valores nulos y convertir a strings
        corpus = [str(text) for text in corpus if text is not None]
        
        # Imprimir estad√≠sticas del corpus
        print(f"\nüìä Estad√≠sticas del corpus de rese√±as:")
        print(f"   - Total de rese√±as en el corpus: {len(corpus):,}")
        print(f"   - Longitud promedio de las rese√±as: {sum(len(text) for text in corpus) / len(corpus):.1f} caracteres")
        
        # Intentar descargar stopwords si no existen
        try:
            nltk.download('stopwords', quiet=True)
            stop_words = set(stopwords.words('english'))
            
            # Unir todo el texto para la nube de palabras
            all_text = ' '.join(corpus)
            
            # Crear y mostrar nube de palabras
            plt.figure(figsize=(12, 8))
            wordcloud = WordCloud(
                width=800, height=400,
                background_color='white',
                stopwords=stop_words,
                max_words=100
            ).generate(all_text)
            
            plt.imshow(wordcloud, interpolation='bilinear')
            plt.axis("off")
            plt.title("Nube de Palabras de Rese√±as de Restaurantes", fontsize=20)
            plt.tight_layout()
            
            # Guardar la nube de palabras
            wordcloud_path = os.path.join(output_dir, 'reviews_wordcloud.png')
            plt.savefig(wordcloud_path)
            print(f"\nüíæ Nube de palabras guardada en: {wordcloud_path}")
            
            plt.show()
            
        except Exception as e:
            print(f"‚ö†Ô∏è No se pudo generar la nube de palabras: {e}")
    
    else:
        print("‚ö†Ô∏è No hay un dataset disponible para el an√°lisis NLP")
        
except ImportError:
    print("‚ö†Ô∏è Para an√°lisis NLP completo, instale las librer√≠as adicionales:")
    print("   - wordcloud: para nubes de palabras")
    print("   - nltk: para procesamiento de lenguaje natural")
    print("   - scikit-learn: para vectorizaci√≥n y modelado")

## 10. Conclusiones y Resumen del Pipeline de Ingesta

‚úÖ **Completado en este notebook**:

1. **Ingesta completa de datos**
   - Carga selectiva de restaurantes del dataset de Yelp
   - Ingesta de rese√±as asociadas a estos restaurantes
   - Carga de usuarios que han escrito las rese√±as

2. **An√°lisis exploratorio con PyMongo**
   - Uso del framework de agregaci√≥n para obtener insights
   - An√°lisis de distribuci√≥n geogr√°fica, calificaciones y patrones de rese√±as
   - Identificaci√≥n de usuarios m√°s activos y tendencias en el contenido

3. **Exportaci√≥n para modelaje**
   - Creaci√≥n de un dataset enriquecido para an√°lisis NLP
   - Muestra de rese√±as recientes para modelado de t√≥picos
   - Inclusi√≥n de campos de metadata para an√°lisis contextual

4. **Demo b√°sica de t√©cnicas NLP**
   - Procesamiento preliminar del corpus de rese√±as
   - Visualizaci√≥n de t√©rminos frecuentes con WordCloud

‚û°Ô∏è **Pr√≥ximos Pasos**:

1. Profundizar en el an√°lisis exploratorio de datos
2. Implementar pipeline de preprocesamiento de texto completo
3. Desarrollar modelos de extracci√≥n de t√≥picos y an√°lisis de sentimiento
4. Integrar hallazgos en un dashboard interactivo con Streamlit

Esta fase de ingesta sienta las bases para todo el an√°lisis posterior, proporcionando un conjunto de datos limpio, filtrado y estructurado para aplicar t√©cnicas avanzadas de NLP y machine learning.

In [None]:
# Estad√≠sticas finales
print("üìä Resumen de datos en MongoDB:")
print(f"   - Total de restaurantes: {businesses_collection.count_documents({'is_restaurant': True}):,}")
print(f"   - Total de rese√±as cargadas: {reviews_collection.count_documents({}):,}")

# Ejemplo de agregaci√≥n: Promedio de estrellas por restaurante
pipeline = [
    {'$group': {
        '_id': '$business_id',
        'avg_stars': {'$avg': '$stars'},
        'review_count': {'$sum': 1}
    }},
    {'$sort': {'review_count': -1}},
    {'$limit': 5}
]

print("\nüåü Top 5 restaurantes por n√∫mero de rese√±as:")
for result in reviews_collection.aggregate(pipeline):
    business = businesses_collection.find_one({'business_id': result['_id']})
    if business:
        print(f"   - {business['name']}: {result['review_count']:,} rese√±as, {result['avg_stars']:.1f} estrellas promedio")
