# 01 - Operaciones CRUD en MongoDB

Este notebook demuestra las operaciones b√°sicas **CRUD** (Create, Read, Update, Delete) sobre la base de datos de Airbnb Madrid.

## Contenido
1. Conexi√≥n a MongoDB
2. Lectura de datos (Read)
3. Consultas b√°sicas
4. B√∫squeda por campos espec√≠ficos
5. Actualizaci√≥n de documentos (Update)
6. Eliminaci√≥n de documentos (Delete)
7. Estad√≠sticas de la colecci√≥n

In [1]:
# Imports necesarios
import sys
from pathlib import Path
sys.path.insert(0, str(Path.cwd().parent))

from src.crud_operations import AirbnbCRUD
from src.database import MongoDBConnection
import pandas as pd
from pprint import pprint

print("‚úÖ Imports completados")

‚úÖ Imports completados


## 1. Conexi√≥n a MongoDB

In [2]:
# Conectar a MongoDB
conn = MongoDBConnection()
crud = AirbnbCRUD()

# Verificar conexi√≥n
if conn.ping():
    print("‚úÖ Conexi√≥n exitosa a MongoDB")
    total = crud.get_total_listings()
    print(f"üìä Total de listings: {total:,}")
else:
    print("‚ùå Error de conexi√≥n")

‚úÖ Conexi√≥n exitosa a MongoDB
üìä Total de listings: 26,004


## 2. Lectura de Datos (Read)

### 2.1 Obtener un listing por ID

In [3]:
# Obtener el primer listing para ver su estructura
first_listing = crud.collection.find_one()

if first_listing:
    print("üìã Ejemplo de Listing:")
    print(f"\nID: {first_listing.get('id', first_listing.get('_id'))}")
    print(f"Nombre: {first_listing.get('name')}")
    print(f"Barrio: {first_listing.get('neighbourhood_cleansed', 'N/A')}")
    print(f"Precio: {first_listing.get('price')}‚Ç¨")
    print(f"Tipo: {first_listing.get('room_type')}")
    print(f"Reviews: {first_listing.get('number_of_reviews', 0)}")
    
    # Ver todos los campos disponibles
    print(f"\nüìù Campos disponibles ({len(first_listing)} campos):")
    print(list(first_listing.keys())[:20], "...")

üìã Ejemplo de Listing:

ID: 21853
Nombre: Bright and airy room
Barrio: C√°rmenes
Precio: 29.0‚Ç¨
Tipo: Private room
Reviews: 33

üìù Campos disponibles (82 campos):
['_id', 'id', 'listing_url', 'scrape_id', 'last_scraped', 'source', 'name', 'description', 'neighborhood_overview', 'picture_url', 'host_id', 'host_url', 'host_name', 'host_since', 'host_location', 'host_about', 'host_response_time', 'host_response_rate', 'host_acceptance_rate', 'host_is_superhost'] ...


### 2.2 Obtener m√∫ltiples listings

In [4]:
# Obtener los primeros 10 listings
listings = list(crud.collection.find().limit(10))

print(f"üìä Primeros 10 listings:\n")
for i, listing in enumerate(listings, 1):
    print(f"{i}. {listing.get('name')[:50]}... - {listing.get('price')}‚Ç¨ - {listing.get('neighbourhood_cleansed', 'N/A')}")

üìä Primeros 10 listings:

1. Bright and airy room... - 29.0‚Ç¨ - C√°rmenes
2. Apartamentos Dana Sol... - 0.0‚Ç¨ - Sol
3. Beautiful loft in Madrid Center... - 0.0‚Ç¨ - Embajadores
4. Apartasol Apartamentos Dana... - 0.0‚Ç¨ - Universidad
5. MAGIC ARTISTIC HOUSE IN THE CENTER OF MADRID... - 64.0‚Ç¨ - Justicia
6. Tu hogar en centro de Madrid.... - 86.0‚Ç¨ - Universidad
7. Sunny attic duplex flat with terrace next to Sol... - 196.0‚Ç¨ - Embajadores
8. Retiro Park, Stay at cosy studio... - 0.0‚Ç¨ - Recoletos
9. Cool Apart. (10min Center + WIFI)... - 72.0‚Ç¨ - Embajadores
10. Cozy attic with intimate rooftop terrace+ elevator... - 209.0‚Ç¨ - Embajadores


## 3. Consultas B√°sicas

### 3.1 Filtrar por barrio

In [5]:
# Buscar listings en un barrio espec√≠fico
barrio = "Centro"  # Cambia esto por un barrio de tu dataset

# Primero, ver qu√© barrios hay
barrios = crud.collection.distinct('neighbourhood_cleansed')
print(f"üìç Barrios disponibles ({len(barrios)}): {barrios[:10]}...\n")

# Buscar en el primer barrio
if barrios:
    barrio = barrios[0]
    listings_barrio = list(crud.collection.find({'neighbourhood_cleansed': barrio}).limit(5))
    
    print(f"üèòÔ∏è Listings en {barrio}:")
    for listing in listings_barrio:
        print(f"  ‚Ä¢ {listing.get('name')[:40]}... - {listing.get('price')}‚Ç¨")

üìç Barrios disponibles (128): ['Abrantes', 'Acacias', 'Adelfas', 'Aeropuerto', 'Aguilas', 'Alameda de Osuna', 'Almagro', 'Almenara', 'Almendrales', 'Aluche']...

üèòÔ∏è Listings en Abrantes:
  ‚Ä¢ Lovely flat In Madrid... - 85.0‚Ç¨
  ‚Ä¢ Accommodation Madrid, nice apartment... - 20.0‚Ç¨
  ‚Ä¢ Habitacion luminosa y tranquila en Carab... - 0.0‚Ç¨
  ‚Ä¢ MAGN√çFICO PISO FINAL CHAMPIONS LIGUE. WI... - 0.0‚Ç¨
  ‚Ä¢ habitaci√≥n privada en abrantes... - 100.0‚Ç¨


### 3.2 Filtrar por rango de precio

In [6]:
# Buscar listings entre 50‚Ç¨ y 100‚Ç¨
precio_min = 50
precio_max = 100

listings_precio = list(crud.collection.find({
    'price': {'$gte': precio_min, '$lte': precio_max}
}).limit(10))

print(f"üí∞ Listings entre {precio_min}‚Ç¨ y {precio_max}‚Ç¨:")
for listing in listings_precio:
    print(f"  ‚Ä¢ {listing.get('name')[:40]}... - {listing.get('price')}‚Ç¨ - {listing.get('room_type')}")

üí∞ Listings entre 50‚Ç¨ y 100‚Ç¨:
  ‚Ä¢ MAGIC ARTISTIC HOUSE IN THE CENTER OF MA... - 64.0‚Ç¨ - Private room
  ‚Ä¢ Tu hogar en centro de Madrid.... - 86.0‚Ç¨ - Entire home/apt
  ‚Ä¢ Cool Apart. (10min Center + WIFI)... - 72.0‚Ç¨ - Entire home/apt
  ‚Ä¢ Atocha Attic - Unbeatable Location... - 98.0‚Ç¨ - Entire home/apt
  ‚Ä¢ Central and quiet.... - 94.0‚Ç¨ - Entire home/apt
  ‚Ä¢ NICE CENTRAL TOURISM-BUSINESS APTO... - 87.0‚Ç¨ - Entire home/apt
  ‚Ä¢ alquilo habitaci√≥n... - 75.0‚Ç¨ - Private room
  ‚Ä¢ private house B & B. Arturo Soria (Metro... - 90.0‚Ç¨ - Private room
  ‚Ä¢ Habitaci√≥n en √°tico muy c√©ntrico con dos... - 70.0‚Ç¨ - Private room
  ‚Ä¢ Apartment in the heart of Madrid... - 98.0‚Ç¨ - Entire home/apt


### 3.3 Buscar por tipo de habitaci√≥n

In [7]:
# Ver tipos de habitaci√≥n disponibles
room_types = crud.collection.distinct('room_type')
print(f"üè† Tipos de habitaci√≥n: {room_types}\n")

# Contar por tipo
total_listings = crud.collection.count_documents({})
for room_type in room_types:
    count = crud.collection.count_documents({'room_type': room_type})
    print(f"  {room_type}: {count:,} ({count/total_listings*100:.1f}%)")

üè† Tipos de habitaci√≥n: ['Entire home/apt', 'Hotel room', 'Private room', 'Shared room']

  Entire home/apt: 16,959 (65.2%)
  Hotel room: 81 (0.3%)
  Private room: 8,806 (33.9%)
  Shared room: 158 (0.6%)


## 4. Consultas Avanzadas

### 4.1 B√∫squeda por m√∫ltiples criterios

In [8]:
# Buscar: vivienda completa, precio < 100‚Ç¨, m√≠nimo 10 reviews
query = {
    'room_type': 'Entire home/apt',
    'price': {'$lt': 100},
    'number_of_reviews': {'$gte': 10}
}

results = list(crud.collection.find(query).limit(10))

print(f"üîç Encontrados: {len(results)} listings")
print(f"\n‚úÖ Viviendas completas < 100‚Ç¨ con 10+ reviews:\n")
for listing in results:
    print(f"  ‚Ä¢ {listing.get('name')[:40]}...")
    print(f"    Precio: {listing.get('price')}‚Ç¨ | Reviews: {listing.get('number_of_reviews')} | Barrio: {listing.get('neighbourhood_cleansed', 'N/A')}")
    print()

üîç Encontrados: 10 listings

‚úÖ Viviendas completas < 100‚Ç¨ con 10+ reviews:

  ‚Ä¢ Apartamentos Dana Sol...
    Precio: 0.0‚Ç¨ | Reviews: 172 | Barrio: Sol

  ‚Ä¢ Apartasol Apartamentos Dana...
    Precio: 0.0‚Ç¨ | Reviews: 49 | Barrio: Universidad

  ‚Ä¢ Tu hogar en centro de Madrid....
    Precio: 86.0‚Ç¨ | Reviews: 63 | Barrio: Universidad

  ‚Ä¢ Retiro Park, Stay at cosy studio...
    Precio: 0.0‚Ç¨ | Reviews: 105 | Barrio: Recoletos

  ‚Ä¢ Cool Apart. (10min Center + WIFI)...
    Precio: 72.0‚Ç¨ | Reviews: 184 | Barrio: Embajadores

  ‚Ä¢ Atocha Attic - Unbeatable Location...
    Precio: 98.0‚Ç¨ | Reviews: 112 | Barrio: Palos de Moguer

  ‚Ä¢ Central and quiet....
    Precio: 94.0‚Ç¨ | Reviews: 711 | Barrio: Palacio

  ‚Ä¢ DUPLEX AT MADRID CENTER WITH POOL...
    Precio: 0.0‚Ç¨ | Reviews: 25 | Barrio: Acacias

  ‚Ä¢ NICE CENTRAL TOURISM-BUSINESS APTO...
    Precio: 87.0‚Ç¨ | Reviews: 189 | Barrio: Rios Rosas

  ‚Ä¢ Apartment in the heart of Madrid...
    Precio: 98.0‚Ç¨ | Rev

### 4.2 Top 10 m√°s baratos

In [9]:
# Top 10 m√°s baratos
cheapest = list(crud.collection.find({'price': {'$gt': 0}}).sort('price', 1).limit(10))

print("üíµ Top 10 m√°s baratos:\n")
for i, listing in enumerate(cheapest, 1):
    print(f"{i}. {listing.get('name')[:40]}... - {listing.get('price')}‚Ç¨")

üíµ Top 10 m√°s baratos:

1. Habitaci√≥n c√≥moda en Moratalaz... - 1.0‚Ç¨
2. Habitaci√≥n c√≥moda, alameda Osuna... - 7.0‚Ç¨
3. Piso en Salamanca, centro... - 7.0‚Ç¨
4. Apartamento En Madrid... - 8.0‚Ç¨
5. Centrica Habitaci√≥n... - 8.0‚Ç¨
6. bonita habitaci√≥n para dama... - 8.0‚Ç¨
7. Casa Chako  Mi gato en la ventana... - 8.0‚Ç¨
8. Excelente habitaci√≥n... - 8.0‚Ç¨
9. Un espacio agradable y c√≥modo.... - 9.0‚Ç¨
10. Bello alojamiento en manzanares... - 9.0‚Ç¨


### 4.3 Top 10 m√°s caros

In [10]:
# Top 10 m√°s caros
expensive = list(crud.collection.find().sort('price', -1).limit(10))

print("üíé Top 10 m√°s caros:\n")
for i, listing in enumerate(expensive, 1):
    print(f"{i}. {listing.get('name')[:40]}... - {listing.get('price')}‚Ç¨")

üíé Top 10 m√°s caros:

1. Madrid... - 32000.0‚Ç¨
2. Captivating Apartment in Madrid near El ... - 21000.0‚Ç¨
3. Piso en goya... - 20540.0‚Ç¨
4. Apartamento... - 19000.0‚Ç¨
5. Bohemian Charm in the Latina.... - 18600.0‚Ç¨
6. Plaza Mayor/apartamento Latina... - 15051.0‚Ç¨
7. Apart jardines San Vicente... - 10000.0‚Ç¨
8. Touristenwohnung Santa Ana mit Balkon... - 9999.0‚Ç¨
9. 3 Pi√®ces 6 Personnes 623384... - 9999.0‚Ç¨
10. 2 pi√®ces 2 personnes Standard 165094... - 9999.0‚Ç¨


## 5. Estad√≠sticas de la Colecci√≥n

In [11]:
# Estad√≠sticas generales
stats = conn.get_collection_stats()

print("üìä ESTAD√çSTICAS DE LA COLECCI√ìN:\n")
print(f"  ‚Ä¢ Total documentos: {stats['count']:,}")
print(f"  ‚Ä¢ Tama√±o: {stats['size'] / 1024 / 1024:.2f} MB")
print(f"  ‚Ä¢ Tama√±o promedio por documento: {stats['avgObjSize'] / 1024:.2f} KB")
print(f"  ‚Ä¢ √çndices: {stats['indexes']}")
print(f"  ‚Ä¢ Tama√±o de √≠ndices: {stats['indexSize'] / 1024 / 1024:.2f} MB")

üìä ESTAD√çSTICAS DE LA COLECCI√ìN:

  ‚Ä¢ Total documentos: 26,004
  ‚Ä¢ Tama√±o: 93.54 MB
  ‚Ä¢ Tama√±o promedio por documento: 3.68 KB
  ‚Ä¢ √çndices: 1
  ‚Ä¢ Tama√±o de √≠ndices: 0.27 MB


## 6. Agregaciones Simples

### 6.1 Precio promedio por barrio

In [12]:
# Precio promedio por barrio (top 10)
pipeline = [
    {'$match': {'price': {'$gt': 0}}},
    {'$group': {
        '_id': '$neighbourhood_cleansed',
        'precio_promedio': {'$avg': '$price'},
        'total_listings': {'$sum': 1}
    }},
    {'$sort': {'precio_promedio': -1}},
    {'$limit': 10}
]

results = list(crud.collection.aggregate(pipeline))

print("üí∞ Top 10 barrios m√°s caros (precio promedio):\n")
for i, result in enumerate(results, 1):
    barrio = result['_id'] or 'Sin barrio'
    precio = result['precio_promedio']
    total = result['total_listings']
    print(f"{i}. {barrio}: {precio:.2f}‚Ç¨ promedio ({total} listings)")

üí∞ Top 10 barrios m√°s caros (precio promedio):

1. Palomeras Bajas: 447.45‚Ç¨ promedio (55 listings)
2. Fuentelareina: 347.20‚Ç¨ promedio (5 listings)
3. Piovera: 314.41‚Ç¨ promedio (27 listings)
4. Castillejos: 281.98‚Ç¨ promedio (253 listings)
5. Valdefuentes: 246.72‚Ç¨ promedio (126 listings)
6. Hell√≠n: 246.33‚Ç¨ promedio (15 listings)
7. Ibiza: 236.88‚Ç¨ promedio (225 listings)
8. Castellana: 225.03‚Ç¨ promedio (155 listings)
9. Recoletos: 222.13‚Ç¨ promedio (271 listings)
10. Jer√≥nimos: 215.91‚Ç¨ promedio (89 listings)


### 6.2 Distribuci√≥n por tipo de habitaci√≥n

In [13]:
# Distribuci√≥n por tipo de habitaci√≥n
pipeline = [
    {'$group': {
        '_id': '$room_type',
        'count': {'$sum': 1},
        'precio_promedio': {'$avg': '$price'}
    }},
    {'$sort': {'count': -1}}
]

results = list(crud.collection.aggregate(pipeline))
total = crud.get_total_listings()

print("üè† Distribuci√≥n por tipo de habitaci√≥n:\n")
for result in results:
    tipo = result['_id']
    count = result['count']
    precio = result['precio_promedio']
    pct = count / total * 100
    print(f"  {tipo}:")
    print(f"    ‚Ä¢ Cantidad: {count:,} ({pct:.1f}%)")
    print(f"    ‚Ä¢ Precio promedio: {precio:.2f}‚Ç¨")
    print()

üè† Distribuci√≥n por tipo de habitaci√≥n:

  Entire home/apt:
    ‚Ä¢ Cantidad: 16,959 (65.2%)
    ‚Ä¢ Precio promedio: 144.55‚Ç¨

  Private room:
    ‚Ä¢ Cantidad: 8,806 (33.9%)
    ‚Ä¢ Precio promedio: 50.64‚Ç¨

  Shared room:
    ‚Ä¢ Cantidad: 158 (0.6%)
    ‚Ä¢ Precio promedio: 45.87‚Ç¨

  Hotel room:
    ‚Ä¢ Cantidad: 81 (0.3%)
    ‚Ä¢ Precio promedio: 148.72‚Ç¨



## 7. Conversi√≥n a Pandas DataFrame

In [None]:
# Obtener datos y convertir a DataFrame
listings = list(crud.collection.find().limit(1000))
df = pd.DataFrame(listings)

print(f"üìä DataFrame creado: {df.shape[0]} filas x {df.shape[1]} columnas\n")

# Seleccionar columnas importantes
cols_importantes = ['name', 'price', 'neighbourhood_cleansed', 'room_type', 'number_of_reviews']
cols_disponibles = [col for col in cols_importantes if col in df.columns]

if cols_disponibles:
    df_simple = df[cols_disponibles]
    print("Vista previa del DataFrame:")
    display(df_simple.head(10))
    
    # Estad√≠sticas
    if 'price' in df.columns:
        print(f"\nüí∞ Estad√≠sticas de precio:")
        print(df['price'].describe())

## üéâ Resumen

En este notebook aprendiste:

- ‚úÖ Conectar a MongoDB
- ‚úÖ Operaciones CRUD b√°sicas
- ‚úÖ Consultas y filtros
- ‚úÖ Agregaciones simples
- ‚úÖ Conversi√≥n a Pandas

**Siguiente:** `02_data_analysis.ipynb` - An√°lisis exploratorio de datos