# üîç Notebook 2: Fundamentos de Web Scraping

En este notebook aprender√°s:
1. C√≥mo buscar productos espec√≠ficos
2. Extraer y analizar informaci√≥n de productos
3. Filtrar resultados seg√∫n tus necesidades
4. Guardar m√∫ltiples productos en la base de datos

---

## üìö Setup Inicial

In [1]:
import sys
sys.path.append('../src')

from scraper import MercadoLibreScraper
from database import PriceDatabase
from utils import format_price, print_product_summary
import pandas as pd

# Inicializar scraper y base de datos
scraper = MercadoLibreScraper()
db = PriceDatabase("../data/prices.db")

print("‚úì M√≥dulos cargados correctamente")

‚úì Base de datos inicializada correctamente
‚úì M√≥dulos cargados correctamente


## 1Ô∏è‚É£ B√∫squeda B√°sica de Productos

Empecemos buscando productos con diferentes t√©rminos de b√∫squeda.

In [2]:
# Define tu t√©rmino de b√∫squeda aqu√≠
search_term = "notebook lenovo"  # üëà Cambia esto por lo que quieras buscar
limit = 10  # N√∫mero de resultados

print(f"üîç Buscando: '{search_term}'...\n")
print("="*70)

# Realizar b√∫squeda
products = scraper.search_products(search_term, limit=limit)

print(f"\n‚úì Se encontraron {len(products)} productos")

üîç Buscando: 'notebook lenovo'...

Buscando: notebook lenovo
URL: https://listado.mercadolibre.com.ar/notebook-lenovo
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...

‚úì Se encontraron 10 productos


### Visualizar los resultados en una tabla

Pandas nos ayuda a ver los datos de forma organizada.

In [3]:
if products:
    # Crear DataFrame
    df = pd.DataFrame(products)
    
    # Seleccionar columnas relevantes para mostrar
    display_df = df[['title', 'price', 'seller', 'free_shipping']].copy()
    
    # Formatear precio para mejor visualizaci√≥n
    display_df['price'] = display_df['price'].apply(format_price)
    
    # Renombrar columnas
    display_df.columns = ['T√≠tulo', 'Precio', 'Vendedor', 'Env√≠o Gratis']
    
    # Mostrar tabla
    print("\nüìä Resultados de la b√∫squeda:\n")
    display(display_df)
else:
    print("‚ö†Ô∏è No se encontraron productos")


üìä Resultados de la b√∫squeda:



Unnamed: 0,T√≠tulo,Precio,Vendedor,Env√≠o Gratis
0,Sin t√≠tulo,$1.354.195,Desconocido,False
1,Sin t√≠tulo,$1.732.099,Desconocido,False
2,Sin t√≠tulo,$948.370,Desconocido,False
3,Sin t√≠tulo,$1.495.498,Desconocido,False
4,Sin t√≠tulo,$1.132.499,Desconocido,False
5,Sin t√≠tulo,$1.596.399,Desconocido,False
6,Sin t√≠tulo,$2.606.997,Desconocido,False
7,Sin t√≠tulo,$1.652.999,Desconocido,False
8,Sin t√≠tulo,$1.809.999,Desconocido,False
9,Sin t√≠tulo,$2.065.199,Desconocido,False


## 2Ô∏è‚É£ Analizar Estad√≠sticas de Precios

Veamos algunas estad√≠sticas b√°sicas de los productos encontrados.

In [4]:
if products:
    prices = [p['price'] for p in products]
    
    print("üí∞ Estad√≠sticas de Precios:")
    print("="*50)
    print(f"Precio M√≠nimo:  {format_price(min(prices))}")
    print(f"Precio M√°ximo:  {format_price(max(prices))}")
    print(f"Precio Promedio: {format_price(sum(prices) / len(prices))}")
    print(f"Diferencia:     {format_price(max(prices) - min(prices))}")
    print("="*50)
    
    # Contar productos con env√≠o gratis
    free_shipping_count = sum(1 for p in products if p.get('free_shipping', False))
    print(f"\nüöö Productos con env√≠o gratis: {free_shipping_count}/{len(products)}")

üí∞ Estad√≠sticas de Precios:
Precio M√≠nimo:  $948.370
Precio M√°ximo:  $2.606.997
Precio Promedio: $1.639.425
Diferencia:     $1.658.627

üöö Productos con env√≠o gratis: 0/10


## 3Ô∏è‚É£ Filtrar Productos

Podemos filtrar los productos seg√∫n diferentes criterios.

### 3.1 Filtrar por precio m√°ximo

In [5]:
if products:
    max_price = 500000  # üëà Ajusta este valor seg√∫n tu presupuesto
    
    affordable_products = [p for p in products if p['price'] <= max_price]
    
    print(f"üéØ Productos con precio ‚â§ {format_price(max_price)}:")
    print(f"Encontrados: {len(affordable_products)}/{len(products)}\n")
    
    if affordable_products:
        for i, product in enumerate(affordable_products, 1):
            print(f"{i}. {product['title'][:60]}")
            print(f"   üí∞ {format_price(product['price'])}")
            print()

üéØ Productos con precio ‚â§ $500.000:
Encontrados: 0/10



### 3.2 Filtrar por env√≠o gratis

In [6]:
if products:
    free_shipping_products = [p for p in products if p.get('free_shipping', False)]
    
    print(f"üöö Productos con ENV√çO GRATIS: {len(free_shipping_products)}\n")
    
    if free_shipping_products:
        # Ordenar por precio
        free_shipping_products.sort(key=lambda x: x['price'])
        
        for i, product in enumerate(free_shipping_products, 1):
            print(f"{i}. {product['title'][:60]}")
            print(f"   üí∞ {format_price(product['price'])}")
            print()

üöö Productos con ENV√çO GRATIS: 0



### 3.3 Encontrar las mejores ofertas

Productos ordenados por precio (de menor a mayor).

In [7]:
if products:
    # Ordenar por precio
    sorted_products = sorted(products, key=lambda x: x['price'])
    
    print("üèÜ TOP 5 MEJORES PRECIOS:\n")
    
    for i, product in enumerate(sorted_products[:5], 1):
        print(f"{i}. {product['title'][:60]}")
        print(f"   üí∞ {format_price(product['price'])}")
        print(f"   üè™ {product['seller']}")
        print(f"   üöö {'Env√≠o gratis' if product.get('free_shipping') else 'Con costo de env√≠o'}")
        print()

üèÜ TOP 5 MEJORES PRECIOS:

1. Sin t√≠tulo
   üí∞ $948.370
   üè™ Desconocido
   üöö Con costo de env√≠o

2. Sin t√≠tulo
   üí∞ $1.132.499
   üè™ Desconocido
   üöö Con costo de env√≠o

3. Sin t√≠tulo
   üí∞ $1.354.195
   üè™ Desconocido
   üöö Con costo de env√≠o

4. Sin t√≠tulo
   üí∞ $1.495.498
   üè™ Desconocido
   üöö Con costo de env√≠o

5. Sin t√≠tulo
   üí∞ $1.596.399
   üè™ Desconocido
   üöö Con costo de env√≠o



## 4Ô∏è‚É£ Guardar Productos Seleccionados

Ahora vamos a guardar algunos productos en nuestra base de datos para comenzar a rastrear sus precios.

### 4.1 Seleccionar productos para rastrear

Puedes elegir qu√© productos quieres rastrear por su √≠ndice.

In [8]:
if products:
    # √çndices de los productos que quieres rastrear (basado en 0)
    # Por ejemplo: [0, 1, 2] para los primeros 3 productos
    indices_to_track = [0, 1, 2]  # üëà Cambia estos √≠ndices
    
    print("üìå Productos seleccionados para rastrear:\n")
    
    tracked_products = []
    for idx in indices_to_track:
        if 0 <= idx < len(products):
            product = products[idx]
            tracked_products.append(product)
            print(f"{idx + 1}. {product['title'][:60]}")
            print(f"   üí∞ {format_price(product['price'])}")
            print()
    
    print(f"Total: {len(tracked_products)} productos")

üìå Productos seleccionados para rastrear:

1. Sin t√≠tulo
   üí∞ $1.354.195

2. Sin t√≠tulo
   üí∞ $1.732.099

3. Sin t√≠tulo
   üí∞ $948.370

Total: 3 productos


### 4.2 Guardar en la base de datos

In [9]:
if products and tracked_products:
    print("üíæ Guardando productos en la base de datos...\n")
    
    saved_count = 0
    for product in tracked_products:
        success = db.save_price(product)
        if success:
            saved_count += 1
            print(f"‚úì Guardado: {product['title'][:50]}...")
    
    print(f"\n‚úì Se guardaron {saved_count}/{len(tracked_products)} productos")
    
    # Mostrar estad√≠sticas actualizadas
    stats = db.get_stats()
    print(f"\nüìä Estad√≠sticas de la base de datos:")
    print(f"   Total productos: {stats['total_products']}")
    print(f"   Total registros de precios: {stats['total_prices']}")

üíæ Guardando productos en la base de datos...

‚úì Guardado: Sin t√≠tulo...
‚úì Guardado: Sin t√≠tulo...
‚úì Guardado: Sin t√≠tulo...

‚úì Se guardaron 3/3 productos

üìä Estad√≠sticas de la base de datos:
   Total productos: 1
   Total registros de precios: 4


## 5Ô∏è‚É£ Verificar Productos Guardados

Veamos todos los productos que tenemos en nuestra base de datos.

In [10]:
# Obtener todos los productos de la base de datos
all_products = db.get_all_products()

if all_products:
    print(f"üì¶ Productos en la base de datos: {len(all_products)}\n")
    
    df_products = pd.DataFrame(all_products)
    
    # Seleccionar y formatear columnas
    display_cols = df_products[['title', 'min_price', 'max_price', 'avg_price', 'price_count']].copy()
    
    # Formatear precios
    display_cols['min_price'] = display_cols['min_price'].apply(lambda x: format_price(x) if x else 'N/A')
    display_cols['max_price'] = display_cols['max_price'].apply(lambda x: format_price(x) if x else 'N/A')
    display_cols['avg_price'] = display_cols['avg_price'].apply(lambda x: format_price(x) if x else 'N/A')
    
    # Renombrar columnas
    display_cols.columns = ['T√≠tulo', 'Precio M√≠n.', 'Precio M√°x.', 'Precio Prom.', 'Registros']
    
    display(display_cols)
else:
    print("‚ö†Ô∏è No hay productos guardados a√∫n")

üì¶ Productos en la base de datos: 1



Unnamed: 0,T√≠tulo,Precio M√≠n.,Precio M√°x.,Precio Prom.,Registros
0,Sin t√≠tulo,$299.999,$1.732.099,$1.083.666,4


## 6Ô∏è‚É£ Experimento: Buscar Otros Productos

Ahora que ya sabes c√≥mo funciona, prueba buscar otros productos que te interesen.

In [11]:
# Lista de t√©rminos para probar
search_terms = [
    "auriculares bluetooth",
    "mouse gamer",
    "teclado mecanico"
]

print("üîç B√∫squeda m√∫ltiple:\n")
print("="*70)

for term in search_terms:
    print(f"\nBuscando: {term}")
    results = scraper.search_products(term, limit=3)
    
    if results:
        print(f"‚úì Encontrados: {len(results)} productos")
        
        # Mostrar el m√°s barato
        cheapest = min(results, key=lambda x: x['price'])
        print(f"  üí∞ M√°s barato: {format_price(cheapest['price'])}")
    else:
        print("  ‚úó No se encontraron resultados")

print("\n" + "="*70)

üîç B√∫squeda m√∫ltiple:


Buscando: auriculares bluetooth
Buscando: auriculares bluetooth
URL: https://listado.mercadolibre.com.ar/auriculares-bluetooth
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Encontrados: 3 productos
  üí∞ M√°s barato: $7.999

Buscando: mouse gamer
Buscando: mouse gamer
URL: https://listado.mercadolibre.com.ar/mouse-gamer
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Encontrados: 3 productos
  üí∞ M√°s barato: $3.200

Buscando: teclado mecanico
Buscando: teclado mecanico
URL: https://listado.mercadolibre.com.ar/teclado-mecanico
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Producto encontrado: Sin t√≠tulo...
‚úì Encontrados: 3 productos
  üí∞ M√°s barato: $22.802



## üéØ Resumen del Notebook

En este notebook aprendiste a:

- ‚úÖ Buscar productos en MercadoLibre
- ‚úÖ Analizar estad√≠sticas de precios
- ‚úÖ Filtrar productos por diferentes criterios
- ‚úÖ Guardar productos en la base de datos
- ‚úÖ Verificar productos almacenados

---

## üìù Ejercicios Propuestos

1. Busca productos de diferentes categor√≠as
2. Experimenta con diferentes filtros de precio
3. Encuentra los vendedores con m√°s ofertas
4. Guarda al menos 5 productos que te interesen rastrear

---

**¬°Contin√∫a con el siguiente notebook!** üëâ `03_price_tracking.ipynb`

All√≠ aprender√°s a:
- Actualizar precios autom√°ticamente
- Ver el hist√≥rico de cambios
- Detectar las mejores ofertas