#KAFKA PRODUCER PARA SUPLEMENTOS DEPORTIVOS "**GAINSIGHT**"

###Este notebook extrae datos de suplementos deportivos usando SerpAPI (Google Shopping) y los env√≠a a un t√≥pico de Kafka para procesamiento en tiempo real.

###Arquitectura: SerpAPI ‚Üí Python ‚Üí Kafka ‚Üí MongoDB ‚Üí Streamlit Dashboard


# Importaci√≥n de Librer√≠as

 Importamos todas las librer√≠as necesarias para:
 -  **Kafka**: Productor de mensajes
 -  **Requests**: Llamadas a SerpAPI
 -  **JSON**: Serializaci√≥n de datos
 -  **Time/Datetime**: Control de tiempo y timestamps

In [None]:
from kafka import KafkaProducer
import json
import requests
from time import sleep
from datetime import datetime

# Configuraci√≥n de SerpAPI

SerpAPI nos permite acceder a los resultados de Google Shopping de forma estructurada.
 ### Par√°metros importantes:
-  **engine**: "google_shopping" para b√∫squedas de productos
-  **hl**: "es" para idioma espa√±ol
-  **gl**: "us" para mejores resultados en suplementos (mercado m√°s amplio)
-  **format**: "json" para respuesta estructurada

In [None]:
# Configuraci√≥n de SerpAPI para Google Shopping
SERPAPI_KEY = "API"  # Reemplazamos con nuestra API key

params = {
    "engine": "google_shopping",
    "format": "json",
    "hl": "es",           # Idioma: espa√±ol
    "gl": "us",           # Geolocalizaci√≥n: US (mejor cat√°logo de suplementos)
    "api_key": SERPAPI_KEY
}

endpoint = "https://serpapi.com/search"

#Funci√≥n de Extracci√≥n de Datos
Esta funci√≥n se encarga de hacer las consultas a Google Shopping a trav√©s de SerpAPI.
### Funcionalidades:
-  Manejo robusto de errores de conexi√≥n
-  Timeout de 30 segundos para evitar bloqueos
-  Par√°metros configurables para paginaci√≥n
-  Validaci√≥n de respuestas HTTP


In [None]:
def get_supplements_info(keyword, start=0, num_results=20):
    """
    Obtiene informaci√≥n de suplementos deportivos desde Google Shopping

    Args:
        keyword (str): T√©rmino de b√∫squeda (ej: "prote√≠na whey")
        start (int): Posici√≥n inicial para paginaci√≥n
        num_results (int): N√∫mero m√°ximo de resultados a obtener

    Returns:
        dict: Respuesta JSON de SerpAPI con productos encontrados
        None: Si hay errores de conexi√≥n o API
    """
    search_params = params.copy()
    search_params["q"] = keyword
    search_params["start"] = start
    search_params["num"] = num_results

    try:
        response = requests.get(endpoint, params=search_params, timeout=30)

        if response.status_code == 200:
            return response.json()
        else:
            print(f"‚ùå Error en la b√∫squeda: {response.status_code}")
            print(f"   Respuesta: {response.text[:200]}...")
            return None

    except requests.exceptions.Timeout:
        print(f"‚è∞ Timeout en la b√∫squeda de: {keyword}")
        return None
    except requests.exceptions.ConnectionError:
        print(f"üåê Error de conexi√≥n para: {keyword}")
        return None
    except Exception as e:
        print(f"‚ùå Error inesperado: {e}")
        return None

#Configuraci√≥n del Productor Kafka

 Establecemos la conexi√≥n con el broker de Kafka local.

 ### Configuraci√≥n:
-  **bootstrap_servers**: Direcci√≥n del broker Kafka
-  **value_serializer**: Convierte objetos Python a JSON UTF-8
-  **Manejo de errores**: Validaci√≥n de conexi√≥n antes de proceder

In [None]:
# Configurar y validar conexi√≥n con Kafka
try:
    producer = KafkaProducer(
        bootstrap_servers=["localhost:9092"],
        value_serializer=lambda m: json.dumps(m, ensure_ascii=False).encode("utf-8"),
        retries=3,                    # Reintentos autom√°ticos
        acks='all',                   # Confirmaci√≥n de todos los replicas
        compression_type='gzip'       # Compresi√≥n para mejor performance
    )
    print("‚úÖ Conexi√≥n establecida con Kafka")
    print(f"üì° Broker: localhost:9092")

except Exception as e:
    print("‚ùå Error: Kafka broker no disponible")
    print("üîß Soluci√≥n: Aseg√∫rate que Kafka est√° ejecut√°ndose en localhost:9092")
    print(f"   Comando: bin/kafka-server-start.sh config/server.properties")
    raise e

# Configuraci√≥n del t√≥pico
topic = "supplement_products"
print(f"üìä T√≥pico configurado: {topic}")

# Categor√≠as de Suplementos a Procesar

 Definimos las categor√≠as m√°s importantes del mercado de suplementos deportivos.

 ### Categor√≠as incluidas:
1.  **Prote√≠nas**: Whey y vegana para diferentes p√∫blicos
2.  **Performance**: Creatina, BCAAs, pre-entrenos para rendimiento
3.  **Recuperaci√≥n**: Glutamina para recuperaci√≥n muscular
4.  **Salud General**: Multivitam√≠nicos, Omega-3
5.  **P√©rdida de Peso**: Quemadores de grasa
6.  **Conveniencia**: Barras proteicas para consumo f√°cil

In [None]:
supplement_categories = [
    "prote√≠na whey",           # Prote√≠na m√°s popular del mercado
    "creatina monohidrato",    # Suplemento m√°s estudiado cient√≠ficamente
    "pre-entrenamiento",       # Energizantes y potenciadores de rendimiento
    "bcaa",                    # Amino√°cidos de cadena ramificada
    "glutamina",              # Recuperaci√≥n y sistema inmune
    "quemadores de grasa",     # Termog√©nicos y fat burners
    "multivitam√≠nicos",        # Suplementos de micronutrientes
    "omega 3",                # √Åcidos grasos esenciales
    "prote√≠na vegana",         # Alternativa plant-based
    "barras proteicas"         # Suplementos convenientes
]

print(f"üéØ Categor√≠as a procesar: {len(supplement_categories)}")
for i, category in enumerate(supplement_categories, 1):
    print(f"   {i:2d}. {category}")

# Procesamiento Principal y Env√≠o a Kafka

### Esta secci√≥n ejecuta el loop principal que:
1. Itera sobre cada categor√≠a de suplementos
2. Extrae productos de Google Shopping via SerpAPI
3. Procesa y estructura los datos
4. Env√≠a cada producto como mensaje a Kafka

### Estructura del mensaje:
- **type**: Identificador del tipo de mensaje
- **category**: Categor√≠a del suplemento
- **timestamp**: Marca temporal de procesamiento
- **data**: Informaci√≥n completa del producto

In [None]:
# Estad√≠sticas del procesamiento
total_products_sent = 0
successful_categories = 0
failed_categories = []

print("\n" + "="*60)
print("üöÄ INICIANDO PROCESAMIENTO DE CATEGOR√çAS")
print("="*60)

for category_index, category in enumerate(supplement_categories, 1):
    print(f"\nüîç [{category_index}/{len(supplement_categories)}] Procesando: {category}")
    print("-" * 50)

    # Obtener datos de SerpAPI
    data = get_supplements_info(category, num_results=40)  # Aumentamos a 40 para mejor cobertura

    if data and "shopping_results" in data:
        products = data["shopping_results"]
        products_count = len(products)
        print(f"   üõçÔ∏è Encontrados: {products_count} productos")

        # Contador para esta categor√≠a
        category_sent = 0

        # Procesar y enviar cada producto
        for product_index, product in enumerate(products, 1):
            try:
                # Estructurar el mensaje
                message = {
                    "type": "supplement_product",
                    "search_category": category,
                    "timestamp": datetime.now().isoformat(),
                    "metadata": {
                        "api_source": "serpapi_google_shopping",
                        "processed_at": datetime.now().isoformat(),
                        "category_index": category_index,
                        "product_index": product_index
                    },
                    # Datos del producto
                    "position": product.get("position"),
                    "title": product.get("title"),
                    "price": product.get("price"),
                    "extracted_price": product.get("extracted_price"),
                    "source": product.get("source"),
                    "rating": product.get("rating"),
                    "reviews": product.get("reviews"),
                    "link": product.get("product_link"),
                    "image": product.get("thumbnail"),
                    "brand": product.get("brand", "N/A"),
                    "delivery": product.get("delivery", "N/A")
                }

                # Enviar a Kafka
                producer.send(topic, value=message)

                # Mostrar progreso
                title_truncated = message.get('title', 'Sin t√≠tulo')[:50]
                price = message.get('price', 'N/A')
                source = message.get('source', 'N/A')

                print(f"   üì¶ [{product_index:2d}/{products_count}] {title_truncated}...")
                print(f"       üí∞ {price} | üè™ {source}")

                category_sent += 1
                total_products_sent += 1

                # Pausa para evitar saturaci√≥n
                sleep(0.3)

            except Exception as e:
                print(f"   ‚ùå Error procesando producto {product_index}: {e}")
                continue

        successful_categories += 1
        print(f"   ‚úÖ Categor√≠a completada: {category_sent} productos enviados")

    elif not data:
        print(f"   ‚ùå No se pudieron obtener datos para: {category}")
        failed_categories.append(category)
    else:
        print(f"   ‚ö†Ô∏è No se encontraron productos para: {category}")
        failed_categories.append(category)

    # Pausa entre categor√≠as para respetar rate limits
    if category_index < len(supplement_categories):
        print(f"   ‚è≥ Pausa de 2 segundos antes de la siguiente categor√≠a...")
        sleep(2)

# Finalizaci√≥n y Estad√≠sticas

### Proceso final que:
- Asegura que todos los mensajes se env√≠en (flush)
- Muestra estad√≠sticas detalladas del procesamiento
- Reporta categor√≠as exitosas y fallidas
- Proporciona m√©tricas para monitoreo

In [None]:
# Asegurar que todos los mensajes se env√≠en
producer.flush()
print("\n" + "="*60)
print("üéØ PROCESAMIENTO COMPLETADO")
print("="*60)

print(f"üìä Estad√≠sticas finales:")
print(f"   ‚úÖ Categor√≠as procesadas exitosamente: {successful_categories}/{len(supplement_categories)}")
print(f"   üì¶ Total productos enviados: {total_products_sent}")
print(f"   üìä Promedio productos por categor√≠a: {total_products_sent/len(supplement_categories):.1f}")
print(f"   üéØ T√≥pico utilizado: {topic}")

if failed_categories:
    print(f"\n‚ö†Ô∏è Categor√≠as con problemas:")
    for failed in failed_categories:
        print(f"   - {failed}")

print(f"\nüïê Procesamiento iniciado: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print(f"üíæ Los datos est√°n listos para ser consumidos desde Kafka")

# Cerrar el productor
producer.close()
print("üîå Conexi√≥n con Kafka cerrada correctamente")