# 3. LangChain Streaming - Respuestas en Tiempo Real

## Objetivos de Aprendizaje
- Comprender qué es el streaming y cuándo usarlo
- Implementar streaming con LangChain
- Manejar chunks de datos en tiempo real
- Construir interfaces de usuario reactivas

## ¿Qué es el Streaming?

El streaming permite recibir la respuesta del modelo **token por token** conforme se genera, en lugar de esperar a que termine completamente. Esto mejora significativamente la experiencia de usuario en aplicaciones interactivas.

### Ventajas del Streaming:
- **Percepción de velocidad**: El usuario ve progreso inmediato
- **Mejor UX**: Interfaces más reactivas e interactivas  
- **Engagement**: Mantiene la atención del usuario
- **Debugging**: Permite ver el proceso de generación

### Casos de Uso Ideales:
- Chatbots y asistentes conversacionales
- Generación de contenido largo
- Aplicaciones web interactivas
- Demostraciones en vivo

In [None]:
# Importar bibliotecas necesarias
from langchain_openai import ChatOpenAI
from langchain.schema import HumanMessage

import os
import time

print("Bibliotecas importadas correctamente para streaming")

In [None]:
# Configuración del modelo con streaming habilitado
try:
    
    # llm = ChatOpenAI(
    #     base_url=os.getenv("OPENAI_BASE_URL"),
    #     api_key=os.getenv("GITHUB_TOKEN"),
    #     model="gpt-4o",
    #     streaming=True,  # ¡Importante: habilitar streaming!
    #     temperature=0.7
    # )
    llm = ChatOpenAI(
        base_url="https://models.github.ai/inference",  #descubri que aqui  cambia de url base  
        api_key=os.getenv("GITHUB_TOKEN"),               
        model = "openai/gpt-4.1",               # modelo DeepSeek
        temperature=0.7,
        streaming=True, 
        max_tokens=150
    )
    
    print("✓ Modelo configurado con streaming habilitado")
    print(f"Modelo: {llm.model_name}")
    print(f"Streaming: {llm.streaming}")
    
except Exception as e:
    print(f"✗ Error en configuración: {e}")
    print("Verifica las variables de entorno")

## Streaming Básico

El método `.stream()` devuelve un generador que produce chunks de texto conforme se generan.

In [None]:
# Ejemplo básico de streaming
def streaming_basico():
    prompt = "Cuéntame una historia breve sobre los beneficios de el oregano "
    
    print("=== STREAMING EN TIEMPO REAL ===")
    print("Generando respuesta...")
    print("-" * 50)
    
    try:
        # stream() devuelve un generador de chunks
        for chunk in llm.stream([HumanMessage(content=prompt)]):
            # Imprimir cada chunk sin nueva línea
            print(chunk.content, end="", flush=True)
            time.sleep(0.01)  # Pequeña pausa para simular streaming visual
            
        print("\n" + "-" * 50)
        print("✓ Streaming completado")
        
    except Exception as e:
        print(f"✗ Error en streaming: {e}")

# Ejecutar streaming básico
streaming_basico()

In [30]:
import os
import sys
import time
import re
from itertools import cycle
from datetime import datetime
from langchain_openai import ChatOpenAI
from langchain.schema import HumanMessage, SystemMessage



# =============================================================================
# EJERCICIO 1: INDICADORES DE PROGRESO
# =============================================================================

def ejercicio1_spinner_simple():
    """Spinner básico que rota mientras llegan chunks"""
  
    spinner = cycle(['|', '/', '-', '\\'])
    prompt = "Explica los beneficios del oregano para la salud"
    
    print("=== EJERCICIO 1A: SPINNER SIMPLE ===")
    print("Generando respuesta...\n")
    
    response_text = ""
    try:
        
        for chunk in llm.stream([HumanMessage(content=prompt)]):
            # Mostrar spinner
            sys.stdout.write(f'\r{next(spinner)} Procesando...')
            sys.stdout.flush()
            
            response_text += chunk.content
            time.sleep(0.05)
            #print(chunk.content, end="", flush=True)
  
        # Limpiar spinner y mostrar resultado
        sys.stdout.write('\r✓ Completado!   \n')
        print(f"\nRespuesta completa:\n{response_text}\n")
        
    except Exception as e:
        print(f"\nError: {e}")
ejercicio1_spinner_simple()        


=== EJERCICIO 1A: SPINNER SIMPLE ===
Generando respuesta...

✓ Completado!   

Respuesta completa:
El **orégano** (Origanum vulgare) es una hierba aromática comúnmente utilizada en la cocina mediterránea, que además posee varios beneficios para la salud gracias a sus compuestos bioactivos, como los aceites esenciales, antioxidantes y vitaminas. Entre sus principales beneficios destacan:

### 1. **Propiedades antioxidantes**
El orégano contiene compuestos como el **carvacrol**, el **timol** y los **flavonoides**, que ayudan a combatir el daño causado por los radicales libres en las células, lo que puede proteger contra el envejecimiento prematuro y ciertas enfermedades crónicas.

### 2. **Efecto antimicrobiano**
El orégano



In [34]:
import sys
import time
from langchain.schema import HumanMessage

def ejercicio1_barra_progreso():
    """Barra de progreso visual basada en longitud de texto generado"""
    
    prompt = "Describe el proceso de fotosíntesis en las plantas"
    print("=== EJERCICIO 1B: BARRA DE PROGRESO ===")
    
    response_text = ""
    last_percent = 0
    bar_length = 30
    
    try:
        for chunk in llm.stream([HumanMessage(content=prompt)]):
            response_text += chunk.content
            
            # Progreso estimado basado en cantidad de caracteres
            total_estimate = 500  # puedes ajustar según lo largo que esperas que sea la respuesta
            progress = min(len(response_text) / total_estimate, 1.0)
            
            filled_length = int(bar_length * progress)
            bar = '█' * filled_length + '░' * (bar_length - filled_length)
            percent = int(progress * 100)
            
            # Solo actualizar si hay un cambio real en porcentaje
            if percent != last_percent:
                sys.stdout.write(f'\r[{bar}] {percent}% ({len(response_text)} chars)')
                sys.stdout.flush()
                last_percent = percent
            
            time.sleep(0.03)
        
        # Completa la barra al final
        sys.stdout.write('\r[' + '█'*bar_length + '] 100% (' + str(len(response_text)) + ' chars)\n')
        sys.stdout.flush()
        
        print(f"\n\nRespuesta final:\n{response_text}\n")
        print("✅ Barra de progreso completada!\n")
        
    except Exception as e:
        print(f"\nError: {e}")

ejercicio1_barra_progreso()


=== EJERCICIO 1B: BARRA DE PROGRESO ===
[██████████████████████████████] 100% (608 chars)


Respuesta final:
La **fotosíntesis** es el proceso mediante el cual las plantas fabrican su propio alimento utilizando la energía de la luz solar. Ocurre principalmente en las hojas y, específicamente, en unos orgánulos llamados **cloroplastos**.

El proceso se puede resumir en los siguientes pasos:

1. **Captura de luz solar:** Las plantas absorben la luz solar gracias a la clorofila, un pigmento verde presente en los cloroplastos.

2. **Absorción de dióxido de carbono y agua:** Las plantas toman dióxido de carbono (CO₂) del aire a través de pequeños poros en las hojas llamados estomas y absorben agua (H₂O) del suelo

✅ Barra de progreso completada!



## Comparación: Streaming vs No-Streaming

Veamos la diferencia en experiencia de usuario entre ambos enfoques.

In [None]:
# Comparación entre streaming y no-streaming
def comparar_streaming():

    # Modelo sin streaming
    llm_no_stream = ChatOpenAI(
        base_url="https://models.github.ai/inference",  #descubri que aqui  cambia de url base  
        api_key=os.getenv("GITHUB_TOKEN"),               
        model = "openai/gpt-4.1",               # modelo DeepSeek
        temperature=0.7,
        streaming=False  # Sin streaming
       
    )
    
    prompt = "Escribe un párrafo sobre beneficions del oregano"
    
    print("=== COMPARACIÓN: STREAMING vs NO-STREAMING ===\\n")
    
    # 1. Sin streaming
    print("1. SIN STREAMING:")
    print("-" * 20)
    print("Esperando respuesta completa...")
    
    start_time = time.time()
    try:
        response = llm_no_stream.invoke([HumanMessage(content=prompt)])
        end_time = time.time()
        
        print(f"\\n[Respuesta recibida después de {end_time - start_time:.2f} segundos]")
        print(response.content)
        
    except Exception as e:
        print(f"Error: {e}")
    
    print("\\n" + "="*60 + "\\n")
    
    # 2. Con streaming
    print("2. CON STREAMING:")
    print("-" * 18)
    print("Respuesta en tiempo real:")
    
    start_time = time.time()
    try:
        for chunk in llm.stream([HumanMessage(content=prompt)]):
            print(chunk.content, end="", flush=True)
            time.sleep(0.03)  # Simular pausa para efecto visual
        
        end_time = time.time()
        print(f"\\n\\n[Streaming completado en {end_time - start_time:.2f} segundos]")
        
    except Exception as e:
        print(f"Error: {e}")
    
    print("\\n" + "="*60)
    print("OBSERVACIONES:")
    print("- Sin streaming: El usuario espera sin feedback")
    print("- Con streaming: El usuario ve progreso inmediato")
    print("- Mejor percepción de velocidad con streaming")
    print("- Streaming es especial para respuestas largas")

# Ejecutar comparación
comparar_streaming()

## Implementación de un Chatbot Simple con Streaming

Creemos un chatbot básico que demuestre el streaming en un contexto práctico.

In [None]:
# Chatbot simple con streaming
def chatbot_streaming():
    print("=== CHATBOT CON STREAMING ===")
    print("Escribe 'salir' para terminar la conversación\\n")
    
    # Configurar asistente con personalidad
    system_message = """Eres un asistente útil y amigable especializado en tecnología. 
    Respondes de manera clara y concisa, y siempre intentas ser educativo."""
    
    while True:
        # Obtener input del usuario
        user_input = input("\\n🧑 Tú: ")
        
        if user_input.lower() in ['salir', 'exit', 'quit']:
            print("\\n👋 ¡Hasta luego!")
            break
            
        if not user_input.strip():
            continue
            
        print("\\n🤖 Asistente: ", end="", flush=True)
        
        try:
            # Streaming de la respuesta
            messages = [
                {"role": "system", "content": system_message},
                {"role": "user", "content": user_input}
            ]
            
            # Convertir a formato LangChain
            from langchain.schema import SystemMessage
            lc_messages = [
                SystemMessage(content=system_message),
                HumanMessage(content=user_input)
            ]
            
            full_response = ""
            for chunk in llm.stream(lc_messages):
                content = chunk.content
                print(content, end="", flush=True)
                full_response += content
                time.sleep(0.02)
                
            print()  # Nueva línea al final
            
        except KeyboardInterrupt:
            print("\\n\\n⏸️ Interrumpido por el usuario")
            break
        except Exception as e:
            print(f"\\n❌ Error: {e}")
            
    print("\\n¡Gracias por usar el chatbot!")

# Ejecutar chatbot (¡Pruébalo!)
chatbot_streaming() 
 # Descomenta esta línea para ejecutar

print("💡 Descomenta la línea anterior para probar el chatbot interactivo")

## Streaming Avanzado con Manejo de Chunks

Podemos procesar cada chunk individualmente para crear experiencias más sofisticadas.

In [None]:
# Streaming con análisis de chunks
def streaming_avanzado():
    prompt = "Explica qué es la inteligencia artificial y cómo funciona el machine learning"
    
    print("=== STREAMING AVANZADO CON ANÁLISIS ===")
    print("Analizando chunks conforme llegan...\n")
    
    # Variables para estadísticas
    chunk_count = 0
    total_content = ""
    words_processed = 0
    
    try:
        for chunk in llm.stream([HumanMessage(content=prompt)]):
            chunk_count += 1
            content = chunk.content
            total_content += content
            
            # Contar palabras aproximadas
            if content.strip():
                words_in_chunk = len(content.split())
                words_processed += words_in_chunk
            
            # Mostrar progreso cada 10 chunks
            if chunk_count % 10 == 0:
                print(f"\\n[Progreso: {chunk_count} chunks, ~{words_processed} palabras]\\n")
            
            # Imprimir el contenido
            print(content, end="", flush=True)
            time.sleep(0.02)  # Pausa ligeramente más larga para ver el análisis
        
        # Estadísticas finales
        print(f"\\n\\n=== ESTADÍSTICAS FINALES ===")
        print(f"Total de chunks: {chunk_count}")
        print(f"Palabras aproximadas: {words_processed}")
        print(f"Caracteres totales: {len(total_content)}")
        print(f"Promedio chars/chunk: {len(total_content)/chunk_count if chunk_count > 0 else 0:.1f}")
        
    except Exception as e:
        print(f"\\n✗ Error: {e}")

# Ejecutar streaming avanzado
streaming_avanzado()

## Consideraciones Técnicas del Streaming

### Cuándo Usar Streaming:
✅ **SÍ usar streaming:**
- Respuestas largas (>100 tokens)
- Aplicaciones interactivas
- Chatbots y asistentes
- Demostraciones en vivo
- Cuando la UX es prioritaria

❌ **NO usar streaming:**
- Respuestas muy cortas
- Procesamiento batch
- APIs de backend sin interfaz
- Cuando necesitas la respuesta completa antes de procesar

### Mejores Prácticas:
1. **Manejo de errores**: Siempre incluye try/catch
2. **Indicadores visuales**: Muestra progreso al usuario
3. **Cancelación**: Permite al usuario interrumpir
4. **Buffer management**: Para interfaces web, considera buffering
5. **Performance**: Monitorea el uso de recursos

## Ejercicios Prácticos

### Ejercicio 1: Indicador de Progreso
Modifica el código para mostrar un indicador de progreso (spinner, barra, porcentaje).

### Ejercicio 2: Streaming con Filtros
Implementa streaming que filtre o procese chunks específicos (ej: resaltar palabras clave).

### Ejercicio 3: Chatbot Mejorado
Extiende el chatbot con:
- Historial de conversación
- Comandos especiales (/help, /clear)
- Diferentes personalidades

## Conceptos Clave Aprendidos

1. **Streaming** mejora la percepción de velocidad
2. **Chunks** se procesan individualmente en tiempo real
3. **UX** es significativamente mejor con streaming
4. **Implementación** requiere manejo cuidadoso de generadores
5. **Casos de uso** específicos donde streaming aporta valor

## Próximos Pasos

En el siguiente notebook exploraremos la **memoria en LangChain**, que nos permite mantener contexto entre múltiples interacciones del usuario.