# 3. LangChain Streaming - Respuestas en Tiempo Real

## Objetivos de Aprendizaje
- Comprender qué es el streaming y cuándo usarlo
- Implementar streaming con LangChain
- Manejar chunks de datos en tiempo real
- Construir interfaces de usuario reactivas

## ¿Qué es el Streaming?

El streaming permite recibir la respuesta del modelo **token por token** conforme se genera, en lugar de esperar a que termine completamente. Esto mejora significativamente la experiencia de usuario en aplicaciones interactivas.

### Ventajas del Streaming:
- **Percepción de velocidad**: El usuario ve progreso inmediato
- **Mejor UX**: Interfaces más reactivas e interactivas  
- **Engagement**: Mantiene la atención del usuario
- **Debugging**: Permite ver el proceso de generación

### Casos de Uso Ideales:
- Chatbots y asistentes conversacionales
- Generación de contenido largo
- Aplicaciones web interactivas
- Demostraciones en vivo

In [14]:


from langchain_openai import ChatOpenAI
from langchain.schema import HumanMessage, AIMessage, SystemMessage
import langchain
import langchain_openai
import os
import time
from dotenv import load_dotenv

load_dotenv("../../.env")

try:
    import langchain
    print(f"Lnagchain  version: {langchain.__version__}")
except ImportError:
    print("Lanchain no esta instalado")


Lnagchain  version: 0.3.18


In [15]:
print(os.getenv("GITHUB_BASE_URL"))
print(os.getenv("GITHUB_TOKEN"))
print(os.getenv("OPENAI_API_KEY"))
try:
     llm = ChatOpenAI(
          model="gpt-4o",
          temperature=0.7,
          max_tokens=150
     )

     print("Modelo de Langchain configurado correctamente")
     print(f"Modelo: {llm.model_name}")
     print(f"Temperature: {llm.temperature}")
     print(f"Max Tokens : {llm.max_tokens}")
except Exception as e:
     print(f"Error de configuracion {e}")
     print("Verifica las variables de entorno OPENAI_BASE_URL y GITHUB_TOKEN")

None
None
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
Modelo de Langchain configurado correctamente
Modelo: gpt-4o
Temperature: 0.7
Max Tokens : 150


In [17]:
def ejemplo_basico():
    try:
       # Usar Humman Message(equivalente a "user" en OpenAI)
       response = llm.invoke([HumanMessage(content="Hola , como estas?")]) 
       print("===Respuesta Basica ====")
       print(response.content)
       print(f"Tipo de Respuesta: {type(response)}")
    except Exception as ex:
       print(f"Error {ex}") 

ejemplo_basico()

===Respuesta Basica ====
¡Hola! Estoy bien, gracias. ¿Y tú, cómo estás?
Tipo de Respuesta: <class 'langchain_core.messages.ai.AIMessage'>


## Streaming basico
El metodo `stream().` devuelve un generador que produce tokens a medida que se generan.

```python

In [None]:
def  streaming_basico():
    prompt = """
    Cuentame una historia de naruto y naruto shippudden 
    """
    
    print("=== STREAMIN EN TIEMPO REAL ===")
    print("Generando Respuesta")
    print("-"  * 50)
    
    try:
        for chunk in llm.stream([HumanMessage(content=prompt)]):
            print(chunk.content, end='', flush=True)
            time.sleep(0.1)  # Simula
        print("\n" + "-" * 50)
        print("Respuesta completa generada.")
    except Exception as e:
        print(f"Error en streaming: {e}")
streaming_basico()