## Gerando uma Stream de Texto

In [None]:
import openai
from dotenv import load_dotenv, find_dotenv

_ = find_dotenv(load_dotenv())

In [None]:
client = openai.Client()

In [None]:
mensagens = [{'role': 'user', 'content': 'crie uma história sobre uma viagem a marte'}]
resposta = client.chat.completions.create(
    messages=mensagens,
    model='gpt-3.5-turbo-0125',
    max_tokens=1000,
    temperature=0,
    stream=True # inserido parâmetro stream. 
)

In [None]:
resposta

```python 
#O retorno inicial de uma chamada em streaming é um objeto de stream, que funciona como um iterador.
<openai.Stream at 0x1eb-e5ffe50> 
```

A opção stream=True é usada para ativar o streaming. Isso significa que a resposta não será retornada como um único bloco de texto, mas em "pedaços" (```chunks```), à medida que o modelo gera os tokens.

In [None]:
# Temos que iterar e pegar cada parte do token que estão divididos por chunks
# Eles são do tipo ChatCompletionChunk
resposta_completa = ""
for stream_resposta in resposta:
    texto = stream_resposta.choices[0].delta.content
    if texto:
        resposta_completa += texto
        print(texto, end="")

- ```Iteração sobre o Objeto de Stream```:
    - A variável resposta é um iterador, e você pode iterar sobre ele para acessar cada chunk gerado pelo modelo.
    - O loop for percorre cada parte da resposta conforme ela vai sendo gerada.
- ```Acessando o Conteúdo de Cada Chunk```:
    - Dentro do loop, a resposta parcial está no campo delta.content de choices[0]. Esse campo contém a parte do texto que foi gerada até o momento.
- ```Acumulação e Exibição do Texto```:
    - A cada iteração, se houver conteúdo, ele é adicionado à variável resposta_completa.
    - O print() exibe cada parte do texto sem quebrar a linha, permitindo que o conteúdo seja exibido de maneira contínua.

### Importância do Streaming:
```**Baixa Latência**```: O streaming permite que você receba a resposta de maneira incremental, começando a processá-la ou exibi-la antes que o modelo tenha finalizado toda a geração.

```**Uso em Aplicações em Tempo Real**```: Isso é útil em casos como chatbots, onde a experiência do usuário é aprimorada ao fornecer respostas rápidas e contínuas, sem precisar esperar por uma resposta completa.

### Exemplo de Funcionamento:
Durante a execução, o texto gerado sobre a "história de uma viagem a Marte" será exibido em partes. Cada fragmento gerado será impresso e acumulado em resposta_completa, formando a resposta final ao longo do tempo.

### Conclusão:
Esse método de streaming permite gerar e processar respostas de maneira eficiente e em tempo real, tornando-o ideal para cenários onde é necessária uma resposta rápida ou a exibição parcial das saídas enquanto ainda estão sendo geradas.