<a href="https://colab.research.google.com/github/dscalexandre/cluster_apache_spark_docker/blob/main/optimized_text_generation_with_llm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <font color='limegreen'>GENERATIVE AI AND NATURAL LANGUAGE PROCESSING</font>
### <font color='limegreen'>LLM MISTRAL-7B INSTRUCT - OPTIMIZED TEXT GENERATION</font>

### Step 1: Install Packages

In [None]:
!pip install -q -U watermark

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.6 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m58.4 MB/s[0m eta [36m0:00:00[0m
[?25h

### Step 2: Import Libraries

In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

### Step 3: Package Versions

In [None]:
%reload_ext watermark
%watermark --iversions

torch       : 2.6.0+cu124
transformers: 4.53.0



In [None]:
%watermark -v -m

Python implementation: CPython
Python version       : 3.11.13
IPython version      : 7.34.0

Compiler    : GCC 11.4.0
OS          : Linux
Release     : 6.1.123+
Machine     : x86_64
Processor   : x86_64
CPU cores   : 8
Architecture: 64bit



### Step 4: Check CUDA Environment

In [None]:
# CUDA (GPU) Environment Check and Configuration
import torch

if torch.cuda.is_available():
    print(f"CUDA device available: {torch.cuda.get_device_name(0)}")
    print(f"Number of available GPUs: {torch.cuda.device_count()}")
    print(f"Current GPU: {torch.cuda.current_device()}")
else:
    print("CUDA is not available. Please ensure you have a GPU environment configured in Colab.")

CUDA device available: Tesla T4
Number of available GPUs: 1
Current GPU: 0


### Step 5: Load Model and Tokenizer

In [None]:
# Set the model identifier
model_id = "mistralai/Mistral-7B-Instruct-v0.3"

In [None]:
# Load the tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id, padding_side="left")

tokenizer_config.json:   0%|          | 0.00/141k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/587k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

In [None]:
# Load the pre-trained model
model = AutoModelForCausalLM.from_pretrained(model_id)

config.json:   0%|          | 0.00/601 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 3 files:   0%|          | 0/3 [00:00<?, ?it/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/4.55G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

In [None]:
# Set the prompt
prompt_text = "Como funciona uma sessão psicológica?"
prompt = f"<s>[INST] {prompt_text} [/INST]"

In [None]:
# Tokenize the prompt
input_ids = tokenizer(prompt, return_tensors="pt")

### Step 6: Generate the model response

In [None]:
# Text Generation (Inference)
generated_ids = model.generate(
    **input_ids,
    max_new_tokens=540,
    do_sample=True,
    temperature=0.7,
    top_k=50,
    top_p=0.95)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


In [None]:
# Decoder the ids generated
generated_text_full = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

In [None]:
# Extract the response from the model
try:
    response_content = generated_text_full.split("[/INST]")[-1].strip()
    normalized_prompt = prompt_text.lower().rstrip("?.! ").strip()

    if response_content.lower().startswith(normalized_prompt):
        generated_response = response_content[len(normalized_prompt):].lstrip("?. ").strip()
    else:
        generated_response = response_content

except Exception as e:
    print(f"Erro ao extrair resposta: {e}. Exibindo o texto gerado completo.")
    generated_response = generated_text_full.strip()

print("\n--- Texto Gerado ---")
print(prompt_text)
print(generated_response)


--- Texto Gerado ---
Como funciona uma sessão psicológica?
Uma sessão psicológica é um tempo dedicado em que um psicólogo ou terapeuta profissional trabalha com um cliente para explorar e resolver problemas psicológicos ou melhorar sua qualidade de vida. A sessão pode ser conduzida em um ambiente clínico, escolar, corporativo ou em outros contextos.

A sessão psicológica pode variar em duração e estrutura dependendo do profissional, do tipo de terapia utilizada e do cliente. Em geral, a sessão começa com uma abertura em que o psicólogo e o cliente se apresentam e discutem a agenda do dia, seguido por uma fase de exploração dos problemas e dos sentimentos do cliente. A sessão também pode incluir técnicas de terapia, como a discução, a orientação, a visualização mental, a prática de habilidades ou outras técnicas específicas da terapia utilizada.

Em seguida, o psicólogo ou terapeuta pode fornecer orientações, sugestões ou recomendações para o cliente para trabalhar em suas problemas en

### End