<a href="https://colab.research.google.com/github/Rogerio-mack/Modelos_de_Linguagem_e_Generativos/blob/main/MLG_01_Introducao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Uma Introdução aos Grandes Modelos de Linguagem**

## Uma História Recente da IA

* Antes: NLP, Processamento de Linguagem Natural
* Agora: Modelos baseados em NN, Aprendizado Profundo

<br>

<img src="https://github.com/Rogerio-mack/Modelos_de_Linguagem_e_Generativos/blob/main/Hands-On-LLM/Figura1-1.png?raw=true?raw=true" width=500>



## NLTK, Spacy

> * *Tokens* (letra, sentença, palavra, etc.),
> * stopwords,
> * Lematização (redução à forma canônica),
> * Stemming (redução à raiz da palavra),
> * Reconhecimento de Entidades Nomeadas (NER),
> * Identificação de Idioma,
> * Parsing (análise sintática)
> * *corpus*

* **NLTK**: mais modular, maior controle sobre cada etapa do pipeline, mas  exige mais configuração.

* **spaCy**: pipelines pré-treinados, para produção, menos flexibilidade para pesquisa.


### NLTK

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import RSLPStemmer
import re

# 1. Download de recursos
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('rslp')
nltk.download('punkt_tab')

# 2. Texto de exemplo
texto = "A análise de sentimentos é uma tarefa importante em PLN."

# 3. Inicializar recursos
stop_words = set(stopwords.words('portuguese'))   # stopwords
stemmer = RSLPStemmer()                           # stemmer

# 4. Tokenização (nltk.word_tokenize)
tokens = nltk.word_tokenize(texto)
print("Tokens:", tokens)

# 5. Remover stopwords e pontuação
tokens_limpos = [t for t in tokens if t.lower() not in stop_words and re.match(r'\w+', t)]
print("Tokens limpos:", tokens_limpos)

# 6. Stemming
stems = [stemmer.stem(t) for t in tokens_limpos]
print("Stems:", stems)


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Package rslp is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...


Tokens: ['A', 'análise', 'de', 'sentimentos', 'é', 'uma', 'tarefa', 'importante', 'em', 'PLN', '.']
Tokens limpos: ['análise', 'sentimentos', 'tarefa', 'importante', 'PLN']
Stems: ['anális', 'sent', 'taref', 'import', 'pln']


[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


### Spacy

In [None]:
!python -m spacy download pt_core_news_sm

Collecting pt-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pt_core_news_sm-3.8.0/pt_core_news_sm-3.8.0-py3-none-any.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m39.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pt-core-news-sm
Successfully installed pt-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pt_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
import spacy

# 1. Download e carregar modelo (pt_core_news_sm ou pt_core_news_md)
#   python -m spacy download pt_core_news_sm    # (ou pt_core_news_md)
nlp = spacy.load("pt_core_news_sm")

# 2. Texto de exemplo
texto = "A análise de sentimentos é uma tarefa importante em PLN."

# 3. Processar com spaCy
doc = nlp(texto)

# 4. Imprimir tokens, lemas e remover stopwords
tokens_limpos = []
for token in doc:
    if not token.is_stop and not token.is_punct:
        print(f"Token: {token.text}, Lema: {token.lemma_}")
        tokens_limpos.append(token.lemma_)
print("Lemas limpos:", tokens_limpos)


Token: análise, Lema: análise
Token: sentimentos, Lema: sentimento
Token: tarefa, Lema: tarefa
Token: importante, Lema: importante
Token: PLN, Lema: PLN
Lemas limpos: ['análise', 'sentimento', 'tarefa', 'importante', 'PLN']


## Modelos de Linguagem

* **Modelos de Fundação**. Modelos de IA projetados para produzir para realizar uma série de tarefas incluindo geração de texto, vídeo, imagem ou áudio. Eles podem ser sistemas autônomos ou usados como uma "base" para outros aplicativos/modelos. Assim, por exemplo, o LLM chamado GPT funciona como o modelo de base do ChatGPT. O GPT é um modelo de Fundação.

<img src="https://github.com/Rogerio-mack/Modelos_de_Linguagem_e_Generativos/blob/main/Hands-On-LLM/Figura1-2.png?raw=true?raw=true" width=500>



### Transformers, e algumas tarefas para Linguagem

* **Tarefas de classificação (modelos apenas codificadores)**, classificam um texto ou parte dele.

  * Análise de sentimento: Classifica o sentimento de um texto como positivo, negativo ou neutro.
  * Classificação de texto: Atribui categorias ou rótulos pré-definidos a um texto.
  * Reconhecimento de Entidades Nomeadas (NER): Identifica e categoriza entidades (como pessoas, organizações e locais) em um texto.
  * Rotulagem de parte da fala (POS): Rotula cada palavra em uma frase com sua classe gramatical (substantivo, verbo, adjetivo, etc.).
  * Classificação de sequência: Atribui uma etiqueta a uma sequência inteira de texto, útil para detectar spam ou a intenção de um usuário.
  * Classificação de shot zero: Classifica um texto em uma categoria sem a necessidade de um modelo pré-treinado especificamente para essa categoria.

* **Tarefas de geração (modelos apenas decodificadores)**, usados para gerar texto a partir de um prompt.

  * Modelagem de linguagem (casual): Gera texto a partir de um início de frase, prevendo a próxima palavra com base nas anteriores.
  * Geração de texto: Cria texto de forma livre, como poemas ou artigos.
  * Preenchimento de máscara: Preenche as palavras ausentes em uma frase (modelagem de linguagem mascarada).

* **Tarefas de sequência a sequência (modelos codificador-decodificador)**, modelos recebem uma entrada de texto e produzem uma saída de texto.

  * Tradução automática: Traduz texto de um idioma para outro.
  * Sumarização de texto: Gera um resumo conciso de um texto mais longo.
  * Resposta a perguntas: Extrai uma resposta de um texto com base em uma pergunta (extrativa) ou gera uma resposta a partir do conhecimento do modelo (generativa).

> **Acesse:** https://huggingface.co/models > Tasks

In [None]:
from transformers import pipeline

# Especifica um modelo para análise de sentimento em português
classifier_pt = pipeline("sentiment-analysis", model="cardiffnlp/twitter-xlm-roberta-base-sentiment")

# Exemplo de uso com texto em português
result = classifier_pt("Eu tô amando este curso de Modelos de Linguagem!")
print(result)

result = classifier_pt("Mas eu odeio quando preciso programar!")
print(result)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/841 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cpu


[{'label': 'positive', 'score': 0.9205960035324097}]
[{'label': 'negative', 'score': 0.9149842858314514}]


In [None]:
from transformers import pipeline

# Fill-Mask (Preenchimento de Máscara)
fill_masker = pipeline("fill-mask", model="neuralmind/bert-base-portuguese-cased")
# Use [MASK] como token de máscara para este modelo
masked_text_pt = "O Brasil não é um país [MASK]."
predictions = fill_masker(masked_text_pt, top_k=3)
print("\nFill Mask:")
for p in predictions:
    print(f"Token: {p['token_str']}, Score: {p['score']:.4f}")

masked_text_pt = "Mais vale um [MASK] na mão que dois voando."
predictions = fill_masker(masked_text_pt, top_k=3)
print("\nFill Mask:")
for p in predictions:
    print(f"Token: {p['token_str']}, Score: {p['score']:.4f}")

Some weights of the model checkpoint at neuralmind/bert-base-portuguese-cased were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Device set to use cpu



Fill Mask:
Token: sério, Score: 0.1059
Token: democrático, Score: 0.0689
Token: isolado, Score: 0.0449

Fill Mask:
Token: avião, Score: 0.2268
Token: pássaro, Score: 0.0564
Token: coração, Score: 0.0408


## Por que tratar linguagem natural é importante?

* Produção de informação não estruturada, escrita e falada

* Tarefas automatizadas de classificação, clusterização etc.

* Aplicações: search engines, sentiment analysis, classificação automática de notícias, emails, artigos, reclamações, bots, reconhecimento de voz, tradução automática etc.


## Por que uma representação por vetores?

* Precisamos de uma representação estruturada para manipular e processar as informações

* **Luhn** (1953?) Argumentou que as palavras muito frequentes e as pouco frequentes não colaboram para discriminação e similaridade entre documentos.

* Frequencia dos termos = sentido dos documentos

* Fácil manipulação = funções de similaridade

## Principais formas de representação da Linguagem

* **BOW**, Bag of Words  

* **TF-IDF**, term frequency–inverse document frequency

* **Word Embedding (2013, Tomas Mikolov at Google)**

* **Transformers**, Bert (2018, Bidirectional Encoder Representations from Transformers, Google) e concorrentes...

## **BOW**, Bag of Words

<img src="https://github.com/Rogerio-mack/Modelos_de_Linguagem_e_Generativos/blob/main/figures/bow.png?raw=true?raw=true" width=600>

<br>

Landauer, T. K., Foltz, P. W., & Laham, D. (1998). An introduction to latent semantic analysis. Discourse processes, 25(2-3), 259-284.


### Distância (Similaridade) Cosseno

A similaridade cosseno entre dois vetores, A e B, é dada por:

$$\text{similaridade_cosseno}(A, B) = \frac{A \cdot B}{||A|| \cdot ||B||} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \cdot \sqrt{\sum_{i=1}^{n} B_i^2}}$$

Em que:

- $A \cdot B$ é o produto escalar (dot product) de A e B.
- $||A||$ e $||B||$ são as normas (magnitude) de A e B.

<br>

O valores da similaridade variam de -1 a 1:

- 1: Vetores apontam na mesma direção (máxima similaridade).
- 0: Vetores são ortogonais (não há similaridade).
- -1: Vetores apontam em direções opostas (máxima dissimilaridade).

## **TF-IDF**, term frequency–inverse document frequency

<img src="https://github.com/Rogerio-mack/Modelos_de_Linguagem_e_Generativos/blob/main/figures/tfidf.png?raw=true?raw=true" width=1000>




### Frequência do termo (TF)


* Contagem bruta

$$ \mathrm{TF}(t,d) = f(t,d) $$

* Frequência relativa (normalizada pelo tamanho do documento)

$$ \mathrm{TF}(t,d) = \frac{f(t,d)}{\sum_{t' \in d} f(t',d)} $$

Em que $f(t,d)$ é o número de vezes que o termo $t$ aparece no documento $d$, e o denominador o número total de termos no documentos.



### Frequência inversa do documento (IDF)

$$\mathrm{IDF}(t,D) = \log \frac{N}{n_t} $$

Em que $N$ é o número total de documentos e $n_t$ é o número de documentos contendo o termo $t$ na coleção $D$. Havendo ainda a variante suavizada $\log \frac{N+1}{n_t+1}$ para evitar divisões por zero.

### **Frequência do termo – frequência inversa do documento**

$$ \mathrm{TF\_IDF}(t,d,D) = \mathrm{TF}(t,d) \space \mathrm{IDF}(t,D) = \frac{f(t,d)}{\sum_{t' \in d} f(t',d)} \log \frac{N}{n_t}  $$


O termo $IDF$, também chamado de *especificidade do termo* fornece um peso inverso à quantidade de vezes que o termo aparece no documento e portanto, reduz o "peso" de termos muito frequentes na coleção.

## O que podemos fazer agora com isso?


<img src="https://github.com/Rogerio-mack/Modelos_de_Linguagem_e_Generativos/blob/main/figures/tfidf_ml.png?raw=true?raw=true" width=1000>

<br>
<br>


* Classificação
* Clusterização
* ...e quaisquer outras tarefas de aprendizado de máquina.

#  Word Embedding

Uma representação melhor pode ser obtida com a técnica de Word Embedding, e veremos essa técnica mais adiante.

<img src="https://lilianweng.github.io/posts/2017-10-15-word-embedding/word2vec-skip-gram.png" width=500>
