# Instalação dos pacotes necessários / Configuração da máquina

In [None]:
# Instalação das dependências localmente
# Se estiver rodando localmente, descomente a linha abaixo para instalar as dependências
# ! pip install -r requirements.txt

In [None]:
# Se rodando no Google Colab, descomente a linha abaixo para montar o Google Drive
from google.colab import drive
drive.mount('/content/drive/')

In [None]:
# Instalação das dependências no Google Colab
# Mude CAMINHO_PARA_REPO para o caminho correto do seu repositório no seu Google Drive
# ! pip install -r /content/drive/MyDrive/UFMS/Aulas/2025-2/TOPIA/repo/TopicosIA-2025-02/requirements.txt

# Introdução aos modelos de linguagem

Imagine um computador que consegue:
- Entender quando você escreve uma frase em português
- Prever qual palavra você vai digitar em seguida
- Traduzir um texto de inglês para português
- Escrever um texto que parece ter sido escrito por um humano

Isso tudo é possível graças aos **modelos de linguagem**! Eles são programas especiais que "aprendem" como a linguagem humana funciona.

### Por que isso é importante?

Os modelos de linguagem estão por trás de muitas tecnologias que você usa no dia a dia:
- O corretor automático do seu celular
- O Google Tradutor
- Assistentes virtuais como Siri e Alexa
- O ChatGPT que tem feito tanto sucesso

### O que faremos nesta aula?

1. Vamos entender **o que são** modelos de linguagem de forma simples
2. Conhecer a **história** dessa tecnologia (é mais antiga do que você imagina!)
3. Implementar nossos **primeiros modelos** em Python

## Sumário
1. [Modelos de linguagem: definição e aplicações](#Modelos-de-linguagem:-definição-e-aplicações)
2. [Linha do tempo e evolução histórica](#Linha-do-tempo-e-evolução-histórica)
3. [Representação Bag‑of‑Words](#Representação-Bag‑of‑Words)
4. [Modelos n‑gramas](#Modelos-n‑gramas)

## Modelos de linguagem: definição e aplicações

### O que é um modelo de linguagem?

Vamos começar com uma **definição simples**:

> Um modelo de linguagem é como um "estudante" muito dedicado que leu milhões de textos e aprendeu a prever quais palavras fazem sentido juntas.

Imagine que você está escrevendo a frase "O gato subiu no..." - sua mente automaticamente pensa em palavras como "telhado", "muro" ou "sofá". Você sabe que "O gato subiu no elefante" seria estranho. Um modelo de linguagem faz exatamente isso, mas de forma matemática!

### Definição técnica (mais precisa)

Tecnicamente, um modelo de linguagem é uma função matemática que **calcula a probabilidade** de uma sequência de palavras aparecer em um idioma. Por exemplo:

- "Bom dia" tem alta probabilidade (frase comum)
- "Dia bom" tem menor probabilidade (menos comum)
- "Azul comer" tem probabilidade quase zero (não faz sentido)

### Onde encontramos modelos de linguagem?

Você provavelmente já usou modelos de linguagem hoje, mesmo sem saber:

**No seu celular:**
- Corretor automático que sugere palavras
- Teclado que completa suas frases
- Tradução instantânea de mensagens

**Na internet:**
- Busca do Google que entende suas perguntas
- Legendas automáticas do YouTube
- Sugestões de email ("Obrigado pela mensagem...")

**Assistentes virtuais:**
- Siri, Google Assistant, Alexa
- ChatGPT e outros chatbots

### Por que são importantes?

Os modelos de linguagem são fundamentais porque permitem que computadores:
1. **Compreendam** textos escritos por humanos
2. **Gerem** textos que parecem naturais
3. **Traduzam** entre diferentes idiomas
4. **Respondam** perguntas sobre textos

Isso abriu as portas para uma revolução na forma como interagimos com computadores!

## Linha do tempo e evolução histórica

A história dos modelos de linguagem é fascinante! Vamos fazer uma viagem no tempo para entender como chegamos até aqui.

### Era dos Pioneiros (1950-1960)

**1950 - O Teste de Turing**
Alan Turing fez uma pergunta revolucionária: "Máquinas podem pensar?" Ele propôs um teste: se um computador conseguir conversar de forma indistinguível de um humano, poderíamos dizer que ele "pensa".

**1954 - Primeira Tradução Automática**
Cientistas americanos conseguiram traduzir 60 frases do russo para o inglês usando um computador. Era muito simples, mas funcionava. Eles achavam que em poucos anos resolveriam a tradução completamente (spoiler: erraram rude!).

**1966 - ELIZA, o Primeiro Chatbot**
ELIZA foi um dos primeiros programas que "conversava" com humanos. Era como um psicólogo virtual muito simples, mas algumas pessoas realmente acreditavam estar falando com um humano!

### Era Estatística (1980-1990)

**Anos 1980-1990 - A Revolução dos Números**
Os cientistas descobriram que podiam ensinar computadores a prever palavras contando quantas vezes elas apareciam juntas em textos grandes. Era como ensinar estatística para máquinas!

**Exemplo simples**: Se em 1000 textos a palavra "gato" aparece depois de "o" 300 vezes, então há 30% de chance da próxima palavra após "o" ser "gato".

### Era Neural Inicial (2000-2010)

**2003 - Redes Neurais Superam Estatística**
Pela primeira vez, programas inspirados no cérebro humano (redes neurais) conseguiram resultados melhores que os métodos estatísticos tradicionais.

**2010 - Word2Vec: Palavras Viram Números**
Tomáš Mikolov criou uma forma genial de transformar palavras em números matemáticos. O incrível é que palavras similares ficavam com números similares! Por exemplo: "rei" - "homem" + "mulher" = "rainha".

### Era Moderna (2017-hoje)

**2017 - A Revolução Transformer**
Um grupo de pesquisadores do Google criou uma nova arquitetura chamada "Transformer". Era como dar superpoderes para os modelos de linguagem - eles conseguiam "prestar atenção" em todas as palavras de uma frase simultaneamente.

**2018 - Nascimento dos Gigantes: BERT e GPT**
- **BERT**: Criado pelo Google, era especialista em entender textos
- **GPT**: Criado pela OpenAI, era especialista em gerar textos

**2020 em diante - A Era dos Modelos Gigantes**
- GPT-3: 175 bilhões de parâmetros (como 175 bilhões de "neurônios artificiais")
- GPT-4: Ainda maior e mais capaz
- Outros modelos gigantes surgiram, mudando o mundo da tecnologia

### O que isso significa?

Estamos vivendo um momento histórico! Os modelos de linguagem de hoje conseguem:
- Escrever textos, poemas e até código
- Responder perguntas complexas
- Ter conversas que parecem naturais
- Ajudar em tarefas criativas

![Evolucao dos modelos](https://raw.githubusercontent.com/bmnogueira-ufms/TopicosIA-2025-02/main/images/evolucao_modelos.png)

## 0. Do **texto** aos **números**

Antes de falar em Bag-of-Words, precisamos entender **como** um texto cru vira matéria-prima numérica para o computador.

| Etapa | O que faz | Por quê? |
|-------|-----------|----------|
| **Tokenização** | Quebra a sequência em unidades menores, chamadas *tokens* (geralmente palavras). | O modelo trabalha palavra a palavra — precisa saber *onde* cada palavra começa e termina. |
| **Limpeza** | Converte para minúsculas, remove pontuação, números, emojis, etc. | Uniformiza o texto e evita que “Gato” ≠ “gato”. |
| **Remoção de stopwords** | Elimina palavras muito frequentes e pouco informativas (“o”, “de”, “e” …). | Reduz ruído e tamanho do vocabulário. |
| *(Opcional)* **Stemming / Lemmatização** | Reduz palavras ao seu “tronco” (“correndo” → “corr”) ou à forma canônica (“cães” → “cão”). | Agrupa variações da mesma raiz, diminuindo a dispersão. |
| **Vocabulário** `V` | Conjunto *único* de todos os tokens restantes. | Cada termo ganhará uma coluna (dimensão) no vetor. |
| **Vetorização** | Mapeia cada documento a um vetor de tamanho \(|V|\). | Finalmente transforma texto em números! |

### Exemplo rápido

> Texto original  
> *“Os gatos pretos dormem no sofá!”*

1. **Tokenização:** `[Os, gatos, pretos, dormem, no, sofá]`  
2. **Limpeza + stopwords:** `[gatos, pretos, dormem, sofá]`  
3. **Vocabulário parcial:** `V = {gatos, pretos, dormem, sofá, …}`  
4. **Vetorização BoW (contagens):** \((gatos=1,\; pretos=1,\; dormem=1,\; sofá=1,\dots)\)

A partir daqui podemos aplicar **Bag-of-Words** ou outros métodos (TF-IDF, embeddings, Transformers) para que modelos matemáticos “leiam” o conteúdo.


## 1. Representação **Bag-of-Words** (Sacola de Palavras)

> “Computadores não entendem letras, apenas números.”  
> **Bag-of-Words (BoW)** é o primeiro passo para transformar texto em vetores numéricos.

### 1.1 Definição formal
Considere um vocabulário  
$$
V = \{w_1, w_2, \dots, w_{|V|}\}
$$

obtido do corpus. Para cada documento \(d\) construímos o vetor de contagens

$$
\mathbf v^{(d)} = \left[\, c(w_1,d),\; c(w_2,d),\; \dots,\; c(w_{|V|},d) \right],
$$

onde  

$$
c(w_i,d) = \text{número de vezes que a palavra } w_i \text{ aparece em } d.
$$

A posição *i* do vetor corresponde **sempre** à palavra \(w_i\); a ordem do texto original é descartada.

### 1.2 Exemplo rápido
| Documento                 | Vetor BoW (parcial)                  |
|---------------------------|--------------------------------------|
| “O gato subiu no telhado” | (o=1, gato=1, subiu=1, telhado=1,...) |

<br/>
<img src="https://raw.githubusercontent.com/bmnogueira-ufms/TopicosIA-2025-02/main/images/exemplo_bag_of_words.png" width="55%">

### 1.3 Vantagens × Desvantagens
| ✅ Vantagens | ❌ Desvantagens |
|-------------|----------------|
| Simples e rápido | Perde **ordem** e contexto |
| Boa base para classificação | Vetores esparsos e grandes |

---

## 2. Pesos **TF-IDF**

### 2.1 Fórmulas

**Term Frequency (no documento \(d\))**

$$
\text{TF}(t,d) = \frac{c(t,d)}{\sum_{t'} c(t',d)}
$$

**Inverse Document Frequency (no corpus \(D\) com \(N\) documentos)**

$$
\text{IDF}(t,D) = \log\left(\frac{N + 1}{\text{df}(t)+1}\right) + 1,
$$

onde \(\text{df}(t)\) é o número de documentos que contêm \(t\).

**Peso final**

$$
\text{TF-IDF}(t,d,D) = \text{TF}(t,d) \times \text{IDF}(t,D)
$$

### 2.2 Intuição
* Valor alto → termo frequente em \(d\) **e** raro no corpus → caracteriza o documento.  
* Valor baixo → stopwords ou termos muito comuns.



In [4]:
import nltk, math, pandas as pd, numpy as np
from collections import Counter
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [9]:
# ---------------------------------------------------------------------
# 1. Corpus de teste
# ---------------------------------------------------------------------
corpus = [
    "O gato preto dorme com o gato branco",                        # Doc 1
    "O cachorro marrom corre atrás do gato",                   # Doc 2
    "O gato marrom dorme no sofá",               # Doc 3
    "Os pássaros voam no céu e. os gatos olham",                   # Doc 4
    "As crianças brincam no parque",             # Doc 5
    "O gato e o cachorro correm juntos"          # Doc 6
]

In [10]:
# ---------------------------------------------------------------------
# 2. Pré-processamento com NLTK
#    – tokenização, lowercase, remoção de stopwords e não-alfabéticos
# ---------------------------------------------------------------------
stop_pt = set(nltk.corpus.stopwords.words("portuguese"))

def tokenize(text):
    tokens = [tok.lower() for tok in nltk.word_tokenize(text) if tok.isalpha()]
    return [tok for tok in tokens if tok not in stop_pt]

tokenized_docs = [tokenize(doc) for doc in corpus]
tokenized_docs

[['gato', 'preto', 'dorme', 'gato', 'branco'],
 ['cachorro', 'marrom', 'corre', 'atrás', 'gato'],
 ['gato', 'marrom', 'dorme', 'sofá'],
 ['pássaros', 'voam', 'céu', 'gatos', 'olham'],
 ['crianças', 'brincam', 'parque'],
 ['gato', 'cachorro', 'correm', 'juntos']]

In [11]:
# ---------------------------------------------------------------------
# 3. Vocabulário e matriz Bag-of-Words
# ---------------------------------------------------------------------
vocab = sorted({tok for doc in tokenized_docs for tok in doc})
def bow_vector(tokens, vocab):
    counts = Counter(tokens)
    return [counts.get(term, 0) for term in vocab]

bow_matrix = np.array([bow_vector(doc, vocab) for doc in tokenized_docs])

bow_df = pd.DataFrame(bow_matrix, columns=vocab,
                      index=[f"Doc {i+1}" for i in range(len(corpus))])

print("\n=== BAG-OF-WORDS ===")
print(bow_df)


=== BAG-OF-WORDS ===
       atrás  branco  brincam  cachorro  corre  correm  crianças  céu  dorme  \
Doc 1      0       1        0         0      0       0         0    0      1   
Doc 2      1       0        0         1      1       0         0    0      0   
Doc 3      0       0        0         0      0       0         0    0      1   
Doc 4      0       0        0         0      0       0         0    1      0   
Doc 5      0       0        1         0      0       0         1    0      0   
Doc 6      0       0        0         1      0       1         0    0      0   

       gato  gatos  juntos  marrom  olham  parque  preto  pássaros  sofá  voam  
Doc 1     2      0       0       0      0       0      1         0     0     0  
Doc 2     1      0       0       1      0       0      0         0     0     0  
Doc 3     1      0       0       1      0       0      0         0     1     0  
Doc 4     0      1       0       0      1       0      0         1     0     1  
Doc 5     0 

In [12]:
# ---------------------------------------------------------------------
# 4. Cálculo manual de TF-IDF
#    TF = frequência absoluta
#    IDF = log((N + 1) / (df + 1)) + 1      (suavizado)
# ---------------------------------------------------------------------
N = len(corpus)
df = np.count_nonzero(bow_matrix > 0, axis=0)          # nº docs que contêm a palavra
idf = np.log((N + 1) / (df + 1)) + 1
tf_idf_matrix = bow_matrix * idf

tfidf_df = pd.DataFrame(np.round(tf_idf_matrix, 3), columns=vocab,
                        index=[f"Doc {i+1}" for i in range(N)])

print("\n=== TF-IDF ===")
print(tfidf_df)


=== TF-IDF ===
       atrás  branco  brincam  cachorro  corre  correm  crianças    céu  \
Doc 1  0.000   2.253    0.000     0.000  0.000   0.000     0.000  0.000   
Doc 2  2.253   0.000    0.000     1.847  2.253   0.000     0.000  0.000   
Doc 3  0.000   0.000    0.000     0.000  0.000   0.000     0.000  0.000   
Doc 4  0.000   0.000    0.000     0.000  0.000   0.000     0.000  2.253   
Doc 5  0.000   0.000    2.253     0.000  0.000   0.000     2.253  0.000   
Doc 6  0.000   0.000    0.000     1.847  0.000   2.253     0.000  0.000   

       dorme   gato  gatos  juntos  marrom  olham  parque  preto  pássaros  \
Doc 1  1.847  2.673  0.000   0.000   0.000  0.000   0.000  2.253     0.000   
Doc 2  0.000  1.336  0.000   0.000   1.847  0.000   0.000  0.000     0.000   
Doc 3  1.847  1.336  0.000   0.000   1.847  0.000   0.000  0.000     0.000   
Doc 4  0.000  0.000  2.253   0.000   0.000  2.253   0.000  0.000     2.253   
Doc 5  0.000  0.000  0.000   0.000   0.000  0.000   2.253  0.000    

In [13]:
# ---------------------------------------------------------------------
# 5. Interpretação rápida
# ---------------------------------------------------------------------
palavra = "sofá"
doc_idx = 2  # Doc 3 (índice começa em zero)

print(f"\nComparação da palavra '{palavra}':")
print(f"  - Frequência em Doc 3 (BoW): {bow_df.loc[f'Doc {doc_idx+1}', palavra]}")
print(f"  - Importância em Doc 3 (TF-IDF): {tfidf_df.loc[f'Doc {doc_idx+1}', palavra]:.3f}")


Comparação da palavra 'sofá':
  - Frequência em Doc 3 (BoW): 1
  - Importância em Doc 3 (TF-IDF): 2.253


## Modelos N-gramas: Prevendo a Próxima Palavra

Agora vamos dar um grande passo! Em vez de apenas contar palavras, vamos ensinar o computador a **prever** qual palavra vem em seguida.

### O que são N-gramas?

**Analogia simples:** Imagine que você está jogando um jogo onde precisa adivinhar a próxima palavra de uma frase. Para isso, você pode olhar:

- **Unigrama (n=1)**: Apenas uma palavra → "gato" → qual a próxima?
- **Bigrama (n=2)**: Duas palavras → "o gato" → qual a próxima?
- **Trigrama (n=3)**: Três palavras → "o gato preto" → qual a próxima?

Quanto mais contexto (palavras anteriores) você tem, melhor consegue adivinhar!

### Como funciona um modelo de bigrama?

O modelo bigrama olha **pares de palavras** que aparecem juntas e calcula probabilidades:

**Exemplo prático:**
Se no seu corpus você encontra:
- "o gato" aparece 10 vezes
- "o cachorro" aparece 5 vezes  
- "o" aparece 20 vezes no total

Então:
- P(gato | o) = 10/20 = 50%
- P(cachorro | o) = 5/20 = 25%

**Interpretação:** Depois da palavra "o", há 50% de chance da próxima ser "gato".

### Problema: E se nunca vimos uma combinação?

**Cenário:** E se perguntarmos P(elefante | o) mas nunca vimos "o elefante" no corpus?

**Solução - Suavização:** Adicionamos um "pouquinho" de probabilidade para todas as combinações possíveis. É como dar uma "segunda chance" para combinações não vistas.

### Por que isso foi revolucionário?

Por décadas (1990-2010), os N-gramas foram a base de:
- Tradutores automáticos (Google Translate antigo)
- Reconhecimento de fala (Siri primeira versão)
- Corretores ortográficos

In [None]:
import re
from collections import defaultdict, Counter
import random
import math

print("CONSTRUINDO UM MODELO BIGRAMA")
print("="*50)

# Nosso corpus de treinamento (pequeno, mas funcional!)
corpus = [
    'o gato preto dorme',
    'o cachorro marrom corre',
    'o gato marrom dorme no sofá',
    'o gato corre no quintal'
]

print("CORPUS DE TREINAMENTO:")
for i, frase in enumerate(corpus):
    print(f"{i+1}. {frase}")

def tokenize(text):
    """Função para separar um texto em palavras individuais"""
    return re.findall(r'\b\w+\b', text.lower())

print("\nPASSO 1: PREPARANDO OS DADOS")
print("-" * 30)

# Vamos contar todos os bigramas (pares de palavras consecutivas)
bigram_counts = defaultdict(Counter)  # Para contar bigramas
unigram_counts = Counter()            # Para contar palavras individuais
vocabulario = set()                   # Para guardar todas as palavras únicas

for frase in corpus:
    # Separar a frase em palavras
    palavras = tokenize(frase)

    # Adicionar marcadores de início e fim de frase
    palavras = ['<INÍCIO>'] + palavras + ['<FIM>']

    # Adicionar todas as palavras ao vocabulário
    vocabulario.update(palavras)

    # Contar bigramas (pares consecutivos)
    for i in range(len(palavras) - 1):
        palavra_atual = palavras[i]
        próxima_palavra = palavras[i + 1]

        # Contar este bigrama
        bigram_counts[palavra_atual][próxima_palavra] += 1
        # Contar a palavra atual
        unigram_counts[palavra_atual] += 1

    # Não esquecer de contar a última palavra
    unigram_counts[palavras[-1]] += 1

# Tamanho do vocabulário (para suavização)
V = len(vocabulario)

print(f"Vocabulário total: {V} palavras únicas")
print(f"Palavras do vocabulário: {sorted(vocabulario)}")

print("\nPASSO 2: EXEMPLOS DE BIGRAMAS ENCONTRADOS")
print("-" * 40)
print("Alguns bigramas mais comuns:")
for palavra, próximas in list(bigram_counts.items())[:3]:
    print(f"Depois de '{palavra}':")
    for próxima, count in próximas.items():
        print(f"  - '{próxima}' aparece {count} vez(es)")

def probabilidade_bigrama(palavra_anterior, palavra_atual):
    """
    Calcula P(palavra_atual | palavra_anterior) com suavização add-one
    """
    # Suavização: adicionamos 1 a todas as contagens
    numerador = bigram_counts[palavra_anterior][palavra_atual] + 1
    denominador = unigram_counts[palavra_anterior] + V
    return numerador / denominador

print("\nPASSO 3: TESTANDO PROBABILIDADES")
print("-" * 35)

# Testando algumas probabilidades
exemplos_teste = [
    ('o', 'gato'),
    ('o', 'cachorro'),
    ('gato', 'preto'),
    ('o', 'elefante')  # Este nunca apareceu!
]

for anterior, atual in exemplos_teste:
    prob = probabilidade_bigrama(anterior, atual)
    print(f"P('{atual}' | '{anterior}') = {prob:.4f} = {prob*100:.2f}%")

def probabilidade_frase(frase):
    """Calcula a probabilidade total de uma frase"""
    palavras = ['<INÍCIO>'] + tokenize(frase) + ['<FIM>']
    log_prob = 0.0

    for i in range(len(palavras) - 1):
        prob = probabilidade_bigrama(palavras[i], palavras[i + 1])
        log_prob += math.log(prob)

    return log_prob

print("\nPASSO 4: TESTANDO FRASES COMPLETAS")
print("-" * 35)

frases_teste = [
    'o gato marrom corre',    # Frase similar ao treinamento
    'o elefante verde voa'    # Frase totalmente nova
]

for frase in frases_teste:
    prob_log = probabilidade_frase(frase)
    print(f"Frase: '{frase}'")
    print(f"Probabilidade (log): {prob_log:.2f}")
    print(f"Probabilidade real: {math.exp(prob_log):.2e}")
    print()

def gerar_frase_aleatoria(max_palavras=8):
    """Gera uma frase aleatória usando o modelo bigrama"""
    frase = []
    palavra_atual = '<INÍCIO>'

    for _ in range(max_palavras):
        # Pegar todas as palavras possíveis após a palavra atual
        palavras_possíveis = list(bigram_counts[palavra_atual].keys())

        if not palavras_possíveis:  # Se não há continuação conhecida
            break

        # Calcular probabilidades para cada palavra possível
        probabilidades = [probabilidade_bigrama(palavra_atual, p) for p in palavras_possíveis]

        # Escolher aleatoriamente baseado nas probabilidades
        palavra_atual = random.choices(palavras_possíveis, weights=probabilidades, k=1)[0]

        if palavra_atual == '<FIM>':
            break

        frase.append(palavra_atual)

    return ' '.join(frase)

print("PASSO 5: GERANDO TEXTO AUTOMÁTICO!")
print("-" * 35)
print("Vamos ver o que nosso modelo aprendeu a escrever:")

for i in range(5):
    frase_gerada = gerar_frase_aleatoria()
    print(f"{i+1}. {frase_gerada}")

# N-gramas para palavras compostas no Bag-of-Words

No Bag-of-Words (BoW) “padrão”, representamos cada documento por **unigramas** (palavras individuais). Isso pode perder informação importante quando o significado depende de termos **multi-palavra**, como *“inteligência artificial”*, *“banco de dados”* ou *“São Paulo”*.  
Para capturar essas **palavras compostas**, usamos **n-gramas**, isto é, sequências contíguas de *n* tokens:
- **Unigrama (n=1):** `["banco", "dados", ...]`
- **Bigrama (n=2):** `["banco de", "de dados", "banco de dados", ...]`
- **Trigrama (n=3):** `["aprendizado de máquina", ...]`

**Por que isso ajuda?**  
- Desambiguação: o unigrama “banco” é ambíguo; já **“banco de dados”** e **“banco da (praça)”** distinguem sentidos.  
- Expressões fixas: “inteligência artificial” costuma funcionar como uma unidade semântica.

**Trade-offs e dicas práticas**  
- **Dimensão e esparsidade aumentam** rapidamente ao incluir bigramas/trigramas.  
- Comece com `ngram_range=(1,2)` (unigramas + bigramas) e controle o vocabulário com `min_df`, `max_df` ou `max_features`.  
- Se quiser ser mais criterioso, selecione apenas n-gramas frequentes ou com alta associação (ex.: PMI), mas isso já foge do BoW “puro”.

A seguir, um exemplo gerando um BoW com unigramas e bigramas e mostrando como bigramas capturam palavras compostas.

In [None]:
# BoW com unigramas e bigramas para capturar palavras compostas
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

corpus = [
    "Modelos de linguagem são um subcampo de inteligência artificial.",
    "Aprendizado de máquina é aplicado em processamento de linguagem natural.",
    "A cidade de São Paulo abriga empresas de tecnologia.",
    "O banco de dados foi atualizado.",
    "O banco da praça foi pintado."
]

# Apenas unigramas (baseline)
vec_uni = CountVectorizer(ngram_range=(1,1), lowercase=True)
X_uni = vec_uni.fit_transform(corpus)

# Unigramas + bigramas (capturam palavras compostas)
vec_bi = CountVectorizer(ngram_range=(1,2), lowercase=True)
X_bi = vec_bi.fit_transform(corpus)

print("Tamanho do vocabulário (unigramas):", len(vec_uni.get_feature_names_out()))
print("Tamanho do vocabulário (até bigramas):", len(vec_bi.get_feature_names_out()))


In [None]:

# Vamos inspecionar alguns bigramas típicos de “palavras compostas”
bigrams_interesse = [
    "inteligência artificial",
    "aprendizado de",
    "aprendizado de máquina",
    "são paulo",
    "banco de",
    "banco de dados",
    "banco da"
]

def counts_for(terms, vectorizer, X, corpus_size):
    rows = []
    for t in terms:
        if t in vectorizer.vocabulary_:
            idx = vectorizer.vocabulary_[t]
            counts = X[:, idx].toarray().ravel()
        else:
            counts = [0]*corpus_size
        rows.append(counts)
    df = pd.DataFrame(rows, index=terms, columns=[f"doc{i+1}" for i in range(corpus_size)])
    return df

df_bi = counts_for(bigrams_interesse, vec_bi, X_bi, len(corpus))

# Mostra apenas os termos que realmente apareceram como bigramas
df_bi_filtrado = df_bi[df_bi.sum(axis=1) > 0]
display(df_bi_filtrado)



In [None]:
# Ex.: "inteligência" e "artificial" existem separadamente como unigramas,
# mas apenas o modelo com bigramas tem "inteligência artificial" como um único recurso.
terms_unigramas = ["inteligência", "artificial", "banco", "dados", "praça"]
def counts_uni(terms, vectorizer, X, corpus_size):
    rows = []
    for t in terms:
        if t in vectorizer.vocabulary_:
            idx = vectorizer.vocabulary_[t]
            counts = X[:, idx].toarray().ravel()
        else:
            counts = [0]*corpus_size
        rows.append(counts)
    return pd.DataFrame(rows, index=terms, columns=[f"doc{i+1}" for i in range(corpus_size)])

df_uni = counts_uni(terms_unigramas, vec_uni, X_uni, len(corpus))
display(df_uni)

# vec_bi = CountVectorizer(ngram_range=(1,2), min_df=2, max_df=0.8, max_features=30000)

# Modelo Vetorial (Vector Space Model)

A ideia central do **modelo vetorial** é representar cada documento (e também a consulta) como um **vetor de pesos** em um espaço de termos. Em vez de olhar só para presença/ausência, usamos pesos como **TF-IDF** para dar mais importância aos termos característicos.

- **Vocabulário**: $ V = \{t_1, \dots, t_{|V|}\} $  
- **Representação** do documento $d$: $ \mathbf{d} = [w_1, \dots, w_{|V|}] $, com $ w_i = \mathrm{tf}(t_i, d)\cdot \mathrm{idf}(t_i) $.

Uma forma comum (usada pelo `scikit-learn`) é:
$$
\mathrm{idf}(t)=\log\!\left(\frac{N+1}{\mathrm{df}(t)+1}\right)+1
$$
onde $N$ é o número de documentos e $\mathrm{df}(t)$ quantos documentos contêm $t$.

Para medir relevância entre **consulta** $\mathbf{q}$ e **documento** $\mathbf{d}$, usamos a **similaridade do cosseno**:
$$
\cos(\mathbf{q}, \mathbf{d})=\frac{\mathbf{q}\cdot \mathbf{d}}{\lVert \mathbf{q}\rVert\,\lVert \mathbf{d}\rVert}
$$

**Por que funciona bem?**
- **TF-IDF** destaca termos que são frequentes no documento, mas raros na coleção.
- **Normalização** (L2) reduz o viés por documentos longos.
- **N-gramas** (ex.: bigramas) permitem tratar **palavras compostas** como “inteligência artificial” e “banco de dados”.

**Limitações e dicas**
- Ainda é **BoW** (perde ordem longa e sintaxe); sinônimos não são unidos.
- Controle o tamanho do vocabulário com `min_df`, `max_df` ou `max_features`.
- Para ir além: **LSA/SVD** (redução de dimensionalidade) ou **embeddings** neuronais.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
import pandas as pd

corpus = [
    "Modelos de linguagem são um subcampo de inteligência artificial.",
    "Aprendizado de máquina é aplicado em processamento de linguagem natural.",
    "A cidade de São Paulo abriga empresas de tecnologia.",
    "O banco de dados foi atualizado.",
    "O banco da praça foi pintado."
]

# TF-IDF com unigramas + bigramas para capturar compostos
vectorizer = TfidfVectorizer(ngram_range=(1,2), lowercase=True)
X = vectorizer.fit_transform(corpus)

def search(query, topk=5):
    q = vectorizer.transform([query])
    sims = cosine_similarity(q, X).ravel()
    idx = np.argsort(-sims)[:topk]
    return pd.DataFrame({
        "rank": np.arange(1, len(idx)+1),
        "score": np.round(sims[idx], 3),
        "doc_id": idx + 1,
        "texto": [corpus[i] for i in idx]
    })

print("Dimensão do espaço vetorial (nº de features TF-IDF):", X.shape[1])

# Exemplos de consulta mostrando desambiguação via n-gramas
display(search("banco de dados", topk=5))
display(search("banco da praça", topk=5))
display(search("inteligência artificial", topk=5))

## O que é normalização L2?

**Normalização L2** (ou normalização pela **norma Euclidiana**) é o processo de **escalar um vetor para ter norma 2 igual a 1**, preservando sua direção.  
Dado um vetor de características $\mathbf{x} = (x_1,\dots,x_n)$, sua versão normalizada é:

$$
\|\mathbf{x}\|_2 = \sqrt{\sum_{i=1}^n x_i^2}
\qquad\text{e}\qquad
\hat{\mathbf{x}} \;=\;
\begin{cases}
\displaystyle \frac{\mathbf{x}}{\|\mathbf{x}\|_2}, & \|\mathbf{x}\|_2 \neq 0 \\
\mathbf{0}, & \text{caso contrário}
\end{cases}
$$

### Intuição rápida
- Mantém a **direção** do vetor e ajusta apenas o **tamanho** para 1.
- Em textos (BoW/TF-IDF), reduz o viés de documentos longos: compara-se **perfil de termos**, não comprimento.
- Após L2, a **similaridade do cosseno** entre vetores vira o **produto interno** direto:
  $$
  \cos(\hat{\mathbf{q}}, \hat{\mathbf{d}}) \;=\; \hat{\mathbf{q}}\cdot \hat{\mathbf{d}}
  $$

### Exemplo
Vetor $\mathbf{x}=(3,4)$ tem $\|\mathbf{x}\|_2=5$.  
Normalizado: $\hat{\mathbf{x}}=(0{,}6,\,0{,}8)$.

### L2 x outras normalizações
- **L1**: força $\sum_i |x_i| = 1$ (soma dos valores absolutos).
- **Padronização (z-score)**: transforma cada **feature** para média 0 e desvio 1 — é outra coisa, não uma normalização de vetor.
- No `scikit-learn`, o `TfidfVectorizer` usa **`norm='l2'`** por padrão.