# NLP: Processamento de textos e Modelos de Linguagem

## Parte 1: Processamento de textos

Primeiro, vamos começar com algumas definições básicas: <br />
**Definição 1:** Um **corpus** é um conjunto de textos organizados em datasets. <br />
**Definição 2:** Seja $\mathcal{F}$ uma frase qualquer com $n$ palavras $w_1, ..., w_n$. O conjunto de todas as palavras distintas em $\mathcal{F}$ é chamado de conjunto de **types**.
**Definição 3:** Seja $\mathcal{F}$ uma frase qualquer com $n$ palavras $w_1, ..., w_n$. O conjunto de todas as palavras em $\mathcal{F}$, ordenadas pela sequência dada em $\mathcal{F}$ é chamado de conjunto de **tokens**.

### Exemplos de tokens e types:

Frase $\mathcal{F}$: <br />
"Eu sou eu pois eu digo que sou eu." <br />
Conjunto de types: {"Eu", "sou", "pois", "digo", "que"} <br />
Conjunto de tokens: {"Eu", "sou", "eu", "pois", "eu", "digo", "que", "sou", "eu"} <br />
p.s.: Note que o conjunto de tokens sempre será maior ou igual ao conjunto de types.

### Tokenização e separação em types

In [1]:
# Importando os recursos necessários
import nltk
# nltk.download("punkt")
from nltk import tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\T-Gamer\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [6]:
# Tokenizando e separando em types
frase = """Eu sou o Bailinho pois eu digo que sou o Bailinho. Se eu não fosse o Bailinho, eu não diria que eu sou o Bailinho."""
frase = frase.replace(".", "").replace(",", "")
conjunto_tokens = tokenize.word_tokenize(frase, language = "portuguese")
conjunto_types = set(conjunto_tokens)

In [7]:
# Printando os conjuntos e seus tamanhos
print(f"Conjunto de tokens: {conjunto_tokens} \n Tamanho do conjunto: {len(conjunto_tokens)}")
print("--------------------------------------------------------------------------------------")
print(f"Conjunto de types: {conjunto_types} \n Tamanho do conjunto: {len(conjunto_types)}")

Conjunto de tokens: ['Eu', 'sou', 'o', 'Bailinho', 'pois', 'eu', 'digo', 'que', 'sou', 'o', 'Bailinho', 'Se', 'eu', 'não', 'fosse', 'o', 'Bailinho', 'eu', 'não', 'diria', 'que', 'eu', 'sou', 'o', 'Bailinho'] 
 Tamanho do conjunto: 25
--------------------------------------------------------------------------------------
Conjunto de types: {'sou', 'Eu', 'Se', 'eu', 'pois', 'diria', 'que', 'não', 'o', 'digo', 'Bailinho', 'fosse'} 
 Tamanho do conjunto: 12


### Lematização e radicalização

**Definição 4:** Um **lexema** é uma unidade de significado, representado por um conjunto de formas relacionadas <br />
**Definição 5:** Um **lema** é uma forma canônica de representar um lexema <br />
**Definição 6:** Uma **raiz** é o morfema básico

#### Exemplos:
Lexema = {"estar", "estive", "estou", "está", ...} <br />
Lema = "estar" <br />
Raiz = "est" 

#### Lematização

In [4]:
# Importando o recurso necessário
# nltk.download("wordnet")
from nltk.stem import WordNetLemmatizer
# Lematizando
lemmatizer = WordNetLemmatizer()
sentenca_tokens = tokenize.word_tokenize("How I wish you were here. We're just two lost souls. Swimming in a fish bowl year after year")
lemas = [lemmatizer.lemmatize(token.replace(".", "").replace(",", "")) for token in sentenca_tokens]
print(lemas)

['How', 'I', 'wish', 'you', 'were', 'here', '', 'We', "'re", 'just', 'two', 'lost', 'soul', '', 'Swimming', 'in', 'a', 'fish', 'bowl', 'year', 'after', 'year']


#### Stemming (radicalização)

In [5]:
# Importando o recurso necessário
#nltk.download("rslp") # Removedor de sufixos da língua portuguesa
# Radicalizando:
raiz = nltk.stem.RSLPStemmer()
for palavra in ['Eu', 'sou', 'o', 'Bailinho', 'pois', 'eu', 'digo', 'que', 'sou']:
    print(raiz.stem(palavra))

eu
sou
o
bail
poi
eu
dig
que
sou


## Parte 2: Modelos de linguagem

### Probabilidades de palavras

#### Probabilidade da próxima palavra

Seja um conjunto de palavras $w_1, ..., w_{n-1}$. A probabilidade da próxima palavra ser uma palavra qualquer $w$ é dada por $P(w|w_1, ..., w_{n-1})$.

#### Probabilidade de uma frase

Seja uma frase composta pela sequência $w_1, ..., w_n$. A probabilidade dessa frase ocorrer é dada por $P(w_1, ..., w_n)$

#### Regra da cadeia

Usando alguns conhecimentos de probabilidade, temos que:
$$ P(w_1, ..., w_n) = P(w_2|w_1)P(w_3|w_1, w_2) \dots P(w_n|w_1, ..., w_{n-1}) $$

#### Probabilidade estimada de uma palavra

Considere um corpus. Um modelo de probabilidade para linguagem estima a probabilidade de uma próxima palavra usando a seguinte fórmula:
$$ P(w|w_1, ..., w_{n-1}) = \frac{contar(w_1, ..., w_{n-1}, w_n)}{contar(w_1, ..., w_{n-1})} $$

##### Exemplo:


$$ P(João|Eu, sou, o) = \frac{contar(Eu, sou, o, João)}{contar(Eu, sou, o)} $$ <br />
$$ P(Bailinho|Eu, sou, o) = \frac{contar(Eu, sou, o, Bailinho)}{contar(Eu, sou, o)} $$
Pense em qual frase é mais provável: "Eu sou o Bailinho" ou "Eu sou o João"