# Processamento de Linguagem Natural (NLP)
## Pré-processamento, Representações Vetoriais e Similaridade de Textos
Neste notebook, você aprenderá a aplicar diversas técnicas de pré-processamento de texto, desde a implementação manual até o uso da biblioteca SpaCy. Também exploraremos diferentes formas de representar textos numericamente (BoW, TF-IDF) e como medir a similaridade entre documentos usando cosseno.

## 1. Lowercasing
Converter o texto para letras minúsculas é o primeiro passo para padronizar os dados, evitando que palavras como "Casa" e "casa" sejam tratadas como diferentes.

### Exercício 1 - Lowercasing Manual
Converta o texto abaixo para letras minúsculas usando Python puro.

In [1]:
text = "O Gato Subiu NO Telhado."
# TODO: converta para minúsculas


### Exercício 2 - Lowercasing com SpaCy
Repita a operação usando SpaCy e verifique os tokens.

In [None]:
!python -m spacy download pt_core_news_sm

In [None]:
import spacy
nlp = spacy.load('pt_core_news_sm')
doc = nlp(text)
[token.text.lower() for token in doc]

## 2. Remoção de Pontuação
A pontuação normalmente não carrega significado semântico relevante e pode ser removida.

### Exercício 3 - Remoção Manual de Pontuação
Remova manualmente a pontuação usando expressões regulares.

In [None]:
text = "Olá, tudo bem? Espero que sim! Vamos começar."
# TODO: remova pontuações


### Exercício 4 - Remoção de Pontuação com SpaCy
Use SpaCy para ignorar tokens que são pontuação.

Explore o `token.is_punct` para verificar se um token é pontuação.

['Olá', 'tudo', 'bem', 'Espero', 'que', 'sim', 'Vamos', 'começar']

## 3. Tokenização
Tokenizar é dividir o texto em unidades menores, geralmente palavras.

### Exercício 5 - Tokenização Manual
Divida o texto em palavras usando `.split()`

In [6]:
text = "Aprendizado de máquina é incrível"
# TODO: tokenize manualmente criando uma lista de tokens


### Exercício 6 - Tokenização com SpaCy
Tokenize o mesmo texto com SpaCy.

In [None]:
doc = nlp(text)


['Aprendizado', 'de', 'máquina', 'é', 'incrível']

## 4. Remoção de Stopwords
Stopwords são palavras muito comuns que normalmente não carregam significado relevante.

### Remoção Manual de Stopwords
Use uma lista manual de stopwords para removê-las.

In [8]:
# TODO: remova stopwords criando uma lista de palavras comuns que devem ser removidas


### Exercício 8 - Remoção de Stopwords com SpaCy
Use SpaCy para remover automaticamente as stopwords.
Explore o uso do `token.is_stop` para verificar se um token é uma stopword.

In [None]:
doc = nlp("Eu gosto de estudar dados")


['gosto', 'estudar', 'dados']

## 5. Lematização e Stemming

- A lematização reduz uma palavra à sua forma canônica. Noutras palavras, transforma a palavra em sua raiz ou forma base.

    - Exemplo 1: "correndo" se torna "correr".
    - Exemplo 2: "melhores" se torna "bom".
    - Exemplo 3: "maçãs" se torna "maçã".

- Stemming é uma técnica semelhante, mas menos precisa, que corta os sufixos das palavras. Por exemplo, "correndo" se torna "corr".

- Qual dos dois utilizar? A lematização é mais precisa, mas o stemming pode ser mais rápido. A escolha depende do seu caso de uso.

**Imprtante: o Spacy não faz Stemming**

In [10]:
text = "Os meninos estavam correndo felizes."
doc = nlp(text)
[token.lemma_ for token in doc if not token.is_stop and not token.is_punct]

['menino', 'estar', 'correr', 'feliz']

In [None]:
!pip install nltk

In [None]:
import nltk
from nltk.stem import RSLPStemmer

# baixando o stemmer
nltk.download('rslp')
stemmer = RSLPStemmer()

In [13]:
stems = [stemmer.stem(token.text) for token in doc if not token.is_stop and not token.is_punct]
stems

['menin', 'est', 'corr', 'feliz']

## 6. Representações Vetoriais
Agora que temos textos pré-processados, precisamos representá-los numericamente para aplicar modelos.

### 6.1 Corpus:
Um corpus é uma coleção de documentos, usada como base para análise linguística e processamento de linguagem natural.

Os próximos passos envolvem a construção de um corpus.

Iremos criar um corpus, entender como o Bag of Words (BoW) funciona e como a representação TF-IDF pode ser aplicada.

### 6.2 Bag of Words (BoW)
Representa um texto como uma coleção de palavras, ignorando gramática e ordem, e focando apenas na frequência com que as palavras aparecem.

1. **Contagem de Palavras**: Crie um dicionário que conta a frequência de cada palavra em um texto.
2. **Representação BoW**: Construa uma matriz onde cada linha representa um documento e cada coluna representa uma palavra do vocabulário, preenchida com a contagem de palavras.

### Exercício 10 - Crie um Corpus com os seguintes documentos:

- `"gato gosta de peixe",`
- `"cachorro gosta de osso"`
- `"peixe e osso são alimentos"`

### Exercício 11 - BoW from scratch

Construa uma representação BoW para o corpus criado no exercício 10. Utilize um dicionário para contar a frequência de cada palavra e crie uma matriz onde cada linha representa um documento e cada coluna representa uma palavra do vocabulário.

In [14]:
# corpus

# crie um vocabulario

# crie a matriz


### Exercício 11 - BoW com CountVectorizer
Use `CountVectorizer` para gerar a matriz BoW.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
  
]

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())
print(X.toarray())

### 6.2 TF-IDF (Term Frequency-Inverse Document Frequency)
Ajusta a frequência com base em quão rara uma palavra é em outros documentos.

- **TF**: Frequência de uma palavra em um documento.
- **IDF**: Inverso da frequência de documentos que contêm a palavra.
- **TF-IDF**: Produto de TF e IDF, representando a importância de uma palavra em um documento em relação ao corpus.

Pseudo-código para calcular TF-IDF:

```
para um documento d em documentos:
    para cada palavra p em d:
        tf = contagem de p em d / total de palavras em d
        idf = log(total de documentos / contagem de documentos que contêm p)
        tfidf[p] = tf * idf
```


### Exercício 12 - TF-IDF com TfidfVectorizer

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(corpus)
print(tfidf.get_feature_names_out())
print(X_tfidf.toarray())

['cachorro' 'de' 'está' 'gato' 'gosta' 'jardim' 'no' 'peixe' 'telhado']
[[0.         0.         0.46580855 0.46580855 0.         0.
  0.46580855 0.         0.59081908]
 [0.55528266 0.         0.43779123 0.         0.         0.55528266
  0.43779123 0.         0.        ]
 [0.         0.52547275 0.         0.41428875 0.52547275 0.
  0.         0.52547275 0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.        ]]


## 7. Similaridade
A similaridade cosseno mede o quão parecidos dois vetores são com base no ângulo entre eles.

$$
\text{similaridade\_cosseno}(\vec{A}, \vec{B}) = \frac{\vec{A} \cdot \vec{B}}{\|\vec{A}\| \cdot \|\vec{B}\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \cdot \sqrt{\sum_{i=1}^{n} B_i^2}}
$$

**Onde:**

- O produto escalar dos vetores A e B mede o quanto os vetores "apontam na mesma direção".

- ∥A∥ e ∥B∥: são os módulos (ou magnitudes) dos vetores A e B. Isso normaliza os vetores, ou seja, ignora o tamanho e foca na direção

Imagine dois vetores apontando em direções diferentes.

- Quanto mais próximos eles estiverem, **menor o ângulo entre eles**, o que resulta em uma **maior similaridade cosseno**.

- Se eles apontam para a **mesma direção**, a similaridade cosseno será **1 (máxima similaridade)**.

- Se forem **ortogonais (formam 90 graus)**, a similaridade será **0 (sem similaridade)**.

- Se forem **opostos**, o valor será **-1 (totalmente opostos)**.


### Exercício 12 - Crie uma função para calcular a similaridade cosseno entre dois vetores.

dica: use a biblioteca `numpy` para facilitar os cálculos.

`np.dot` e `np.linalg.norm`


In [None]:
import numpy as np

vetor_A = np.array([1, 2, 3])
vetor_B = np.array([4, 5, 6])

# calcule o produto escalar

# calcule a norma do vetor_A

# calcule a norma do vetor_B

# similaridade_cosseno = produto_escalar / norma_A * norma_B

### Exercício 14 - Teste sua função agora com os vetores abaixo:

```python
vetor_A = np.array([1, 2, 3])
vetor_B = np.array([1, 2, 6])
```

**Notou alguma diferença em relação ao exercício anterior?**

In [None]:
vetor_A = np.array([1, 2, 3])
vetor_B = np.array([1, 2, 6])


### Exercício 15 - Agora aplique a função de similaridade cosseno entre os vetores gerados pelo `CountVectorizer` e `TfidfVectorizer`.