# <h1 align="center"><font color="red">Embeddings de Texto</font></h1>

<font color="yellow">Data Scientist.: Dr. Eddy Giusepe Chirinos Isidro</font>

Link de estudo:

* [Medium: Embeddings](https://towardsdatascience.com/text-embeddings-comprehensive-guide-afd97fce8fb5)

<font color="orange">Os `Embeddings` também são vetores números, podem capturar o significado. Assim, você pode utilizá-los para fazer uma busca `semântica` e até trabalhar com documentos em diferentes idiomas.</font>

# <font color="pink">Evolução dos Embeddings</font>

## <font color="gree">Bag of Words</font>

Lembrando `stemização` (stemming) com NLTK Python:

In [1]:
import nltk
from nltk.stem import SnowballStemmer
from nltk.tokenize import word_tokenize

# Baixar o recursos necessários para o processamento em português:
nltk.download('punkt')
nltk.download('stopwords')

# Stemmer para português:
stemmer = SnowballStemmer(language='portuguese')


text = 'Temos sorte de viver em uma época em que ainda estamos fazendo descobertas'

# tokenization - splitting text into words:
words = word_tokenize(text)

words


[nltk_data] Downloading package punkt to
[nltk_data]     /home/eddygiusepe/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/eddygiusepe/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['Temos',
 'sorte',
 'de',
 'viver',
 'em',
 'uma',
 'época',
 'em',
 'que',
 'ainda',
 'estamos',
 'fazendo',
 'descobertas']

In [2]:
stemmed_words = list(map(lambda x: stemmer.stem(x), words))

stemmed_words

['tem',
 'sort',
 'de',
 'viv',
 'em',
 'uma',
 'époc',
 'em',
 'que',
 'aind',
 'estam',
 'faz',
 'descobert']

<font color="orange">Agora, temos uma lista das formas básicas de todas as nossas palavras. O próximo passo é calcular suas frequências para criar um vetor.</font>

In [3]:
import collections
bag_of_words = collections.Counter(stemmed_words)

bag_of_words

Counter({'em': 2,
         'tem': 1,
         'sort': 1,
         'de': 1,
         'viv': 1,
         'uma': 1,
         'époc': 1,
         'que': 1,
         'aind': 1,
         'estam': 1,
         'faz': 1,
         'descobert': 1})

<font color="blue">Esta abordagem é `bastante básica` e não leva em consideração o significado `semântico das palavras`, portanto as frases `“A menina está estudando ciência de dados”` e `“A jovem está aprendendo IA e ML”` não estarão próximas uma da outra.</font>

## <font color="gree">TF-IDF</font>

<font color="orange">Uma versão ligeiramente melhorada da abordagem `Bag of the Words` é `TF-IDF` (Term Frequency — Inverse Document Frequency).</font>

Essa estratégia deu resultados um pouco melhores, mas mesmo assim não conseguiu significado semântico. `Olhando para isso, os cientistas começaram a pensar na representação vetorial densa.`


## <font color="gree">Word2Vec</font>

<font color="orange">Uma das abordagens mais famosas para `representação densa` é o `word2vec`, proposto pelo `Google em 2013` no artigo `“Efficient Estimation of Word Representations in Vector Space”` de Mikolov et al.</font>

O `word2vec` era capaz de trabalhar `apenas com palavras`, mas gostaríamos de codificar frases inteiras. Então, vamos passar para o próximo passo evolutivo com `Transformers`.

## <font color="gree">Transformers e Sentence Embeddings</font>

Um dos primeiros modelos populares foi o `BERT` (Bidirectional Encoder Representations from Transformers) do Google AI.

Internamente, o `BERT` ainda opera em um nível de token semelhante ao `word2vec`, mas ainda queremos obter incorporações de frases. Portanto, a abordagem ingênua poderia ser obter uma média dos vetores de todos os tokens. Infelizmente, essa abordagem não apresenta bom desempenho.

Esse problema foi resolvido em `2019`, quando o `Sentence-BERT` foi lançado. Superou todas as abordagens anteriores para tarefas de `similaridade textual semântica` e permitiu o cálculo de `Embeddings de frases`.

# <font color="pink">Calculando Embeddings</font>

<font color="orange">Aqui usaremos `Embeddings OpenAI`. Tentaremos um novo modelo `text-embedding-3-small` que foi [lançado recentemente](https://openai.com/blog/new-embedding-models-and-api-updates). O novo modelo apresenta melhor desempenho em comparação com `text-embedding-ada-002`:

* A pontuação média em um `benchmark` de recuperação multilíngue amplamente utilizado ([MIRACL](https://github.com/project-miracl/miracl)) aumentou de `31,4%` para `44,0%`.


* O desempenho médio num benchmark frequentemente utilizado para tarefas de inglês (MTEB) também melhorou, passando de `61,0%` para `62,3%`.

`OpenAI` também lançou um novo modelo maior `text-embedding-3-large`. Agora, é o modelo de `Embeddings` com melhor desempenho.</font>

In [4]:
# Substitua sua chave de API OpenAI:
import openai
import os
from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
openai.api_key  = os.environ['OPENAI_API_KEY']

In [5]:
from openai import OpenAI
client = OpenAI()

def get_embedding(text, model="text-embedding-3-small"):
   text = text.replace("\n", " ")
   return client.embeddings.create(input = [text], model=model)\
       .data[0].embedding


emb_frase = get_embedding("Temos sorte de viver numa época em que ainda fazemos descobertas.")

In [6]:
len(emb_frase)

1536

## <font color="gree">Distância entre vetores</font>

In [7]:
# Vetores:
vector1 = [ 1 , 4 ] 
vector2 = [ 2 , 2 ]

## <font color="red">Distância euclidiana (L2)</font>

In [8]:
import numpy as np

Euclidiana_forma_1 = sum(list(map(lambda x, y: (x - y) ** 2, vector1, vector2))) ** 0.5
# 2.2361

Euclidiana_forma_1

2.23606797749979

In [9]:
Euclidiana_forma_2 = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 2)

round(Euclidiana_forma_2, 3)

2.236

## <font color="red">Distância de Manhattan (L1)</font>

In [10]:
Manhattan_forma_1 = sum(list(map(lambda x, y: abs(x - y), vector1, vector2)))
# 3

Manhattan_forma_1

3

In [11]:
Manhattan_forma_2 = np.linalg.norm((np.array(vector1) - np.array(vector2)), ord = 1)

round(Manhattan_forma_2, 3)

3.0

## <font color="red">Produto escalar (`Dot product`)</font>

In [12]:
DotProduct_forma1 = sum(list(map(lambda x, y: x*y, vector1, vector2)))

DotProduct_forma1

10

In [13]:
DotProduct_forma2 = np.dot(vector1, vector2)

round(DotProduct_forma2, 3)

10

## <font color="red">Cosine similarity</font>

In [14]:
dot_product = sum(list(map(lambda x, y: x*y, vector1, vector2)))
norm_vector1 = sum(list(map(lambda x: x ** 2, vector1))) ** 0.5
norm_vector2 = sum(list(map(lambda x: x ** 2, vector2))) ** 0.5

Cosine_1 = dot_product/(norm_vector1*norm_vector2)

Cosine_1

0.8574929257125441

In [15]:
from sklearn.metrics.pairwise import cosine_similarity

Cosine_2 = cosine_similarity(np.array(vector1).reshape(1, -1), np.array(vector2).reshape(1, -1))[0][0]

round(Cosine_2, 4)
# 0.8575

0.8575

<font color="orange">Podemos até calcular o `ângulo exato` entre os nossos vetores em graus. Obtemos resultados em torno de `30 graus` e parece bastante razoável.</font>

In [16]:
import math

angulo_entre_vetores = math.degrees(math.acos(0.8575))

round(angulo_entre_vetores, 2)
# 30.96

30.96

<font color="yellow">Para tarefas de `NLP`, a prática recomendada geralmente é usar `similaridade de cosseno`. Algumas razões por trás disso:

* A similaridade do cosseno está entre -1 e 1, enquanto L1 e L2 são ilimitados, por isso é mais fácil de interpretar.

* Do ponto de vista prático, é mais eficaz calcular produtos escalares do que raízes quadradas para a distância euclidiana.</font>

* <font color="red">A similaridade de cossenos é menos afetada pela maldição da dimensionalidade.</font>

<font color="orange">Os Embeddings OpenAI já são normalizados, portanto, o `produto escalar` e a `similaridade do cosseno` são iguais neste caso.</font>