# **Text Representation**
É uma forma de numericamente representar símbolos, letras, palavras, sentenças e documentos para fazer com que esses itens/textos sejam matematicamente computáveis. Geralmente representamos textos como um vetor numérico, um vetor de números, de forma que se a gente precisar comparar dois vetores numéricos, podemos utilizar ferramentas do arcabouço matemáticos para verificar a similaridade entre dois vetores por meio do cosseno, como mostrado abaixo.
Além de habilitar essa computação matemática, podemos também criar modelos de linguagem (Language Models). Capazes de predizer uma palavra dada uma sequência de palavras anteriores.

### **Example**

In [1]:
import numpy as np
from numpy.linalg import norm

A = np.array([2, 1, 2, 3, 2, 9])
B = np.array([3, 4, 2, 4, 5, 5])

print("A:", A)
print("B:", B)

cosine = np.dot(A, B)/(norm(A) * norm(B))
print("Cosine Similarity:", cosine)

A: [2 1 2 3 2 9]
B: [3 4 2 4 5 5]
Cosine Similarity: 0.8188504723485274


### **Probabilistics Models**
São os modelos mais tradicionais, foram desenvolvidos a algumas décadas. Ele basicamente aprende a probabilidade da ocorrência de uma palavra com base em um exemplo de texto que ele pega. Pode prever a próxima palavra baseado em uma sequência pequena de palavras. Representa uma probabilidade condicionada da próxima palavra dada todas as palavras anteriores. Um exemplo é o Bag of Words (BoW) Model

### **Topic Models**
Também são conhecidos como probabilistic topic models, são um caso particular dos modelos probabilisticos, pois na verdade eles descobrem tópicos latentes a partir de texto. Ele basicamente vai clusterizar as palavras semelhantes e descobrir tópicos.

### **Neural Models**
É bem diferente dos modelos anteriores. A ideia é prever representações contínuas de embeding de palavras e reduzir a dimensionalidade. Ajudam a incorporar mais semântica na representação, ajudam a resolver problemas como duplicidade de significado.

### **BoW (Bag of Words)**
Esse modelo é probabilistico, simplifica a representação das palavras levando em consideração que as palavras são independentes entre si, independente das anteriores. É um modelo muito simplse e com muitas limitações. Representamos um texto em um vetor n-dimensional. Por exemplo, o texto "the who is the band", é composto pelas seguintes palavras: "band", "is", "the" and "who". Uma representação de texto usando o BoW é [1.0, 1.0, 2.0, 1.0], onde cada dimensão corresponde a uma palavra no vocabulário e cada número real é a frequência da palavra no texto.

### **One-Hot Encoding**
É o processo de gerar vetores usados para distinguir textos um dos outros. O vetor consiste em representações com 0 e 1, são usadas para identificar unicamente um texto. Por exemplo, o texto "the who is the band" uma representação para cada uma das palavras é: 
- "band" como [1, 0, 0, 0].
- "is" como [0, 1, 0, 0].
- "the" como [0, 0, 1, 0].
- "who" como [0, 0, 0, 1].

Onde cada dimensão representa uma palavra do vocabulário.

### **BoW with One-Hot Encoding**
Podemos utilizar essa abordagem para representar textos maiores, como documentos.

### **Example**

In [2]:
C = ['The who is the band!', 'who is the band?', 'The band who plays the who.']

print('C has %d texts:' % len(C))
for i in range(len(C)):
    print(f"t{i+1} = {C[i]}")

C has 3 texts:
t1 = The who is the band!
t2 = who is the band?
t3 = The band who plays the who.


In [3]:
C

['The who is the band!', 'who is the band?', 'The band who plays the who.']

### **Preprocessing**

In [4]:
import re

def get_tokens(text):
    # ignore = ['a', 'the', 'is']
    tokens = re.sub("[^\w]", " ", text).split()
    return [w.lower() for w in tokens]

def tokenize(texts):
    words = []
    
    for text in texts:
        w = get_tokens(text)
        words.extend(w)
        words = sorted(list(set(words)))
    
    return words

V = tokenize(C)
print(f"V has {len(V)} words: {V}")
    

V has 5 words: ['band', 'is', 'plays', 'the', 'who']


In [5]:
V

['band', 'is', 'plays', 'the', 'who']

In [7]:
C

['The who is the band!', 'who is the band?', 'The band who plays the who.']

In [6]:
import numpy

for text in C:
    words = get_tokens(text)
    bag_vector = numpy.zeros(len(V))
    
    for w in words:
        for i, word in enumerate(V):
            if word == w:
                bag_vector[i] = 1
                
    print(f"{text} = {numpy.array(bag_vector)}")

The who is the band! = [1. 1. 0. 1. 1.]
who is the band? = [1. 1. 0. 1. 1.]
The band who plays the who. = [1. 0. 1. 1. 1.]


É uma representação limitada, pois não considera a correlação entre as palavras. Ou seja, a semântica não é bem representada, sendo um método não tão interessante para Text Mining.