## Explicação

### Motivação

A linguagem é algo complexo e cheio de nuances, necessitando de um processamento completamente diferente do que é dado a variáveis numéricas ou categóricas. Variáveis textuais 

### Bag of Words

No Processamento de Linguagem Natural, o bag-of-words, ou saco de palavras, é uma representação de um texto através de um conjunto das suas palavras. São descartadas toda a semântica e regras gramaticais, mas é marcada toda a frequência de aparição de cada palavra no texto. Assim, é possível verificar as palavras mais e menos frequentes do mesmo, o que é útil para caracterizar um texto que está sendo analisado, por exemplo, à procura de spam em um e-mail.
Um problema que surge é que palavras sem muito significado porém muito frequentes, as stopwords, podem atrapalhar a análise das frequências, caracterizando um texto de forma errada. Para mitigar isso, procura-se remover as stopwords.
O bag of words pode ser usado para n-gramas também, mantendo a informação espacial do texto. Bigramas trazem duas palavras, trigramas trazem três palavras e assim por diante, onde o bag of words convencional seria um unigrama, de uma única palavra.

### tf-idf

O term frequency-inverse document frequency é uma medida estatística que indica a importância de uma palavra em um texto em relação a um corpus (dataset linguístico). O valor  de uma palavra aumenta com o aumento da sua frequência no texto, mas é limitado com a frequência da palavra no corpus escolhido.

## Prática

In [1]:
frases = [
    "John likes",
    "likes to",
    "to watch",
    "watch movies",
    "Mary likes",
    "likes movies",
    "movies too",
]
frase = "John likes to watch movies Mary likes movies too"

In [2]:
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

stemmer = PorterStemmer()
token = word_tokenize(frase)
token2 = [word_tokenize(x) for x in frases]
stems = [stemmer.stem(x) for x in token]
stems2 = [[stemmer.stem(x) for x in y] for y in token2]

[nltk_data] Downloading package punkt to /home/gme/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/gme/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [3]:
token

['John', 'likes', 'to', 'watch', 'movies', 'Mary', 'likes', 'movies', 'too']

In [4]:
token2

[['John', 'likes'],
 ['likes', 'to'],
 ['to', 'watch'],
 ['watch', 'movies'],
 ['Mary', 'likes'],
 ['likes', 'movies'],
 ['movies', 'too']]

In [5]:
## o stemming remove os sufixos, deixando apenas o radical para 
## que as várias ocorrencias de uma palavra flexionada nao sejam separadas
a = [print(x) for x in stems] 

john
like
to
watch
movi
mari
like
movi
too


### Bag of words

In [6]:
bog = CountVectorizer()
bog_data = bog.fit(frases)
bog_transform = bog.transform(frases)

In [7]:
bog_transform.toarray()

array([[1, 1, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 1, 0, 0],
       [0, 0, 0, 0, 1, 0, 1],
       [0, 0, 0, 1, 0, 0, 1],
       [0, 1, 1, 0, 0, 0, 0],
       [0, 1, 0, 1, 0, 0, 0],
       [0, 0, 0, 1, 0, 1, 0]])

In [8]:
## A codificacao usada pelo bag of words pra formar a matriz correspondente
bog_data.vocabulary_ 

{'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5}

### tf-idf

In [9]:
tfidf = TfidfVectorizer()
tfidf_data = tfidf.fit(frases)
tfidf_transform = tfidf.transform(frases)

In [10]:
tfidf_transform.toarray()

array([[0.85141699, 0.52448938, 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.59594003, 0.        , 0.        , 0.80302894,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.70710678,
        0.        , 0.70710678],
       [0.        , 0.        , 0.        , 0.64974959, 0.        ,
        0.        , 0.76014832],
       [0.        , 0.52448938, 0.85141699, 0.        , 0.        ,
        0.        , 0.        ],
       [0.        , 0.65559486, 0.        , 0.75511282, 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.57866699, 0.        ,
        0.81556393, 0.        ]])

In [11]:
tfidf_data.vocabulary_ 

{'john': 0, 'likes': 1, 'to': 4, 'watch': 6, 'movies': 3, 'mary': 2, 'too': 5}