### Neste capítulos irei explorar:
- Bag of Words
- Pré-processamento de texto: Tokenização, colocar todas as letras minúsculas, Lemmatização, Stematização, Remoção de stopwords
- Tf-idf

### Em NLP, bag of words é simplesmente a contagem de palavras em um texto. A ideia é que quanto mais a palavra aparece mais importante ela é. Uma observação importante é que temos que realizar a tokenização antes de aplicar o bag of words, para fazermos a contagem.
![image.png](attachment:image.png)

In [1]:
from nltk.tokenize import word_tokenize
from collections import Counter

In [4]:
string = """The cats is in the box. The cat likes the box. The box is over the cat."""
string

'The cat is in the box. The cat likes the box. The box is over the cat.'

In [5]:
tokens=word_tokenize(string)
tokens

['The',
 'cat',
 'is',
 'in',
 'the',
 'box',
 '.',
 'The',
 'cat',
 'likes',
 'the',
 'box',
 '.',
 'The',
 'box',
 'is',
 'over',
 'the',
 'cat',
 '.']

In [6]:
# Bag of words da string
Counter(tokens)

Counter({'The': 3,
         'cat': 3,
         'is': 2,
         'in': 1,
         'the': 3,
         'box': 3,
         '.': 3,
         'likes': 1,
         'over': 1})

### Podemos perceber que "The" e "the" estão sendo contados de forma separada, embora signifiquem a mesma coisa. Logo, um passo extra que resolve isso é colocar todas as letras minúsculas. Vamos realizar a remoção de stopwords, que são palavras muito comuns e que não agregam em nada na análise de texto. Também vamos fazer a Lematização, que é a padronização de uma palavra. Por exemplo: as palavras "fui", "vou" e "irei" podem ser substituídas todas por "ir".

In [14]:
import nltk
nltk.download('stopwords')
nltk.download('wordnet')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\alber\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\alber\AppData\Roaming\nltk_data...


True

In [7]:
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer

In [8]:
lower_tokens=[i.lower() for i in tokens]
lower_tokens

['the',
 'cat',
 'is',
 'in',
 'the',
 'box',
 '.',
 'the',
 'cat',
 'likes',
 'the',
 'box',
 '.',
 'the',
 'box',
 'is',
 'over',
 'the',
 'cat',
 '.']

In [11]:
# Stopwords da língua inglesa
english_stops=stopwords.words('english')
english_stops

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [21]:
# A função isalpha() filtra palavras que são alfanuméricas
alpha_only = [t for t in lower_tokens if t.isalpha()]

# Remoção de stopwords
no_stops = [t for t in alpha_only if t not in english_stops]
no_stops

['cat', 'box', 'cat', 'likes', 'box', 'box', 'cat']

In [22]:
# Objeto de Lematização
wordnet_lemmatizer = WordNetLemmatizer()

# Fazendo a Lematização em todos os tokens
lemmatized = [wordnet_lemmatizer.lemmatize(t) for t in no_stops]
lemmatized

['cat', 'box', 'cat', 'like', 'box', 'box', 'cat']

In [20]:
# Bag of words
bow = Counter(lemmatized)

# Print the 10 most common tokens
print(bow.most_common(10))

[('the', 6), ('cat', 3), ('box', 3), ('.', 3), ('is', 2), ('in', 1), ('like', 1), ('over', 1)]


### Vamos fazer a Lematização de um texto diferente. Podemos perceber que a lematização substituiu "are" por "is" e "liked" por "like". Assim, padronizando o tempo verbal das palavras.

In [17]:
string = """The cats are in the box. The cat liked the box. The box is over the cat."""

In [19]:
lemmatized = [wordnet_lemmatizer.lemmatize(t) for t in word_tokenize(string.lower())]
lemmatized

['the',
 'cat',
 'is',
 'in',
 'the',
 'box',
 '.',
 'the',
 'cat',
 'like',
 'the',
 'box',
 '.',
 'the',
 'box',
 'is',
 'over',
 'the',
 'cat',
 '.']

### O tf-idf é um processo que dá uma importância para cada palavra no texto. A ideia é que mesma que uma mesma palavra tenha sido dito várias vezes ela pode não ser importante pelo contexto. Um texto jornalístico de esportes falando muito "basquete" pode não dizer muita coisa, as mesma coisa no contexto de astronomia a palavra "céu" aparecer muito não diz muita coisa.
![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [23]:
## Falta exemplo prático