# Handling Text

## Limpando Texto

In [9]:
import string

In [5]:
text = ["  Interrobang. By Aishwarya Henriette ",
        "Parking And Going. By Karl Gautier",
        "    Today Is The night. By Jarek Prakash "]

In [6]:
# remover espaços em branco
strip_whitespace = [string.strip() for string in text]
strip_whitespace

['Interrobang. By Aishwarya Henriette',
 'Parking And Going. By Karl Gautier',
 'Today Is The night. By Jarek Prakash']

In [7]:
# remover pontuação
remover_pontuacao = [string.replace(".","") for string in strip_whitespace]
remover_pontuacao

['Interrobang By Aishwarya Henriette',
 'Parking And Going By Karl Gautier',
 'Today Is The night By Jarek Prakash']

In [11]:
text_data = ['Hi!!!! I. Love. This. Song....',
             '10000% Agree!!!! #LoveIT',
             'Right?!?!']

translator = str.maketrans('', '', string.punctuation) # mapeia cada caractere de string.punctuation para None
# Saída: !"#$%&'()*+,-./:;<=>?@[\]^_{|}~

texto_limpo = [text.translate(translator) for text in text_data]

texto_limpo

['Hi I Love This Song', '10000 Agree LoveIT', 'Right']

## Tokenização

In [14]:
from nltk.tokenize import word_tokenize

string = "The science of today is the technology of tomorrow"

tokens = word_tokenize(string)
tokens

['The', 'science', 'of', 'today', 'is', 'the', 'technology', 'of', 'tomorrow']

## Stopwords

In [15]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = stopwords.words('english')

[word for word in tokens if word not in stop_words]

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\BeatrizAlmeida\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


['The', 'science', 'today', 'technology', 'tomorrow']

## Stemming

Redução à raiz da palavra

In [16]:
from nltk.stem.porter import PorterStemmer

tokenized_words = ['i', 'am', 'humbled', 'by', 'this', 'traditional', 'meeting']
porter = PorterStemmer()

[porter.stem(word) for word in tokenized_words]

['i', 'am', 'humbl', 'by', 'thi', 'tradit', 'meet']

## Bag of Words

A técnica de **Bag of Words** é muito utilizada para converter textos em representações numéricas, onde:
- Cada palavra é transformada em uma feature.
- O valor indica a **quantidade de vezes** que essa palavra aparece no texto.

Como os textos podem conter um grande vocabulário, a matriz gerada pode ser **muito grande**. Para reduzir o consumo de memória, **CountVectorizer** gera uma matriz esparsa por padrão.

In [17]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer

text_data = np.array(['I love Brazil. Brazil!',
                       'Sweden is best',
                       'Germany beats both'])

count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)
bag_of_words.toarray()

array([[0, 0, 0, 2, 0, 0, 1, 0],
       [0, 1, 0, 0, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 0, 0]])

In [19]:
count.get_feature_names_out()

array(['beats', 'best', 'both', 'brazil', 'germany', 'is', 'love',
       'sweden'], dtype=object)

## Importância da Palavra

O TF-IDF ajuda a identificar palavras relevantes em textos ao aumentar o peso de palavras frequentes em um documento e reduzir o peso de palavras comuns em vários documentos. Quanto maior o valor do TF-IDF de uma palavra, mais importante ela é para aquele documento específico. 

In [21]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
feature_matrix = tfidf.fit_transform(text_data)

feature_matrix.toarray()

array([[0.        , 0.        , 0.        , 0.89442719, 0.        ,
        0.        , 0.4472136 , 0.        ],
       [0.        , 0.57735027, 0.        , 0.        , 0.        ,
        0.57735027, 0.        , 0.57735027],
       [0.57735027, 0.        , 0.57735027, 0.        , 0.57735027,
        0.        , 0.        , 0.        ]])

In [22]:
tfidf.vocabulary_

{'love': 6,
 'brazil': 3,
 'sweden': 7,
 'is': 5,
 'best': 1,
 'germany': 4,
 'beats': 0,
 'both': 2}