In [11]:
import pandas as pd
import numpy as np

## CountVectorizer e TF-IDF

#### CountVectorizer

Quando trabalhamos com dados em texto, precisamos representar como nuúmeros para que se possa ser entendido por máquinas. CountVectorizer é um método para converter texto em dados numéricos.

In [3]:
# Por exemplo
text = "Hello my name is James, this is my python notebook"

In [9]:
pd.DataFrame(text.split()).value_counts()

is          2
my          2
Hello       1
James,      1
name        1
notebook    1
python      1
this        1
dtype: int64

Temos 8 palavras únicas no texto e oito colunas cada, representando uma única palavra na matriz. A linha representa contagem de palavras. Como 'is' e 'my' repetem duas vezes, temos a contagem de 2 para estes e 1 para o resto. CountVectorizer facilita para os dados em formato de texto ser usado diretamente em modelos de ML e DL para classificação de texto.

In [30]:
from sklearn.feature_extraction.text import CountVectorizer

text = ['Hello my name is james',
        'james this is my python notebook',
        'james trying to create a big dataset',
        'james of words to try differnt',
        'features of count vectorizer']

# modelo de ML
count_vect = CountVectorizer(lowercase = False, stop_words = ['is', 'to', 'my']) # ou stop_words = 'english', max_df e min_df = frequência máxima e mínima, max_features
# fit_transform(), fornece uma matriz mas sem as colunas
count_matrix = count_vect.fit_transform(text)
# transformar num array
count_array = count_matrix.toarray()


df = pd.DataFrame(data = count_array, columns = count_vect.get_feature_names())
df



Unnamed: 0,Hello,big,count,create,dataset,differnt,features,james,name,notebook,of,python,this,try,trying,vectorizer,words
0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,1,0,1,0,1,1,0,0,0,0
2,0,1,0,1,1,0,0,1,0,0,0,0,0,0,1,0,0
3,0,0,0,0,0,1,0,1,0,0,1,0,0,1,0,0,1
4,0,0,1,0,0,0,1,0,0,0,1,0,0,0,0,1,0


In [35]:
# Somente as palavras que aparecem
count_vect.get_feature_names()



['Hello',
 'big',
 'count',
 'create',
 'dataset',
 'differnt',
 'features',
 'james',
 'name',
 'notebook',
 'of',
 'python',
 'this',
 'try',
 'trying',
 'vectorizer',
 'words']

In [31]:
# Representa a posição da palavra na matriz
count_vect.vocabulary_

{'Hello': 0,
 'name': 8,
 'james': 7,
 'this': 12,
 'python': 11,
 'notebook': 9,
 'trying': 14,
 'create': 3,
 'big': 1,
 'dataset': 4,
 'of': 10,
 'words': 16,
 'try': 13,
 'differnt': 5,
 'features': 6,
 'count': 2,
 'vectorizer': 15}

CountVectorizer é somente um dos métodos para lidar com data em formato de texto. Outro seria o TD-IDF...

---

#### TF-IDF
- Significa "Term Frequency - Inverse Document Frequency". é uma técnica que quantifica palavras em um conjunto de documentos. Geralmente, computamos um score para cada palavra para siginificar sua importância no corpus. Este método é amplamente utilizado em Retençao de Informação e Mineração de Texto.
- t : termo (palavra), d : document (conjunto de palavras), N : contagem do corpus, corpus : o total do conjunto de documentos

##### Term Frequency (TF)
- Mede a frequência da palavra em um documento. Depende altamente do comprimento (length) do documento e da generalidade da palavra (quão comum é uma palavra, como 'de'). Se um texto é mais longo que outro, algumas palavras mais genéricas aparecem mais nos textos longos que os curtos, por isso é feito normalização na frequência.
- Quando vetorizamos um documento, não podemos só considerar as palavras que estão presentes num documento particular. Caso isso aconteça, é quase certeza que o comprimento será diferente e não podemos computar a similaridade. Nesse caso, computamos o documento em um **vocab**. Vocab é uma lista de todas as possíveis palavras no corpus.
- Precisamos da contagem de palavras de todas as palavras do vocab e o comprimento do documento para computar TF.

---

Ref:
- [1] https://towardsdatascience.com/basics-of-countvectorizer-e26677900f9c
- [2] https://towardsdatascience.com/tf-idf-for-document-ranking-from-scratch-in-python-on-real-world-dataset-796d339a4089#:~:text=TF%2DIDF%20stands%20for%20%E2%80%9CTerm,Information%20Retrieval%20and%20Text%20Mining.