# CountVectorizer

# 01 - Introdução ao CountVectorizer
> O **"CountVectorizer"** é utilizado para transformar palavras em vetores numéricos. **What?**

Não sei se vocês sabem, mas modelos de Machine Learning na sua maior parte aprendem a partir de dados numéricos. Por exemplo, para aprender padrões em uma imagem modelos de Machine Learning utilizam os pixels da imagem que podem ser representado por um vetor numérico.

**NOTE:**  
Mas, como transformar textos em números? Uma abordagem (que é a qual o CountVectorizer utiliza) é contar quantas vezes cada palavra aparece em um texto.

Por exemplo, imagine que nós temos o seguinte texto (uma única amostra):


In [1]:
doc = ["One Cent, Two Cents, Old Cent, New Cent: All About Money"]

O método **"CountVectorizer"** converteria essa amostra da seguinte maneira:

![img](images/cv-01.png)

**NOTE:**  
Vejam que inicialmente nós tinhamos palavras; Depois essas palavras foram numerizadas (você pode ver nas colunas); E por fim, nós contamos quantas vezes cada palavra apareceu.

> Esse formato utilizado para armazenar essa representação é o mesmo que uma **Matriz Esparsa**.

---

# 02 - CountVectorizer com Scikit-Learn

## 02.1 - Interpretando uma Matriz esparsa feita com CountVectorizer
Como nós sabemos o resultado de um Pré-Processamento de texto feito com **CountVectorizer** é uma **Matriz Esparsa**. Agora nós vamos aprender os conceitos básicos de como interpretar essa Matriz.

Vamos começar aplicando **CountVectorizer** nas nossas amostras textuais:

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)",
  "Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)",
  "Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",
  "On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)",
  "There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)" 
]

df = pd.DataFrame(docs_samples, columns=["Text"])

vectorizer = CountVectorizer() # Instance.
df_vectorized = vectorizer.fit_transform(df['Text'])

**NOTE:**  
A primeira coisa que vocês tem que ter em mente agora é que nós não temos mas um DataFrame Pandas. Nós agora temos uma **Matriz Esparsa** *(feita com SciPy/Processo feito internamente pelo Scikit-Learn)*.

In [3]:
type(df_vectorized)

scipy.sparse.csr.csr_matrix

Ok, agora vamos analisar nosso objeto **"df_vectorized"**:

In [4]:
df_vectorized

<5x43 sparse matrix of type '<class 'numpy.int64'>'
	with 75 stored elements in Compressed Sparse Row format>

Interpretando a saída acima nós temos:
 - **5x43:**
   - 5 amotras;
   - 43 palavras únicas (cada uma vai ser uma coluna na nossa matriz esparsa)
 - **75 stored elements:**
   - Nós temos 43 palavras únicas, onde, cada uma vai ser uma coluna da **Matriz Esparsa**, porém, no total nós temos 75 palavras (elementos), entre, todas as amostras (5).

**NOTE:**  
Tem como ver essa matriz em um formato de **Matriz Esparsa**? Claro!

In [5]:
print(df_vectorized)

  (0, 28)	1
  (0, 8)	3
  (0, 40)	1
  (0, 9)	1
  (0, 26)	1
  (0, 23)	1
  (0, 1)	1
  (0, 0)	1
  (0, 22)	1
  (0, 7)	1
  (0, 16)	1
  (0, 37)	1
  (0, 13)	1
  (0, 19)	1
  (0, 20)	1
  (1, 1)	1
  (1, 0)	1
  (1, 7)	1
  (1, 16)	1
  (1, 37)	2
  (1, 13)	1
  (1, 19)	1
  (1, 20)	1
  (1, 18)	1
  (1, 42)	1
  :	:
  (3, 16)	1
  (3, 37)	1
  (3, 13)	1
  (3, 19)	1
  (3, 20)	1
  (3, 27)	1
  (3, 3)	1
  (3, 5)	1
  (3, 17)	1
  (4, 1)	1
  (4, 0)	1
  (4, 7)	1
  (4, 16)	1
  (4, 37)	1
  (4, 13)	1
  (4, 19)	1
  (4, 20)	1
  (4, 38)	1
  (4, 24)	1
  (4, 31)	1
  (4, 21)	1
  (4, 33)	1
  (4, 29)	1
  (4, 32)	1
  (4, 35)	1


Interpretando a saída acima nós temos:
 - **Temos uma tupla (row, colum):**
   - Essa tupla basicamente vai representar um mapeamento da nossa **Matriz Esparsa** para uma **Matriz Densa**.
 - **Temos o valor referente a esse mapeamento.**

**NOTE:**  
Ok, mas como eu posso ver quais são as 43 palavras únicas (cada uma em uma coluna na nossa matriz esparsa)? Para isso, nós vamos utilizar o método **get_feature_names_out()** que fica na instância do objeto **CountVectorizer**:

```python
vectorizer = CountVectorizer() # Instance.
```

In [6]:
vectorizer.get_feature_names_out()

array(['about', 'all', 'are', 'beyond', 'body', 'bugs', 'can', 'cat',
       'cent', 'cents', 'do', 'for', 'good', 'hat', 'healthy', 'human',
       'in', 'insects', 'inside', 'learning', 'library', 'like', 'money',
       'new', 'no', 'oh', 'old', 'on', 'one', 'our', 'outside', 'place',
       'solar', 'space', 'staying', 'system', 'that', 'the', 'there',
       'things', 'two', 'you', 'your'], dtype=object)

**NOTE:**  
A primeira observação aqui é que por padrão (default) o objeto **CountVectorizer** aplica um *Pré-Processamento* transformando todas as palavras em minúscula **(lowercase)**.

**Continuando...**  
Vejam, que nós temos como saída uma lista com todas as features (que antes eram palavras em um texto e agora features únicas) que foram mapeadas para a nossa **Matriz Esparsa**.

**Interpretando um dos mapeamentos da Matriz Esparsa:**  
Se vocẽ olhar para o exemplo **(0, 8)	3** nós temo que:
 - Na linha zero (primeira amostra);
 - Coluna 8 (vai ser a 9 visto que começamos do zero);
 - Temos um elemento aparecendo 3 vezes.

> **Mas que elemento é esse?**

**NOTE:**  
Lembram que nós temos o método **get_feature_names_out()** que nós retorna uma lista com cada palavra como uma feature? Então, se você procurar o oitavo (8) elemento (começando do zero é claro) você vai encontrar o elemento **"cent"**. Ou seja, na primeira amostra o elemento (palavra) **"cent"** aparece 3 vezes.

In [7]:
feature_names = vectorizer.get_feature_names_out()

In [8]:
feature_names[8]

'cent'

**NOTE:**  
Agora para finalizar essas interpretações vamos criar um DataFrame, onde:
 - Cada coluna (feature) vai ser uma das palavras únicas, entre as 5 amostras;
 - Cada linha vai ser referente a um documento (corpus/amostra);
 - Por fim, nós vamos ter uma relação entre documento (corpus/amostra) e quantas vezes cada termo (palavra) aparece em determinado documento (corpus/amostra).

In [9]:
df_processed = pd.DataFrame(
  df_vectorized.todense(),
  index=docs_samples,
  columns=feature_names
)
df_processed.head()

Unnamed: 0,about,all,are,beyond,body,bugs,can,cat,cent,cents,...,space,staying,system,that,the,there,things,two,you,your
"One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)",1,1,0,0,0,0,0,1,3,1,...,0,0,0,0,1,0,0,1,0,0
Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library),1,1,0,0,1,0,0,1,0,0,...,0,0,0,0,2,0,0,0,0,1
"Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",1,1,1,0,0,0,1,1,0,0,...,0,1,0,1,2,0,1,0,2,0
On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library),1,1,0,1,0,1,0,1,0,0,...,0,0,0,0,1,0,0,0,0,0
There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library),1,1,0,0,0,0,0,1,0,0,...,1,0,1,0,1,1,0,0,0,0


---

## 02.2 - Diferença entre os métodos fit() transform() & fit_transform()
Até então nós estavamos utilizando o método **fit_transform()** da classe **CountVectorizer**. Agora, nós vamos entender as diferenças entre os métodos:
 - fit()
 - transform()
 - fit_transform()

### 02.2.1 - Método fit()
Para entender vamos continuar com o nosso exemplo anterior, porém, utilizando apenas o método **fit()**:

In [10]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)",
  "Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)",
  "Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",
  "On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)",
  "There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)" 
]

df = pd.DataFrame(docs_samples, columns=["Text"])

vectorizer = CountVectorizer() # Instance.
fit_result = vectorizer.fit(df['Text'])

**Para começar será que o nosso objeto *vectorizer/CountVectorizer* aprendeu/vetorizou (fit) as palavras únicas(features)? Vamos ver...**

In [11]:
vectorizer.get_feature_names_out()

array(['about', 'all', 'are', 'beyond', 'body', 'bugs', 'can', 'cat',
       'cent', 'cents', 'do', 'for', 'good', 'hat', 'healthy', 'human',
       'in', 'insects', 'inside', 'learning', 'library', 'like', 'money',
       'new', 'no', 'oh', 'old', 'on', 'one', 'our', 'outside', 'place',
       'solar', 'space', 'staying', 'system', 'that', 'the', 'there',
       'things', 'two', 'you', 'your'], dtype=object)

**Ótimo, conseguimos vetorizar... Agora vem a pergunta:**  

> O que tem a nossa variável **fit_result**? 

Bem, vamos fazer alguns testes:

In [12]:
fit_result

CountVectorizer()

In [13]:
print(fit_result)

CountVectorizer()


**Ok, temos algo do objeto (classe) *CountVectorizer*, mas que tipo é esse "algo"?**

In [14]:
type(fit_result)

sklearn.feature_extraction.text.CountVectorizer

**NOTE:**  
Ué, não deveríamos ter uma Matriz Esparsa SciPy como antes?

### 02.2.2 - Método transform()
Bem, na verdade o método **fit()** *aprendeu* como fazer isso, porém, nossa *Matriz Esparsa* ainda não esta pronta (montada). Para isso vamos utilizar o método **transform()**:

In [15]:
transform_result = vectorizer.transform(df['Text'])

In [16]:
transform_result

<5x43 sparse matrix of type '<class 'numpy.int64'>'
	with 75 stored elements in Compressed Sparse Row format>

In [17]:
print(transform_result)

  (0, 0)	1
  (0, 1)	1
  (0, 7)	1
  (0, 8)	3
  (0, 9)	1
  (0, 13)	1
  (0, 16)	1
  (0, 19)	1
  (0, 20)	1
  (0, 22)	1
  (0, 23)	1
  (0, 26)	1
  (0, 28)	1
  (0, 37)	1
  (0, 40)	1
  (1, 0)	1
  (1, 1)	1
  (1, 4)	1
  (1, 7)	1
  (1, 13)	1
  (1, 15)	1
  (1, 16)	1
  (1, 18)	1
  (1, 19)	1
  (1, 20)	1
  :	:
  (3, 5)	1
  (3, 7)	1
  (3, 13)	1
  (3, 16)	1
  (3, 17)	1
  (3, 19)	1
  (3, 20)	1
  (3, 27)	1
  (3, 37)	1
  (4, 0)	1
  (4, 1)	1
  (4, 7)	1
  (4, 13)	1
  (4, 16)	1
  (4, 19)	1
  (4, 20)	1
  (4, 21)	1
  (4, 24)	1
  (4, 29)	1
  (4, 31)	1
  (4, 32)	1
  (4, 33)	1
  (4, 35)	1
  (4, 37)	1
  (4, 38)	1


**NOTE:**  
Ótimo, agora sim ele transformou (montou a matriz esparsa) o que aprendeu (calculou) no método **fit()**.

Vamos conferir o tipo?

In [18]:
type(transform_result)

scipy.sparse.csr.csr_matrix

**NOTE:**  
Como podem ver agora sim, ele **transformou (transform)** nossos textos em uma vetorização (Matriz Esparsa).

**NOTE:**  
E se eu quiser só transformar os dados com o método **transform()** sem antes aplicar o **método fit()**?

In [19]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

docs_samples = [
  "One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)",
  "Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)",
  "Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",
  "On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)",
  "There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)" 
]

df = pd.DataFrame(docs_samples, columns=["Text"])

vectorizer_two = CountVectorizer() # Instance.
transform_result_two = vectorizer_two.fit(df['Text'])

In [20]:
transform_result_two

CountVectorizer()

In [21]:
print(transform_result_two)

CountVectorizer()


In [22]:
type(transform_result_two)

sklearn.feature_extraction.text.CountVectorizer

In [23]:
vectorizer_two.get_feature_names_out()

array(['about', 'all', 'are', 'beyond', 'body', 'bugs', 'can', 'cat',
       'cent', 'cents', 'do', 'for', 'good', 'hat', 'healthy', 'human',
       'in', 'insects', 'inside', 'learning', 'library', 'like', 'money',
       'new', 'no', 'oh', 'old', 'on', 'one', 'our', 'outside', 'place',
       'solar', 'space', 'staying', 'system', 'that', 'the', 'there',
       'things', 'two', 'you', 'your'], dtype=object)

**NOTE:**  
Vejam que nós temos as palavras únicas (features), mas ele não aprendeu (fit) o suficiente para depois transformar em uma **Matriz Esparsa**.

**NOTE:**  
> Outra observação é que o método **transform()** é mais utilizado em dados de *teste*, os quais não necessita aprender nada.

### 02.2.3 - Método fit_transform()

> Resumidamente, o método **fit_transform()** é a sequência do método **fit()** e depois o **transform()**, porém, o Scikit-Learn faz isso sozinho utilizando uma maneira **mais eficiente** do que fazer os 2 separadamente.

---

## 02.3 - Convertendo a nossa Matriz Esparsa em uma Matriz Densa
> Ok, mas como eu vejo essa **Matriz Esparsa** em um formato de **Matriz Densa**?

Simples, para isso nós podemos utilizar 2 métodos:
 - toarray()
 - todense()

In [24]:
df_vectorized.toarray()

array([[1, 1, 0, 0, 0, 0, 0, 1, 3, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0,
        1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0],
       [1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 1],
       [1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0,
        0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 0, 1, 0, 2, 0],
       [1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0,
        0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1,
        0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0]],
      dtype=int64)

In [25]:
df_vectorized.todense()

matrix([[1, 1, 0, 0, 0, 0, 0, 1, 3, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
         0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
         0],
        [1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1,
         0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0,
         1],
        [1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1,
         0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 0, 1, 0, 2,
         0],
        [1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1,
         0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
         0],
        [1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
         1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0,
         0]], dtype=int64)

**NOTE:**  
Se você prestar bem atenção vai ver que nossa Matriz está no formato de uma lista de listas. Como assim? Vou refatorar ela para ficar mais claro para vocês...

```python
[
  [1, 1, 0, 0, 0, 0, 0, 1, 3, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
   0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,0],
    
  [1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1,
   0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0,1],
    
  [1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1,
   0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 0, 1, 0, 2,0],
    
  [1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1,
   0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,0],
    
  [1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
   1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0,0]
]
```

**NOTE:**  
Vejam que nós temos:
 - Uma lista (matriz);
 - com 5 listas dentro (nossas 5 amostras que foram vetorizadas).

---

## 02.4 - Aplicando Stopword Removal (Remoção de palavras irrelevantes)

> Outra vantagem de se trabalhar com **CountVectorizer** é que internamente ele tem alguns mecanismos de *Pré-Processamento de textos*.

Por exemplo, se eu quiser aplicar **Stopword Removal (Remoção de palavras irrelevantes)**, basta na hora de instanciar nosso objeto **CountVectorizer** utilizar o parâmetro **stop_words**.

**Vamos passo a passo novamente, primeiro vamos exibir nossas amostras:**

In [26]:
import pandas as pd

pd.options.display.max_colwidth = 200

stop_words_sample = [
  "One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)",
  "Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)",
  "Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",
  "On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)",
  "There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)" 
]

df_stop_words = pd.DataFrame(stop_words_sample, columns=["Text"])
df_stop_words.head()

Unnamed: 0,Text
0,"One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)"
1,Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)
2,"Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)"
3,On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)
4,There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)


**Agora vamos vetorizar as amostras, porém, vamos criar 2 vetorizadores... Um com *StopWords* e outro sem.**

In [27]:
vectorizer_stopwords   = CountVectorizer(stop_words="english") # Instance with StopWords.
vectorizer_stopwords.fit_transform(df['Text'])

<5x24 sparse matrix of type '<class 'numpy.int64'>'
	with 40 stored elements in Compressed Sparse Row format>

In [28]:
vectorizer_w_stopwords = CountVectorizer() # Instance without StopWords.
vectorizer_w_stopwords.fit_transform(df['Text'])

<5x43 sparse matrix of type '<class 'numpy.int64'>'
	with 75 stored elements in Compressed Sparse Row format>

**NOTE:**  
Olhando por alto e analisando as dimensões (shape) de como ficaram as matrizes já da para ver que quase a metade das palavras foram removidas.

**Ok, mas como eu vejo a diferença entre essas 2 abordagens? Simples, vamos utilizar o método "get_feature_names_out()":**

In [29]:
# StopWord approach.
features_stopwords   = vectorizer_stopwords.get_feature_names_out()
print(features_stopwords)
print(features_stopwords.shape)

['body' 'bugs' 'cat' 'cent' 'cents' 'good' 'hat' 'healthy' 'human'
 'insects' 'inside' 'learning' 'library' 'like' 'money' 'new' 'oh' 'old'
 'outside' 'place' 'solar' 'space' 'staying' 'things']
(24,)


In [30]:
features_w_stopwords = vectorizer_w_stopwords.get_feature_names_out()
print(features_w_stopwords)
print(features_w_stopwords.shape)

['about' 'all' 'are' 'beyond' 'body' 'bugs' 'can' 'cat' 'cent' 'cents'
 'do' 'for' 'good' 'hat' 'healthy' 'human' 'in' 'insects' 'inside'
 'learning' 'library' 'like' 'money' 'new' 'no' 'oh' 'old' 'on' 'one'
 'our' 'outside' 'place' 'solar' 'space' 'staying' 'system' 'that' 'the'
 'there' 'things' 'two' 'you' 'your']
(43,)


---

## 02.5 - Utilizando os parâmetros min_df & max_df

### 02.5.1 - min_df

> O objetivo do **min_df** é ignorar palavras que têm muito **poucas ocorrências (palavras raras)** para serem consideradas significativas.

Os valores do parâmetro **min_df** podem ser:

 - **Absolutos:**
   - Por exemplo, 1, 2, 3, 4, 5.
   - **min_df = 5**, significa ignorar termos que aparecem em **menos de 5 documentos**.
   - O padrão (default) é **min_df=1**, que significa ignorar termos que aparecem em **menos de 1 documento**. Assim, a configuração padrão não ignora nenhum termo.
 - **Ou valores que representam a proporção de documentos:**
   - **min_df=0.01**, significa ignorar termos que aparecem em **menos de 1% dos documentos**.
   - **min_idf=0.25**, significa ignorar termos que aparecem em **menos de 25% dos documentos**.;
   - Para finalizar, **min_df=0.66**, exige que um termo apareça em **66%** dos documentos para que seja considerado parte do vocabulário.

**NOTE:**  
Às vezes, **min_df** é usado para limitar o tamanho do vocabulário, então ele aprende apenas os termos que aparecem em pelo menos **10%**, **20%**, etc. dos documentos.

---

### 02.5.2 - max_df

> O objetivo do **max_df** é remover termos que aparecem com **muita frequência** (também conhecidos como "corpus-specific stop words").

Os valores do parâmetro **max_df** podem ser:

 - **Absolutos:**
   - **max_df=25**, significa ignorar termos que aparecem em **mais de 25 documentos**.
   - O padrão (default) é **max_df=1.0**, que significa ignorar termos que aparecem em **mais de 100% dos documentos**. Assim, a configuração padrão **não ignora nenhum termo**.
 - **Ou valores que representam a proporção de documentos:**
   - **max_df=0.50**, significa ignorar termos que aparecem em **mais de 50% dos documentos**.

**NOTE:**  
Outro exemplo seria analisar as resenhas do filme O **Rei Leão (Lion King)**, o termo **'Leão (Lion)'** pode aparecer em **90%** das resenhas (documentos). Nesse caso, poderíamos considerar estabelecer **max_df=0,89**.

---

### 02.5.3 - min_df vs. max_df

 - **min_df:**
   - É utilizado para remover palavras com **poucas ocorrências/frequências** (palavras raras). 
 - **max_df:**
   - É utilizado para remover palavras com **muita ocorrências/frequências** (também conhecidos como "corpus-specific stop words")

---

## 02.6 - Diferença entre o método get_feature_names_out() e o atributo vocabulary_

Resumidamente,

 - **O método get_feature_names_out():**
   - Retorna o nome das palavras (features) únicas que foram vetorizadas.
 - **O atributo vocabulary_:**
   - Retorna um mapeamento entre as palavras (features) únicas e suas posições (índices, coluna na matriz esparsa).

Vejam os exemplos abaixo para ficar mais claro:

In [31]:
from sklearn.feature_extraction.text import CountVectorizer

txt = [
  "He is ::having a great Time, at the park time?",
  "She, unlike most women, is a big player on the park's grass.",
  "she can't be going"
]

# CountVectorizer instance.
vectorizer = CountVectorizer(
  stop_words="english",
  analyzer='word',
  ngram_range=(1, 1),
  max_df=1.0,
  min_df=1,
  max_features=None
)

txt_vectorized = vectorizer.fit(txt)

In [32]:
print("Word sizer: {}".format(len(vectorizer.get_feature_names_out())))
print("Word Features:\n {}".format(vectorizer.get_feature_names_out()))

Word sizer: 10
Word Features:
 ['big' 'going' 'grass' 'great' 'having' 'park' 'player' 'time' 'unlike'
 'women']


In [33]:
print("Vocabulary size: {}".format(len(txt_vectorized.vocabulary_)))
print("Vocabulary content:\n {}".format(txt_vectorized.vocabulary_))

Vocabulary size: 10
Vocabulary content:
 {'having': 4, 'great': 3, 'time': 7, 'park': 5, 'unlike': 8, 'women': 9, 'big': 0, 'player': 6, 'grass': 2, 'going': 1}


**NOTE:**  
Vejam que:
 - Ambos tem o mesmo tamanho (size);
 - Se você comparar os índices da saída do método **get_feature_names_out()** com o atributo **vocabulary_** vão ser os mesmo (por isso, mapeamento).

**NOTE:**  
Para finalizar, vejam que nós estamos utilizando o método **fit()** da classe **CountVectorizer**.

---

## 02.7 - Utilizando o parâmetro max_feature

> O parâmetro **max_feature** é utilizado para limitar a quantidade de features (palavras únicas) que o vetorizador aprenderá.

Vamos ver isso na prática:

In [34]:
from sklearn.feature_extraction.text import CountVectorizer

txt = [
  "He is ::having a great Time, at the park time?",
  "She, unlike most women, is a big player on the park's grass.",
  "she can't be going"
]

# All Features.
vectorizer_all_features = CountVectorizer(
  stop_words="english",
  analyzer='word',
  ngram_range=(1, 1),
  max_df=1.0,
  min_df=1,
  max_features=None
)

# All Features.
vectorizer_4_features = CountVectorizer(
  stop_words="english",
  analyzer='word',
  ngram_range=(1, 1),
  max_df=1.0,
  min_df=1,
  max_features=4
)

all_features = vectorizer_all_features.fit(txt)
print("All Features:\n", vectorizer_all_features.get_feature_names_out())

first_4_features = vectorizer_4_features.fit(txt)
print("\nFirst 4 Features:\n", vectorizer_4_features.get_feature_names_out())

All Features:
 ['big' 'going' 'grass' 'great' 'having' 'park' 'player' 'time' 'unlike'
 'women']

First 4 Features:
 ['big' 'going' 'park' 'time']


**NOTE:**  
Olhando para as saídas acima nós temos que:
 - **max_features=None**
   - Não limita o número de features (palavras únicas), ou seja, ele aprende todas possíveis.
 - **max_features=4**
   - limita no máximo 4 features.

**NOTE:**  
O padrão (default) é **None**. Ou seja, aprende o máximo de features (palavras únicas) possíveis.

---

## 02.8 - Objeto vectorizer = CountVectorizer()

Só para finalizar uma coisa que vocês tem que ter em mente é que tudo fica salvo na instância **vectorizer = CountVectorizer()**. É lá onde, ele aprende (fit) e transformar (transform). E nós apenas salvamos tudo isso em variáveis, mas nós poderíamos fazer tudo lá mesmo dentro da instância.

Por exemplo:

In [35]:
vectorizer = CountVectorizer() # Instance.

In [36]:
vectorizer.fit(df['Text'])

CountVectorizer()

In [37]:
vectorizer.transform(df['Text'])

<5x43 sparse matrix of type '<class 'numpy.int64'>'
	with 75 stored elements in Compressed Sparse Row format>

**NOTE:**  
Vejam que nós não salvamos o resultado em nada, apenas, fizemos o objeto **CountVectorizer** *aprender (fit)* e depois *transformamos (transform)* o que ele aprendeu em uma *Matriz Esparsa*, tudo isso internamente no objeto.

---

# Resumos

 - **Método fit():**
   - Não utilize o método **fit()** nos dados de teste.
 - **min_df vs. max_df:**
   - *min_df:*
     - É utilizado para remover palavras com poucas ocorrências/frequências (palavras raras).
   - *min_df:*
     - É utilizado para remover palavras com muita ocorrências/frequências (também conhecidos como "corpus-specific stop words").
 - **CountVectorizer Vantagens:**
   - *Pré-Processamento com:*
     - LowerCase
     - StopWords
 - **CountVectorizer Desvantagens:**
    - *Pré-Processamento sem:*
     - Stemming
     - Lemmatization

---

**REFERÊNCIAS:**  
[10+ Examples for Using CountVectorizer](https://kavita-ganesan.com/how-to-use-countvectorizer/)  
[CountVectorizer, TfidfVectorizer, Predict Comments](https://www.kaggle.com/adamschroeder/countvectorizer-tfidfvectorizer-predict-comments/notebook#N-grams-(sets-of-consecutive-words))  
[sklearn.feature_extraction.text.CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)