# CountVectorizer

# 01 - Introdução ao CountVectorizer
> O **"CountVectorizer"** é utilizado para transformar palavras em vetores numéricos. **What?**

Não sei se vocês sabem, mas modelos de Machine Learning na sua maior parte aprendem a partir de dados numéricos. Por exemplo, para aprender padrões em uma imagem modelos de Machine Learning utilizam os pixels da imagem que pode ser representado por um vetor numérico.

**NOTE:**  
Mas, como transformar textos em números? Uma abordagem (que é a qual o CountVectorizer utiliza) é contar quantas vezes cada palavra aparece em um texto.

Por exemplo, imagine que nós temos o seguinte texto:


In [1]:
doc = ["One Cent, Two Cents, Old Cent, New Cent: All About Money"]

O método **"CountVectorizer"** converteria da seguinte maneira:

![img](images/cv-01.png)

**NOTE:**  
Vejam que inicialmente nós tinhamos palavras; Depois essas palavras foram numerizadas (você pode ver nas colunas); E por fim, nós contamos quantas vezes cada palavra apareceu.

> Esse formato utilizado para armazenar essa representação é o mesmo que uma **Matriz Esparsa**.

# 02 - CountVectorizer com Scikit-Learn
A primeira coisa que nós vamos fazer aqui é verificar qual a versão atual do seu Scikit-Learn:

In [2]:
import sklearn
print('The scikit-learn version is {}.'.format(sklearn.__version__))

The scikit-learn version is 1.0.2.


**NOTE:**  
A versão atual do Scikit-Learn para na minha data atual *(05/03/2022)* era: **1.0.2**

## 02.1 - Problema inicial
Para o nosso problem inicial, vamos imagina que nós temos os seguintes textos:

In [3]:
import pandas as pd

pd.options.display.max_colwidth = 200

cat_in_the_hat_docs = [
  "One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)",
  "Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)",
  "Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",
  "On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)",
  "There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)" 
]

df = pd.DataFrame(cat_in_the_hat_docs, columns=["Text"])
df.head()

Unnamed: 0,Text
0,"One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)"
1,Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)
2,"Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)"
3,On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)
4,There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)


**NOTE:**  
Vejam que cada elemento da lista vai representar uma amostra.

## 02.2 - Interpretando uma Matriz esparsa feita com CountVectorizer
Como nós sabemos o resultado de um Pré-Processamento de texto feito com **CountVectorizer** é uma **Matriz Esparsa**. Agora nós vamos aprender os conceitos básicos de como interpretar essa Matriz.

Vamos começar aplicando **CountVectorizer** nas nossas amostras textuais:

In [4]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

pd.options.display.max_colwidth = 200

cat_in_the_hat_docs = [
  "One Cent, Two Cents, Old Cent, New Cent: All About Money (Cat in the Hat's Learning Library)",
  "Inside Your Outside: All About the Human Body (Cat in the Hat's Learning Library)",
  "Oh, The Things You Can Do That Are Good for You: All About Staying Healthy (Cat in the Hat's Learning Library)",
  "On Beyond Bugs: All About Insects (Cat in the Hat's Learning Library)",
  "There's No Place Like Space: All About Our Solar System (Cat in the Hat's Learning Library)" 
]

df = pd.DataFrame(cat_in_the_hat_docs, columns=["Text"])

vectorizer = CountVectorizer() # Instance.
df_vectorized = vectorizer.fit_transform(df['Text'])

**NOTE:**  
A primeira coisa que vocês tem que ter em mente agora é que nós não temos mas um DataFrame Pandas. Nós agora temos uma **Matriz Esparsa** *(feita com SciPy/Processo feito internamente pelo Scikit-Learn)*.

In [5]:
type(df_vectorized)

scipy.sparse._csr.csr_matrix

Ok, agora vamos voltar para a saída que nós tinhamos:

In [6]:
df_vectorized

<5x43 sparse matrix of type '<class 'numpy.int64'>'
	with 75 stored elements in Compressed Sparse Row format>

Interpretando a saída acima nós temos:
 - **5x43:**
   - 5 amotras;
   - 43 palavras únicas (cada uma vai ser uma coluna na nossa matriz esparsa)
 - **75 stored elements:**
   - Nós temos 43 palavras únicas, onde, cada uma vai ser uma coluna da **Matriz Esparsa**, porém, no total nós temos 75 palavras (elementos), entre, todas as amostras (5).

**NOTE:**  
Tem como ver essa matriz em um formato de **Matriz Esparsa**? Claro!

In [7]:
print(df_vectorized)

  (0, 28)	1
  (0, 8)	3
  (0, 40)	1
  (0, 9)	1
  (0, 26)	1
  (0, 23)	1
  (0, 1)	1
  (0, 0)	1
  (0, 22)	1
  (0, 7)	1
  (0, 16)	1
  (0, 37)	1
  (0, 13)	1
  (0, 19)	1
  (0, 20)	1
  (1, 1)	1
  (1, 0)	1
  (1, 7)	1
  (1, 16)	1
  (1, 37)	2
  (1, 13)	1
  (1, 19)	1
  (1, 20)	1
  (1, 18)	1
  (1, 42)	1
  :	:
  (3, 16)	1
  (3, 37)	1
  (3, 13)	1
  (3, 19)	1
  (3, 20)	1
  (3, 27)	1
  (3, 3)	1
  (3, 5)	1
  (3, 17)	1
  (4, 1)	1
  (4, 0)	1
  (4, 7)	1
  (4, 16)	1
  (4, 37)	1
  (4, 13)	1
  (4, 19)	1
  (4, 20)	1
  (4, 38)	1
  (4, 24)	1
  (4, 31)	1
  (4, 21)	1
  (4, 33)	1
  (4, 29)	1
  (4, 32)	1
  (4, 35)	1


Interpretando a saída acima nós temos:
 - **Temos uma tupla (Row, Colum):**
   - Essa tupla basicamente vai representar um mapeamento para a nosso **Matriz Esparsa**.
 - **Temos o valor referente a esse mapeamento.**

**NOTE:**  
Ok, mas e as 43 palavras únicas (cada uma em uma coluna na nossa matriz esparsa)? Para isso, nós vamos utilizar o método **get_feature_names_out()** que fica instância do objeto **CountVectorizer**:

```python
vectorizer = CountVectorizer() # Instance.
```

In [8]:
vectorizer.get_feature_names_out()

array(['about', 'all', 'are', 'beyond', 'body', 'bugs', 'can', 'cat',
       'cent', 'cents', 'do', 'for', 'good', 'hat', 'healthy', 'human',
       'in', 'insects', 'inside', 'learning', 'library', 'like', 'money',
       'new', 'no', 'oh', 'old', 'on', 'one', 'our', 'outside', 'place',
       'solar', 'space', 'staying', 'system', 'that', 'the', 'there',
       'things', 'two', 'you', 'your'], dtype=object)

**NOTE:**  
A primeira observação aqui é que por padrão (default) o objeto **CountVectorizer** aplica um *Pré-Processamento* transformando todas as palavras em minúscula **(lowercase)**.

**Continuando...**  
Vejam, que nós temos como saída uma lista com todas as features (que antes eram palavras em um texto e agora features únicas) que foram mapeadas para a nossa **Matriz Esparsa**.

**Interpretando um dos mapeamentos da Matriz Esparsa:**  
Se vocẽ olhar para o exemplo **(0, 8)	3** nós temo que:
 - Na linha zero (primeira amostra);
 - Coluna 8 (vai ser a 9 visto que começamos do zero);
 - Temos um elemento aparecendo 3 vezes.

> **Mas que elemento é esse?**

**NOTE:**  
Lembram que nós temos o método **get_feature_names_out()** que nós retorna uma lista com cada palavra como uma feature? Então, se você procurar o oitavo (8) elemento (começando do zero é claro) você vai encontrar o elemento **"cent"**. Ou seja, na primeira amostra o elemento (palavra) **"cent"** aparece 3 vezes.

In [9]:
feature_names = vectorizer.get_feature_names_out()

In [10]:
feature_names[8]

'cent'

## 02.3 - Convertendo a nossa Matriz Esparsa em uma Matriz Densa
> Ok, mas como eu vejo essa **Matriz Esparsa** como uma **Matriz Densa**?

Simples, para isso nós podemos utilizar 2 métodos:
 - toarray()
 - todense()

In [11]:
df_vectorized.toarray()

array([[1, 1, 0, 0, 0, 0, 0, 1, 3, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0,
        1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0],
       [1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 1],
       [1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0,
        0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 0, 1, 0, 2, 0],
       [1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0,
        0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1,
        0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0]])

In [12]:
df_vectorized.todense()

matrix([[1, 1, 0, 0, 0, 0, 0, 1, 3, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
         0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
         0],
        [1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1,
         0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0,
         1],
        [1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1,
         0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 0, 1, 0, 2,
         0],
        [1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1,
         0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
         0],
        [1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
         1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0,
         0]])

**NOTE:**  
Se você prestar bem atenção vai ver que nossa Matriz está no formato de uma lista de listas. Como assim? Vou refatorar ela para ficar mais claro para vocês...

```python
[
  [1, 1, 0, 0, 0, 0, 0, 1, 3, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
   0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,0],
    
  [1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1,
   0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0,1],
    
  [1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 1,
   0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 2, 0, 1, 0, 2,0],
    
  [1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1,
   0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,0],
    
  [1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1,
   1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0,0]
]
```

**NOTE:**  
Vejam que nós temos:
 - Uma lista (matriz);
 - com 5 listas dentro (nossas 5 amostras que foram vetorizadas).