# Classificação de textos com *scikit-learn*
por Prof. Sanderson Macedo

<hr size=30>

## Agenda


1. Representar um texto como dados numéricos
2. Ler o *dataset* de texto no Pandas
2. Vetorizar nossso *dataset*
4. Construir e avaliar um modelo
5. Comparar modelos


In [73]:
##Importando pandas e numpy
import pandas as pd
import numpy as np



## 1. Definindo um vetor de textos 
Os textos do vetor podem ser adquiridos por meio da leitura de 
pdf's, doc's, twitter's... etc.

Esses textos serão a base de treinamento
para a classificação do sentimento de um novo texto.

In [88]:
train = [
    'Eu te amo e não existe nada melhor que você',
    'Você é algo assim... é tudo pra mim. Ao meu amor... Amor!',
    'Eu te odeio muito, você não presta!',
    'Não gosto de você'
    
   ]



## 2. Definindo um vetor de sentimentos
Criaremos um vetor de sentimentos chamado **_felling_**. 

Cada posição do vetor **_felling_** representa o sentimento **BOM** (1) ou **RUIM** (0) para os textos que passamos ao vetor **_train_**.

Por exemplo: a frase da primeira posição do vetor **_train_**:

> 'Eu te amo e não existe nada melhor que você'

Foi classificada como sendo um texto **BOM**:

> 1

In [89]:
felling = [1,1,0,0]

## 3. Análise de texto com _scikit-learn_.

Texto de [scikit-learn documentation](http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction):

> Análise de texto é um campo de aplicação importante para algoritmos de aprendizado de máquina. No entanto, uma sequência de símbolos não podem ser passada diretamente aos algoritmos de Machine Learning, pois a maioria deles espera vetores de características numéricas com um tamanho fixo, em vez de documentos de texto com comprimento variável.

Mas nesse caso podemos realizar algumas transformações de para poder manipular textos em algoritmos de aprendizagem.

Portanto, aqui utilizaremos a [CountVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)
para converter textos em uma matriz que expressará a quantidade "tokens" dos textos.

Importamos a classe e criamos uma instância chamada **_vect_**.


In [90]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

## 4. Treinamento criando o dicionário.
Agora treinamos o algoritmo com o vetor de textos que criamos acima. Chamamos o método **_fit()_** passando o vetor de textos.

In [96]:
vect.fit(train)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

Veja que o parametro *analyzer* é defindo por padrão como *'word'* na classe *CountVectorizer*. Isso signicica que a classe ignora palavras com menos de dois (2) caracteres e pontuações. 

## 5. Nosso dicionário
Aqui vamos listar de forma única
quais palavras forma utilizadas no texto, formando assim um dicionário de palavras.

In [95]:
## examinando o dicionário criado em ordem alfabética.
vect.get_feature_names()

['algo',
 'amo',
 'amor',
 'ao',
 'assim',
 'de',
 'eu',
 'existe',
 'gosto',
 'melhor',
 'meu',
 'mim',
 'muito',
 'nada',
 'não',
 'odeio',
 'pra',
 'presta',
 'que',
 'te',
 'tudo',
 'você']

## 6. Transformação em matriz esparsa em relação as frases
Essa transformação é importante porque cria uma matriz onde:

1. Cada linha representa um texto do vetor **_train_** 
2. Cada coluna uma palavra do dicionário aprendido.
3. Se a palavra ocorrer no texto o valor será 1 caso contrário 0.




In [93]:
simple_train_dtm = vect.transform(text)
ocorrencias = simple_train_dtm.toarray()

In [94]:
ocorrencias

array([[0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1],
       [1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1],
       [0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1]])

In [56]:
df = pd.DataFrame(simple_train_dtm.toarray(), columns=vect.get_feature_names())
df

Unnamed: 0,algo,amo,assim,eu,existe,melhor,mim,muito,nada,não,odeio,pra,presta,que,te,tudo,você
0,0,1,0,1,1,1,0,0,1,1,0,0,0,1,1,0,1
1,1,0,1,0,0,0,1,0,0,0,0,1,0,0,0,1,1
2,0,0,0,1,0,0,0,1,0,1,1,0,1,0,1,0,1


In [57]:
type(simple_train_dtm)

scipy.sparse.csr.csr_matrix

In [60]:
print(simple_train_dtm)

  (0, 1)	1
  (0, 3)	1
  (0, 4)	1
  (0, 5)	1
  (0, 8)	1
  (0, 9)	1
  (0, 13)	1
  (0, 14)	1
  (0, 16)	1
  (1, 0)	1
  (1, 2)	1
  (1, 6)	1
  (1, 11)	1
  (1, 15)	1
  (1, 16)	1
  (2, 3)	1
  (2, 7)	1
  (2, 9)	1
  (2, 10)	1
  (2, 12)	1
  (2, 14)	1
  (2, 16)	1
