# Classificação de textos com *scikit-learn*
por Prof. Sanderson Macedo

<hr size=5>

## Agenda


1. Representar um texto como dados numéricos
2. Ler o *dataset* de texto no Pandas
2. Vetorizar nossso *dataset*
4. Construir e avaliar um modelo
5. Comparar modelos


In [353]:
##Importando pandas e numpy
import pandas as pd
import numpy as np

## 1. Definindo um vetor de textos 
Os textos do vetor podem ser adquiridos por meio da leitura de 
pdf's, doc's, twitter's... etc.

Esses textos serão a base de treinamento
para a classificação do sentimento de um novo texto.

In [354]:
train = [
    'Eu te amo',
    'Você é algo assim... é tudo pra mim. Ao meu amor... Amor!',
    'Eu te odeio muito, você não presta!',
    'Não gosto de você'
   ]

## 2. Definindo um vetor de sentimentos
Criaremos um vetor de sentimentos chamado **_felling_**. 

Cada posição do vetor **_felling_** representa o sentimento **BOM** (1) ou **RUIM** (0) para os textos que passamos ao vetor **_train_**.

Por exemplo: a frase da primeira posição do vetor **_train_**:

> 'Eu te amo'

Foi classificada como sendo um texto **BOM**:

> 1

In [355]:
felling = [1,1,0,0]

## 3. Análise de texto com _scikit-learn_.

Texto de [scikit-learn documentation](http://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction):

> Análise de texto é um campo de aplicação importante para algoritmos de aprendizado de máquina. No entanto, uma sequência de símbolos não podem ser passada diretamente aos algoritmos de Machine Learning, pois a maioria deles espera vetores de características numéricas com um tamanho fixo, em vez de documentos de texto com comprimento variável.

Mas nesse caso podemos realizar algumas transformações de para poder manipular textos em algoritmos de aprendizagem.

Portanto, aqui utilizaremos a [CountVectorizer](http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)
para converter textos em uma matriz que expressará a quantidade "tokens" dos textos.

Importamos a classe e criamos uma instância chamada **_vect_**.


In [356]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer()

## 4. Treinamento criando o dicionário.
Agora treinamos o algoritmo com o vetor de textos que criamos acima. Chamamos o método **_fit()_** passando o vetor de textos.

In [357]:
vect.fit(train)

CountVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), preprocessor=None, stop_words=None,
        strip_accents=None, token_pattern='(?u)\\b\\w\\w+\\b',
        tokenizer=None, vocabulary=None)

Veja que o parametro *analyzer* é defindo por padrão como *'word'* na classe *CountVectorizer*. Isso signicica que a classe ignora palavras com menos de dois (2) caracteres e pontuações. 

## 5. Nosso dicionário de palavras
Aqui vamos listar quais palavras forma utilizadas nos textos de **_train_**, formando nosso dicionário de palavras. Nessa listagem as palavras não se repetem.

In [358]:
## examinando o dicionário criado em ordem alfabética.
vect.get_feature_names()

['algo',
 'amo',
 'amor',
 'ao',
 'assim',
 'de',
 'eu',
 'gosto',
 'meu',
 'mim',
 'muito',
 'não',
 'odeio',
 'pra',
 'presta',
 'te',
 'tudo',
 'você']

## 6.  Criação de uma matriz de ocorrência



A matriz de ocorrência mostra a ocorrência de cada palavra em cada texto passado para o algoritmo que criou o dicionário.
Essa transformação cria uma matriz onde:

1. Cada linha representa um texto do vetor **_train_** 
2. Cada coluna uma palavra do dicionário aprendido.
3. Se a palavra ocorrer no texto o valor será 1 caso contrário 0.

Por exemplo:
A primeira linha da matriz é a frase

> Eu te amo

Essa frase tem somente três(3) palavras **_eu_**, **_te_** e **_amo_** que serão marcados na matriz com a quantidade que ocorrem no texto nesse caso **_1_** e as outras palavras do dicionário serão marcadas pelo valor zero(0), por não estarem no texto.

A segunda frase

> Você é algo assim... é tudo pra mim. Ao meu amor... Amor!

A palavra **_amor_** ocorre duas(2) vezes, por isso que a terceira posição tem o valor 2. 

In [359]:
simple_train_dtm = vect.transform(train)
simple_train_dtm.toarray()

array([[0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
       [1, 0, 2, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1],
       [0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1]])

#### Criando um *dataframe*  pandas para visualizar melhor os dados.

In [360]:
df = pd.DataFrame(simple_train_dtm.toarray(), columns=vect.get_feature_names(), index=train)
df

Unnamed: 0,algo,amo,amor,ao,assim,de,eu,gosto,meu,mim,muito,não,odeio,pra,presta,te,tudo,você
Eu te amo,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,1,0,0
Você é algo assim... é tudo pra mim. Ao meu amor... Amor!,1,0,2,1,1,0,0,0,1,1,0,0,0,1,0,0,1,1
"Eu te odeio muito, você não presta!",0,0,0,0,0,0,1,0,0,0,1,1,1,0,1,1,0,1
Não gosto de você,0,0,0,0,0,1,0,1,0,0,0,1,0,0,0,0,0,1


## 7. esparsividade
A matriz de ocorrência é uma matriz normalmente muito esparsa, ou seja, com muitos valores zero. Essa quantidade de zeros na matriz aumenta substâncialmente o processamento das informações para a classificação de um novo texto. Portanto, a matriz esparsa ficará melhor representada pela ocorrência sem os valores zero.
A linha abaixo mostra que a matriz é do tipo esparsa.


In [361]:
type(simple_train_dtm)

scipy.sparse.csr.csr_matrix

O comando anterior mostra os mesmos valores da matriz de ocorrências de palavras só que retirando as não ocorrências.

Por exemplo:
As três(3) primeiras linhas da impressão do comando se refere a frase:

> Eu te amo

(0, 1)	1<br>
(0, 6)	1<br>
(0, 15)	1<br>

Essa é a frase zero(0) ou seja a primeira frase. os valores 1, 6, 16 é posição da matriz onde ocorres as palavras [amo, eu, te] (em ordem alfabética), e os valores 1 são as quantidades de ocorrências de cada palavra nessa frase

In [362]:
print(simple_train_dtm)

  (0, 1)	1
  (0, 6)	1
  (0, 15)	1
  (1, 0)	1
  (1, 2)	2
  (1, 3)	1
  (1, 4)	1
  (1, 8)	1
  (1, 9)	1
  (1, 13)	1
  (1, 16)	1
  (1, 17)	1
  (2, 6)	1
  (2, 10)	1
  (2, 11)	1
  (2, 12)	1
  (2, 14)	1
  (2, 15)	1
  (2, 17)	1
  (3, 5)	1
  (3, 7)	1
  (3, 11)	1
  (3, 17)	1


Normalmente muitos documentos usarão somente um pequeno subconjuto das palavras do nosso *dicionário*, por isso a matriz resultante terá vários valores zerados nas palavras (basicamente mais de 99% delas)

Por exemplo, um conjunto de **dez mil (10.000)** pequenos textos (tais como emails) terá um vocabulário da ordem de **cem mil (100.000)** palavras únicas. Porém cada texto normalmente usará somente **cem (100)** palavras únicas individualmente   

Visando o armazenamento dessa matri e a aceleração de operações, algoritimos normalmente usam a representação esparsa como a implementação disponível no pacote **_scipy.sparse_**

## 8. Classificações

### 8.1 Classificando um novo texto

Nosso objetivo é inferir se um novo texto é **BOM** ou **RUIM**
tendo como base os textos anteriormente classificados.
o vetor ***novo_texto*** contém um novo texto obtido e que será classificado por nosso algoritmo de aprendizagem de máquina.

Basicamente classificaremos o texto com o algoritmo ***KNN***.

In [372]:
novo_texto = ['te odeio']

#### Criando a matriz de ocorrência para o novo texto
A matriz ***simple_test_dtm*** é que será usada para a nova classificação

In [373]:
simple_test_dtm = vect.transform(novo_texto)

##criando a visualização da matriz de ocorrência
pd.DataFrame(simple_test_dtm.toarray(), columns=vect.get_feature_names(), index=novo_texto)

Unnamed: 0,algo,amo,amor,ao,assim,de,eu,gosto,meu,mim,muito,não,odeio,pra,presta,te,tudo,você
te odeio,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1,0,0


### 8.2 Classificador KNN

Importando o classificador KNN do scikit-learn

Referência sobre o classificador KNN você pode acessar o [wikpedia-KNN](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm) e a referência do [KNN no scikit-learn](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) 

In [374]:
## importanto o classificador
from sklearn.neighbors import KNeighborsClassifier

Treinando o classificador KNN

In [375]:
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(simple_train_dtm, felling)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')

### 8.3 Gerando uma classificação
Para isso utiliza-se o método ***predict()*** do classificador

In [376]:
fell = knn.predict(simple_test_dtm)[0]
fell

1

In [377]:
if fell==1:
    print("Bom sentimento")
else:
    print("Mal sentimento")

Bom sentimento


In [369]:
sms = pd.read_table('sms.tsv', header=None, names=['label', 'message'])

In [370]:
sms.head(10)

Unnamed: 0,label,message
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
5,spam,FreeMsg Hey there darling it's been 3 week's n...
6,ham,Even my brother is not like to speak with me. ...
7,ham,As per your request 'Melle Melle (Oru Minnamin...
8,spam,WINNER!! As a valued network customer you have...
9,spam,Had your mobile 11 months or more? U R entitle...


In [371]:
sms.label.value_counts()

ham     4825
spam     747
Name: label, dtype: int64