# Classificação de Texto e Análise de Sentimentos

Olá, turma!

Nesta aula, estudaremos o problema de classificação de texto. Iremos pegar uma base de texto, usar as técnicas de pré-processamento vistas na última aula e preparar os dados para inseri-los num algoritmo de machine learning. Por fim, veremos como podemos estender o conceito de classificação de texto para análise de sentimentos. 

## Introdução

Para começarmos a entender o problema de classificação de texto, sem antes dar uma definição formal, vamos considerar alguns exemplos. Considere a imagem abaixo. Você a classificaria como um spam ou como uma mensagem legítima?

<img src="img/spam.png" />

Olhando o texto escrito, é possível dizer que existe alguma característica que permita a nós dizer se essa mensagem é fraudulenta ou não? 

Vamos considerar mais um exemplo, retira de um artigo por Argamon et al, em 2003. Considere essas duas frases:

1.	By 1925 present-day Vietnam was divided into three parts under French colonial rule. The southern region embracing Saigon and the Mekong delta was the colony of Cochin-China; the central area with its imperial capital at Hue was the protectorate of Annam…

2.	Clara never failed to be astonished by the extraordinary felicity of her own name. She found it hard to trust herself to the mercy of fate, which had managed over the years to convert her greatest shame into one of her greatest assets…

Analisando essas duas frases, você consegue identificar o gênero de quem as escreveu? Apesar de não ser uma tarefa trivial, é possível, com dados bons e em quantidade suficiente, treinar um classificador para identificar o gênero do autor de um texto.


Mais um exemplo. Considere as seguintes críticas escritas de uma maneira bem resumida:
* Incrivelmente desapontador
* Cheio de personagens mirabolantes e uma sátira ricamente aplicada
* O melhor filme de comédia já feito
* Foi patético. A pior parte foi a cena dentro do saguão.

Ok, aqui é um pouco mais fácil, já que é algo que vemos quase que diariamente. Mas temos algumas questões importantes: Como você conseguiu diferenciar uma crítica negativa de uma positiva? Que critérios você usou para estabelecer essa diferença? Foram as palavras, o contexto, ambos? 

Apesar de descobrirmos o tipo de crítica logo após a ler a frase, precisamos pensar em como nosso cérebro processou as informações para chegar nessa conclusão, pois isso é o que devemos fazer, mas passo a passo, para que o modelo também consiga distinguir uma crítica positiva de uma negativa. 

Por esses exemplos, podemos ver que existe uma grande quantidade de aplicações que envolvem classificação de textos. Aqui vão mais algumas:

* Atribuir categorias, tópicos ou gêneros a assuntos
* Classificação de mensagens textuais
* Identificação autoral
* Identificação de língua escrita
* Classificação de sentimento
* Chatbots

Embora o propósito e a aplicação da classificação de texto possam variar de domínio para domínio, o problema abstrato subjacente permanece o mesmo. Essa invariância do problema central e suas aplicações em uma infinidade de domínios torna a classificação de texto de longe a tarefa de NLP mais utilizada na indústria e a mais pesquisada na academia.

Em machine learning, a classificação é o problema de categorizar uma instância de dados em uma ou mais classes conhecidas. A classificação de texto é uma instância especial do problema de classificação, onde os dados de entrada são texto e o objetivo é categorizar o pedaço de texto em um ou mais grupos (chamados de classe) a partir de um conjunto de grupos predefinidos (Classes). O “texto” pode ter comprimento arbitrário: um caractere, uma palavra, uma frase, um parágrafo ou um documento completo.

Considerando o caso de reviews de filmes, o desafio de classificação de texto é aprender esta categorização a partir de uma coleção de exemplos para cada categoria e predizer a categoria para novos, ainda não vistos, reviews. 

Todo problema de classificação supervisionado pode ainda ser divido em três partes baseado no número de classes envolvidas:
1. binário, quando há apenas duas classes envolvidas; 
2. multiclasse, quando há mais de duas classes envolvidas, como quando quero classificar sentimentos em negativo, neutro ou positivo, por exemplo; 
3. multilabel, em que um documento pode ter associado a ele uma ou mais classes, como num artigo de jornal, em que o mesmo pode tratar de política, negócios e jurídico, por exemplo. Em nosso curso, trabalharemos com os dois primeiros casos. 

Vamos, então, entender o problema de classificação de texto.

## O Problema de Classificação de Texto

Vamos definir formalmente o problema de classificação de texto.

Seja
* $d \in X$ um documento, em que $X$ é o espaço de documentos
* $C=\{c_1,c_2,\dots,c_j\}$ um conjunto fixo de Classes (categorias ou rótulos)
* $\{(d_1,c_1 ),(d_2,c_2 )\dots,(d_m,c_m )\}$ um conjunto de treinamento de m documentos manualmente rotulados

Usando um algoritmo de aprendizado, desejamos aprender uma função $\gamma$ de classificação que mapeia documentos para classes:
* $\gamma = X \rightarrow C$

Mas se $d \in X$ é um documento que pertence ao espaço de documentos, como representa-lo de forma que um computador consiga interpretá-lo? Como visto anteriormente, precisamos transformar esse documento em números. 

O jeito como eu realizo essa transformação é denominado modelo de representação, e esse modelo criado recebe o nome de vetor de características (nota: podemos usar features e descritores como sinônimos de características). 

Inicialmente, vamos trabalhar com dois modelos de representação: Bag-of-Words e TF-IDF. São modelos mais simples, mas que oferecem um resultado muito satisfatório para várias aplicações, inclusive veremos um caso prático na aula 5. Vamos começar pelo Bag-of-words. 

Importante notarmos que a representação que vimos na aula passada, em que colocamos 1 quando a palavra do dicionário está na frase e 0 quando contrário, é um tipo ainda mais simples denominado One-Hot-encoding. 

### Bag-of-words

O modelo Bag-of-Words (BoW) usa um vetor de contagens de palavras para representar um documento. Observe:

$x=[1,0,1,0,4,3,10,6,7,\dots]$, em que $x_j$ é a contagem da palavra $j$. 

O tamanho de $x$ é determinado pelo vocabulário $|V|$, que é o conjunto de todas as possíveis palavras no vocabulário. Lembrando que o vocabulário é composto por todas as palavras distintas presentes no conjunto de documentos a serem classificados. 

A intuição básica por trás disso é que ele assume que o texto pertencente a uma determinada classe no conjunto de dados é caracterizado por um conjunto único de palavras. Se dois trechos de texto tiverem quase as mesmas palavras, então eles pertencem ao mesmo conjunto (classe). Assim, ao analisar as palavras presentes em um trecho de texto, é possível identificar a classe (bag) a que ele pertence.

Por conta disso, o BoW somente inclui informação sobre a contagem de cada palavra e não sobre a ordem em que cada uma aparece. Logo, o contexto das frases é ignorado ao criar essa representação. Ainda assim, é surpreendente efetivo para classificação de texto. 
A imagem a seguir mostra como funciona o BoW:

<img src="img/bow.png" />

Esse tipo de representação é muito utilizado na maioria das aplicações de NLP. Aqui estão algumas vantagens de se o usar:

1. Simples de entender e implementar.

2. Documentos que possuam as mesmas palavras terão vetores de representação próximos um do outro no espaço Euclidiano quando comparado com documentos com palavras completamente diferentes. Dessa maneira, o espaço vetorial resultante do BoW consegue capturar a similaridade semântica dos documentos. 

Entretanto, possui também algumas desvantagens:

1. O tamanho do vetor de representação aumenta com o tamanho do vocabulário. Assim, esparsidade continua sendo um problema. 

2. Ele não consegue capturar a similaridade entre diferentes palavras que possuam o mesmo significado. Por exemplo, considere três documentos: “Eu corro”, “Eu corri”, “Eu comi”. Todos eles estarão igualmente espaçados. 

3. O BoW não possui uma maneira de lidar com palavras que estejam fora de seu vocabulário. 

4. A informação da ordem que uma palavra aparece na frase é perdida com essa representação.  

### TF-IDF

Outro ponto que não comentamos a respeito dos modelos de representação vistos até o momento foi a respeito da importância da palavra num documento. Quando pensamos num texto, claramente algumas palavras possuem uma importância relativa maior em relação às outras. Para conseguir capturar isso, usamos outro tipo de representação, TF-IDF, que significa **Term Frequency – Inverse Document Frequency**. 

O conceito de frequência de termo (TF) calcula a proporção de um termo num documento em relação ao número total de termos nesse documento. Entretanto, um problema com pontuar frequências de palavras é que palavras muito frequentes começam a dominar no documento (pontuação alta), mas podem não conter muita “informação de conteúdo” para o modelo em relação a palavras raras que pertençam a domínios específicos. Assim, introduzimos um mecanismo para atenuar o efeito de termos que ocorrem muito nos dados para tornar significativo a determinação de sua relevância. Esse mecanismo é o IDF.

A intuição por trás do TF-IDF é a seguinte: se uma palavra $w$ aparece muitas vezes em um documento $d_i$, mas não ocorre muito nos demais documentos $d_j$ do corpus, então a palavra $w$ deve ser de grande importância para o documento $d_i$. A importância de $w$ deve aumentar proporcionalmente à sua frequência em $d_i$, mas, ao mesmo tempo, sua importância deve diminuir proporcionalmente à frequência da palavra em outros documentos $d_j$ do corpus. Matematicamente, isso é capturado usando duas quantidades: TF e IDF. Os dois são então combinados para chegar ao score TF-IDF.

TF mede a frequência com que um termo ou palavra ocorre em um determinado documento. Como diferentes documentos no corpus podem ter comprimentos diferentes, um termo pode ocorrer com mais frequência em um documento mais longo do que em um documento mais curto. Para normalizar essas contagens, dividimos o número de ocorrências pelo comprimento do documento. Assim, podemos definir TF da seguinte maneira:

$tf = \frac{f_{t,d}}{\sum{T,d}}$

IDF mede a importância do termo em um corpus. No cálculo do TF, todos os termos recebem igual importância (ponderação). No entanto, é um fato bem conhecido que palavras irrelevantes como é, são, sou, etc., não são importantes, embora ocorram com frequência. Para dar conta de tais casos, o IDF pondera para baixo os termos que são muito comuns em um corpus e pondera para cima os termos raros. O IDF é calculado da seguinte forma:

$idf = \log_e \frac{N}{n_t}$

Por fim, multiplicamos os dois termos, obtendo o score final:

$TFIDF = tf * idf$

Em que:

* t: termo analisado
* d: documento analisado
* T: conjunto de termos presente no documento $d$
* N: número total de documentos
* $n_t$: número de documentos que contém o termo $t$

Semelhante ao BoW, podemos usar os vetores TF-IDF para calcular a similaridade entre dois textos usando uma medida de similaridade como distância euclidiana ou similaridade de cosseno. TF-IDF é uma representação comumente usada em aplicações como recuperação de informação e classificação de texto. No entanto, apesar do TF-IDF ser melhor que os métodos de vetorização que vimos anteriormente em termos de captura de semelhanças entre palavras, ele ainda sofre com a maldição da alta dimensionalidade. Veremos como amenizar esse problema na aula seguinte. 

## Prática

Vamos analisar o código agora e aplicar esses conhecimentos obtidos num problema de classificação de texto. Para entender melhor o problema de classificação de textos, vamos começar com um exemplo básico que servirá como intuição para nos aprofundarmos depois. Considere o código abaixo:

In [5]:
import pandas as pd
import time
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

# exemplo de documento e corpus
df_fiap = pd.DataFrame({
    'text': [
      'Sobre postech? Eu gostei muito do postech da FIAP',
      'O postech da FIAP pode melhorar, não gostei muito',
      'Foi muito importante para meu desenvolvimento',
      'Poderia ser mais técnico. Não gostei'
    ],
    'class': [
      'positivo',
      'negativo',
      'positivo',
      'negativo'
    ]})

df_fiap.head()

Unnamed: 0,text,class
0,Sobre postech? Eu gostei muito do postech da FIAP,positivo
1,"O postech da FIAP pode melhorar, não gostei muito",negativo
2,Foi muito importante para meu desenvolvimento,positivo
3,Poderia ser mais técnico. Não gostei,negativo


Esse DataFrame contém duas colunas, uma que mostra um texto, que é um review sobre a Pos-tech da FIAP, e outra que mostra a classe, ou o sentimento, que no caso pode ser positivo ou negativo. 

Com essa informação, podemos usar as representações que vimos aqui e entender como transformamos texto em número. Vamos usar o BoW nesse primeiro exemplo:

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df_fiap.text)
text_vect = vect.transform(df_fiap.text)

pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out())

Unnamed: 0,da,desenvolvimento,do,eu,fiap,foi,gostei,importante,mais,melhorar,meu,muito,não,para,pode,poderia,postech,ser,sobre,técnico
0,1,0,1,1,1,0,1,0,0,0,0,1,0,0,0,0,2,0,1,0
1,1,0,0,0,1,0,1,0,0,1,0,1,1,0,1,0,1,0,0,0
2,0,1,0,0,0,1,0,1,0,0,1,1,0,1,0,0,0,0,0,0
3,0,0,0,0,0,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1


Observe que, por padrão, o método CountVectorizer passa as palavras para minúscula. Essa representação nos mostra o dicionário que foi obtido a partir do conjunto de textos que passamos como parâmetro. Observe que a palavra, também chamado de token, “postech” tem valor 2 na linha 0, pois ela apareceu duas vezes na primeira frase. 

Podemos comparar essa representação com a obtida usando TF-IDF. Observe o código:

In [7]:
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer(ngram_range=(1,1), use_idf=True)
vect.fit(df_fiap.text)
text_vect = vect.transform(df_fiap.text)

pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out())

Unnamed: 0,da,desenvolvimento,do,eu,fiap,foi,gostei,importante,mais,melhorar,meu,muito,não,para,pode,poderia,postech,ser,sobre,técnico
0,0.287039,0.0,0.364073,0.364073,0.287039,0.0,0.232383,0.0,0.0,0.0,0.0,0.232383,0.0,0.0,0.0,0.0,0.574078,0.0,0.364073,0.0
1,0.342426,0.0,0.0,0.0,0.342426,0.0,0.277223,0.0,0.0,0.434323,0.0,0.277223,0.342426,0.0,0.434323,0.0,0.342426,0.0,0.0,0.0
2,0.0,0.430037,0.0,0.0,0.0,0.430037,0.0,0.430037,0.0,0.0,0.430037,0.274487,0.0,0.430037,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.284626,0.0,0.445922,0.0,0.0,0.0,0.35157,0.0,0.0,0.445922,0.0,0.445922,0.0,0.445922


Esse exemplo nos dá uma ideia de como podemos construir uma representação numérica de textos e inserir esses dados num modelo de machine learning. Vamos agora analisar um exemplo mais complexo.

Quando falamos de NLP, é comum escrevermos funções que podem ser usadas em vários contextos, ou seja, o mesmo código acaba servindo para diferentes bases de dados. Assim, uma prática recomendada é ir construindo sua própria biblioteca de funções para poder usá-la sempre que for trabalhar com texto. 

Na aula passada, vimos uma série de técnicas que usamos para normalizar os textos. Vamos apresentar mais algumas e criar uma biblioteca de normalização de textos para poder aplica-la nos textos do exemplo a seguir.

A primeira coisa a ser feita é importar os pacotes que vamos usar:

In [8]:
import nltk
import re
import string
import unicodedata

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

Depois de importar os pacotes, podemos começar a criar nossas funções. A primeira delas tem como objetivo remover toda acentuação das palavras. Para isso, vamos usar o pacote *unicodedata*. 

In [9]:
def normalize_accents(text):
    return unicodedata.normalize("NFKD", text).encode("ASCII", "ignore").decode("utf-8")

Explicação da função: 

1. unicodedata.normalize("NFKD", text): Aqui, a função normalize do módulo unicodedata é utilizada para normalizar o texto Unicode. A normalização é feita usando o algoritmo NFKD (Forma Normalizada de Compatibilidade Compatível com Decomposição). Isso pode ser útil para tratar caracteres acentuados, caracteres especiais e outras variações de representação Unicode.

2. .encode("ASCII", "ignore"): O método encode é chamado na string normalizada. Aqui, a string é codificada usando o esquema de codificação ASCII. O parâmetro "ignore" especifica que, se houver caracteres na string que não podem ser representados no esquema ASCII, eles serão simplesmente ignorados e excluídos da saída.

3. .decode("utf-8"): Após a codificação usando ASCII, o método decode é chamado na sequência de bytes resultante. Aqui, a sequência de bytes é decodificada de volta para uma string usando o esquema de codificação UTF-8.

Portanto, o objetivo desse código é transformar um texto Unicode em uma representação que contenha apenas caracteres ASCII, ignorando qualquer caractere que não possa ser representado no esquema ASCII. O uso da normalização NFKD no início pode ajudar a lidar com diferentes formas de caracteres Unicode (por exemplo, caracteres acentuados representados de diferentes maneiras) antes de transformar a string em uma representação ASCII.

O significa de “NFKD” é além do escopo dessa disciplina, mas nas referencias bibliográficas, eu deixei um artigo que pode ser consultado para um completo entendimento do assunto. 

A segunda função faz a remoção da pontuação: 

In [10]:
def remove_punctuation(text):
    punctuations = string.punctuation
    table = str.maketrans({key: " " for key in punctuations})
    text = text.translate(table)
    return text

Explicação da função: 

1. punctuations = string.punctuation: Aqui, a variável punctuations é atribuída ao conjunto de caracteres de pontuação predefinidos do módulo string. Esses caracteres incluem coisas como pontos, vírgulas, ponto e vírgulas, exclamações, interrogações e assim por diante.

2. table = str.maketrans({key: " " for key in punctuations}): A função str.maketrans é usada para criar uma tabela de tradução que substitui cada caractere de pontuação por um espaço em branco. Um dicionário de compreensão é usado para criar esse dicionário de tradução, onde as chaves são os caracteres de pontuação e os valores são espaços em branco.

3. text = text.translate(table): O método translate é chamado na string text, usando a tabela de tradução criada na etapa anterior. Isso substituirá cada caractere de pontuação na string por um espaço em branco, efetivamente removendo a pontuação.

4. return text: A função retorna a string resultante após a remoção da pontuação.

Portanto, a função remove_punctuation remove todos os caracteres de pontuação de uma string de entrada, substituindo-os por espaços em branco, e retorna a versão da string sem a pontuação. 

A próxima função é de normalização do texto. Ela agrega as duas funções já vistas e mais algumas operações. Vamos entende-la: 

In [11]:
def normalize_str(text):
    text = text.lower()
    text = remove_punctuation(text)
    text = normalize_accents(text)
    text = re.sub(re.compile(r" +"), " ",text)
    return " ".join([w for w in text.split()])

Explicação da função:

1. text = text.lower(): a função recebe um texto como parâmetro e passa esse texto para minúscula;

2. text = remove_punctuation(text): aplica a função descrita acima, removendo a pontuação do texto

3. text = normalize_accents(text): aplica a função descrita acima, removendo acentuação

4. text = re.sub(re.compile(r” +”), “ ”,text): elemina qualquer espaço em branco extra que possa existir no texto

5. no retorno, a string é reorganizada novamente, eliminando qualquer espaço que possa ter sido gerado pelas etapas anteriores. 

Por fim, temos uma função que agrega todas as demais para aplicar todas elas de uma vez num texto:

In [12]:
def tokenizer(text):
    stop_words = nltk.corpus.stopwords.words("english") # portuguese, caso o dataset seja em português
    if isinstance(text, str):
        text = normalize_str(text)
        text = "".join([w for w in text if not w.isdigit()])
        text = word_tokenize(text)
        text = [x for x in text if x not in stop_words]
        text = [y for y in text if len(y) > 2]
        return " ".join([t for t in text])
    else:
        return None

Explicação da função: 

1. stop_words = nltk.corpus.stopwords.words("english"): é carregado um conjunto de stop words e armazenado na variável stop_words. Caso o dataset seja em português, é só alterar o parâmetro para “portuguese”. 

2. If isinstance(text, str): verifica se o tipo da variável text é str. Se não for, retorna None. Se for, realiza os demais passos, a saber:

    a. Text = normalize_str(text): aplica a função acima descrita
    
    b. text = "".join([w for w in text if not w.isdigit()]): remove qualquer número da string
    
    c. text = word_tokenize(text): divide a string em tokens (palavras)
    
    d. text = [x for x in text if x not in stop_words]: elimina qualquer stopwords da string
    
    e. text = [y for y in text if len(y) > 2]: mantém apenas strings que tenham mais que 2 caracteres. NOTA: este passo é opcional e eu apliquei pois fazia sentido para o dataset que vamos trabalhar. 
    
    f.return " ".join([t for t in text]): retorna a string tratada. 
    
Vamos ver um exemplo de aplicação dessa função: 


In [13]:
tokenizer("Exemplo$ de 12 normalização!!")

'exemplo normalizacao'

Vamos agora usar essas funções que criamos num dataset real e entender como realizar o pré-processamento de textos bem como preparar os dados para treinar um modelo de machine learning.

Para isso, vamos usar o dataset UCI News Aggregator, que pode ser consultado nesse [link](https://archive.ics.uci.edu/dataset/359/news+aggregator).

A primeira coisa a ser feita é ler o arquivo CSV e filtrar somente o título da notícia bem como a categoria a qual ela pertence. Esse caso é típico problema de classificação. 

In [14]:
df = pd.read_csv('Bases/uci-news-aggregator.csv')
df = df[['TITLE','CATEGORY']]
#categories: b = business, t = science and technology, e = entertainment, m = health

Agora, precisamos embaralhar os dados. Com isso, evitamos que o modelo aprenda bem somente sobre uma classe, já que ele pode ficar preso em mínimos locais. Para isso, usaremos o método Shuffle, da biblioteca utils da Scikit-Learn. Por fim, reiniciamos o index e eliminamos a nova coluna de índice criada e mostramos as 5 primeiras linhas de nosso dataset.

In [15]:
from sklearn.utils import shuffle
df = shuffle(df)
df = df.reset_index(drop = True)
df.head()

Unnamed: 0,TITLE,CATEGORY
0,PBOC widening yuan band aggravating concerns a...,b
1,US Close: Stocks slide as Fed officials talk a...,b
2,"To play or not to play? Corporate sponsorship,...",e
3,Zac Efron and Seth Rogan dress in drag on The ...,e
4,New Doctor Who trailer hints at Daleks' return,e


Agora, precisamos aplicar as funções que escrevemos anteriormente para tratar o texto de todas as linhas da coluna Title. Para isso, usamos o código a seguir, que cria uma nova coluna com o texto tratado:

In [16]:
df['Title_Treated'] = df['TITLE'].apply(tokenizer)

Podemos ver um exemplo comparando o texto antes e depois do tratamento. Observe:

In [17]:
print('Antes: ', df['TITLE'][0], '\n')
print('Depois: ', df['Title_Treated'][0])

Antes:  PBOC widening yuan band aggravating concerns about exposure to China in  ... 

Depois:  pboc widening yuan band aggravating concerns exposure china


Agora, vamos preparar esses dados para usá-los para treinar um modelo de machine learning.

Primeiro, importamos o método train_test_split, que pega nossa base de dados e a separa em conjunto de treino e teste. Para isso, precisamos definir quais são as features que o modelo vai usar para treinar e qual a resposta associada a cada amostra. As features serão colocadas na variável X e a classe será posta na variável y. Após isso, o método train_test_split é chamado, criando quatro conjuntos:

1. X_train são as features referentes ao conjunto de treino
2. y_train é a classe de cada amostra do conjunto de treino
3. X_teste são as features referentes ao conjunto de teste
4. y_teste é a classe de cada amostra do conjunto de teste

In [18]:
from sklearn.model_selection import train_test_split
X = df['Title_Treated'].values
y = df['CATEGORY'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Agora, criamos uma representação usando o BoW, baseado no mesmo código que vimos até agora:

In [19]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(lowercase=False) 
vect.fit(X_train)
X_train = vect.transform(X_train)
X_train

<295693x43672 sparse matrix of type '<class 'numpy.int64'>'
	with 1953706 stored elements in Compressed Sparse Row format>

Observe que o retorno foi uma matriz esparsa. O primeiro valor é a quantidade de amostras que eu tenho no conjunto de treino. O segundo valor é o tamanho do dicionário que foi aprendido durante o processo de treino. 

Agora, precisamos pegar esse dicionário aprendido e aplica-lo ao conjunto de teste. 

In [20]:
X_test = vect.transform(X_test)
X_test

<126726x43672 sparse matrix of type '<class 'numpy.int64'>'
	with 832787 stored elements in Compressed Sparse Row format>

Novamente, o primeiro valor é a quantidade de amostras presente no conjunto de teste, agora. E o segundo valor é o tamanho do dicionário aprendido durante o processo de treino. 

Agora, importamos um modelo de machine learning e vamos usar os dados transformados para treinar o modelo e, depois, testar e ver o quão bem nosso modelo foi. Para esse caso, vamos usar o SVM:

In [21]:
from sklearn import svm
clf = svm.SVC(kernel='linear') 
start_time = time.time()
clf.fit(X_train, y_train)
end_time = time.time()
print('tempo decorrido: ',end_time-start_time, 'segundos')
y_pred = clf.predict(X_test)

tempo decorrido:  3304.206557035446 segundos


In [22]:
#traduzindo o tempo decorrido 
import datetime
sec = end_time-start_time
print(str(datetime.timedelta(seconds = sec)))

0:55:04.206557


Primeiro, eu instancio o SVM usando o kernel linear. O método fit() é o responsável por treinar o modelo e o método predict() usa o modelo aprendido e realiza a predicao das amostras no conjunto de teste. 

Por fim, podemos verificar o quanto nosso modelo acertou no conjunto de teste. O método accuracy_score retorna a acurácia para o conjunto de teste. Veja o código abaixo:

In [23]:
from sklearn import metrics
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9439341571579628


## Análise de Sentimentos

Análise de sentimentos é uma aplicação de classificação de textos. Geralmente, separamos os sentimentos em três classes: negativo, neutro e positivo. Como exercício de aplicação, temos uma base contendo tweets e nosso objetivo será o de criar um classificador que diga se o tweet analisado tem sentimento negativo, neutro ou positivo. 

O jupyter notebook desse exercício contém as orientações necessárias para guia-lo na construção desse classificador. Hora de colocar em prática o que você viu até o momento. 

Recomendamos que você tente resolver todos os exercícios sem olhar o jupyter com as respostas para avaliar seu conhecimento. Depois, compare as respostas e nos chame no discord para discutirmos as soluções. 