# Classificação de textos

Para entender melhor o problema de classificação de textos, vamos começar com um exemplo básico que servirá como intuição para nos aprofundarmos depois

In [None]:
import pandas as pd
pd.set_option('display.max_rows', 500)
pd.set_option('display.max_columns', 500)
pd.set_option('display.width', 1000)

# exemplo de documento e corpus
df_fiap = pd.DataFrame({
    'text': [
      'Sobre MBA? Eu gostei muito do MBA da FIAP',
      'O MBA da FIAP pode melhorar, não gostei muito',
      'Foi muito importante para meu desenvolvimento',
      'Poderia ser mais técnico. Não gostei'
    ],
    'class': [
      'positivo',
      'negativo',
      'positivo',
      'negativo'
    ]})

df_fiap.head()

Unnamed: 0,text,class
0,Sobre MBA? Eu gostei muito do MBA da FIAP,positivo
1,"O MBA da FIAP pode melhorar, não gostei muito",negativo
2,Foi muito importante para meu desenvolvimento,positivo
3,Poderia ser mais técnico. Não gostei,negativo


Podemos vetorizar os dados e ver como fica o espaço de características nesse caso. Vamos usar a mesma solução que vimos aula passada:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(1,1))
vect.fit(df_fiap.text)
text_vect = vect.transform(df_fiap.text)

pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out())

Unnamed: 0,da,desenvolvimento,do,eu,fiap,foi,gostei,importante,mais,mba,melhorar,meu,muito,não,para,pode,poderia,ser,sobre,técnico
0,1,0,1,1,1,0,1,0,0,2,0,0,1,0,0,0,0,0,1,0
1,1,0,0,0,1,0,1,0,0,1,1,0,1,1,0,1,0,0,0,0
2,0,1,0,0,0,1,0,1,0,0,0,1,1,0,1,0,0,0,0,0
3,0,0,0,0,0,0,1,0,1,0,0,0,0,1,0,0,1,1,0,1


Usando Bigrama

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(2,2))
vect.fit(df_fiap.text)
text_vect = vect.transform(df_fiap.text)

pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out())

Unnamed: 0,da fiap,do mba,eu gostei,fiap pode,foi muito,gostei muito,importante para,mais técnico,mba da,mba eu,melhorar não,meu desenvolvimento,muito do,muito importante,não gostei,para meu,pode melhorar,poderia ser,ser mais,sobre mba,técnico não
0,1,1,1,0,0,1,0,0,1,1,0,0,1,0,0,0,0,0,0,1,0
1,1,0,0,1,0,1,0,0,1,0,1,0,0,0,1,0,1,0,0,0,0
2,0,0,0,0,1,0,1,0,0,0,0,1,0,1,0,1,0,0,0,0,0
3,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,1,1,0,1


Usando Trigrama

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

vect = CountVectorizer(ngram_range=(3,3))
vect.fit(df_fiap.text)
text_vect = vect.transform(df_fiap.text)

pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out())

Unnamed: 0,da fiap pode,do mba da,eu gostei muito,fiap pode melhorar,foi muito importante,gostei muito do,importante para meu,mais técnico não,mba da fiap,mba eu gostei,melhorar não gostei,muito do mba,muito importante para,não gostei muito,para meu desenvolvimento,pode melhorar não,poderia ser mais,ser mais técnico,sobre mba eu,técnico não gostei
0,0,1,1,0,0,1,0,0,1,1,0,1,0,0,0,0,0,0,1,0
1,1,0,0,1,0,0,0,0,1,0,1,0,0,1,0,1,0,0,0,0
2,0,0,0,0,1,0,1,0,0,0,0,0,1,0,1,0,0,0,0,0
3,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,1,1,0,1


Podemos ver como fica a representação usando TFIDF. É interessante fazer uma comparação com a solução usando Unigram

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer(ngram_range=(1,1), use_idf=True)
vect.fit(df_fiap.text)
text_vect = vect.transform(df_fiap.text)

pd.DataFrame(text_vect.A, columns=vect.get_feature_names_out())

Unnamed: 0,da,desenvolvimento,do,eu,fiap,foi,gostei,importante,mais,mba,melhorar,meu,muito,não,para,pode,poderia,ser,sobre,técnico
0,0.287039,0.0,0.364073,0.364073,0.287039,0.0,0.232383,0.0,0.0,0.574078,0.0,0.0,0.232383,0.0,0.0,0.0,0.0,0.0,0.364073,0.0
1,0.342426,0.0,0.0,0.0,0.342426,0.0,0.277223,0.0,0.0,0.342426,0.434323,0.0,0.277223,0.342426,0.0,0.434323,0.0,0.0,0.0,0.0
2,0.0,0.430037,0.0,0.0,0.0,0.430037,0.0,0.430037,0.0,0.0,0.0,0.430037,0.274487,0.0,0.430037,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.284626,0.0,0.445922,0.0,0.0,0.0,0.0,0.35157,0.0,0.0,0.445922,0.445922,0.0,0.445922


## Biblioteca para normalização de textos

Vimos várias maneiras de realizar o tratamento e normalização dos textos ao longo dessas duas aulas (e vou incluir mais algumas opções aqui). Por conta disso, é interessante construir uma classe que implementa todas essas funções. Isso facilita o reaproveitamento de código e permite você construir sua própria biblioteca de códigos

In [None]:
import nltk
import re
import string
import unicodedata

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
    
        
def normalize_accents(text):
    return unicodedata.normalize("NFKD", text).encode("ASCII", "ignore").decode("utf-8")

def normalize_str(text):
    text = text.lower()
    text = remove_punctuation(text)
    text = normalize_accents(text)
    text = re.sub(re.compile(r" +"), " ",text)
    return " ".join([w for w in text.split()])

def remove_punctuation(text):
    punctuations = string.punctuation
    table = str.maketrans({key: " " for key in punctuations})
    text = text.translate(table)
    return text


def tokenizer(text):
    stop_words = nltk.corpus.stopwords.words("english") # portuguese, caso o dataset seja em português
    if isinstance(text, str):
        text = normalize_str(text)
        text = "".join([w for w in text if not w.isdigit()])
        text = word_tokenize(text)
        text = [x for x in text if x not in stop_words]
        text = [y for y in text if len(y) > 2]
        return " ".join([t for t in text])
    else:
        return None

    
        
    

In [None]:
tokenizer("Exemplo$ de 12 normalização!!")

'exemplo normalizacao'

Vamos agora usar essas funções que criamos num dataset real e entender como realizar o pré-processamento de textos bem como preparar os dados para treinar um modelo de machine learning.

Para isso, vamos usar o dataset UCI News Aggregator, que pode ser consultado nesse [link](https://archive.ics.uci.edu/ml/datasets/News+Aggregator)

In [None]:
df = pd.read_csv('uci-news-aggregator.csv')
df = df[['TITLE','CATEGORY']]
#categories: b = business, t = science and technology, e = entertainment, m = health

In [None]:
# shuffle - embaralha as linhas para evitar problema (aprende apenas amostras de uma classe e isso pode levar o gradiente a
# ficar preso num mínimo local e só aprender bem sobre tal classe)
from sklearn.utils import shuffle
df = shuffle(df)
df = df.reset_index(drop = True)
df.head()

Unnamed: 0,TITLE,CATEGORY
0,Nokia X Platform 2.0 will not be supported by ...,t
1,Jay Z gets his ass handed to him by his sister...,e
2,Chelsea Handler to end talk show,e
3,New meteor shower to produce meteor storm live...,t
4,"Fly the spacious skies — private bath, bedroom...",b


In [None]:
df['Title_Treated'] = df['TITLE'].apply(tokenizer)

In [None]:
df.head()

Unnamed: 0,TITLE,CATEGORY,Title_Treated
0,Nokia X Platform 2.0 will not be supported by ...,t,nokia platform supported nokia
1,Jay Z gets his ass handed to him by his sister...,e,jay gets ass handed sister law solange knowles
2,Chelsea Handler to end talk show,e,chelsea handler end talk show
3,New meteor shower to produce meteor storm live...,t,new meteor shower produce meteor storm live st...
4,"Fly the spacious skies — private bath, bedroom...",b,fly spacious skies private bath bedroom airline


Comparando amostras antes e depois do tratamento:

In [None]:
print('Antes: ', df['TITLE'][0], '\n')
print('Depois: ', df['Title_Treated'][0])

Antes:  Nokia X Platform 2.0 will not be supported by Nokia X, X+ and XL 

Depois:  nokia platform supported nokia


Criando features e Labels. A título de comparação com o modelo de representação Word2Vec que veremos na última aula, vamos usar apenas as primeiras 100k amostras e, a partir delas, criar conjunto de treino e teste. 

In [None]:
from sklearn.model_selection import train_test_split
X = df['Title_Treated'].iloc[0:99999] 
y = df['CATEGORY'].iloc[0:99999]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Agora, precisamos transformar os dados para a representação numérica. Vamos usar o modelo BoW, que pode ser obtido usando CountVectorizer 

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(lowercase=False) 
vect.fit(X_train)
X_train = vect.transform(X_train)
X_train

<69999x26330 sparse matrix of type '<class 'numpy.int64'>'
	with 461985 stored elements in Compressed Sparse Row format>

In [None]:
X_test = vect.transform(X_test)
X_test

<30000x26330 sparse matrix of type '<class 'numpy.int64'>'
	with 193764 stored elements in Compressed Sparse Row format>

In [None]:
from sklearn import svm
clf = svm.SVC(kernel='linear') 
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

In [None]:
from sklearn import metrics
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9229666666666667
