### Importando bibliotecas necessárias:

In [850]:
import pandas as pd
import numpy as np
import ast

In [851]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.model_selection import train_test_split

from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC

from sklearn.multiclass import OneVsRestClassifier

### Carregando os dados:

In [852]:
df = pd.read_csv('dataset.csv')

### Pequena análise:

In [853]:
df.groupby(['category']).size()

category
educação                    107
educação,finanças             2
educação,indústrias           5
educação,orgão público        9
finanças                     54
finanças,indústrias           3
finanças,orgão público        4
finanças,varejo              13
indústrias                   89
indústrias,orgão público      2
indústrias,varejo             7
orgão público               140
varejo                       85
varejo,indústrias             1
dtype: int64

In [854]:
# Printando valor com multilabel.
df['category'].iloc[32] 

'finanças,varejo'

In [855]:
# Verificando tipo.
type(df['category'].iloc[32]) 

str

In [856]:
# Transformando para lista
df['category'] = df['category'].apply(lambda x: x.split(',')) 
# Verificando tipo.
type(df['category'].iloc[0]) 

list

In [857]:
df['category'].iloc[32] # Printando valor com multilabel.

['finanças', 'varejo']

### One-Hot-Encoding

In [858]:
df['category']

0                [orgão público]
1                     [finanças]
2                     [educação]
3                   [indústrias]
4           [indústrias, varejo]
                 ...            
516                   [educação]
517    [educação, orgão público]
518              [orgão público]
519              [orgão público]
520              [orgão público]
Name: category, Length: 521, dtype: object

In [859]:
multilabel = MultiLabelBinarizer()

In [860]:
y = multilabel.fit_transform(df['category'])

In [861]:
# Antes era: [finanças,varejo]
y[32]

array([0, 1, 0, 0, 1])

In [862]:
multilabel.classes_ # Está tudo ok.

array(['educação', 'finanças', 'indústrias', 'orgão público', 'varejo'],
      dtype=object)

In [863]:
stop_words_pt_br = ['a', 'agora', 'ainda', 'alguém', 'algum', 'alguma', 'algumas', 'alguns', 'ampla', 'amplas', 'amplo', 'amplos', 'ante', 'antes', 'ao', 'aos', 'após', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'até', 'através', 'cada', 'coisa', 'coisas', 'com', 'como', 'contra', 'contudo', 'da', 'daquele', 'daqueles', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'dessa', 'dessas', 'desse', 'desses', 'desta', 'destas', 'deste', 'deste', 'destes', 'deve', 'devem', 'devendo', 'dever', 'deverá', 'deverão', 'deveria', 'deveriam', 'devia', 'deviam', 'disse', 'disso', 'disto', 'dito', 'diz', 'dizem', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'enquanto', 'entre', 'era', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'estes', 'estou', 'eu', 'fazendo', 'fazer', 'feita', 'feitas', 'feito', 'feitos', 'foi', 'for', 'foram', 'fosse', 'fossem', 'grande', 'grandes', 'há', 'isso', 'isto', 'já', 'la', 'lá', 'lhe', 'lhes', 'lo', 'mas', 'me', 'mesma', 'mesmas', 'mesmo', 'mesmos', 'meu', 'meus', 'minha', 'minhas', 'muita', 'muitas', 'muito', 'muitos', 'na', 'não', 'nas', 'nem', 'nenhum', 'nessa', 'nessas', 'nesta', 'nestas', 'ninguém', 'no', 'nos', 'nós', 'nossa', 'nossas', 'nosso', 'nossos', 'num', 'numa', 'nunca', 'o', 'os', 'ou', 'outra', 'outras', 'outro', 'outros', 'para', 'pela', 'pelas', 'pelo', 'pelos', 'pequena', 'pequenas', 'pequeno', 'pequenos', 'per', 'perante', 'pode', 'pude', 'podendo', 'poder', 'poderia', 'poderiam', 'podia', 'podiam', 'pois', 'por', 'porém', 'porque', 'posso', 'pouca', 'poucas', 'pouco', 'poucos', 'primeiro', 'primeiros', 'própria', 'próprias', 'próprio', 'próprios', 'quais', 'qual', 'quando', 'quanto', 'quantos', 'que', 'quem', 'são', 'se', 'seja', 'sejam', 'sem', 'sempre', 'sendo', 'será', 'serão', 'seu', 'seus', 'si', 'sido', 'só', 'sob', 'sobre', 'sua', 'suas', 'talvez', 'também', 'tampouco', 'te', 'tem', 'tendo', 'tenha', 'ter', 'teu', 'teus', 'ti', 'tido', 'tinha', 'tinham', 'toda', 'todas', 'todavia', 'todo', 'todos', 'tu', 'tua', 'tuas', 'tudo', 'última', 'últimas', 'último', 'últimos', 'um', 'uma', 'umas', 'uns', 'vendo', 'ver', 'vez', 'vindo', 'vir', 'vos']

In [864]:
# Com stop_words:
# tfidf = TfidfVectorizer(analyzer='word', stop_words=stop_words_pt_br)
# Sem stop_words (não notei diferença no score com adição de stop_words):
tfidf = TfidfVectorizer(analyzer='word')
X = tfidf.fit_transform(df['sentence'])

In [865]:
X

<521x2024 sparse matrix of type '<class 'numpy.float64'>'
	with 4834 stored elements in Compressed Sparse Row format>

In [866]:
# Palavras utilizadas(todas)
# tfidf.vocabulary_

In [867]:
X.shape, y.shape

((521, 2024), (521, 5))

In [868]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.15, random_state=86)

### Modelo

In [869]:
sgd = SGDClassifier()
lr = LogisticRegression(solver='liblinear') # liblinear para pequenos datasets.
svc = LinearSVC()

In [870]:
def jaccard_score(y_true, y_pred):
    jaccard = np.minimum(y_true, y_pred).sum(axis=1)/np.maximum(y_true, y_pred).sum(axis=1)
    return jaccard.mean()*100

def print_score(y_pred, clf):
    print(f"Classifier: {clf.__class__.__name__}")
    print('Jaccard score: {}'.format(jaccard_score(y_test, y_pred)))
    print("--------------")

In [871]:
for classifier in [sgd, lr, svc]:
    clf = OneVsRestClassifier(classifier)
    clf.fit(X_train, y_train)
    y_pred = clf.predict(X_test)
    print_score(y_pred, classifier)

Classifier: SGDClassifier
Jaccard score: 49.36708860759494
--------------
Classifier: LogisticRegression
Jaccard score: 5.063291139240507
--------------
Classifier: LinearSVC
Jaccard score: 44.303797468354425
--------------


### Tesdo do Modelo com dado real:

In [872]:
x = ['Você acabou de comprar o produto.']

In [873]:
xt = tfidf.transform(x)

In [874]:
clf.predict(xt)

array([[0, 1, 0, 0, 1]])

In [875]:
multilabel.inverse_transform(clf.predict(xt))

[('finanças', 'varejo')]