In [3]:
import pandas

from sklearn.preprocessing import LabelEncoder
import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer



In [4]:
pandas.set_option('display.max_colwidth', -1)

In [5]:
data = pandas.read_csv('refined')
data.head(5)

Unnamed: 0,Author,Date,Review,Rating,Likes,Dislikes,Platform,Device,Size,Cluster,Category
0,Fábio F. de Oliveira,2019-06-20 18:06:37,nao funciona,2,,,Android,Galaxy J4+ (j4primelte),12,1,Instabilidade
1,Davidson P Sena,2019-06-20 17:53:10,editei a nota pois voces corrigiram o erro que tinha no aplicativo agora a unica coisa que esta incomodando ainda e a lentidao no aguardo e obrigado,4,9.0,,Android,Galaxy Note9 (crownqltechn),150,1,Elogio
2,Jackeline Mos,2019-06-20 17:47:59,trava muito nao gostei,1,,,Android,LG K10 (2017) (mlv5),23,0,Instabilidade
3,Amanda Caroline,2019-06-20 17:46:49,nao consigo entrar saiu da tela de faturas do nada e quando voltei pedia meu cpf pra ver se tinha cadastro demora a carregar e quando carrega diz que nao conseguiram acessar minhas informacoes,1,,,Android,LG Q6 (mh),194,2,Instabilidade
4,VIVEREMSALVADOR VIVER,2019-06-20 17:35:28,otimo,5,,,Android,LG Q6 (mh),5,1,Elogio


In [6]:
type(data['Category'])

pandas.core.series.Series

In [7]:
data.groupby(['Category'])['Category'].count()

Category
Elogio            82 
Funcionalidade    139
Instabilidade     385
Name: Category, dtype: int64

## Vetorizando Texto

In [8]:
vectorizer = TfidfVectorizer(norm='l2')
vectorizer

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.float64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=None, min_df=1,
        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=None, strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

In [9]:
X = vectorizer.fit_transform(data.Review)

In [10]:
X.toarray()[0]

array([0., 0., 0., ..., 0., 0., 0.])

## Vocabulario

In [11]:
vectorizer.vocabulary_

{'nao': 1077,
 'funciona': 771,
 'editei': 579,
 'nota': 1111,
 'pois': 1251,
 'voces': 1741,
 'corrigiram': 422,
 'erro': 640,
 'que': 1344,
 'tinha': 1617,
 'no': 1104,
 'aplicativo': 150,
 'agora': 93,
 'unica': 1671,
 'coisa': 334,
 'esta': 662,
 'incomodando': 843,
 'ainda': 101,
 'lentidao': 926,
 'aguardo': 97,
 'obrigado': 1124,
 'trava': 1652,
 'muito': 1070,
 'gostei': 799,
 'consigo': 383,
 'entrar': 620,
 'saiu': 1477,
 'da': 437,
 'tela': 1586,
 'de': 450,
 'faturas': 715,
 'do': 566,
 'nada': 1075,
 'quando': 1341,
 'voltei': 1745,
 'pedia': 1196,
 'meu': 1021,
 'cpf': 424,
 'pra': 1274,
 'ver': 1710,
 'se': 1485,
 'cadastro': 274,
 'demora': 473,
 'carregar': 300,
 'carrega': 297,
 'diz': 561,
 'conseguiram': 379,
 'acessar': 55,
 'minhas': 1030,
 'informacoes': 857,
 'otimo': 1159,
 'atualizou': 213,
 'app': 156,
 'consegue': 372,
 'verificar': 1716,
 'mais': 969,
 'conta': 394,
 'com': 341,
 'mensagem': 1005,
 'desculpe': 492,
 'conseguimos': 376,
 'localizar': 949,
 '

In [12]:
len(vectorizer.vocabulary_)

1754

In [13]:
encoder = LabelEncoder()
data['Label'] = encoder.fit_transform(data.Category)
data.head()

Unnamed: 0,Author,Date,Review,Rating,Likes,Dislikes,Platform,Device,Size,Cluster,Category,Label
0,Fábio F. de Oliveira,2019-06-20 18:06:37,nao funciona,2,,,Android,Galaxy J4+ (j4primelte),12,1,Instabilidade,2
1,Davidson P Sena,2019-06-20 17:53:10,editei a nota pois voces corrigiram o erro que tinha no aplicativo agora a unica coisa que esta incomodando ainda e a lentidao no aguardo e obrigado,4,9.0,,Android,Galaxy Note9 (crownqltechn),150,1,Elogio,0
2,Jackeline Mos,2019-06-20 17:47:59,trava muito nao gostei,1,,,Android,LG K10 (2017) (mlv5),23,0,Instabilidade,2
3,Amanda Caroline,2019-06-20 17:46:49,nao consigo entrar saiu da tela de faturas do nada e quando voltei pedia meu cpf pra ver se tinha cadastro demora a carregar e quando carrega diz que nao conseguiram acessar minhas informacoes,1,,,Android,LG Q6 (mh),194,2,Instabilidade,2
4,VIVEREMSALVADOR VIVER,2019-06-20 17:35:28,otimo,5,,,Android,LG Q6 (mh),5,1,Elogio,0


In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, data.Label, test_size=0.2, random_state=42)

## Classificador

In [15]:
classifier = LogisticRegression(random_state=42, solver='lbfgs', class_weight='balanced')
classifier

LogisticRegression(C=1.0, class_weight='balanced', dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='warn', n_jobs=None, penalty='l2', random_state=42,
          solver='lbfgs', tol=0.0001, verbose=0, warm_start=False)

In [16]:
model = classifier.fit(X_train, y_train)
y_pred = model.predict(X_test)



In [17]:
a = model.coef_
len(a[0])

1754

### Elogios

In [18]:
coefficients = model.coef_[0] # classe 0 : Elogios
keys = coefficients.argsort()[::-1][:50] # pegando as 50 posições
keys

array([1070, 1159, 1158,  248,  685, 1001, 1135,  742, 1663, 1179, 1676,
        796,  606, 1638,  698,  772,   93,  239, 1711,  108, 1359, 1522,
        101,  242,  501,  184, 1526, 1390, 1216,  191,  324,  992, 1122,
        847,   66, 1527, 1281, 1108,  236,  128,  994,  579,  422,  843,
         97,  583, 1301,  310,  122,  279])

In [19]:
from operator import itemgetter

idx_to_word = {v: k for k, v in vectorizer.vocabulary_.items()}
words = list(itemgetter(*keys)(idx_to_word)) 

In [20]:
print(words)

['muito', 'otimo', 'otima', 'bom', 'excelente', 'melhorou', 'ok', 'ficou', 'tudo', 'parabens', 'usar', 'goatei', 'encontrei', 'top', 'facil', 'funcional', 'agora', 'bem', 'verdade', 'aleluia', 'rapido', 'show', 'ainda', 'boa', 'design', 'atende', 'sim', 'reformulacao', 'perfeito', 'atendimento', 'clean', 'melhor', 'obg', 'incrivel', 'achei', 'simples', 'preciso', 'normalmente', 'bastante', 'anterior', 'melhorando', 'editei', 'corrigiram', 'incomodando', 'aguardo', 'eficaz', 'principalmente', 'center', 'amei', 'call']


### Funcionalidade

In [21]:
func = model.coef_[2] # classe 0 : Elogios
keys2 = func.argsort()[::-1][:50] # pegando as 50 posições
keys2

array([1077,  771, 1075,  618,   55,  620,  823,  953, 1465,  640,  951,
       1539,  927, 1234,  383, 1121,  735,  721,   32,  955,  394, 1575,
        274, 1485, 1344, 1100,  424, 1183,  372, 1721, 1156, 1274,  441,
         36,  561, 1655, 1018,  479, 1598,  778,  857, 1178,  464, 1092,
        398,  819,  494,  590,  669, 1513])

In [31]:
from operator import itemgetter

idx_to_word = {v: k for k, v in vectorizer.vocabulary_.items()}
words2 = list(itemgetter(*keys2)(idx_to_word)) # pegar vários valores do dicionário (vocabulário), de uma só vez E transformar em um array
print(words2)

['nao', 'funciona', 'nada', 'entra', 'acessar', 'entrar', 'horrivel', 'logar', 'ruim', 'erro', 'loga', 'so', 'lento', 'pior', 'consigo', 'nunca', 'fica', 'fazer', 'abre', 'login', 'conta', 'tarde', 'cadastro', 'se', 'que', 'net', 'cpf', 'parou', 'consegue', 'vezes', 'os', 'pra', 'dando', 'abrir', 'diz', 'travando', 'mesmo', 'depois', 'tentar', 'funcionar', 'informacoes', 'para', 'deixa', 'nem', 'continua', 'hora', 'desde', 'ele', 'estava', 'servico']


### Instabilidade

In [22]:
instabilidade = model.coef_[2] # classe 0 : Elogios
keys3 = instabilidade.argsort()[::-1][:50] # pegando as 50 posições
keys3

array([1077,  771, 1075,  618,   55,  620,  823,  953, 1465,  640,  951,
       1539,  927, 1234,  383, 1121,  735,  721,   32,  955,  394, 1575,
        274, 1485, 1344, 1100,  424, 1183,  372, 1721, 1156, 1274,  441,
         36,  561, 1655, 1018,  479, 1598,  778,  857, 1178,  464, 1092,
        398,  819,  494,  590,  669, 1513])

In [32]:
from operator import itemgetter

idx_to_word = {v: k for k, v in vectorizer.vocabulary_.items()}
words3 = list(itemgetter(*keys3)(idx_to_word))
print(words3)

['nao', 'funciona', 'nada', 'entra', 'acessar', 'entrar', 'horrivel', 'logar', 'ruim', 'erro', 'loga', 'so', 'lento', 'pior', 'consigo', 'nunca', 'fica', 'fazer', 'abre', 'login', 'conta', 'tarde', 'cadastro', 'se', 'que', 'net', 'cpf', 'parou', 'consegue', 'vezes', 'os', 'pra', 'dando', 'abrir', 'diz', 'travando', 'mesmo', 'depois', 'tentar', 'funcionar', 'informacoes', 'para', 'deixa', 'nem', 'continua', 'hora', 'desde', 'ele', 'estava', 'servico']


## Avaliando Modelo

In [25]:
target_names = encoder.inverse_transform([0, 1, 2])
target_names

array(['Elogio', 'Funcionalidade', 'Instabilidade'], dtype=object)

In [26]:
accuracy_score(y_test, y_pred)

0.9016393442622951

In [27]:
print(classification_report(y_test, y_pred, target_names=target_names))

                precision    recall  f1-score   support

        Elogio       0.90      0.90      0.90        21
Funcionalidade       0.92      0.79      0.85        29
 Instabilidade       0.89      0.94      0.92        72

     micro avg       0.90      0.90      0.90       122
     macro avg       0.91      0.88      0.89       122
  weighted avg       0.90      0.90      0.90       122



In [28]:
type(y_pred)

numpy.ndarray

In [29]:
y_pred.view()

array([1, 2, 2, 1, 2, 2, 2, 2, 0, 1, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 0, 0,
       2, 0, 2, 2, 2, 0, 2, 2, 0, 2, 2, 1, 2, 1, 1, 2, 1, 0, 0, 2, 2, 1,
       2, 2, 0, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 2, 0, 0, 1, 2, 2, 2, 2, 2, 1, 2, 2, 0, 1, 1, 1, 2, 2, 2, 0, 1,
       2, 0, 2, 2, 2, 2, 2, 0, 2, 0, 1, 1, 2, 0, 2, 2, 0, 2, 1, 2, 0, 2,
       2, 2, 2, 1, 1, 0, 2, 1, 1, 2, 1, 2])