In [1]:
!pip install textblob
!pip install pyspellchecker
!pip install spacy
!python -m spacy download pt_core_news_sm
import pandas as pd
pd.set_option('display.max_rows', None)
import nltk
nltk.download('punkt')
from nltk.tokenize import word_tokenize
nltk.download('stopwords')
from nltk.corpus import stopwords
import sklearn
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn import svm
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.metrics import precision_recall_fscore_support
from sklearn.model_selection import GridSearchCV
import joblib
from spellchecker import SpellChecker
from nltk.stem import WordNetLemmatizer
import spacy

Collecting textblob
  Downloading textblob-0.17.1-py2.py3-none-any.whl (636 kB)
     -------------------------------------- 636.8/636.8 kB 1.3 MB/s eta 0:00:00
Installing collected packages: textblob
Successfully installed textblob-0.17.1
Collecting pyspellchecker
  Downloading pyspellchecker-0.7.2-py3-none-any.whl (3.4 MB)
     ---------------------------------------- 3.4/3.4 MB 1.5 MB/s eta 0:00:00
Installing collected packages: pyspellchecker
Successfully installed pyspellchecker-0.7.2
Collecting spacy
  Downloading spacy-3.5.3-cp310-cp310-win_amd64.whl (12.2 MB)
     ---------------------------------------- 12.2/12.2 MB 2.4 MB/s eta 0:00:00
Collecting murmurhash<1.1.0,>=0.28.0
  Downloading murmurhash-1.0.9-cp310-cp310-win_amd64.whl (18 kB)
Collecting pydantic!=1.8,!=1.8.1,<1.11.0,>=1.7.4
  Downloading pydantic-1.10.8-cp310-cp310-win_amd64.whl (2.1 MB)
     ---------------------------------------- 2.1/2.1 MB 3.2 MB/s eta 0:00:00
Collecting langcodes<4.0.0,>=3.2.0
  Downloading lang

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\pedro\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\pedro\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


In [2]:
stop_words = stopwords.words('portuguese')

In [3]:
dados_treino = pd.read_csv('dados_para_treinamento.csv')

In [4]:
dados_treino

Unnamed: 0,Comentarios,Rotulo
0,"Vejam só, o celular lg b22 que comprei em jane...",Surgimento de um Problema
1,"A bateria dura pouco, e pra um telefone desse ...",Não atendeu as expectativas
2,Comprei pra minha achando que era o original i...,Não atendeu as expectativas
3,O produto não é de boa qualidade e não é cadas...,Surgimento de um Problema
4,O aparelho não sei o porquê a bateria acaba mu...,Não atendeu as expectativas
5,"Para minha mãe que e idosa, atende bem as expe...",Satisfeito
6,Se da doido nao vale nada e nao consegui nem d...,Surgimento de um Problema
7,O celular não tem a opção pra tira o número co...,Não atendeu as expectativas
8,Não recomendo este lg b220.\nComprei-o para su...,Não atendeu as expectativas
9,Celular não para carregado. Volume é ruim.,Não atendeu as expectativas


In [5]:
def corretora(dataset):
    dataset_corrigido = dataset.copy()
    spell = SpellChecker(language='pt')
    for i, comentario in enumerate(dataset_corrigido["Comentarios"]):
        palavras = comentario.split()
        palavras_corrigidas = [spell.correction(palavra) for palavra in palavras]
        palavras_corrigidas = [p if p is not None else '' for p in palavras_corrigidas]
        comentario_corrigido = ' '.join(palavras_corrigidas)
        dataset_corrigido.at[i, "Comentarios"] = comentario_corrigido
    return dataset_corrigido

In [6]:
def tokeniza(dataset):
    dataset.dropna(subset=['Comentarios'], inplace=True)
    dataset['tokens'] = dataset['Comentarios'].apply(lambda x: word_tokenize(x.lower()))
    return dataset

In [7]:
def limpa(dataset):
    for i, tokens in enumerate(dataset['tokens']):
        dataset['tokens'][i] = [token for token in tokens if token.isalpha()]
    return dataset

In [9]:
def removeStopWords(dataset):
    stop_words_pt = set(stopwords.words('portuguese'))
    stop_words_pt.remove('não')
    for i, tokens in enumerate(dataset['tokens']):
        dataset['tokens'][i] = [token for token in tokens if token not in stop_words_pt]
    return dataset

In [10]:
def vetoriza(dataset):
    tfidf = TfidfVectorizer()
    tokens_vetorizados = tfidf.fit_transform(dataset['tokens'].apply(lambda x: ' '.join(x)))
    print("Parâmetros de Vetorização:")
    print(tfidf.get_params())
    return tokens_vetorizados

In [11]:
def codificaRotulos(dataset):
    encoder = LabelEncoder()
    target_codificado = encoder.fit_transform(dataset['Rotulo'])
    return target_codificado

In [12]:
def modeladoraNB(matrizVetores, rotulos_codificados):
    X_train, X_test, y_train, y_test = train_test_split(matrizVetores, rotulos_codificados, test_size=0.25, random_state=42)
    modelo = MultinomialNB(alpha=0.1)#, class_prior=None, fit_prior=True)
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    precision, recall, f1, _ = precision_recall_fscore_support(y_test, y_pred, average='weighted', zero_division=1)
    print(classification_report(y_test, y_pred))
    score = modelo.score(X_test, y_test)
    print("Acurácia do modelo: {:.2f}%".format(score*100))
    return modelo

In [13]:
def modeladoraSVM(matrizVetores, rotulos_codificados):
    X_train, X_test, y_train, y_test = train_test_split(matrizVetores, rotulos_codificados, test_size=0.15, random_state=42)
    modelo = svm.SVC(kernel='rbf', C=1, gamma='scale', degree=1)
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    print(classification_report(y_test, y_pred))
    score = modelo.score(X_test, y_test)
    print("Acurácia do modelo: {:.2f}%".format(score*100))
    return modelo

In [15]:
def modeladoraRandomForest(matrizVetores, rotulos_codificados):
    X_train, X_test, y_train, y_test = train_test_split(matrizVetores, rotulos_codificados, test_size=0.25, random_state=42)
    modelo = RandomForestClassifier()
    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)
    print(classification_report(y_test, y_pred))
    score = modelo.score(X_test, y_test)
    print("Acurácia do modelo: {:.2f}%".format(score*100))
    return modelo

In [16]:
dados_tokenizados = tokeniza(dados_treino)

In [17]:
dados_tokenizados

Unnamed: 0,Comentarios,Rotulo,tokens
0,"Vejam só, o celular lg b22 que comprei em jane...",Surgimento de um Problema,"[vejam, só, ,, o, celular, lg, b22, que, compr..."
1,"A bateria dura pouco, e pra um telefone desse ...",Não atendeu as expectativas,"[a, bateria, dura, pouco, ,, e, pra, um, telef..."
2,Comprei pra minha achando que era o original i...,Não atendeu as expectativas,"[comprei, pra, minha, achando, que, era, o, or..."
3,O produto não é de boa qualidade e não é cadas...,Surgimento de um Problema,"[o, produto, não, é, de, boa, qualidade, e, nã..."
4,O aparelho não sei o porquê a bateria acaba mu...,Não atendeu as expectativas,"[o, aparelho, não, sei, o, porquê, a, bateria,..."
5,"Para minha mãe que e idosa, atende bem as expe...",Satisfeito,"[para, minha, mãe, que, e, idosa, ,, atende, b..."
6,Se da doido nao vale nada e nao consegui nem d...,Surgimento de um Problema,"[se, da, doido, nao, vale, nada, e, nao, conse..."
7,O celular não tem a opção pra tira o número co...,Não atendeu as expectativas,"[o, celular, não, tem, a, opção, pra, tira, o,..."
8,Não recomendo este lg b220.\nComprei-o para su...,Não atendeu as expectativas,"[não, recomendo, este, lg, b220, ., comprei-o,..."
9,Celular não para carregado. Volume é ruim.,Não atendeu as expectativas,"[celular, não, para, carregado, ., volume, é, ..."


In [18]:
palavras = limpa(dados_tokenizados)

In [19]:
palavras

Unnamed: 0,Comentarios,Rotulo,tokens
0,"Vejam só, o celular lg b22 que comprei em jane...",Surgimento de um Problema,"[vejam, só, o, celular, lg, que, comprei, em, ..."
1,"A bateria dura pouco, e pra um telefone desse ...",Não atendeu as expectativas,"[a, bateria, dura, pouco, e, pra, um, telefone..."
2,Comprei pra minha achando que era o original i...,Não atendeu as expectativas,"[comprei, pra, minha, achando, que, era, o, or..."
3,O produto não é de boa qualidade e não é cadas...,Surgimento de um Problema,"[o, produto, não, é, de, boa, qualidade, e, nã..."
4,O aparelho não sei o porquê a bateria acaba mu...,Não atendeu as expectativas,"[o, aparelho, não, sei, o, porquê, a, bateria,..."
5,"Para minha mãe que e idosa, atende bem as expe...",Satisfeito,"[para, minha, mãe, que, e, idosa, atende, bem,..."
6,Se da doido nao vale nada e nao consegui nem d...,Surgimento de um Problema,"[se, da, doido, nao, vale, nada, e, nao, conse..."
7,O celular não tem a opção pra tira o número co...,Não atendeu as expectativas,"[o, celular, não, tem, a, opção, pra, tira, o,..."
8,Não recomendo este lg b220.\nComprei-o para su...,Não atendeu as expectativas,"[não, recomendo, este, lg, para, substituir, u..."
9,Celular não para carregado. Volume é ruim.,Não atendeu as expectativas,"[celular, não, para, carregado, volume, é, ruim]"


In [20]:
palavras_mais_importantes = removeStopWords(palavras)

In [21]:
palavras_mais_importantes

Unnamed: 0,Comentarios,Rotulo,tokens
0,"Vejam só, o celular lg b22 que comprei em jane...",Surgimento de um Problema,"[vejam, celular, lg, comprei, janeiro, passado..."
1,"A bateria dura pouco, e pra um telefone desse ...",Não atendeu as expectativas,"[bateria, dura, pouco, pra, telefone, desse, t..."
2,Comprei pra minha achando que era o original i...,Não atendeu as expectativas,"[comprei, pra, achando, original, igual, oqe, ..."
3,O produto não é de boa qualidade e não é cadas...,Surgimento de um Problema,"[produto, não, boa, qualidade, não, cadastrado..."
4,O aparelho não sei o porquê a bateria acaba mu...,Não atendeu as expectativas,"[aparelho, não, sei, porquê, bateria, acaba, r..."
5,"Para minha mãe que e idosa, atende bem as expe...",Satisfeito,"[mãe, idosa, atende, bem, expectativas]"
6,Se da doido nao vale nada e nao consegui nem d...,Surgimento de um Problema,"[doido, nao, vale, nada, nao, consegui, devolver]"
7,O celular não tem a opção pra tira o número co...,Não atendeu as expectativas,"[celular, não, opção, pra, tira, número, confi..."
8,Não recomendo este lg b220.\nComprei-o para su...,Não atendeu as expectativas,"[não, recomendo, lg, substituir, samsung, uso,..."
9,Celular não para carregado. Volume é ruim.,Não atendeu as expectativas,"[celular, não, carregado, volume, ruim]"


In [22]:
matrizVetores = vetoriza(palavras_mais_importantes)

Parâmetros de Vetorização:
{'analyzer': 'word', 'binary': False, 'decode_error': 'strict', 'dtype': <class 'numpy.float64'>, 'encoding': 'utf-8', 'input': 'content', 'lowercase': True, 'max_df': 1.0, 'max_features': None, 'min_df': 1, 'ngram_range': (1, 1), 'norm': 'l2', 'preprocessor': None, 'smooth_idf': True, 'stop_words': None, 'strip_accents': None, 'sublinear_tf': False, 'token_pattern': '(?u)\\b\\w\\w+\\b', 'tokenizer': None, 'use_idf': True, 'vocabulary': None}


In [24]:
rotulos_codificados = codificaRotulos(palavras_mais_importantes)

In [25]:
rotulos_codificados

array([2, 0, 0, ..., 0, 1, 1])

In [26]:
NaiveBayes = modeladoraNB(matrizVetores, rotulos_codificados)

              precision    recall  f1-score   support

           0       0.59      0.37      0.46       221
           1       0.88      0.97      0.92      1061
           2       0.81      0.74      0.77       232

    accuracy                           0.85      1514
   macro avg       0.76      0.69      0.72      1514
weighted avg       0.83      0.85      0.83      1514

Acurácia do modelo: 84.68%


In [27]:
SVM = modeladoraSVM(matrizVetores, rotulos_codificados)

              precision    recall  f1-score   support

           0       0.68      0.40      0.50       127
           1       0.86      0.98      0.92       629
           2       0.87      0.69      0.77       153

    accuracy                           0.85       909
   macro avg       0.80      0.69      0.73       909
weighted avg       0.84      0.85      0.83       909

Acurácia do modelo: 84.93%


In [28]:
randomForest = modeladoraRandomForest(matrizVetores, rotulos_codificados)

              precision    recall  f1-score   support

           0       0.75      0.37      0.50       221
           1       0.86      0.98      0.92      1061
           2       0.84      0.70      0.76       232

    accuracy                           0.85      1514
   macro avg       0.81      0.68      0.72      1514
weighted avg       0.84      0.85      0.83      1514

Acurácia do modelo: 84.81%


In [29]:
joblib.dump(NaiveBayes, 'NaiveBayes.pkl')
joblib.dump(SVM, 'SVM.pkl')
joblib.dump(randomForest, 'randomForest.pkl')

['randomForest.pkl']

In [31]:
matrizVetores.shape[1]

6272