# Documentation

# Sample

In [2]:
import pandas as pd
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')

products_data = pd.read_csv("/data/produtos.csv", delimiter=';', encoding='utf-8')

# concatenando as colunas nome e descricao
products_data['informacao'] = products_data['nome'] + products_data['descricao']
# excluindo linhas com valor de informacao ou categoria NaN
products_data.dropna(subset=['informacao', 'categoria'], inplace=True)
products_data.drop(columns=['nome', 'descricao'], inplace=True)

stop_words=set(stopwords.words("portuguese"))
# transforma a string em caixa baixa e remove stopwords
products_data['sem_stopwords'] = products_data['informacao'].str.lower().apply(lambda x: ' '.join([word for word in x.split() if word not in (stop_words)]))
tokenizer = nltk.RegexpTokenizer(r"\w+")
products_data['tokens'] = products_data['sem_stopwords'].apply(tokenizer.tokenize) # aplica o regex tokenizer
products_data.drop(columns=['sem_stopwords','informacao'],inplace=True) # Exclui as colunas antigas

products_data["strings"]= products_data["tokens"].str.join(" ") # reunindo cada elemento da lista
products_data.head()


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,categoria,tokens,strings
0,livro,"[hobbit, 7ª, ed, 2013, produto, novobilbo, bol...",hobbit 7ª ed 2013 produto novobilbo bolseiro h...
1,livro,"[livro, it, coisa, stephen, king, produto, nov...",livro it coisa stephen king produto novodurant...
2,livro,"[box, crônicas, gelo, fogo, pocket, 5, livros,...",box crônicas gelo fogo pocket 5 livros produto...
3,livro,"[box, harry, potter, produto, novo, físico, sé...",box harry potter produto novo físico série har...
4,livro,"[livro, origem, dan, brown, produto, novode, o...",livro origem dan brown produto novode onde vie...


In [3]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline

X_train,X_test,y_train,y_test = train_test_split( # Separação dos dados para teste e treino
    products_data["strings"], 
    products_data["categoria"], 
    test_size = 0.2, 
    random_state = 10
)
pipe = Pipeline([('vetorizador', CountVectorizer()), ("classificador", MultinomialNB())]) # novo

In [4]:
import joblib
pipe.fit(X_train, y_train)
joblib.dump(pipe, "/model/classificador-produtos.joblib")

['/model/classificador-produtos.joblib']

In [5]:
from sklearn.metrics import accuracy_score
from sklearn import metrics

y_prediction = pipe.predict(X_test)
accuracy = accuracy_score(y_prediction, y_test)


In [6]:
input_message = ["Figura Transformers Prime War Deluxe - E9687 - Hasbro",  "Senhor dos aneis", "Senhor dos anéis"]
final_prediction = pipe.predict(input_message)
print("Predicted values:")
print(",".join(final_prediction))

Predicted values:
brinquedo,brinquedo,livro


In [7]:
d = {'descricao': 'Figura Transformers Prime War Deluxe - E9687 - Hasbro'}

ser = pd.Series(data=d, index=['descricao'])

ser

descricao    Figura Transformers Prime War Deluxe - E9687 -...
dtype: object

In [8]:
ser.tolist()

['Figura Transformers Prime War Deluxe - E9687 - Hasbro']

In [9]:
import joblib
pipe = joblib.load("/model/classificador-produtos.joblib")

In [10]:
final_prediction = pipe.predict(ser.tolist())
print("Predicted values:")
print(",".join(final_prediction))

Predicted values:
brinquedo


In [11]:
print(pipe)

Pipeline(steps=[('vetorizador', CountVectorizer()),
                ('classificador', MultinomialNB())])
