In [5]:
import pandas as pd

In [6]:
import nltk
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer

nltk.download('stopwords')
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package stopwords to
[nltk_data]     /home/joaomacedx/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /home/joaomacedx/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [7]:
data = {
    'text': [
        'Que horas são?',
        'Qual é o dia hoje?',
        'Me diga a hora, por favor',
        'Que dia da semana é hoje?',
        'Você sabe que horas são agora?',
        'Qual é o dia da semana atual?',
        'Que horas você tem?',
        'Poderia me dizer o horário?',
        'Que dia é hoje?',
        'Hoje é segunda ou terça?',
        'Preciso saber a hora.',
        'Hoje é quarta-feira?',
        'Que horas são exatamente agora?',
        'Qual é o dia de amanhã?',
        'Me informe o horário atual.',
        'Estamos em que dia da semana?',
        'Você tem a hora?',
        'Que dia da semana será amanhã?',
        'Qual é a hora certa?',
        'Qual é o dia de hoje?',
        'Poderia me informar a hora?',
        'Hoje é que dia da semana?',
        'Preciso da hora atual.',
        'Que dia da semana foi ontem?'
    ],
    'label': [
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'hora',
        'dia_da_semana',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana',
        'hora',
        'dia_da_semana'
    ]
}

df = pd.DataFrame(data)

In [8]:
stop_words = set(stopwords.words('portuguese'))

def preprocess(text):
    words = word_tokenize(text.lower())
    words = [word for word in words if word.isalnum()]
    words = [word for word in words if word not in stop_words]
    return ' '.join(words)

df['cleaned_text'] = df['text'].apply(preprocess)

In [9]:
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df['cleaned_text'])
y = df['label']

In [10]:
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report, accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = MultinomialNB()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
print(classification_report(y_test, y_pred))
print('Accuracy:', accuracy_score(y_test, y_pred))

               precision    recall  f1-score   support

dia_da_semana       1.00      1.00      1.00         2
         hora       1.00      1.00      1.00         3

     accuracy                           1.00         5
    macro avg       1.00      1.00      1.00         5
 weighted avg       1.00      1.00      1.00         5

Accuracy: 1.0


In [11]:
def classify_question(question):
    cleaned_question = preprocess(question)
    vectorized_question = vectorizer.transform([cleaned_question])
    prediction = model.predict(vectorized_question)
    return prediction[0]

# Testando a função
print(classify_question('Qual é a data de hoje?'))
print(classify_question('Você pode me dizer a hora?'))

dia_da_semana
hora


In [12]:
import pickle

In [13]:

# Salvar o modelo
with open('modelo_classificador.pkl', 'wb') as model_file:
    pickle.dump(model, model_file)

# Salvar o vetor de características
with open('vectorizer.pkl', 'wb') as vectorizer_file:
    pickle.dump(vectorizer, vectorizer_file)

In [15]:
# Carregar o modelo
with open('modelo_classificador.pkl', 'rb') as model_file:
    loaded_model = pickle.load(model_file)

# Carregar o vetor de características
with open('vectorizer.pkl', 'rb') as vectorizer_file:
    loaded_vectorizer = pickle.load(vectorizer_file)

In [None]:
def classify_question(question, model, vectorizer):
    cleaned_question = preprocess(question)
    vectorized_question = vectorizer.transform([cleaned_question])
    prediction = model.predict(vectorized_question)
    return prediction[0]

# Testando a função com o modelo carregado
print(classify_question('Qual é a data de hoje?', loaded_model, loaded_vectorizer))
print(classify_question('Você pode me dizer a hora?', loaded_model, loaded_vectorizer))

dia_da_semana
hora
