In [1]:
import re
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report, accuracy_score

# Считывание датасета
file_path = 'IMDB Dataset.csv'
dataset = pd.read_csv(file_path)

# Предварительная обработка данных: очистка текста от HTML-тегов и знаков пунктуации
def clean_text(text):
    text = re.sub('<.*?>', '', text)  # Удаление HTML тегов
    text = re.sub('[^a-zA-Z]', ' ', text)  # Удаление знаков пунктуации
    return text.lower()

# Применение функции очистки к столбцу с отзывами
dataset['review'] = dataset['review'].apply(clean_text)

# Векторизация текста с использованием TF-IDF
tfidf = TfidfVectorizer(stop_words='english')

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(dataset['review'], dataset['sentiment'], test_size=0.2, random_state=42)

# Создание и обучение модели
model = make_pipeline(tfidf, MultinomialNB())
model.fit(X_train, y_train)

# Предсказание и оценка модели
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
report = classification_report(y_test, predictions)

print("Accuracy:", accuracy)
print("Classification Report:\n", report)


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Accuracy: 0.8651
Classification Report:
               precision    recall  f1-score   support

    negative       0.86      0.88      0.87      4961
    positive       0.88      0.85      0.86      5039

    accuracy                           0.87     10000
   macro avg       0.87      0.87      0.87     10000
weighted avg       0.87      0.87      0.87     10000



In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import make_pipeline
from sklearn.metrics import classification_report, accuracy_score
import re

# Считывание датасета
file_path = 'IMDB Dataset.csv'
dataset = pd.read_csv(file_path)

# Предварительная обработка данных: очистка текста от HTML-тегов и знаков пунктуации
def clean_text(text):
    text = re.sub('<.*?>', '', text)  # Удаление HTML тегов
    text = re.sub('[^a-zA-Z]', ' ', text)  # Удаление знаков пунктуации
    return text.lower()

# Применение функции очистки к столбцу с отзывами
dataset['review'] = dataset['review'].apply(clean_text)

# Векторизация текста с использованием метода "мешок слов"
count_vect = CountVectorizer(stop_words='english')

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(dataset['review'], dataset['sentiment'], test_size=0.2, random_state=42)

# Создание и обучение модели
model = make_pipeline(count_vect, MultinomialNB())
model.fit(X_train, y_train)

# Предсказание и оценка модели
predictions = model.predict(X_test)
accuracy = accuracy_score(y_test, predictions)
report = classification_report(y_test, predictions)

print("Accuracy:", accuracy)
print("Classification Report:\n", report)


Accuracy: 0.8562
Classification Report:
               precision    recall  f1-score   support

    negative       0.84      0.88      0.86      4961
    positive       0.87      0.84      0.85      5039

    accuracy                           0.86     10000
   macro avg       0.86      0.86      0.86     10000
weighted avg       0.86      0.86      0.86     10000



In [10]:
def predict_sentiment(text):
    # Предварительная обработка ввода
    cleaned_text = clean_text(text)  # Используем ту же функцию очистки, что и раньше
    # Получение предсказания модели
    prediction = model.predict([cleaned_text])
    return prediction[0]


# Пример использования
input_text = input("Введите текст отзыва: ")
sentiment = predict_sentiment(input_text)
print("Предсказанное настроение отзыва:", sentiment)


Предсказанное настроение отзыва: positive
