Разметка на основе правил

In [9]:
import pandas as pd

# Загрузка датасета
df = pd.read_csv('Tweets.csv')

# Определение правил разметки
def rule_based_labeling(text):
    positive_words = ['good', 'great', 'excellent', 'awesome', 'fantastic']
    negative_words = ['bad', 'terrible', 'worst', 'awful', 'horrible']

    text_lower = text.lower()
    if any(word in text_lower for word in positive_words):
        return 'positive'
    elif any(word in text_lower for word in negative_words):
        return 'negative'
    else:
        return 'neutral'

# Применение правил к подмножеству данных
df_sample = df.sample(n=1000, random_state=1)
df_sample['rule_based_sentiment'] = df_sample['text'].apply(rule_based_labeling)

# Сохранение размеченных данных
df_sample.to_csv('rule_based_labeled_tweets.csv', index=False)


Ручная разметка
Ручную разметку проведем с помощью инструмента Label Studio. Результат экспортируем в файл 'manual_labeled_tweets.csv'.

Объединение данных

In [10]:
# Загрузка данных, размеченных вручную
df_manual = pd.read_csv('manual_labeled_tweets.csv')

# Объединение данных
df_combined = pd.concat([df_sample, df_manual])

# Сохранение объединенного набора данных
df_combined.to_csv('combined_labeled_tweets.csv', index=False)


Обучение модели

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Загрузка объединенного набора данных
df_combined = pd.read_csv('combined_labeled_tweets.csv')

# Проверка на наличие пропущенных значений
print(df_combined.isna().sum())

# Удаление строк с пропущенными значениями
df_combined = df_combined.dropna(subset=['text', 'sentiment'])

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(df_combined['text'], df_combined['sentiment'], test_size=0.2, random_state=1)

# Преобразование текстовых данных в числовые признаки
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Обучение модели
model = LogisticRegression()
model.fit(X_train_tfidf, y_train)

# Оценка модели
y_pred = model.predict(X_test_tfidf)
print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
print(classification_report(y_test, y_pred))


tweet_id                           0
airline_sentiment                  0
airline_sentiment_confidence       0
negativereason                   364
negativereason_confidence        273
airline                            0
airline_sentiment_gold          1001
name                               0
negativereason_gold             1002
retweet_count                      0
text                               0
tweet_coord                      928
tweet_created                      0
tweet_location                   318
user_timezone                    318
rule_based_sentiment               4
annotation_id                   1000
annotator                       1000
created_at                      1000
id                              1000
lead_time                       1000
sentiment                       1000
updated_at                      1000
dtype: int64
Accuracy: 0.0
              precision    recall  f1-score   support

    Negative       0.00      0.00      0.00       0.0
     Neutral 

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Оценка эффективности модели
На данном этапе мы оценим нашу модель с использованием метрик точности (accuracy), полноты (recall), точности (precision) и F1-меры.

In [12]:
print(f'Accuracy: {accuracy_score(y_test, y_pred)}')
print(classification_report(y_test, y_pred))


Accuracy: 0.0
              precision    recall  f1-score   support

    Negative       0.00      0.00      0.00       0.0
     Neutral       0.00      0.00      0.00       1.0

    accuracy                           0.00       1.0
   macro avg       0.00      0.00      0.00       1.0
weighted avg       0.00      0.00      0.00       1.0



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
