Задание 1
- Загрузите датасет в pandas DataFrame.

- Определите функцию разметки на основе правил, которая присваивает метки на основе определенных условий или закономерностей в данных.

- Примените функцию разметки для автоматической разметки подмножества данных.

- Загрузите датасет tweets.csv в pandas DataFrame.

- Выберите подмножество данных для маркировки (10% от датасета).

- Разметьте выбранное подмножество вручную с помощью Label Studio.

- Сохраните размеченные вручную данные вместе с исходным датасетом.

In [4]:
import pandas as pd

In [5]:
# Задание 1: Выбор датасета
# Для примера используем датасет отзывов на фильмы IMDb.

# Загрузка датасета IMDb Movie Reviews
# Датасет должен быть предварительно загружен в вашу рабочую директорию.
imdb_dataset = pd.read_csv('IMDB Dataset.csv', encoding='utf-8')

# Задание 2: Разметка на основе правил
# Функция разметки текстов на основе содержания определенных слов

def rule_based_labeling(text):
    """
    Функция для автоматической разметки текста.
    Если в тексте встречаются слова 'great' или 'excellent', метка становится 'positive'.
    В противном случае метка 'negative'.
    """
    if "great" in text or "excellent" in text:
        return "positive"
    else:
        return "negative"

# Применяем разметку на основе правил к случайному подмножеству датасета
labeled_data = imdb_dataset.sample(frac=0.2)  # Взятие 20% от всего датасета
labeled_data['label'] = labeled_data['review'].apply(rule_based_labeling)  # Предполагаем, что столбец с отзывами называется 'review'

In [12]:
labeled_data.to_csv("IMDB Dataset_2.csv", index=False)

In [14]:
# Перезагрузка данных и применение функции анализа настроений, адаптированной под английский язык

# Повторная загрузка данных из файла
tweets_data = pd.read_csv("tweets.csv")

# Адаптация функции анализа настроений под английский язык
def sentiment_analysis(text):
    """
    Функция для определения настроения текста на английском языке.
    Возвращает 'positive' для текстов с положительными ключевыми словами,
    'negative' для текстов с негативными ключевыми словами,
    и 'neutral', если ключевые слова не найдены.
    """
    positive_keywords = ['good', 'great', 'excellent', 'positive', 'joy', 'happy']
    negative_keywords = ['bad', 'terrible', 'disappointed', 'negative', 'problem', 'sad']
    
    text = text.lower()  # Приведение текста к нижнему регистру для упрощения сравнения
    if any(keyword in text for keyword in positive_keywords):
        return 'positive'
    elif any(keyword in text for keyword in negative_keywords):
        return 'negative'
    else:
        return 'neutral'

In [15]:
# Предполагаем, что ручная разметка уже выполнена и результаты сохранены в файле
manually_labeled_data = pd.read_csv("anually_labeled.csv")

# Объединение автоматически размеченных данных с ручной разметкой
combined_data = pd.concat([tweets_data, manually_labeled_data])

In [16]:
combined_data['sentiment'].fillna('neutral', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  combined_data['sentiment'].fillna('neutral', inplace=True)


In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# train_test_split — это функция из библиотеки scikit-learn,
#   которая используется для разделения массивов или матриц на
# случайные подвыборки обучающих и тестовых данных.
# Основная цель этой функции — разделить данные на две части: одну для обучения модели, а другую для проверки её эффективности. Это помогает оценить, как модель будет работать на новых, ранее не виденных данных, тем самым проверяя её способность к обобщению.

# Подготовка данных для обучения
X = combined_data['text']  # Используем текст твитов
y = combined_data['sentiment']  # Используем метки настроения

# Векторизация текста
vectorizer = TfidfVectorizer()
X_vectorized = vectorizer.fit_transform(X)

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_vectorized, y, test_size=0.2, random_state=42)

# Создание и обучение модели логистической регрессии
model = LogisticRegression()
model.fit(X_train, y_train)


In [18]:
from sklearn.metrics import accuracy_score

# Задание 6: Оценка модели
# Прогнозирование меток для тестовых данных
y_test_predicted = model.predict(X_test)

# Оценка точности модели
accuracy = accuracy_score(y_test, y_test_predicted)
print(f'Точность модели: {accuracy}')

Точность модели: 0.9977365323675872


Домашнее задание
Задание 1.
Выберите датасет, который имеет отношение к вашей области интересов или исследований. Датасет должен содержать неструктурированные данные, требующие разметки для решения конкретной задачи, например, анализа настроений или распознавания именованных сущностей.

Задание 2.
Выполните разметку на основе правил (rule-based labeling) на подмножестве выбранного датасета. Разработайте и реализуйте набор правил или условий, которые позволят автоматически присваивать метки данным на основе определенных шаблонов или критериев. 

Задача 3.
Выполните разметку вручную отдельного подмножества выбранного датасета с помощью выбранного вами инструмента разметки.

Задача 4.
Объедините данные, размеченные вручную, с данными, размеченными на основе правил. Объедините два подмножества размеченных данных в один набор данных, сохранив при этом соответствующую структуру и целостность.

Задача 5.
Обучите модель машинного обучения, используя объединенный набор размеченных данных. Разделите датасет на обучающий и тестовый наборы и используйте обучающий набор для обучения модели.

Задача 6.
Оценить эффективность обученной модели на тестовом датасете. Используйте подходящие метрики оценки. Интерпретируйте результаты и проанализируйте эффективность модели в решении задачи разметки.

