# Сбор и разметка данных (семинары)

## Урок 9. Инструменты разметки наборов данных

### Задание 1.

Выберите датасет, который имеет отношение к вашей области интересов или исследований. Датасет должен содержать неструктурированные данные, требующие разметки для решения конкретной задачи, например, анализа настроений или распознавания именованных сущностей.

### Задание 2.

Выполните разметку на основе правил `(rule-based labeling)` на подмножестве выбранного датасета. Разработайте и реализуйте набор правил или условий, которые позволят автоматически присваивать метки данным на основе определенных шаблонов или критериев.

### Задача 3.

Обучите модель машинного обучения, используя объединенный набор размеченных данных. Разделите датасет на обучающий и тестовый наборы и используйте обучающий набор для обучения модели.

### Задача 4.

Оценить эффективность обученной модели на тестовом датасете. Используйте подходящие метрики оценки. Интерпретируйте результаты и проанализируйте эффективность модели в решении задачи разметки.

In [98]:
import pandas as pd
import numpy as np
import ast
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

### Задание 1.

Выберите датасет, который имеет отношение к вашей области интересов или исследований. Датасет должен содержать неструктурированные данные, требующие разметки для решения конкретной задачи, например, анализа настроений или распознавания именованных сущностей.

In [99]:
# Загрузка данных
data = pd.read_csv('Aspect based Sentiment Analysis for Financial News.csv')

# Просмотр первых 20 строк DataFrame
print("Первые 20 строк исходного DataFrame:")
data.head(20)

Первые 20 строк исходного DataFrame:


Unnamed: 0,S No.,Title,Decisions,Words
0,1,SpiceJet to issue 6.4 crore warrants to promoters,"{""SpiceJet"": ""neutral""}",8
1,2,MMTC Q2 net loss at Rs 10.4 crore,"{""MMTC"": ""neutral""}",8
2,3,"Mid-cap funds can deliver more, stay put: Experts","{""Mid-cap funds"": ""positive""}",8
3,4,Mid caps now turn into market darlings,"{""Mid caps"": ""positive""}",7
4,5,"Market seeing patience, if not conviction: Pra...","{""Market"": ""neutral""}",8
5,6,Infosys: Will the strong volume growth sustain?,"{""Infosys"": ""neutral""}",7
6,7,Hudco raises Rs 279 cr via tax-free bonds,"{""Hudco"": ""positive""}",8
7,8,HOEC could retest 30-35 levels: Ashwani Gujral,"{""HOEC"": ""neutral""}",7
8,9,Gold shines on seasonal demand; Silver dull,"{""Gold"": ""positive"", ""Silver"": ""negative""}",7
9,10,Genpact appoints Edward J Fitzpatrick as CFO,"{""Genpact"": ""neutral""}",7


In [100]:
# Информация о DataFrame
print("\nИнформация о датафрейме:")
data.info()


Информация о датафрейме:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10753 entries, 0 to 10752
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   S No.      10753 non-null  int64 
 1   Title      10753 non-null  object
 2   Decisions  10753 non-null  object
 3   Words      10753 non-null  int64 
dtypes: int64(2), object(2)
memory usage: 336.2+ KB


In [101]:
# Количество строк и столбцов в DataFrame
print(f"\nРазмер датафрейма: {data.shape[0]} строк, {data.shape[1]} столбцов")


Размер датафрейма: 10753 строк, 4 столбцов


### Задание 2.

Выполните разметку на основе правил `(rule-based labeling)` на подмножестве выбранного датасета. Разработайте и реализуйте набор правил или условий, которые позволят автоматически присваивать метки данным на основе определенных шаблонов или критериев.

In [114]:
# Функция для извлечения доминирующей тональности из столбца 'Decisions'
def extract_dominant_sentiment(decision_str):
    # Преобразуем строку в словарь
    decisions = ast.literal_eval(decision_str)
    
    # Определяем доминирующую тональность
    if any(value == "positive" for value in decisions.values()):
        return "positive"
    elif any(value == "negative" for value in decisions.values()):
        return "negative"
    else:
        return "neutral"

# Применение функции для создания столбца Label
data['Label'] = data['Decisions'].apply(extract_dominant_sentiment)

# Проверка добавленного столбца Label
print("\nДанные после разметки:")
data[['Title', 'Decisions', 'Label']].head(20)


Данные после разметки:


Unnamed: 0,Title,Decisions,Label
0,SpiceJet to issue 6.4 crore warrants to promoters,"{""SpiceJet"": ""neutral""}",neutral
1,MMTC Q2 net loss at Rs 10.4 crore,"{""MMTC"": ""neutral""}",neutral
2,"Mid-cap funds can deliver more, stay put: Experts","{""Mid-cap funds"": ""positive""}",positive
3,Mid caps now turn into market darlings,"{""Mid caps"": ""positive""}",positive
4,"Market seeing patience, if not conviction: Pra...","{""Market"": ""neutral""}",neutral
5,Infosys: Will the strong volume growth sustain?,"{""Infosys"": ""neutral""}",neutral
6,Hudco raises Rs 279 cr via tax-free bonds,"{""Hudco"": ""positive""}",positive
7,HOEC could retest 30-35 levels: Ashwani Gujral,"{""HOEC"": ""neutral""}",neutral
8,Gold shines on seasonal demand; Silver dull,"{""Gold"": ""positive"", ""Silver"": ""negative""}",positive
9,Genpact appoints Edward J Fitzpatrick as CFO,"{""Genpact"": ""neutral""}",neutral


### Задача 3.

Обучите модель машинного обучения, используя объединенный набор размеченных данных. Разделите датасет на обучающий и тестовый наборы и используйте обучающий набор для обучения модели.

In [117]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(data['Title'], data['Label'], test_size=0.2, random_state=42)

print(f'\nРазмер обучающего набора: {X_train.shape[0]}')
print(f'Размер тестового набора: {X_test.shape[0]}')


Размер обучающего набора: 8602
Размер тестового набора: 2151


In [120]:
# Векторизация текста
vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

print('\nМатрица признаков обучающей выборки:')
print(X_train_vectorized.shape)
print('Матрица признаков тестовой выборки:')
print(X_test_vectorized.shape)


Матрица признаков обучающей выборки:
(8602, 8533)
Матрица признаков тестовой выборки:
(2151, 8533)


In [122]:
# Обучение модели логистической регрессии
model = LogisticRegression(max_iter=1000, random_state=42)

# Начало обучения...
print("\nОбучение модели...")
model.fit(X_train_vectorized, y_train)

print("Обучение завершено!")


Обучение модели...
Обучение завершено!


In [123]:
# Предсказание на тестовом наборе
y_pred = model.predict(X_test_vectorized)

### Задача 4.

Оценить эффективность обученной модели на тестовом датасете. Используйте подходящие метрики оценки. Интерпретируйте результаты и проанализируйте эффективность модели в решении задачи разметки.

In [126]:
# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)

print("\nРезультаты прогнозирования:")
print(classification_report(y_true=y_test, y_pred=y_pred))
print(f"Точность: {accuracy:.2f}")


Результаты прогнозирования:
              precision    recall  f1-score   support

    negative       0.84      0.78      0.81       654
     neutral       0.76      0.79      0.77       660
    positive       0.84      0.85      0.85       837

    accuracy                           0.81      2151
   macro avg       0.81      0.81      0.81      2151
weighted avg       0.81      0.81      0.81      2151

Точность: 0.81
