# Урок 9. Инструменты разметки наборов данных

In [103]:
import pandas as pd
import re
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split

from sklearn.preprocessing import LabelEncoder
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
import numpy as np
from sklearn.metrics import f1_score

### Задание 1.

Выберите датасет, который имеет отношение к вашей области интересов или исследований. Датасет должен содержать неструктурированные данные, требующие разметки для решения конкретной задачи, например, анализа настроений или распознавания именованных сущностей.

Выбранный датасет https://www.kaggle.com/datasets/kazanova/sentiment140

In [104]:
df = pd.read_csv('training_noemoticon.csv', encoding='ISO-8859-1', encoding_errors="ignore", header=None, names=['target', 'id', 'date', 'flag', 'user', 'text'])
df.head()

Unnamed: 0,target,id,date,flag,user,text
0,0,1467810369,Mon Apr 06 22:19:45 PDT 2009,NO_QUERY,_TheSpecialOne_,"@switchfoot http://twitpic.com/2y1zl - Awww, t..."
1,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
2,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
3,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
4,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."


### Задание 2.

Выполните разметку на основе правил (rule-based labeling) на подмножестве выбранного датасета. Разработайте и реализуйте набор правил или условий, которые позволят автоматически присваивать метки данным на основе определенных шаблонов или критериев.

In [105]:
def label_text(tweet):
    if re.search(r'\b(хорошо|отлично|люблю|прекрасно|замечательно|супер|радостно|счастливо|великолепно|классно|приятно|good|great|love|wonderful|amazing|awesome|excellent|happy|superb|positive)\b', tweet, re.IGNORECASE):
        return 'Positive'
    elif re.search(r'\b(плохо|ненавижу|ужасно|отвратительно|грустно|печально|кошмарно|разочарован|ужасный|беда|bad|terrible|hate|awful|horrible|sad|worst|negative)\b', tweet, re.IGNORECASE):
        return 'Negative'
    else:
        return 'Neutral'
    
df2 = shuffle(df)

# df2, df2_unlabeled = train_test_split(df, train_size=0.2, random_state=42)
df2['sentiment'] = df2['text'].apply(label_text)

df2[df2['sentiment']!='Neutral'].head()

Unnamed: 0,target,id,date,flag,user,text,sentiment
933244,4,1791741842,Wed May 13 20:58:21 PDT 2009,NO_QUERY,nasty_nazzle,Bath. It's amazing how weak in the knees she m...,Positive
1536633,4,2179342168,Mon Jun 15 08:58:36 PDT 2009,NO_QUERY,LLinnda,"@mitchelmusso wow, Mitchel. Good looking hair !",Positive
1372395,4,2051244577,Fri Jun 05 21:18:35 PDT 2009,NO_QUERY,erinfinney,Just finished watching 'taken' -good movie to ...,Positive
1179930,4,1981821176,Sun May 31 09:57:43 PDT 2009,NO_QUERY,ChaosAD,@hoppimike Hiya dude! Cheers for following me ...,Positive
699794,0,2254558045,Sat Jun 20 09:56:09 PDT 2009,NO_QUERY,originalist,@gilldaniels I'm sorry I feel bad!! But it wa...,Negative


### Задача 3.

Выполните разметку вручную отдельного подмножества выбранного датасета с помощью выбранного вами инструмента разметки.

In [106]:
df_sample = df.sample(frac=0.0000625)
df_sample.to_csv('for_label_studio.csv', index=False)

In [107]:
df3 = pd.read_csv('project-1-at-2024-08-25-17-45-e6f66a9a.csv')
df3.head()

Unnamed: 0,annotation_id,annotator,created_at,date,flag,id,lead_time,sentiment,target,text,updated_at,user
0,4,1,2024-08-25T14:34:09.025334Z,Sat May 09 23:36:53 PDT 2009,NO_QUERY,1752964352,18.907,Neutral,0,@CuzImSOOOCool - I haven't been watching baske...,2024-08-25T14:34:09.025334Z,MissSunshine88
1,3,1,2024-08-25T14:34:07.189764Z,Wed Jun 17 00:44:08 PDT 2009,NO_QUERY,2203868964,6.254,Negative,0,I'm freakin the fuck out maaannn.......,2024-08-25T14:34:07.189764Z,kscerini
2,2,1,2024-08-25T14:34:04.178149Z,Sat May 30 16:12:12 PDT 2009,NO_QUERY,1975926613,10.454,Negative,0,@AlehM ahnem prefiro house e grey's anatomy!,2024-08-25T14:34:04.178149Z,brunohm
3,1,1,2024-08-25T14:34:00.211019Z,Wed Jun 17 17:40:22 PDT 2009,NO_QUERY,2215098573,6.063,Neutral,0,Im disappointed in the iphone update. It added...,2024-08-25T14:34:00.211517Z,wecantdrive55
4,5,1,2024-08-25T14:34:33.544917Z,Sat Jun 20 04:47:19 PDT 2009,NO_QUERY,2251857687,16.625,Neutral,0,=-surfing net. want to eat chocolates!!!!,2024-08-25T14:34:33.544917Z,FaithDiao


### Задача 4.

Объедините данные, размеченные вручную, с данными, размеченными на основе правил. Объедините два подмножества размеченных данных в один набор данных, сохранив при этом соответствующую структуру и целостность.

In [108]:
df4 = pd.concat([df2[['target','id','date','flag','user','text','sentiment']],df3[['target','id','date','flag','user','text','sentiment']]])
df4.head()

Unnamed: 0,target,id,date,flag,user,text,sentiment
245491,0,1982016272,Sun May 31 10:21:24 PDT 2009,NO_QUERY,britt_mxgirl,Got lyk 2 hours of sleep last night. Couldn't ...,Neutral
1296813,4,2004292021,Tue Jun 02 07:58:35 PDT 2009,NO_QUERY,Momodel180,nephew finally fell asleep,Neutral
933244,4,1791741842,Wed May 13 20:58:21 PDT 2009,NO_QUERY,nasty_nazzle,Bath. It's amazing how weak in the knees she m...,Positive
1056851,4,1962612424,Fri May 29 11:19:15 PDT 2009,NO_QUERY,NerdyChristie,"@DixieConstruct Aw, thanks",Neutral
479004,0,2178728334,Mon Jun 15 08:07:16 PDT 2009,NO_QUERY,ChocolateViper,@dhersam she done some work in journalism as f...,Neutral


### Задача 5.

Обучите модель машинного обучения, используя объединенный набор размеченных данных. Разделите датасет на обучающий и тестовый наборы и используйте обучающий набор для обучения модели.

In [109]:
labeled_title, unlabeled_title = train_test_split(df4, train_size=0.2, random_state=42)

In [110]:
# Определение функции для обучения модели логистической регрессии на размеченных данных
def train_model(labeled_title):
    # Векторизация текстовых данных с помощью TF-IDF
    vectorizer = TfidfVectorizer()
    X = vectorizer.fit_transform(labeled_title['text'])
    y = labeled_title['sentiment']

    # Обучение модели логистической регрессии на размеченных данных
    model = LogisticRegression()
    model.fit(X, y)

    return model, vectorizer

In [111]:
# Обучение начальной модели на небольшом наборе 
model, vectorizer = train_model(labeled_title)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [112]:
# Использование исходной модели для прогнозирования настроения неразмеченных данных
X_unlabeled = vectorizer.transform(unlabeled_title['text'])
y_unlabeled_predicted = model.predict(X_unlabeled)

In [113]:
# Вычислить неопределенности или энтропии предсказаний
y_unlabeled_proba = model.predict_proba(X_unlabeled)
uncertainty = -(y_unlabeled_proba * np.log2(y_unlabeled_proba)).sum(axis=1)

In [114]:
# Выбор 100 наиболее неопределенных точек данных для маркировки человеком
labeled_title_new = unlabeled_title.iloc[uncertainty.argsort()[:100]]
unlabeled_title_new = unlabeled_title.iloc[uncertainty.argsort()[100:]]

In [115]:
labeled_title_new

Unnamed: 0,target,id,date,flag,user,text,sentiment
1297519,4,2004534819,Tue Jun 02 08:21:05 PDT 2009,NO_QUERY,Iren19,@tashatwilight good love Scorpios,Positive
1347988,4,2044764029,Fri Jun 05 09:47:32 PDT 2009,NO_QUERY,xoxoSuperSaiyan,Good morning love,Positive
1401424,4,2054546781,Sat Jun 06 07:35:16 PDT 2009,NO_QUERY,Meader,@CassieNorrish Good Morning Love,Positive
1529785,4,2177641348,Mon Jun 15 06:27:28 PDT 2009,NO_QUERY,ZakiyaRashida,@kholi good morning love,Positive
944864,4,1795754655,Thu May 14 08:18:50 PDT 2009,NO_QUERY,mlisaoverdrive,@red_lotus great I love it,Positive
...,...,...,...,...,...,...,...
1408519,4,2055710455,Sat Jun 06 09:48:56 PDT 2009,NO_QUERY,BombSqd,Life's good and I'm happy,Positive
1048104,4,1958114081,Fri May 29 02:42:30 PDT 2009,NO_QUERY,Literature_Girl,I love to love you,Positive
924356,4,1754967710,Sun May 10 07:54:03 PDT 2009,NO_QUERY,KacieGorman,Good morning and Happy mothers day ! i love my...,Positive
1348347,4,2044847215,Fri Jun 05 09:54:00 PDT 2009,NO_QUERY,COSICols,"@Mom2HalfDozen Great, that's good to know!",Positive


In [116]:
# Разметка новых точек данных и добавление их к размеченному множеству
labeled_title = pd.concat([labeled_title, labeled_title_new])

In [117]:
labeled_title.shape

(320120, 7)

In [118]:
unlabeled_title_new.shape

(1279980, 7)

In [119]:
# Переобучение модели на расширенном маркированном множестве
model, vectorizer = train_model(labeled_title)

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


### Задача 6.

Оценить эффективность обученной модели на тестовом датасете. Используйте подходящие метрики оценки. Интерпретируйте результаты и проанализируйте эффективность модели в решении задачи разметки.

In [120]:
df6 = df.copy()
df6['target'] = df['target'].replace({0: 'Negative', 2: 'Neutral', 4: 'Positive'})
df6.head()

Unnamed: 0,target,id,date,flag,user,text
0,Negative,1467810369,Mon Apr 06 22:19:45 PDT 2009,NO_QUERY,_TheSpecialOne_,"@switchfoot http://twitpic.com/2y1zl - Awww, t..."
1,Negative,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
2,Negative,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
3,Negative,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
4,Negative,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."


In [121]:
# Оценка модели на тестовом датасете
X_test = vectorizer.transform(df6['text'])
y_test_predicted = model.predict(X_test)
f1 = f1_score(df6['target'], y_test_predicted, average='micro')

print(f1)

0.141839375
