# Урок 9. Инструменты разметки наборов данных
# Домашняя работа

<b>Задание 1.</b><br>
Выберите датасет, который имеет отношение к вашей области интересов или исследований. Датасет должен содержать неструктурированные данные, требующие разметки для решения конкретной задачи, например, анализа настроений или распознавания именованных сущностей.

In [1]:
import pandas as pd

In [2]:
train_df = pd.read_csv("train.csv", header=None, names=["label", "text"])
train_df.head()

Unnamed: 0,label,text
0,1,"Unfortunately, the frustration of being Dr. Go..."
1,2,Been going to Dr. Goldberg for over 10 years. ...
2,1,I don't know what Dr. Goldberg was like before...
3,1,I'm writing this review to give you a heads up...
4,2,All the food is great here. But the best thing...


In [3]:
test_df = pd.read_csv("test.csv", header=None, names=["label", "text"])
test_df.head()

Unnamed: 0,label,text
0,2,"Contrary to other reviews, I have zero complai..."
1,1,Last summer I had an appointment to get new ti...
2,2,"Friendly staff, same starbucks fair you get an..."
3,1,The food is good. Unfortunately the service is...
4,2,Even when we didn't have a car Filene's Baseme...


<b>Задание 2.</b><br>
Выполните разметку на основе правил (rule-based labeling) на подмножестве выбранного датасета. Разработайте и реализуйте набор правил или условий, которые позволят автоматически присваивать метки данным на основе определенных шаблонов или критериев.

In [4]:
negative_words = ["bad", "terrible", "awful", "worst", "disappointing"]
positive_words = ["good", "great", "excellent", "amazing", "fantastic"]

In [5]:
def rule_based_label(text):
    text_lower = text.lower()
    if any(word in text_lower for word in negative_words):
        return 1
    elif any(word in text_lower for word in positive_words):
        return 2 
    return None  

In [6]:
train_sample = train_df.sample(50, random_state=42)
train_sample['rule_based_label'] = train_sample['text'].apply(rule_based_label)

In [10]:
train_sample[['label', 'rule_based_label', 'text']]

Unnamed: 0,label,rule_based_label,text
34566,2,,This place is one of my favorite comic shops. ...
223092,1,,The wait time for an appointment is ridiculous...
110270,1,2.0,I did not like this hotel at all. It's very ol...
365013,2,2.0,Mill Avenue has a serious issue with parking. ...
311625,2,,Favorite sushi place in NV! Price is reasonab...
465135,2,2.0,"Absolutely A-1 coffee shop! Very comfortable, ..."
99132,1,1.0,"Have to agree; probably the worst place for \""..."
146220,1,,OUR ROOM WAS LEAKING WATER! We woke up @ 3am t...
136813,1,,Very expensive!!!\nSound and environment was O...
244804,2,2.0,"forget sexual healing mr. marvin gaye, i need ..."


<b>Задача 3.</b><br>
Выполните разметку вручную отдельного подмножества выбранного датасета с помощью выбранного вами инструмента разметки.

In [9]:
train_sample.to_csv("manual_labeling_sample.csv", index=False)

In [12]:
manual_labeled = pd.read_csv("manual_labeling_sample.csv")

In [13]:
manual_labeled.head()

Unnamed: 0,label,text,rule_based_label
0,2,This place is one of my favorite comic shops. ...,2
1,1,The wait time for an appointment is ridiculous...,1
2,1,I did not like this hotel at all. It's very ol...,1
3,2,Mill Avenue has a serious issue with parking. ...,2
4,2,Favorite sushi place in NV! Price is reasonab...,2


<b>Задача 4.</b><br>
Объедините данные, размеченные вручную, с данными, размеченными на основе правил. Объедините два подмножества размеченных данных в один набор данных, сохранив при этом соответствующую структуру и целостность.

In [14]:
combined_df = pd.concat([train_df, manual_labeled], ignore_index=True)
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 560050 entries, 0 to 560049
Data columns (total 3 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   label             560050 non-null  int64  
 1   text              560050 non-null  object 
 2   rule_based_label  50 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 12.8+ MB


<b>Задача 5.</b><br>
Обучите модель машинного обучения, используя объединенный набор размеченных данных. Разделите датасет на обучающий и тестовый наборы и используйте обучающий набор для обучения модели.

In [19]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression

In [16]:
X = combined_df['text']
y = combined_df['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [18]:
vectorizer = TfidfVectorizer(stop_words='english', max_features=5000)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

In [20]:
model = LogisticRegression(max_iter=1000, random_state=42)
model.fit(X_train_vec, y_train)

<b>Задача 6.</b><br>
Оценить эффективность обученной модели на тестовом датасете. Используйте подходящие метрики оценки. Интерпретируйте результаты и проанализируйте эффективность модели в решении задачи разметки.

In [22]:
from sklearn.metrics import classification_report, accuracy_score

In [23]:
y_pred = model.predict(X_test_vec)

In [26]:
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

Accuracy: 0.9199892866708329
              precision    recall  f1-score   support

           1       0.92      0.92      0.92     56131
           2       0.92      0.92      0.92     55879

    accuracy                           0.92    112010
   macro avg       0.92      0.92      0.92    112010
weighted avg       0.92      0.92      0.92    112010

