<a href="https://colab.research.google.com/github/OtolaHan/Otola_Han_KAAN/blob/main/weighted1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split

# Загрузка тонального словаря LinisCrowd 2015
tone_dict = pd.read_csv('/content/words_all_full_rating.csv', sep=';')

# Функция для вычисления признаков на основе тонального словаря
def calculate_tone_features(text):
    tokens = text.split()
    tone_values = [tone_dict[tone_dict['Words'] == token]['average rate'].values[0] for token in tokens if token in tone_dict['Words'].values]
    if len(tone_values) > 0:
        return [
            sum(tone_values) / len(tone_values),  # X1 - среднее значений тональностей слов
            max(tone_values),  # X2 - максимальное значение тональностей слов
            min(tone_values),  # X3 - минимальное значение тональностей слов
            sum(tone_values),  # X4 - суммарное значение тональностей слов
            sum(value > 0 for value in tone_values),  # X5 - количество положительных значений тональностей слов
            sum(value < 0 for value in tone_values)  # X6 - количество отрицательных значений тональностей слов
        ]
    else:
        return [0] * 6

# Функция для вычисления морфологических признаков
def calculate_morphological_features(text):
    # Здесь необходимо реализовать вычисление морфологических признаков (X7-X20)
    # на основе относительной частоты основных частей речи в тексте
    # Пример реализации опущен для краткости
    return [0] * 14

# Загрузка данных из датасетов negative и positive
negative_data = pd.read_csv('/content/negative.csv')
positive_data = pd.read_csv('/content/positive.csv')

# Объединение данных и добавление меток классов
data = pd.concat([negative_data, positive_data], ignore_index=True)
data['ttype'] = data['ttype'].map({-1: -1, 1: 1})

# Вычисление признаков на основе тонального словаря и морфологических признаков
data['tone_features'] = data['ttext'].apply(calculate_tone_features)
data['morphological_features'] = data['ttext'].apply(calculate_morphological_features)

# Разделение данных на обучающую и тестовую выборки
train_data, test_data = train_test_split(data, test_size=0.025, random_state=42)

# Формирование X_train_Final, y_train_Final, X_test_Final
X_train_Final = pd.concat([pd.DataFrame(train_data['tone_features'].tolist()), pd.DataFrame(train_data['morphological_features'].tolist())], axis=1)
y_train_Final = train_data['ttype']
X_test_Final = pd.concat([pd.DataFrame(test_data['tone_features'].tolist()), pd.DataFrame(test_data['morphological_features'].tolist())], axis=1)

# Сохранение файлов X_train_Final, y_train_Final, X_test_Final
X_train_Final.to_csv('X_train_Final.csv', index=False, header=True)
y_train_Final.to_csv('y_train_Final.csv', index=False, header=True)
X_test_Final.to_csv('X_test_Final.csv', index=False, header=True)

# Обучение модели
model = LogisticRegression()
model.fit(X_train_Final.values, y_train_Final.values)

# Предсказание на тестовых данных
y_pred = model.predict(X_test_Final)

# Загрузить данные из файла X_test_Final.csv
X_test = pd.read_csv('X_test_Final.csv')

# Взять первые 50 строк из X_test для формирования тестового набора X_test_50
X_test_50 = X_test.sample(n=50, random_state=42)

# Сформировать предсказания для X_test_50
y_pred = model.predict(X_test_50.values)

# Сохранить предсказания в файл sentiment.csv
pd.DataFrame(y_pred, columns=['ttype']).to_csv('sentiment.csv', index=False, header=False)

# Оценка качества модели с помощью weighted F1-score
y_test = test_data['ttype'].iloc[:50]
f1 = f1_score(y_test, y_pred, average='weighted')
print(f"Weighted F1-score: {f1:.4f}")

Weighted F1-score: 0.4273
