In [None]:
'''
В данном решении используется модель логистической регрессии для решения задачи классификации текстовых данных по их настроению (sentiment). Логистическая регрессия является линейным методом классификации, который основан на логистической функции, также известной как сигмоид.

Принцип работы модели:

Векторизация текста: Сначала текстовые данные преобразуются в числовые признаки с помощью метода TF-IDF векторизации. TF-IDF (Term Frequency-Inverse Document Frequency) - это метод, который вычисляет важность слова в документе с учетом его частоты в документе и обратной частоты его встречаемости в корпусе документов.

Обучение модели: Затем обучается модель логистической регрессии на TF-IDF векторах обучающего набора данных. В процессе обучения модель настраивает веса для каждого признака с помощью оптимизации функции потерь.

Предсказание классов: После обучения модели она используется для предсказания меток классов (положительное, нейтральное или отрицательное настроение) для новых текстовых данных из тестового набора.

Оценка производительности: Наконец, производится оценка производительности модели с использованием F1-метрики, которая является средним гармоническим между точностью и полнотой.

Сохранение результатов: Предсказанные метки классов сохраняются в файл для дальнейшего анализа или использования.

Модель логистической регрессии в этом случае выбрана из-за своей простоты, эффективности и хорошей работы с текстовыми данными. Кроме того, она обладает свойством интерпретируемости, что позволяет понять, какие слова или признаки вносят наибольший вклад в прогнозирование настроения текста.
'''

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
from sklearn.linear_model import LogisticRegression

# Загрузка обучающего набора данных из CSV файла
df = pd.read_csv("drive/MyDrive/train.csv")

# Извлечение текстовых данных (признаков) и меток классов из DataFrame
x = df['text'].values
y = df['sentiment'].values

# Разделение данных на обучающий и тестовый наборы
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

# Создание и обучение векторизатора TF-IDF на обучающих данных
tfidf_vectorizer = TfidfVectorizer()
tfidf_train_vectors = tfidf_vectorizer.fit_transform(x_train)
tfidf_test_vectors = tfidf_vectorizer.transform(x_test)

# Инициализация и обучение модели логистической регрессии
clf_logreg = LogisticRegression(C=1, solver="sag", dual=False, tol=0, max_iter=10000)
clf_logreg.fit(tfidf_train_vectors, y_train)
y_logreg_pred = clf_logreg.predict(tfidf_test_vectors)

# Предсказание меток классов для тестового набора данных
print(f1_score(y_test, y_logreg_pred, average='weighted'))

# Загрузка тестового набора данных из CSV файла
test_df = pd.read_csv("drive/MyDrive/test.csv")

# Предсказание меток классов для тестового набора данных с использованием обученной модели логистической регрессии
test_x = test_df['text'].values
tfidf_test_vectors = tfidf_vectorizer.transform(test_x)
test_predictions = clf_logreg.predict(tfidf_test_vectors)

# Создание DataFrame с предсказанными метками классов для тестового набора данных
results_df = pd.DataFrame({
    'ID': test_df['ID'],
    'sentiment': test_predictions
})

# Сохранение результатов предсказаний в CSV файл
results_df.to_csv("drive/MyDrive/results.csv", index=False)
print(results_df)