In [1]:
import pandas as pd
import os
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

In [2]:
pd.set_option('display.max_columns', None)

def load_csv_safely(file_name: str) -> pd.DataFrame:
    """
    Загружает CSV-файл локально или с сервера /datasets.
    Возвращает DataFrame.
    """
    local_path = file_name
    server_path = f'/datasets/{file_name}'

    if os.path.exists(local_path):
        print(f"{file_name} загружен локально")
        return pd.read_csv(local_path)
    elif os.path.exists(server_path):
        print(f"{file_name} загружен с сервера")
        return pd.read_csv(server_path)
    else:
        raise FileNotFoundError(f"Файл {file_name} не найден ни локально, ни на сервере.")

train = load_csv_safely('tweets_lemm_train.csv')
test = load_csv_safely('tweets_lemm_test.csv')

tweets_lemm_train.csv загружен локально
tweets_lemm_test.csv загружен локально


In [3]:
X_train_texts = train['lemm_text'].astype(str).values
y_train = train['positive'].values

X_test_texts = test['lemm_text'].astype(str).values

# TF-IDF трансформация
vectorizer = TfidfVectorizer()
X_train = vectorizer.fit_transform(X_train_texts)
X_test = vectorizer.transform(X_test_texts)

In [4]:
model = LogisticRegression(random_state=42, max_iter=1000)
model.fit(X_train, y_train)

# Предсказания на тренировочных данных (для оценки качества)
y_pred_train = model.predict(X_train)
print("Accuracy на обучении:", accuracy_score(y_train, y_pred_train))

Accuracy на обучении: 0.871


In [5]:
# Предсказания
y_test_pred = model.predict(X_test)

# Создание таблицы с результатами
submission = pd.DataFrame({'positive': y_test_pred})

# Сохранение без индексов и без расширения
submission.to_csv('predictions', index=False)