In [7]:
import numpy as np
from pandas import read_csv
posts_data = read_csv("./risk/posts_data.csv")

In [8]:
from nltk.corpus import stopwords
badwords = [
u'я', u'а', u'да', u'но', u'тебе', u'мне', u'ты', u'и', u'у', u'на', u'ща', u'ага',
u'так', u'там', u'какие', u'который', u'какая', u'туда', u'давай', u'короче', u'кажется', u'вообще',
u'ну', u'не', u'чет', u'неа', u'свои', u'наше', u'хотя', u'такое', u'например', u'кароч', u'как-то',
u'нам', u'хм', u'всем', u'нет', u'да', u'оно', u'своем', u'про', u'вы', u'м', u'тд',
u'вся', u'кто-то', u'что-то', u'вам', u'это', u'эта', u'эти', u'этот', u'прям', u'либо', u'как', u'мы',
u'просто', u'блин', u'очень', u'самые', u'твоем', u'ваша', u'кстати', u'вроде', u'типа', u'пока', u'ок'
] + stopwords.words('russian')

In [87]:
def files(filenames):
    for name in filenames:
        with open(path + name, 'r', encoding='utf-8') as f:
            yield f.read()

In [88]:
# избавляемся от текстов без тегов активности
from math import isnan
y_dict = {k: v for k, v in zip(posts_data['ID'], posts_data['tag_activity']) if isinstance(v, str) and k in filenames}

In [89]:
print(len(y_dict))

30502


In [110]:
# не учитываем тексты длиной менее 100 символов, так как с большой вероятностью они не информативны
# и представляют собой подписи к фото/видео
names = [name for name in y_dict.keys() if len(open(path + name, 'r', encoding='utf-8').read()) > 100]
print(len(names))

23751


#### TF-IDF + Logistic regression

In [106]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(ngram_range=(1,2), analyzer='word', max_features=20000, stop_words=badwords)
vectorizer.fit(files(names))

TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',
        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',
        lowercase=True, max_df=1.0, max_features=20000, min_df=1,
        ngram_range=(1, 2), norm='l2', preprocessor=None, smooth_idf=True,
        stop_words=['я', 'а', 'да', 'но', 'тебе', 'мне', 'ты', 'и', 'у', 'на', 'ща', 'ага', 'так', 'там', 'какие', 'который', 'какая', 'туда', 'давай', 'короче', 'кажется', 'вообще', 'ну', 'не', 'чет', 'неа', 'свои', 'наше', 'хотя', 'такое', 'например', 'кароч', 'как-то', 'нам', 'хм', 'всем', 'нет', 'да', '...гда', 'лучше', 'чуть', 'том', 'нельзя', 'такой', 'им', 'более', 'всегда', 'конечно', 'всю', 'между'],
        strip_accents=None, sublinear_tf=False,
        token_pattern='(?u)\\b\\w\\w+\\b', tokenizer=None, use_idf=True,
        vocabulary=None)

In [107]:
X = vectorizer.transform(files(names))
y = [y_dict[k] for k in names]

In [108]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

logreg = LogisticRegression(solver='newton-cg',multi_class='multinomial')
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = logreg.fit(X_train, y_train)

In [36]:
model.score(X_test, y_test)

0.7000631446011366

In [73]:
activities = set(y_test)
preds = model.predict(X_test)
for activity in activities:
    print(activity, '\t', sum([x == activity for x in preds]), sum([x == activity for x in y_test]))

Вело 	 2 43
Путешествия 	 162 278
Туризм 	 0 76
Бэккантри/Фрирайд 	 196 244
Горный туризм 	 175 293
Ски-тур 	 29 82
Горные лыжи/Сноуборд 	 78 168
BASE 	 5 33
Скайраннинг 	 54 82
Спелеология 	 1 37
Мультигонки 	 69 116
Слэклайн 	 0 3
Скалолазание 	 565 620
Ropejumping 	 0 6
Ледолазание/drytoolling 	 62 128
Альпинизм 	 3248 2304
Воздух 	 51 103
Вода 	 50 119
Снегоступинг 	 4 16


In [82]:
def test_text(filename, vectorizer, model, data):
    with open(path + filename, 'r', encoding='utf-8') as f:
        transformed = vectorizer.transform([f.read()])
        prediction = model.predict(transformed)
        print(filename, prediction, data[data['ID']==filename])
        print(text)