## Домашка 2. Профилирование пользователей



1. Самостоятельно разобраться с тем, что такое tfidf (документация https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html и еще - https://scikit-learn.org/stable/modules/feature_extraction.html#text-feature-extraction)
2. Модифицировать код функции get_user_embedding таким образом, чтобы считалось не среднее (как в примере np.mean), а медиана. Применить такое преобразование к данным, обучить модель прогнозирования оттока и посчитать метрики качества и сохранить их: roc auc, precision/recall/f_score (для 3 последних - подобрать оптимальный порог с помощью precision_recall_curve, как это делалось на уроке)
3. Повторить п.2, но используя уже не медиану, а max
4. (опциональное, если очень хочется) Воспользовавшись полученными знаниями из п.1, повторить пункт 2, но уже взвешивая новости по tfidf (подсказка: нужно получить веса-коэффициенты для каждого документа. Не все документы одинаково информативны и несут какой-то положительный сигнал). Подсказка 2 - нужен именно idf, как вес.
5. Сформировать на выходе единую таблицу, сравнивающую качество 3 разных метода получения эмбедингов пользователей: mean, median, max, idf_mean по метрикам roc_auc, precision, recall, f_score
6. Сделать самостоятельные выводы и предположения о том, почему тот или ной способ оказался эффективнее остальных

In [1]:
# загружаем необходимые библиотеки

import pandas as pd

from gensim.corpora.dictionary import Dictionary

import re
import numpy as np
from nltk.corpus import stopwords

from razdel import tokenize

import pymorphy2

from sklearn.metrics import f1_score, roc_auc_score, precision_score, classification_report, precision_recall_curve, confusion_matrix

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import itertools

import matplotlib.pyplot as plt

%matplotlib inline

In [2]:
# смотрим данные по статьям

news = pd.read_csv("articles.csv")
print(news.shape)
news.head(13)

(27000, 2)


Unnamed: 0,doc_id,title
0,6,Заместитель председателяnправительства РФnСерг...
1,4896,Матч 1/16 финала Кубка России по футболу был п...
2,4897,Форвард «Авангарда» Томаш Заборский прокоммент...
3,4898,Главный тренер «Кубани» Юрий Красножан прокомм...
4,4899,Решением попечительского совета владивостокско...
5,4900,И.о. главного тренера Вячеслав Буцаев прокомме...
6,4901,Запорожский «Металлург» дома потерпел разгромн...
7,4902,Сборная США одержала победу над Австрией со сч...
8,4903,Бывший защитник сборной России Дарюс Каспарайт...
9,4904,Полузащитник ЦСКА Зоран Тошич после победы над...


In [3]:
# данные какой пользователь какими статьями интересовался

users = pd.read_csv("users_articles.csv")
users.head(13)

Unnamed: 0,uid,articles
0,u105138,"[293672, 293328, 293001, 293622, 293126, 1852]"
1,u108690,"[3405, 1739, 2972, 1158, 1599, 322665]"
2,u108339,"[1845, 2009, 2356, 1424, 2939, 323389]"
3,u101138,"[5933, 6186, 5055, 6977, 5206, 488389]"
4,u108248,"[707, 1144, 2532, 2928, 3133, 324592]"
5,u106662,"[323868, 323426, 324267, 322426, 324104, 1550]"
6,u105949,"[293138, 294471, 295012, 294736, 293949, 3544]"
7,u102457,"[6928, 5009, 6940, 7629, 7644, 512736]"
8,u104124,"[322838, 324699, 322991, 322120, 324327, 472331]"
9,u101386,"[7827, 6427, 7394, 7151, 6335, 487254]"


In [4]:
# загружаем слова не несущие смысла - предлоги всякие и т.д.

stopword_ru = stopwords.words('russian')
len(stopword_ru)

151

In [5]:
morph = pymorphy2.MorphAnalyzer()

In [6]:
def clean_text(text):
    '''
    очистка текста
    
    на выходе очищеный текст
    
    '''
    if not isinstance(text, str):
        text = str(text)
    
    text = text.lower()
    text = text.strip('\n').strip('\r').strip('\t')
    text = re.sub("-\s\r\n\|-\s\r\n|\r\n", '', str(text))

    text = re.sub("[0-9]|[-—.,:;_%©«»?*!@#№$^•·&()]|[+=]|[[]|[]]|[/]|", '', text)
    text = re.sub(r"\r\n\t|\n|\\s|\r\t|\\n", ' ', text)
    text = re.sub(r'[\xad]|[\s+]', ' ', text.strip())
    
    #tokens = list(tokenize(text))
    #words = [_.text for _ in tokens]
    #words = [w for w in words if w not in stopword_ru]
    
    #return " ".join(words)
    return text

cache = {}

def lemmatization(text):
    '''
    лемматизация
        [0] если зашел тип не `str` делаем его `str`
        [1] токенизация предложения через razdel
        [2] проверка есть ли в начале слова '-'
        [3] проверка токена с одного символа
        [4] проверка есть ли данное слово в кэше
        [5] лемматизация слова
        [6] проверка на стоп-слова

    на выходе лист отлемматизированых токенов
    '''

    # [0]
    if not isinstance(text, str):
        text = str(text)
    
    # [1]
    tokens = list(tokenize(text))
    words = [_.text for _ in tokens]

    words_lem = []
    for w in words:
        if w[0] == '-': # [2]
            w = w[1:]
        if len(w)>1: # [3]
            if w in cache: # [4]
                words_lem.append(cache[w])
            else: # [5]
                temp_cach = cache[w] = morph.parse(w)[0].normal_form
                words_lem.append(temp_cach)
    
    words_lem_without_stopwords=[i for i in words_lem if not i in stopword_ru] # [6]
    
    return words_lem_without_stopwords

In [7]:
%%time
# чистим текст 
news['title'] = news['title'].apply(lambda x: clean_text(x), 1)

  text = re.sub("[0-9]|[-—.,:;_%©«»?*!@#№$^•·&()]|[+=]|[[]|[]]|[/]|", '', text)


Wall time: 28.2 s


In [8]:
news['title']

0        заместитель председателяnправительства рфnсерг...
1        матч  финала кубка россии по футболу был приос...
2        форвард авангарда томаш заборский прокомментир...
3        главный тренер кубани юрий красножан прокоммен...
4        решением попечительского совета владивостокско...
                               ...                        
26995    ученые токийского университета морских наук и ...
26996    главой кафедры отечественной истории xx века и...
26997    американские ученые уточнили возраст расположе...
26998    за последние  лет тропический углеродный цикл ...
26999    у живших примерно  тыс лет назад на территории...
Name: title, Length: 27000, dtype: object

In [9]:
%%time
# леммитизация текста - перевод слов в именительный падеж, единственное число или типа того...
news['title'] = news['title'].apply(lambda x: lemmatization(x), 1)

Wall time: 2min 30s


In [10]:
#сформируем список наших текстов, разбив еще и на пробелы
texts = [t for t in news['title'].values]

In [11]:
# texts

In [12]:
# Create a corpus from a list of texts

common_dictionary = Dictionary(texts)
common_corpus = [common_dictionary.doc2bow(text) for text in texts]

In [13]:
common_dictionary[100]

'выбросить'

In [14]:
len(common_dictionary)

141492

In [15]:
# common_corpus

In [16]:
%%time
from gensim.models import LdaModel
# Train the model on the corpus.
lda = LdaModel(common_corpus, 
               num_topics=25, # количество кластеров, т.е. тем, на которые мы хотим разбить наши тексты 
               id2word=common_dictionary)#, passes=10)

Wall time: 35.9 s


In [17]:
# lda

In [18]:
# Create a new corpus, made of previously unseen documents.
other_texts = [t for t in news['title'].iloc[:3]]
other_corpus = [common_dictionary.doc2bow(text) for text in other_texts]

unseen_doc = other_corpus[2]
print(other_texts[2])
lda[unseen_doc] 

['форвард', 'авангард', 'томаш', 'заборский', 'прокомментировать', 'игра', 'свой', 'команда', 'матч', 'чемпионат', 'кхл', 'против', 'атланта', 'nnnn', 'провести', 'плохой', 'матч', 'нижний', 'новгород', 'против', 'торпедо', 'настраиваться', 'первый', 'минута', 'включиться', 'работа', 'сказать', 'заборский', 'получиться', 'забросить', 'быстрый', 'гол', 'задать', 'хороший', 'темп', 'поединок', 'мочь', 'играть', 'ещё', 'хороший', 'сторона', 'пять', 'очко', 'выезд', 'девять', 'это', 'хороший']


[(2, 0.076924816),
 (4, 0.19794227),
 (6, 0.15132573),
 (12, 0.18508969),
 (18, 0.13451609),
 (22, 0.23724996)]

In [19]:
# other_texts

In [20]:
x=lda.show_topics(num_topics=25, num_words=7,formatted=False)
topics_words = [(tp[0], [wd[0] for wd in tp[1]]) for tp in x]

#Below Code Prints Only Words 
for topic,words in topics_words:

    print("topic_{}: ".format(topic)+" ".join(words))

topic_0: препарат убийство следователь расследование площадь ск лечение
topic_1: год россия который страна это свой nn
topic_2: фестиваль экипаж век белоруссия китайский флот пилотировать
topic_3: продукция чёрный сутки сообщество штраф суд обязательство
topic_4: минск тур макаров молдавия донбасс норматив обернуться
topic_5: агентство высота год звезда необычный сообщать след
topic_6: это который мочь год система россия рынок
topic_7: обнаружить тело результат мозг это человек взрыв
topic_8: это который год сша украина эксперт американский
topic_9: фонд власть закон правительство орган человек организация
topic_10: the космос доля годовой атмосферный брюссель разбираться
topic_11: технология долг это отряд век свидетель индия
topic_12: год это который человек исследование ребёнок время
topic_13: год тыс цена рост млн снижение доход
topic_14: год который банк это компания суд также
topic_15: греция рейтинг подсчитать австралийский болгария су инвестировать
topic_16: конкурс супруг ночн

In [21]:
# функиця представляет векторное представление новости
def get_lda_vector(text):
      
    unseen_doc = common_dictionary.doc2bow(text)
    lda_tuple = lda[unseen_doc]
    not_null_topics = dict(zip([i[0] for i in lda_tuple], [i[1] for i in lda_tuple]))

    output_vector = []
    for i in range(25):
        if i not in not_null_topics:
            output_vector.append(0)
        else:
            output_vector.append(not_null_topics[i])
    return np.array(output_vector)

# ДЗ
# п.4 добавил функцию, которая берет только слова поTfidf с весом больше 50

In [22]:
# функция с добавлением TfIdf 

from sklearn.feature_extraction.text import TfidfVectorizer

def get_lda_vector_idf(text):
    
    # !!! ОБАВЛЕНИЯ ТУТ !!!
    vectorizer = TfidfVectorizer()
    vectorizer.fit_transform(text)
    new_text = {}
    for key, value in vectorizer.vocabulary_.items():
        if value > 80:
            new_text[key] = key  
    
    unseen_doc = common_dictionary.doc2bow(new_text)
    lda_tuple = lda[unseen_doc]
    not_null_topics = dict(zip([i[0] for i in lda_tuple], [i[1] for i in lda_tuple]))

    output_vector = []
    for i in range(25):
        if i not in not_null_topics:
            output_vector.append(0)
        else:
            output_vector.append(not_null_topics[i])
    return np.array(output_vector)

In [23]:
topic_matrix = pd.DataFrame([get_lda_vector(text) for text in news['title'].values])
# topic_matrix = pd.DataFrame([get_lda_vector_idf(text) for text in news['title'].values])
topic_matrix.columns = ['topic_{}'.format(i) for i in range(25)]
topic_matrix['doc_id'] = news['doc_id'].values
topic_matrix = topic_matrix[['doc_id']+['topic_{}'.format(i) for i in range(25)]]
topic_matrix.head(5)

Unnamed: 0,doc_id,topic_0,topic_1,topic_2,topic_3,topic_4,topic_5,topic_6,topic_7,topic_8,...,topic_15,topic_16,topic_17,topic_18,topic_19,topic_20,topic_21,topic_22,topic_23,topic_24
0,6,0.0,0.0,0.046628,0.0,0.025532,0.0,0.0,0.0,0.0,...,0.0,0.0,0.113529,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,4896,0.0,0.0,0.0,0.071803,0.224575,0.0,0.0,0.681612,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,4897,0.0,0.0,0.076918,0.0,0.197938,0.0,0.151241,0.0,0.0,...,0.0,0.0,0.0,0.134581,0.0,0.0,0.0,0.237265,0.0,0.0
3,4898,0.0,0.0,0.0,0.0,0.118391,0.0,0.316961,0.110048,0.0,...,0.0,0.0,0.0,0.0,0.0,0.14218,0.0,0.0,0.0,0.0
4,4899,0.0,0.0,0.0,0.0,0.087253,0.0,0.0,0.0,0.0,...,0.0,0.0,0.353743,0.0,0.0,0.051422,0.0,0.0,0.0,0.038943


In [24]:
# переходим к работе с пользователями

# users.head(3)

In [25]:
doc_dict = dict(zip(topic_matrix['doc_id'].values, topic_matrix[['topic_{}'.format(i) for i in range(25)]].values))

In [26]:
# на примере одного документа смотрим какие темы в нем затронуты

# doc_dict[293622]

In [27]:
# doc_dict

In [28]:
user_articles_list = users['articles'].iloc[33]

In [29]:
# на примере пользователя выбираем статьи, которыми он интересовался

user_articles_list

'[323329, 321961, 324743, 323186, 324632, 474690]'

In [30]:
# users['articles']

In [31]:
# Датасет готов - можно попробовать обучить модель. Загрузим нашу разметку

target = pd.read_csv("users_churn.csv")
# target.head(3)

# ДЗ 3

# ОСНОВНАЯ ДОМАШКА

In [32]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline, make_pipeline

In [33]:
def get_user_embedding_mean(user_articles_list):
    user_articles_list = eval(user_articles_list)
    user_vector = np.array([doc_dict[doc_id] for doc_id in user_articles_list])
    user_vector = np.mean(user_vector, 0)
    return user_vector

def get_user_embedding_median(user_articles_list):
    user_articles_list = eval(user_articles_list)
    user_vector = np.array([doc_dict[doc_id] for doc_id in user_articles_list])
    user_vector = np.median(user_vector, 0)
    return user_vector

def get_user_embedding_max(user_articles_list):
    user_articles_list = eval(user_articles_list)
    user_vector = np.array([doc_dict[doc_id] for doc_id in user_articles_list])
    user_vector = np.max(user_vector, 0)
    return user_vector

In [34]:
def metrix_(user_embeddings):
    user_embeddings.columns = ['topic_{}'.format(i) for i in range(25)]
    user_embeddings['uid'] = users['uid'].values
    user_embeddings = user_embeddings[['uid']+['topic_{}'.format(i) for i in range(25)]]
    # user_embeddings.head(3)

    X = pd.merge(user_embeddings, target, 'left')

    #разделим данные на train/test
    X_train, X_test, y_train, y_test = train_test_split(X[['topic_{}'.format(i) for i in range(25)]], 
                                                        X['churn'], random_state=0)

    logreg = LogisticRegression()
    #обучим 
    logreg.fit(X_train, y_train)

    #наши прогнозы для тестовой выборки
    preds = logreg.predict_proba(X_test)[:, 1]

    # считаем Precision, Recall, F_score

    precision, recall, thresholds = precision_recall_curve(y_test, preds)
    fscore = (2 * precision * recall) / (precision + recall)
    # locate the index of the largest f score
    ix = np.argmax(fscore)
    print('Best Threshold=%f, F-Score=%.3f, Precision=%.3f, Recall=%.3f, roc_auc_score=%.3f' % (thresholds[ix], 
                                                                            fscore[ix],
                                                                            precision[ix],
                                                                            recall[ix],
                                                                            roc_auc_score(y_test, preds)))


In [35]:
# Теперь получим эмбединги для всех пользователей и проверим их качество на конкретной downstream-задаче

user_embeddings = pd.DataFrame([i for i in users['articles'].apply(lambda x: get_user_embedding_mean(x), 1)])
print('mean:')
metrix_(user_embeddings)

user_embeddings = pd.DataFrame([i for i in users['articles'].apply(lambda x: get_user_embedding_median(x), 1)])
print('median:')
metrix_(user_embeddings)

user_embeddings = pd.DataFrame([i for i in users['articles'].apply(lambda x: get_user_embedding_max(x), 1)])
print('max:')
metrix_(user_embeddings)

mean:
Best Threshold=0.258392, F-Score=0.696, Precision=0.691, Recall=0.702, roc_auc_score=0.951
median:
Best Threshold=0.247426, F-Score=0.706, Precision=0.639, Recall=0.788, roc_auc_score=0.955
max:
Best Threshold=0.373306, F-Score=0.777, Precision=0.801, Recall=0.755, roc_auc_score=0.968


# Теперь смотрю, какие метрики, если использовать TfIdf

In [38]:
# topic_matrix = pd.DataFrame([get_lda_vector(text) for text in news['title'].values])
topic_matrix = pd.DataFrame([get_lda_vector_idf(text) for text in news['title'].values])
topic_matrix.columns = ['topic_{}'.format(i) for i in range(25)]
topic_matrix['doc_id'] = news['doc_id'].values
topic_matrix = topic_matrix[['doc_id']+['topic_{}'.format(i) for i in range(25)]]
# topic_matrix.head(5)

doc_dict = dict(zip(topic_matrix['doc_id'].values, topic_matrix[['topic_{}'.format(i) for i in range(25)]].values))

user_embeddings = pd.DataFrame([i for i in users['articles'].apply(lambda x: get_user_embedding_mean(x), 1)])
print('mean:')
metrix_(user_embeddings)

user_embeddings = pd.DataFrame([i for i in users['articles'].apply(lambda x: get_user_embedding_median(x), 1)])
print('median:')
metrix_(user_embeddings)

user_embeddings = pd.DataFrame([i for i in users['articles'].apply(lambda x: get_user_embedding_max(x), 1)])
print('max:')
metrix_(user_embeddings)

mean:
Best Threshold=0.360473, F-Score=0.879, Precision=0.840, Recall=0.922, roc_auc_score=0.990
median:
Best Threshold=0.448672, F-Score=0.964, Precision=0.952, Recall=0.976, roc_auc_score=0.998
max:
Best Threshold=0.149007, F-Score=0.544, Precision=0.430, Recall=0.739, roc_auc_score=0.903


## Вывод:

1. Без TfIdf лучшие метрики получаются если брать max(). Думаю это оттого что при max - это тема, которая больше всего интересовала данного пользователя, т.е. мы опираем на лучшие данные.

2. При использовании TfIdf метрики на mean() и median() хорошо так возрастают. А вот при max() наоборот снижаются. Думаю оттого, что max() при использовании TfIdf не настроящий...

3. В общем использвание TfIdf сильно улучшает результаты! Самые лучшие метрики при TfIdf + median(). 
