<a href="https://colab.research.google.com/github/meraline/pyda_homeworks/blob/master/netology_case_study_books_recommend.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Кейс-стади

Булыгин Олег:  
* [LinkedIn](linkedin.com/in/obulygin)  
* [Telegram](https://t.me/obulygin91)   
* [Vk](vk.com/obulygin91)  
* email: obulygin91@ya.ru  

[Сообщество по Python](https://yandex.ru/q/loves/pythontalk/) на Кью  
[Сообщество по Data Science и анализу данных](https://yandex.ru/q/loves/datatalk/) на Кью 

# Рекомендательной система книг на примере работ Дарвина

In [None]:
# импорт библиотек
import glob
import pandas as pd
import re

In [None]:
# считаем все файлы, которые хранятся в папке (книги)
book_files = glob.glob('*.txt')
book_files

In [None]:
# создадим список названий книг и список текстов книг
texts = []
titles = []

for file in book_files:
    text = open(file).read()
    title = re.search(r'(\w+)\.txt', file).group(1)
    texts.append(text)
    titles.append(title)

In [None]:
print(titles)

In [None]:
# Предположим, нам очень понравилась книга "Происхождение видов". 
# Какую книгу из всего списка, нам прочитать следующей, которая может понравится?
# Какие тексты могут считаться похожими?
texts[5]

In [None]:
# приведем все слова к нижнему регистру
texts_lower_case = [text.lower() for text in texts]
# проверим
texts_lower_case[5]

In [None]:
# уберем все служебные символы
print(len(texts_lower_case[5]))
only_words_text = [re.sub('[\W_]+', ' ', text) for text in texts_lower_case]
# проверим
print(len(only_words_text[5]))
only_words_text[5]

In [None]:
# разделим все на слова
texts_splitted = [text.split() for text in only_words_text]
# сколько слов?
len(texts_splitted[5])

In [None]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stopwords_set = set(stopwords.words('english'))
without_sw = [[word for word in text if word not in stopwords_set] for text in texts_splitted]
len(without_sw[5])

In [None]:
without_sw[5]

Произведем лемматизацию

Лемматизация — процесс приведения словоформы к лемме — её нормальной (словарной) форме. 
В русском языке:
- для существительных — именительный падеж, единственное число;
- для прилагательных — именительный падеж, единственное число, мужской род;
- для глаголов, причастий, деепричастий — глагол в инфинитиве несовершенного вида.

В других языках – по аналогии.

In [None]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')
wordnet_lemmatizer = WordNetLemmatizer()
lemmatized_text = [[wordnet_lemmatizer.lemmatize(word) for word in text] for text in without_sw]
lemmatized_text[5]

In [None]:
# https://www.machinelearningplus.com/nlp/gensim-tutorial/
# библиотека gensim позволяет эффективно работать с корпусами текстов
from gensim import corpora

# создадим словарь, в котором присвоем каждому словую свой уникальный id
dictionary = corpora.Dictionary(lemmatized_text)
dict(dictionary)

In [None]:
len(dict(dictionary))

Создадим на основе словаря модель [bag of words](https://en.wikipedia.org/wiki/Bag-of-words_model), которая присваивает каждому слову (id) количество его вхождений в конкретном документе

In [None]:
bows = [dictionary.doc2bow(text) for text in lemmatized_text]
bows

In [None]:
# для примера посмотрим на bow в виде датафрейма для книги "Происхождене видов"
bow_oos = pd.DataFrame(bows[5])
bow_oos.columns = ['index', 'occurrences']
bow_oos
# почему здесь не все индексы?

In [None]:
# смэтчим индексы с реальными словами
bow_oos['word'] = [dictionary[index] for index in bow_oos['index']]
bow_oos

Создадим модель [TF-IDF](https://ru.wikipedia.org/wiki/TF-IDF) (term frequency-inverse document frequency – частотность терминов-обратная частотность документов)

Если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для исходного документа.

In [None]:
from gensim.models import TfidfModel
tfidf = TfidfModel(bows)

# посмотрим, как это выглядит на "Происхождение видов"
tfidf[bows[5]]

# а почему здесь не все индексы?

Теперь каждый наш текст представлен по-сути вектором чисел. Сходство между ними мы можем определить при помощи [косинусного сходства](https://www.machinelearningplus.com/nlp/cosine-similarity/) между соответствующими векторами.

In [None]:
from gensim import similarities
cos_sim = similarities.MatrixSimilarity(tfidf[bows])
# преобразуем в датафрейм
cos_sim_df = pd.DataFrame(list(cos_sim))
# добавним название текстов
cos_sim_df.columns = titles
cos_sim_df.index = titles
cos_sim_df

In [None]:
import seaborn as sns

cos_sim_oos = cos_sim_df[['OriginofSpecies']].sort_values('OriginofSpecies', ascending=False)
cos_sim_oos
ax = sns.barplot(y=cos_sim_oos.index, x=cos_sim_oos.OriginofSpecies, orient='h')
ax.set_title('Сходство книг относительно "Происхождение видов"')

Проведем кластеризацию книг при помощи [метода Уорда](https://neerc.ifmo.ru/wiki/index.php?title=%D0%98%D0%B5%D1%80%D0%B0%D1%80%D1%85%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F).  
Метод Уорда основан на объединении не максимально близких кластеров, а тех,слияние которых дает наименьший прирост внутрикластерной дисперсии. Этот метод применяется для задач с близко расположенными кластерами.

In [None]:
from scipy.cluster import hierarchy
clusters = hierarchy.linkage(cos_sim_df, method='ward')

dendrogram = hierarchy.dendrogram(clusters, 
                                  leaf_font_size=11, 
                                  labels=list(cos_sim_df.index), 
                                  orientation="left")