### Часть первая. Векторизация

In [1]:
# Подключение Google-диска
from google.colab import drive
drive.mount('/content/mount')

Mounted at /content/mount


In [None]:
# Установка необходимых пакетов
!pip install sentence_transformers

Looking in indexes: https://pypi.net.biocad.ru, https://pypi.org/simple
Collecting sentence_transformers
  Downloading sentence-transformers-2.2.0.tar.gz (79 kB)
     |████████████████████████████████| 79 kB 511 kB/s            
[?25h  Preparing metadata (setup.py) ... [?25ldone
Collecting torchvision
  Downloading torchvision-0.12.0-cp38-cp38-macosx_10_9_x86_64.whl (1.3 MB)
     |████████████████████████████████| 1.3 MB 1.2 MB/s            
Collecting sentencepiece
  Downloading sentencepiece-0.1.96-cp38-cp38-macosx_10_6_x86_64.whl (1.1 MB)
     |████████████████████████████████| 1.1 MB 981 kB/s            
Collecting torch>=1.6.0
  Downloading torch-1.11.0-cp38-none-macosx_10_9_x86_64.whl (129.9 MB)
     |██████████████▍                 | 58.5 MB 538 kB/s eta 0:02:13

In [10]:
# Подключение библиотек
import numpy as np
import pandas as pd

import torch
import nltk
from sentence_transformers import models, SentenceTransformer

from tqdm import tqdm

In [5]:
# Вспомогательное
WINE_DATA_PATH = "/content/mount/MyDrive/Colab Notebooks/HSE/HSE NLP/wines_winestyle.csv"
MAIN_COLS = ["id", "name", "aroma", "taste", "food_pairing", "description"]
DESC_COLS = ["aroma", "taste", "food_pairing", "description"]

MODEL_INFO = "DeepPavlov/rubert-base-cased"

In [6]:
# Чтение данных
wine_df = pd.read_csv(WINE_DATA_PATH, usecols=MAIN_COLS)
wine_df

Unnamed: 0,id,name,aroma,taste,food_pairing,description
0,116,"""Chateau Les Jouberts"" Cuvee Prestige, Blaye C...","Вино демонстрирует сложный аромат, сотканный и...","Вино обладает щедрым, ярким вкусом с оттенками...","Вино составит гармоничную пару говядине, утке,...","""Chateau Les Jouberts"" Cuvee Prestige, Blaye C..."
1,117,"Ramirez de la Piscina, Crianza, Rioja DOCa, 2015","В глубоком аромате вина ноты вишни, сливы и еж...","Вино демонстрирует насыщенный, сбалансированны...","Вино подходит к блюдам из говядины, телятины, ...","Ramirez de la Piscina, Crianza, Rioja DOCa — к..."
2,118,"Ramirez de la Piscina, Reserva, Rioja DOCa, 2014",Элегантный аромат вина раскрывается оттенками ...,"Вино демонстрирует округлый, сбалансированный ...","Вино подходит к блюдам из говядины, телятины, ...","Ramirez de la Piscina, Reserva, Rioja DOCa — э..."
3,119,"Rafael Cambra, Soplo, Valencia DO, 2014","Вино демонстрирует элегантный, сдержанный аром...","Вкус вина деликатный, мягкий и сбалансированны...","Вино идеально подходит к блюдам из птицы, запе...","Rafael Cambra, Soplo, Valencia DO — красное су..."
4,120,"Familia Bastida, ""Drama"" Red Blend, La Mancha ...","Вино демонстрирует глубокий аромат, сотканный ...","Вкус вина сочный, концентрированный, с оттенка...",Вино рекомендуется употреблять с блюдами из мя...,"Красное сухое вино ""Drama"" Red Blend, La Manch..."
...,...,...,...,...,...,...
43196,43490,"Guilbaud Freres, ""Coraline"" Cabernet d'Anjou AOC","Вино обладает тонким, изысканным ароматом с но...","Вкус вина нежный, свежий, питкий, гладкий, сле...","Вино прекрасно в качестве аперитива, в сочетан...","""Coraline"" Cabernet d'Anjou — очень приятное, ..."
43197,43491,"Schlumberger, Gold Trocken, 2012",Игристое вино чарует освежающим ароматом с дом...,"Игристое вино демонстрирует свежий, мягкий вку...",Это изысканное вино рекомендуется подавать к д...,"Schlumberger, Gold Trocken — утонченное белое ..."
43198,43492,"Derbent Wine Company, ""Fanfara"" Rose Brut",Освежающий аромат вина наполнен утонченными но...,"Вкус вина легкий, обладает яркой и живой кисло...","Вино прекрасно сочетается с легкими закусками,...","""Fanfara"" Rose Brut — изысканное игристое вино..."
43199,43493,"""Blue Nun"" 24K Gold Edition",Аромат вина раскрывается приятными и утонченны...,"Вкус вина изысканный, сбалансированный, гармон...","Вино идеально в качестве аперитива, хорошо соч...",В 1857 году Герман Зихель основал небольшой би...


In [7]:
# Обработка пустых значений
wine_df[DESC_COLS] = wine_df[DESC_COLS].fillna("")

In [11]:
# Установка дополнительного nltk-модуля
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [12]:
# Токенизация
wine_df["tokens"] = ""
for index, row in wine_df.iterrows():
    full_desc = ""
    for col in DESC_COLS:
        full_desc += row[col] + " "
    wine_df.at[index, "tokens"] = nltk.tokenize.sent_tokenize(full_desc, language="russian")

In [13]:
# Отбор токенизированных данных
wine_tokens_df = wine_df[["id", "name", "tokens"]]
wine_tokens_df = wine_tokens_df[wine_tokens_df.tokens.map(len) > 0]
wine_tokens_df

Unnamed: 0,id,name,tokens
0,116,"""Chateau Les Jouberts"" Cuvee Prestige, Blaye C...","[Вино демонстрирует сложный аромат, сотканный ..."
1,117,"Ramirez de la Piscina, Crianza, Rioja DOCa, 2015","[В глубоком аромате вина ноты вишни, сливы и е..."
2,118,"Ramirez de la Piscina, Reserva, Rioja DOCa, 2014",[Элегантный аромат вина раскрывается оттенками...
3,119,"Rafael Cambra, Soplo, Valencia DO, 2014","[Вино демонстрирует элегантный, сдержанный аро..."
4,120,"Familia Bastida, ""Drama"" Red Blend, La Mancha ...","[Вино демонстрирует глубокий аромат, сотканный..."
...,...,...,...
43196,43490,"Guilbaud Freres, ""Coraline"" Cabernet d'Anjou AOC","[Вино обладает тонким, изысканным ароматом с н..."
43197,43491,"Schlumberger, Gold Trocken, 2012",[Игристое вино чарует освежающим ароматом с до...
43198,43492,"Derbent Wine Company, ""Fanfara"" Rose Brut",[Освежающий аромат вина наполнен утонченными н...
43199,43493,"""Blue Nun"" 24K Gold Edition",[Аромат вина раскрывается приятными и утонченн...


In [14]:
# Создание (загрузка) модели
transformer = models.Transformer(MODEL_INFO)
pooling_module = models.Pooling(transformer.get_word_embedding_dimension())
model = SentenceTransformer(modules=[transformer, pooling_module])

Downloading:   0%|          | 0.00/642 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/681M [00:00<?, ?B/s]

Some weights of the model checkpoint at DeepPavlov/rubert-base-cased were not used when initializing BertModel: ['cls.seq_relationship.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.bias', 'cls.predictions.decoder.weight', 'cls.predictions.decoder.bias', 'cls.seq_relationship.bias', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


Downloading:   0%|          | 0.00/24.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/1.57M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/112 [00:00<?, ?B/s]

In [15]:
# Переход на GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)

cuda


In [16]:
# Векторизация
wine_tokens_df["vector"] = ""
for index, row in tqdm(wine_tokens_df.iterrows()):
    wine_tokens_df.at[index, "vector"] = model.encode(row["tokens"]).mean(axis=0).tolist()

43190it [1:22:57,  8.68it/s]


In [19]:
# Сохранение векторизованных данных
wine_vectors = wine_tokens_df[["id", "name", "vector"]]
wine_vectors.to_csv("/content/mount/MyDrive/Colab Notebooks/HSE/HSE NLP/wines_vectors.csv", index=False)

### Часть вторая. Рекомендация

In [1]:
# Подключение библиотек
import numpy as np
import pandas as pd

from sklearn.metrics.pairwise import cosine_similarity

In [2]:
# Вспомогательное
WINE_DATA_PATH = "../data/wine/wines_winestyle.csv"
MAIN_COLS = ["id", "name", "aroma", "taste", "food_pairing", "description"]

WINE_VEC_DATA_PATH = "../data/wine/wines_vectors.csv"

In [3]:
# Чтение стандартных данных
wine_df = pd.read_csv(WINE_DATA_PATH, usecols=MAIN_COLS)
wine_df

Unnamed: 0,id,name,aroma,taste,food_pairing,description
0,116,"""Chateau Les Jouberts"" Cuvee Prestige, Blaye C...","Вино демонстрирует сложный аромат, сотканный и...","Вино обладает щедрым, ярким вкусом с оттенками...","Вино составит гармоничную пару говядине, утке,...","""Chateau Les Jouberts"" Cuvee Prestige, Blaye C..."
1,117,"Ramirez de la Piscina, Crianza, Rioja DOCa, 2015","В глубоком аромате вина ноты вишни, сливы и еж...","Вино демонстрирует насыщенный, сбалансированны...","Вино подходит к блюдам из говядины, телятины, ...","Ramirez de la Piscina, Crianza, Rioja DOCa — к..."
2,118,"Ramirez de la Piscina, Reserva, Rioja DOCa, 2014",Элегантный аромат вина раскрывается оттенками ...,"Вино демонстрирует округлый, сбалансированный ...","Вино подходит к блюдам из говядины, телятины, ...","Ramirez de la Piscina, Reserva, Rioja DOCa — э..."
3,119,"Rafael Cambra, Soplo, Valencia DO, 2014","Вино демонстрирует элегантный, сдержанный аром...","Вкус вина деликатный, мягкий и сбалансированны...","Вино идеально подходит к блюдам из птицы, запе...","Rafael Cambra, Soplo, Valencia DO — красное су..."
4,120,"Familia Bastida, ""Drama"" Red Blend, La Mancha ...","Вино демонстрирует глубокий аромат, сотканный ...","Вкус вина сочный, концентрированный, с оттенка...",Вино рекомендуется употреблять с блюдами из мя...,"Красное сухое вино ""Drama"" Red Blend, La Manch..."
...,...,...,...,...,...,...
43196,43490,"Guilbaud Freres, ""Coraline"" Cabernet d'Anjou AOC","Вино обладает тонким, изысканным ароматом с но...","Вкус вина нежный, свежий, питкий, гладкий, сле...","Вино прекрасно в качестве аперитива, в сочетан...","""Coraline"" Cabernet d'Anjou — очень приятное, ..."
43197,43491,"Schlumberger, Gold Trocken, 2012",Игристое вино чарует освежающим ароматом с дом...,"Игристое вино демонстрирует свежий, мягкий вку...",Это изысканное вино рекомендуется подавать к д...,"Schlumberger, Gold Trocken — утонченное белое ..."
43198,43492,"Derbent Wine Company, ""Fanfara"" Rose Brut",Освежающий аромат вина наполнен утонченными но...,"Вкус вина легкий, обладает яркой и живой кисло...","Вино прекрасно сочетается с легкими закусками,...","""Fanfara"" Rose Brut — изысканное игристое вино..."
43199,43493,"""Blue Nun"" 24K Gold Edition",Аромат вина раскрывается приятными и утонченны...,"Вкус вина изысканный, сбалансированный, гармон...","Вино идеально в качестве аперитива, хорошо соч...",В 1857 году Герман Зихель основал небольшой би...


In [4]:
# Чтение векторизованных данных
wine_vectors_df = pd.read_csv(WINE_VEC_DATA_PATH)
wine_vectors_df

Unnamed: 0,id,name,vector
0,116,"""Chateau Les Jouberts"" Cuvee Prestige, Blaye C...","[0.20963743329048157, -0.2475746124982834, 0.2..."
1,117,"Ramirez de la Piscina, Crianza, Rioja DOCa, 2015","[0.24209600687026978, -0.1909744143486023, 0.3..."
2,118,"Ramirez de la Piscina, Reserva, Rioja DOCa, 2014","[0.22363285720348358, -0.2294279783964157, 0.3..."
3,119,"Rafael Cambra, Soplo, Valencia DO, 2014","[0.32054412364959717, -0.23180171847343445, 0...."
4,120,"Familia Bastida, ""Drama"" Red Blend, La Mancha ...","[0.16660216450691223, -0.1661527305841446, 0.2..."
...,...,...,...
43185,43490,"Guilbaud Freres, ""Coraline"" Cabernet d'Anjou AOC","[0.22548715770244598, -0.2360440045595169, 0.3..."
43186,43491,"Schlumberger, Gold Trocken, 2012","[-0.003142844419926405, -0.24957621097564697, ..."
43187,43492,"Derbent Wine Company, ""Fanfara"" Rose Brut","[0.2338431179523468, -0.15624748170375824, 0.2..."
43188,43493,"""Blue Nun"" 24K Gold Edition","[0.14626814424991608, -0.2297821193933487, 0.3..."


In [130]:
class Recommendator:
    def __init__(self, casual_df, vectors_df):
        self.casual_df = casual_df
        self.vectors_df = vectors_df
        self.vectors = np.concatenate(self.vectors_df["vector"].apply(self._get_vector))
        self.cosim_matrix = None # Для расчёта нужно большое кол-во ресурсов
        
    def _get_vector(self, s):
        res = s.strip("][").replace(" ", "").split(",")
        res = np.array([float(x) for x in res]).reshape(1, -1)
        return res
    
    def _calculate_cosim_matrix(self):
        self.cosim_matrix = cosine_similarity(vectors, vectors)
    
    def recommend_from_description(self, desc, n=10):
        pass # In progress
    
    def recommend_from_wine(self, wine_identifier, n=10):
        if isinstance(wine_identifier, int):
            idx = self.vectors_df[self.vectors_df["id"] == wine_identifier].index[0]
        elif isinstance(wine_identifier, str):
            idx = self.vectors_df[self.vectors_df["name"] == wine_identifier].index[0]
        
        cosim_vec = cosine_similarity(self.vectors[idx].reshape(1, -1), self.vectors)[0]
        best_idxs = np.argsort(cosim_vec)[::-1][:n+1]
        best_ids = self.vectors_df.iloc[best_idxs]["id"].tolist()
        
        recommendations = self.casual_df.iloc[pd.Index(self.casual_df["id"]).get_indexer(best_ids)]
        recommendations.reset_index(drop=True, inplace=True)
        return recommendations

In [131]:
# Инициализация рекомендательной системы
sommelier = Recommendator(wine_df, wine_vectors_df)

In [155]:
# Пример работы
def get_full_desc(wine_df, idx):
    wine = wine_df.iloc[idx]
    full_desc = f"\nName: {wine['name']}\n\n"
    full_desc += f"Description: {wine['description']}\n\n"
    full_desc += f"Aroma: {wine['aroma']}\n\n"
    full_desc += f"Taste: {wine['taste']}\n\n"
    full_desc += f"Food pairing: {wine['food_pairing']}\n\n"
    full_desc += f"{'='*127}"
    return full_desc

wine_identificator = 119 # "Rafael Cambra, Soplo, Valencia DO, 2014"
wine_identificator = 25467 # "Trimbach, Sylvaner, Alsace AOC"
rec = sommelier.recommend_from_wine(wine_identificator)

print(get_full_desc(rec, 0))
print(get_full_desc(rec, 1))

display(rec)


Name: Trimbach, Sylvaner, Alsace AOC

Description: Trimbach, Sylvaner — традиционное белое сухое эльзасское вино, изготовленное из тщательно отобранного с виноградников в Рибонвилле винограда сорта Сильванер. После сбора плоды отделяются от стеблей, прессуются и ферментируются в резервуарах из нержавеющей стали, сохраняя сортовую свежесть и фруктовость. Потенциал хранения вина составляет около 5 лет. Винодельческое хозяйство Тримбах, существующее с 1626 года, — самый авторитетный производитель вин в Эльзасе. Сегодня семейным бизнесом управляют Юбер и Бернар Тримбахи, а также в делах активно участвуют младшие члены семьи — Жан и Пьер. Главной задачей виноделы считают сохранение респектабельного имиджа семейного предприятия. Кроме того, братья хотят поднять виноделие Эльзаса на невиданный до сих пор уровень. Нужно сказать, что пока они отлично справляются со своей работой — вина от Trimbach часто называют лучшими из лучших.

Aroma: Свежий аромат вина наполнен деликатными фруктовыми и цв

Unnamed: 0,id,name,aroma,taste,food_pairing,description
0,25467,"Trimbach, Sylvaner, Alsace AOC",Свежий аромат вина наполнен деликатными фрукто...,"Вино обладает сухим, легким, соблазнительным, ...","Вино идеально сочетается с запеканками, луковы...","Trimbach, Sylvaner — традиционное белое сухое ..."
1,25630,"Trimbach, Pinot Blanc, Alsace AOC",Аромат вина наполнен заманчивыми фруктовыми от...,"Вино обладает сухим, хорошо сбалансированным, ...",Вино идеально в качестве аперитива в летнее вр...,"Trimbach, Pinot Blanc — вино, которое доставит..."
2,29449,"Trimbach, Riesling ""Reserve"" AOC, 2017","Тонкий, свежий, аппетитный аромат вина раскрыв...","Вкус вина сухой, свежий, яркий, с живой лимонн...","Вино прекрасно сочетается с кислой капустой, р...","Trimbach, Riesling ""Reserve"" — элегантный, сух..."
3,5602,"Trimbach, Pinot Noir ""Reserve"", Alsace AOC, 2018","Вино демонстрирует приятный, щедрый аромат, со...",Вино привлекает сбалансированным фруктовым вку...,Вино составит замечательную пару с мясом домаш...,"Pinot Noir ""Reserve"" — соблазнительное красное..."
4,30314,"Trimbach, Gewurztraminer ""Reserve"" AOC, 2013","Аромат вина демонстрирует ноты корицы, мускатн...","Вкус вина богатый, интенсивный, сочный, хорошо...","Вино идеально в качестве аперитива, хорошо соч...","Trimbach, Gewurztraminer ""Reserve"" — округлое,..."
5,8657,"Trimbach, Riesling ""Selection de Vieilles Vign...","Вино интригует мягким, гармоничным ароматом, с...","Вино демонстрирует мягкий, освежающий вкус с ф...","Вино можно употреблять в качестве аперитива, с...","Trimbach, Riesling ""Selection de Vieilles Vign..."
6,28470,"Trimbach, Riesling AOC, 2018","Свежий, изящный аромат вина наполнен тонами ци...","Вино демонстрирует гармоничный, чистый вкус с ...","Вино отлично в качестве аперитива, достойно со...","Рислинг по праву считается Королем Эльзаса и, ..."
7,1054,"Trimbach, Gewurztraminer AOC, 2016","Вино обладает элегантным, свежим ароматом с от...","Вино демонстрирует освежающий, мягкий вкус с ф...","Вино идеально в качестве аперитива, хорошо соч...",Гевюрцтраминер от хозяйства Тримбах — выразите...
8,28146,"Trimbach, Gewurztraminer AOC, 2016, 375 мл","Вино обладает элегантным, свежим ароматом с от...","Вино демонстрирует освежающий, мягкий вкус с ф...","Вино идеально в качестве аперитива, хорошо соч...",Гевюрцтраминер от хозяйства Тримбах — выразите...
9,8527,"Trimbach, Pinot Gris ""Reserve"" AOC, 2016",Вино обладает насыщенным ароматом с доминирующ...,"Вино интригует богатым, освежающим вкусом с от...","Вино является замечательным аперитивом, оно пр...",Виноград сорта Пино Гри происходит из Бургунди...
