In [1]:
import faiss
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from sentence_transformers import SentenceTransformer

## Вам дан DataFrame с новостями (там есть заголовки и краткое содержание)

In [2]:
df = []
with open('News_Category_Dataset_v3.json') as f:
    for line in tqdm(f):
        df.append(json.loads(line))

df = pd.DataFrame(df)

209527it [00:01, 177710.59it/s]


In [4]:
df.head()

Unnamed: 0,link,headline,category,short_description,authors,date
0,https://www.huffpost.com/entry/covid-boosters-...,Over 4 Million Americans Roll Up Sleeves For O...,U.S. NEWS,Health experts said it is too early to predict...,"Carla K. Johnson, AP",2022-09-23
1,https://www.huffpost.com/entry/american-airlin...,"American Airlines Flyer Charged, Banned For Li...",U.S. NEWS,He was subdued by passengers and crew when he ...,Mary Papenfuss,2022-09-23
2,https://www.huffpost.com/entry/funniest-tweets...,23 Of The Funniest Tweets About Cats And Dogs ...,COMEDY,"""Until you have a dog you don't understand wha...",Elyse Wanshel,2022-09-23
3,https://www.huffpost.com/entry/funniest-parent...,The Funniest Tweets From Parents This Week (Se...,PARENTING,"""Accidentally put grown-up toothpaste on my to...",Caroline Bologna,2022-09-23
4,https://www.huffpost.com/entry/amy-cooper-lose...,Woman Who Called Cops On Black Bird-Watcher Lo...,U.S. NEWS,Amy Cooper accused investment firm Franklin Te...,Nina Golgowski,2022-09-22


Новости разбиты на несколько категорий (Посмотрите, на какие)

Мы с вами попробуем поисследовать, как можно искать "близкие" тексты и как это делать более или менее эффективно.
Сначала надо научиться переводить тексты в векторное представление - эмбеддинги.

In [3]:
model = SentenceTransformer('bert-base-nli-mean-tokens')

# Сразу поделим выборку на "тест и контроль"

In [4]:
from sklearn.model_selection import train_test_split

In [5]:
df = df.dropna()

In [6]:
df.shape

(209527, 6)

In [7]:
train, test = train_test_split(df, test_size=0.20, random_state=42, stratify = df['category'])

In [8]:
train.shape

(167621, 6)

In [9]:
test.shape

(41906, 6)

In [10]:
train[train.category == 'CRIME'].shape , test[test.category == 'CRIME'].shape 

((2850, 6), (712, 6))

Я гарантировал, что и в тесте и в контроле каждая категория побилась 80 на 20

In [11]:
df.head()

Unnamed: 0,link,headline,category,short_description,authors,date
0,https://www.huffpost.com/entry/covid-boosters-...,Over 4 Million Americans Roll Up Sleeves For O...,U.S. NEWS,Health experts said it is too early to predict...,"Carla K. Johnson, AP",2022-09-23
1,https://www.huffpost.com/entry/american-airlin...,"American Airlines Flyer Charged, Banned For Li...",U.S. NEWS,He was subdued by passengers and crew when he ...,Mary Papenfuss,2022-09-23
2,https://www.huffpost.com/entry/funniest-tweets...,23 Of The Funniest Tweets About Cats And Dogs ...,COMEDY,"""Until you have a dog you don't understand wha...",Elyse Wanshel,2022-09-23
3,https://www.huffpost.com/entry/funniest-parent...,The Funniest Tweets From Parents This Week (Se...,PARENTING,"""Accidentally put grown-up toothpaste on my to...",Caroline Bologna,2022-09-23
4,https://www.huffpost.com/entry/amy-cooper-lose...,Woman Who Called Cops On Black Bird-Watcher Lo...,U.S. NEWS,Amy Cooper accused investment firm Franklin Te...,Nina Golgowski,2022-09-22


# Делаем эмбеддинги

## Задание 1

* Сделайте эмбеддинги заголовков (код в ячейке ниже) и эмбеддинги краткого содержания новостей (другое поле)

Эмбеддинги варятся долго и получаются довольно толстыми. Например, для поля headline список эмбеддингов у меня локально варился 2 часа, а записанный в numpy-файл, весил 500 Мб

In [12]:
%%time
headline_embeddings = model.encode(train.headline.to_numpy(), 
                                   batch_size = 64, 
                                   show_progress_bar = True)

Batches:   0%|          | 0/2620 [00:00<?, ?it/s]

CPU times: user 1h 59min 25s, sys: 4min 19s, total: 2h 3min 44s
Wall time: 1h 55min 27s


## Задание 2

В лекции я утверждал, что "поиск" по "более умному" индексу занимает меньше времени. Возьмите случайую подвыборку из 1000 заголовков из группы tst и оцените распределение скорости поиска 10 ближайших соседей по следующим типам индексов, построенных на группе train: 

* **IndexFlatL2**
* **IndexIVFFlat** c количеством ячеек ~ sqrt(длина выборки)
* **IndexIVFPQ** с теми же параметрами как в **IndexIVFFlat** и m = bits = 8 (как в лекции)

Ответом будут 3 гистограммы скорости поиска (для каждого индекса по 1)


## Задание 3

Возьмите построенные в задании 1 эмбеддинги краткого содержания новостей и сделайте **IndexIVFPQ** с теми же параметрами, как в задании 2, но только по краткому содержанию новостей.


## Задание 4

Возьмите из группы test по 100 строк из каждой тематики новостей. Далее, если будете искать в индексе по заголовкам (как в задании 2), используйте заголовок новости, если будете искать в индексе по краткому содержанию (задание 3), то используйте краткое содержание.

**Вопрос**: Как много среди ближайших соседей в индексе новостей С ТОЙ ЖЕ ТЕМАТИКОЙ?

**Как на него ответить**: Разберем на примере COMEDY. Вы взяли 100 текстов из группы test с темой COMEDY. Сгенерируйте их эмбеддинги и для каждой из новостей найдите 10 ближайших соседей в индексе по заголовкам и в индексе по краткому содержанию. По полученным ближайшим соседям посчитайте, у скольких из соседей тема ТОЖЕ COMEDY.
Так вы получите 100 чисел для индекса по заголовкам и 100 чисел для индекса по краткому содержанию. 

Ответом будут 2 гистограммы для каждой из тематик. 
Понятно ли, почему гистограммы вышли именно такие как вышли?


## Задание 5

Поработайте асессором. Возьмите наиболее интересную для вас тему из группы test (например из предыдущего задания). Сохраните 5 ближайших соседей для каждого из этих запросов (прямо тексты возьмите). У вас получится датафрейм вида:

    Запрос 1 -> Сосед 1
    Запрос 1 -> Сосед 2
    Запрос 1 -> Сосед 3
    ...
    Запрос 100 -> Сосед 4
    Запрос 100 -> Сосед 5

Всего строк будет 500 (это не особо много, можно просмотреть глазами). Просмотрите получившиеся данные и для каждой строки проставьте "схожа тема у запроса и его найденного соседа или нет" (да, прямо глазами). Вы получите датафрейм вида:  

    Запрос 1 -> Сосед 1 -> Близко
    Запрос 1 -> Сосед 2 -> Близко
    Запрос 1 -> Сосед 3 -> Не близко
    ...
    Запрос 100 -> Сосед 4 -> Не близко
    Запрос 100 -> Сосед 5 -> Близко
    
    
Если считать, что "Близко" это 1, а "не близко" это 0, посчитайте, сколько в среднем у запроса среди ближайших соседей ответов, которые "не близко", без оглядки на то, какая у низ проставлена тема в поле category.