In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from itertools import combinations

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

In [2]:
titles = pd.read_csv('docs_titles.tsv', sep='\t') # читаем заголовки

In [3]:
train = pd.read_csv('train_groups.csv') # читаем данные для train

In [9]:
target = train.drop(['doc_id', 'group_id'], 1) # выделяем их них таргет

In [10]:
def prep_pairs(df): # создает пары документов для каждой группы

    doc_indices = df.loc[:, ['pair_id', 'doc_id']]
    
    df = df.groupby('group_id')['pair_id'].apply(lambda x: list(combinations(x.values, 2)))\
        .apply(pd.Series).stack().reset_index(level=0, name='pair_id')

    df['id_1'] = df['pair_id'].apply(lambda x: tuple(x)[1])
    df['id_2'] = df['pair_id'].apply(lambda x: tuple(x)[0])
    df_inv = df.copy()
    df_inv['id_1'], df_inv['id_2'] = df_inv['id_2'], df_inv['id_1']
    df = pd.concat([df, df_inv])
    del df_inv
    
    # merge target
    df = df.drop(['pair_id'], 1)
    df = pd.merge(df, target, how='left', left_on='id_1', right_on='pair_id')

    columns = list(df.columns)
    columns[4] = 'target_1'
    df.columns = columns

    df = df.drop(['pair_id'], 1)
    df = pd.merge(df, target, how='left', left_on='id_2', right_on='pair_id')

    columns = list(df.columns)
    columns[5] = 'target_2'
    df.columns = columns

    df = df.drop(['pair_id'], 1)
    df['target'] = df['target_1'] * df['target_2']
    df = df.drop(['target_1', 'target_2'], 1)

    # merge doc indices
    df = pd.merge(df, doc_indices, how='left', left_on='id_1', right_on='pair_id')
    df = df.drop(['pair_id'], 1)
    columns = list(df.columns)
    columns[4] = 'doc_id_1'
    df.columns = columns

    df = pd.merge(df, doc_indices, how='left', left_on='id_2', right_on='pair_id')
    df = df.drop(['pair_id'], 1)
    columns = list(df.columns)
    columns[5] = 'doc_id_2'
    df.columns = columns

    # merge titles

    df = pd.merge(df, titles, how='left', left_on='doc_id_1', right_on='doc_id')
    df = df.drop(['doc_id'], 1)
    
    df = pd.merge(df, titles, how='left', left_on='doc_id_2', right_on='doc_id')
    df = df.drop(['doc_id'], 1)
    
    return df

In [11]:
df_train = prep_pairs(train)

In [12]:
df_train.head()

Unnamed: 0,group_id,id_1,id_2,target,doc_id_1,doc_id_2,title_x,title_y
0,1,2,1,0,14829,15731,"Ваз 2107 оптом в Сочи. Сравнить цены, купить п...",ВАЗ 21213 | Замена подшипников ступицы | Нива
1,1,3,1,0,15764,15731,Купить ступица Лада калина2. Трансмиссия - пер...,ВАЗ 21213 | Замена подшипников ступицы | Нива
2,1,4,1,0,17669,15731,Классика 21010 - 21074,ВАЗ 21213 | Замена подшипников ступицы | Нива
3,1,5,1,0,14852,15731,Ступица Нива — замена подшипника своими руками,ВАЗ 21213 | Замена подшипников ступицы | Нива
4,1,6,1,0,15458,15731,ВАЗ 2110,ВАЗ 21213 | Замена подшипников ступицы | Нива


In [13]:
df_train.shape

(1086454, 8)

`df_train` содержит всевозможные пары документов для каждой группы. `title_x` и `title_y` - названия первого и второго документа в каждой паре. `id_1` и `id_2` - это бывшие индексы `pair_id` для первого и второго документа в паре, `doc_id_1` и `doc_id_2` - это их индексы `doc_id`.