In [136]:
import numpy as np
from sklearn.preprocessing import OneHotEncoder
import tensorflow as tf
import pandas as pd
from collections import Counter
from ast import literal_eval
import itertools
import math

In [2]:
PATH_TO_TRAIN = "../../data/train.tsv"
PATH_TO_TEST = "../../data/public.tsv"
PATH_TO_VOCAB = "../../data/vocab.txt"

In [3]:
train_column_names = ['context_id', 'context_2', 'context_1', 
                           'context_0', 'reply_id', 'reply', 'label', 'confidence']

In [4]:
test_column_names = ['context_id', 'context_2', 'context_1', 
                           'context_0', 'reply_id', 'reply']

In [7]:
train = pd.read_csv(PATH_TO_TRAIN, error_bad_lines=False, sep = '[  . ? , !]?\t', 
                   header=None)
train.columns = train_column_names

  


In [8]:
train.head()

Unnamed: 0,context_id,context_2,context_1,context_0,reply_id,reply,label,confidence
0,22579918886,"кликни на меня а потом на надпись "" видео - зв...","о , я тебя вижу","ладно , повесь трубку",0,не могу,good,0.875352
1,22579918886,"кликни на меня а потом на надпись "" видео - зв...","о , я тебя вижу","ладно , повесь трубку",1,"нет , звонить буду я",neutral,0.900968
2,22579918886,"кликни на меня а потом на надпись "" видео - зв...","о , я тебя вижу","ладно , повесь трубку",2,"слушай , я не мог уйти",bad,0.88432
3,22579918886,"кликни на меня а потом на надпись "" видео - зв...","о , я тебя вижу","ладно , повесь трубку",3,я не прекращу звонить,good,0.98253
4,22579918886,"кликни на меня а потом на надпись "" видео - зв...","о , я тебя вижу","ладно , повесь трубку",4,я звоню им,good,0.838054


## Number of utterances

In [41]:
line_stats_list = list(train.context_2.isnull() * 1 + train.context_1.isnull() * 1 + train.context_0.isnull() * 1)

In [42]:
line_stats_rangeindex = train.context_2.isnull() * 1 + train.context_1.isnull() * 1 + train.context_0.isnull() * 1

In [51]:
Counter(line_stats_rangeindex)

Counter({0: 48390, 1: 24082, 2: 25043, 3: 18})

In [49]:
nan_lines_indices = line_stats_rangeindex[line_stats_rangeindex == 3].index

In [53]:
assert len(nan_lines_indices) == Counter(line_stats_rangeindex)[3]

In [50]:
single_lines_indices = line_stats_rangeindex[line_stats_rangeindex == 2].index

In [54]:
assert len(single_lines_indices) == Counter(line_stats_rangeindex)[2]

In [55]:
two_lines_indices = line_stats_rangeindex[line_stats_rangeindex == 1].index

In [56]:
assert len(two_lines_indices) == Counter(line_stats_rangeindex)[1]

In [57]:
three_lines_indices = line_stats_rangeindex[line_stats_rangeindex == 0].index

## Get train percentage

In [58]:
len(three_lines_indices) / len(line_stats_rangeindex)

0.4961397680784965

In [59]:
len(two_lines_indices) / len(line_stats_rangeindex)

0.24691130181579568

In [62]:
len(single_lines_indices) / len(line_stats_rangeindex)

0.2567643771851578

# Get test stats

In [63]:
test = pd.read_csv(PATH_TO_TEST, error_bad_lines=False, sep = '[  . ? , !]?\t', 
                   header=None)
test.columns = test_column_names

  


In [64]:
test.head()

Unnamed: 0,context_id,context_2,context_1,context_0,reply_id,reply
0,138920940977,"знаешь , я иногда подумываю , что тебе надо пр...",не - а,нет,0,неа .
1,138920940977,"знаешь , я иногда подумываю , что тебе надо пр...",не - а,нет,1,"нет , не хочу ."
2,138920940977,"знаешь , я иногда подумываю , что тебе надо пр...",не - а,нет,2,нет .
3,138920940977,"знаешь , я иногда подумываю , что тебе надо пр...",не - а,нет,3,"конечно , нет ."
4,138920940977,"знаешь , я иногда подумываю , что тебе надо пр...",не - а,нет,4,"разумеется , нет ."


In [65]:
test_line_stats_list = list(test.context_2.isnull() * 1 + test.context_1.isnull() * 1 + test.context_0.isnull() * 1)

In [66]:
test_line_stats_rangeindex = test.context_2.isnull() * 1 + \
                    test.context_1.isnull() * 1 + test.context_0.isnull() * 1

In [67]:
Counter(test_line_stats_rangeindex)

Counter({0: 5022, 1: 2526, 2: 2420})

In [68]:
test_single_lines_indices = test_line_stats_rangeindex[test_line_stats_rangeindex == 2].index
test_two_lines_indices = test_line_stats_rangeindex[test_line_stats_rangeindex == 1].index
test_three_lines_indices = test_line_stats_rangeindex[test_line_stats_rangeindex == 0].index

In [71]:
len(test_single_lines_indices) / len(test_line_stats_rangeindex)

0.242776886035313

In [72]:
len(test_two_lines_indices) / len(test_line_stats_rangeindex)

0.25341091492776885

In [73]:
len(test_three_lines_indices) / len(test_line_stats_rangeindex)

0.5038121990369181

## Words distribution

In [None]:
f = lambda x: len(x["review"].split("disappointed")) -1
reviews["disappointed"] = reviews.apply(f, axis=1)

In [82]:
f = lambda x, y: x[y].split()

In [88]:
train.loc[three_lines_indices, ['context_2']].loc[0]

context_2    кликни на меня а потом на надпись " видео - зв...
Name: 0, dtype: object

In [102]:
def count_words_in_column(dataframe, column_name, indices=[0]):
    splitted_words =  [x[0].split() for x in dataframe.loc[indices, [column_name]].values]

In [107]:
splitted_words = [x[0].split() for x in train.loc[three_lines_indices, ['context_2']].values]

In [108]:
lenghts = [len(x) for x in splitted_words]

In [142]:
for line in train.loc[two_lines_indices, ['context_2', 'context_1', 'context_0']].values[:1]:
    print (line)
    print (line[~pd.isnull(line)])
    print ("".join(line[~pd.isnull(line)]).split())

[nan 'не это ' 'хотя , какого <CENSORED> ']
['не это ' 'хотя , какого <CENSORED> ']
['не', 'это', 'хотя', ',', 'какого', '<CENSORED>']


In [145]:
three_lines_lenghts = []
for line in train.loc[two_lines_indices, ['context_2', 'context_1', 'context_0']].values[:10]:
    words = ("".join(line[~pd.isnull(line)]).split())
    three_lines_lenghts.append(len(words))

In [146]:
print (three_lines_lenghts)

[6, 6, 6, 6, 6, 6, 16, 16, 16, 16]


In [110]:
np.mean(lenghts)

5.5956602603843768

In [None]:
def count_words_in_column(dataframe, column_name, indices=[0]):
    splitted_words =  [x[0].split() for x in dataframe.loc[indices, [column_name]].values]

def get_words_distibution_stats(dataframe, columns=['context_2', 'context_1', 'context_0'],
                               single_lines_indices, two_lines_indices, three_lines_indices):
    # three lines
    