In [1]:
import numpy as np
import pandas as pd
from sklearn.metrics import f1_score, precision_score, recall_score
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [2]:
def lang_iou(x, y):
    x = set(x.split('+'))
    y = set(y.split('+'))
    inter = x.intersection(y)
    union = x.union(y)
    iou = len(inter) / len(union)
    return iou

In [3]:
data_train_link = './NLP_data/master/csv/master_train.csv'
df_train = pd.read_csv(data_train_link,index_col=0)
df_train.shape


(123034, 6)

In [4]:
p_ious = []
for _, row in df_train.iterrows():
    p_iou = lang_iou(row.phrase1, row.phrase2)
    p_ious.append(p_iou)

df_train['p_ious'] = np.asarray(p_ious)
ious = list(set(df_train.p_ious.tolist())) 
ious.sort()

In [5]:
for iou in ious:
    len_true = len(df_train[(df_train.p_ious==iou)&(df_train.ytrue==True)].ytrue.tolist())
    len_false = len(df_train[(df_train.p_ious==iou)&(df_train.ytrue==False)].ytrue.tolist())
    print(iou,":",len_true,len_false)

0.0 : 2384 27509
0.06666666666666667 : 1 0
0.07142857142857142 : 0 5
0.07692307692307693 : 6 14
0.08333333333333333 : 22 55
0.09090909090909091 : 80 185
0.1 : 217 591
0.1111111111111111 : 510 1641
0.125 : 1168 3678
0.14285714285714285 : 1821 7084
0.15384615384615385 : 7 5
0.16666666666666666 : 2695 9929
0.18181818181818182 : 52 56
0.2 : 2731 9388
0.21428571428571427 : 0 3
0.2222222222222222 : 372 562
0.23076923076923078 : 1 2
0.25 : 2312 5370
0.2727272727272727 : 22 13
0.2857142857142857 : 1922 2626
0.3 : 53 59
0.3076923076923077 : 1 1
0.3333333333333333 : 3874 4140
0.35714285714285715 : 1 0
0.36363636363636365 : 10 6
0.375 : 448 292
0.4 : 4207 2622
0.42857142857142855 : 1004 453
0.4444444444444444 : 54 44
0.45454545454545453 : 2 4
0.5 : 5876 1691
0.5384615384615384 : 0 1
0.5555555555555556 : 14 7
0.5714285714285714 : 308 67
0.6 : 2320 367
0.625 : 24 14
0.6666666666666666 : 2254 334
0.7142857142857143 : 52 7
0.75 : 2385 272
0.8 : 573 55
0.8333333333333334 : 86 4
0.8571428571428571 : 7 

In [6]:
for iou in ious:
    len_true = len(df_train[(df_train.p_ious==iou)&(df_train.ytrue==True)].ytrue.tolist())
    len_false = len(df_train[(df_train.p_ious==iou)&(df_train.ytrue==False)].ytrue.tolist())
    index_True= df_train[(df_train.p_ious==iou)&(df_train.ytrue==True)].index.tolist()
    index_False = df_train[(df_train.p_ious==iou)&(df_train.ytrue==False)].index.tolist()
    n_drop = abs(len_false-len_true)
    flag = True
    if(len_true>len_false):
        index= index_True
    else:
        index = index_False
        flag = False
    
    drop_indices = np.random.choice(index, n_drop, replace=False)
    df_train=df_train.drop(drop_indices)
        

In [7]:
for iou in ious:
    len_true = len(df_train[(df_train.p_ious==iou)&(df_train.ytrue==True)].ytrue.tolist())
    len_false = len(df_train[(df_train.p_ious==iou)&(df_train.ytrue==False)].ytrue.tolist())
    print(iou,":",len_true,len_false)

0.0 : 2384 2384
0.06666666666666667 : 0 0
0.07142857142857142 : 0 0
0.07692307692307693 : 6 6
0.08333333333333333 : 22 22
0.09090909090909091 : 80 80
0.1 : 217 217
0.1111111111111111 : 510 510
0.125 : 1168 1168
0.14285714285714285 : 1821 1821
0.15384615384615385 : 5 5
0.16666666666666666 : 2695 2695
0.18181818181818182 : 52 52
0.2 : 2731 2731
0.21428571428571427 : 0 0
0.2222222222222222 : 372 372
0.23076923076923078 : 1 1
0.25 : 2312 2312
0.2727272727272727 : 13 13
0.2857142857142857 : 1922 1922
0.3 : 53 53
0.3076923076923077 : 1 1
0.3333333333333333 : 3874 3874
0.35714285714285715 : 0 0
0.36363636363636365 : 6 6
0.375 : 292 292
0.4 : 2622 2622
0.42857142857142855 : 453 453
0.4444444444444444 : 44 44
0.45454545454545453 : 2 2
0.5 : 1691 1691
0.5384615384615384 : 0 0
0.5555555555555556 : 7 7
0.5714285714285714 : 67 67
0.6 : 367 367
0.625 : 14 14
0.6666666666666666 : 334 334
0.7142857142857143 : 7 7
0.75 : 272 272
0.8 : 55 55
0.8333333333333334 : 4 4
0.8571428571428571 : 0 0
1.0 : 272 27

In [13]:
df_train.shape

(53496, 8)

In [9]:
from sklearn.utils import shuffle
df_train = shuffle(df_train)

In [10]:
df_train=df_train.sort_values(by=['image'])

In [11]:
df_train=df_train.reset_index()

In [12]:
df_train.to_csv("new_master_train.csv")