In [1]:
import os
import sys
import math
import pickle

import xml.etree.ElementTree as ET
import pandas as pd
import numpy as np

sys.path.insert(0, '../EVAL/scorer_v2.3/MAP_scripts/')
from ev import evaluate

In [2]:
VALIDATION_SPLIT = 0.2
MAX_NB_WORDS = 20000
MAX_SEQUENCE_LENGTH = 1000
EMBEDDING_DIM = 128

In [3]:
def readXML(path):
    """
    Read XML file into a dictionary
    """
    tree = ET.parse(path)
    root = tree.getroot()
    
    dataset = pd.DataFrame(columns=['QID', 'QAID'], dtype=int)
    
    for Question in root:
        QID = int(Question.get('QID'))
        Qtext = Question.find('Qtext').text
        
        for QApair in Question.iter('QApair'): 
            QAID = int(QApair.get('QAID'))
            QArel = QApair.get('QArel')
            QAconf = QApair.get('QAconf')
            QAquestion = QApair.find('QAquestion').text
            QAanswer = QApair.find('QAanswer').text
            
            dataset = dataset.append({'QID': QID,
                                    'QAID': QAID,
                                    'Qtext': Qtext,
                                    'QAquestion': QAquestion,
                                    'QAanswer': QAanswer,
                                    'QArel': 0 if QArel == 'I' else 1,
                                    'QAconf': QAconf}, ignore_index=True)
            
    dataset.set_index(['QID', 'QAID'], inplace=True)
    return dataset

In [4]:
train_dataset = readXML('../TRAIN/SemEval2016-Task3-CQA-MD-train.xml')

In [5]:
test_dataset = readXML('../TEST/2017/SemEval2017-Task3-CQA-MD-test.xml')

In [42]:
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical

texts_train = train_dataset['Qtext'] + train_dataset['QAquestion'] + train_dataset['QAanswer']
labels_train = train_dataset['QArel']

texts_test = test_dataset['Qtext'] + test_dataset['QAquestion']  + test_dataset['QAanswer']
labels_test = test_dataset['QArel']

labels_index = {'1.0': 1, '0.0':0}

tokenizer = Tokenizer(num_words=MAX_NB_WORDS)
tokenizer.fit_on_texts(texts_train.append(texts_test))

sequences_train = tokenizer.texts_to_sequences(texts_train)
sequences_test = tokenizer.texts_to_sequences(texts_test)


word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

data_train = pad_sequences(sequences_train, maxlen=MAX_SEQUENCE_LENGTH)
data_test = pad_sequences(sequences_test, maxlen=MAX_SEQUENCE_LENGTH)

labels_train = to_categorical(np.asarray(labels_train))
labels_test = to_categorical(np.asarray(labels_test))

print('Training Set:')
print('Shape of data tensor:', data_train.shape)
print('Shape of label tensor:', labels_train.shape)

print('Test Set:')
print('Shape of data tensor:', data_test.shape)
print('Shape of label tensor:', labels_test.shape)

nb_validation_samples = int(VALIDATION_SPLIT * data_train.shape[0])

x_train = data_train[:-nb_validation_samples]
y_train = labels_train[:-nb_validation_samples]
x_val = data_train[-nb_validation_samples:]
y_val = labels_train[-nb_validation_samples:]
x_test = data_test
y_test = labels_test

Found 176398 unique tokens.
Training Set:
Shape of data tensor: (30411, 1000)
Shape of label tensor: (30411, 2)
Test Set:
Shape of data tensor: (12581, 1000)
Shape of label tensor: (12581, 2)


In [43]:
embeddings_index = {}

embeddings = pickle.load(open('embeddings.pic', 'rb'))
dictionary = pickle.load(open('dictionary.pic', 'rb'))

for word in dictionary.keys():
    embeddings_index[word] = embeddings[dictionary[word]]

print('Found %s word vectors.' % len(embeddings_index))

Found 100000 word vectors.


In [44]:
embedding_matrix = np.zeros((len(word_index) + 1, EMBEDDING_DIM))
for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        embedding_matrix[i] = embedding_vector

In [55]:
from keras.layers import Embedding

embedding_layer = Embedding(len(word_index) + 1,
                           EMBEDDING_DIM,
                           weights=[embedding_matrix],
                           input_length=MAX_SEQUENCE_LENGTH,
                           trainable=False)

In [65]:
from keras.layers import Conv1D, MaxPooling1D, Flatten, Dense
from keras import Model, Input

sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32')
embedded_sequences = embedding_layer(sequence_input)

x = Conv1D(128, 5, activation='relu')(embedded_sequences)
x = MaxPooling1D(5)(x)
x = Conv1D(128, 5, activation='relu')(x)
x = MaxPooling1D(5)(x)
x = Conv1D(128, 5, activation='relu')(x)
x = MaxPooling1D(35)(x)
x = Flatten()(x)
x = Dense(128, activation='relu')(x)
preds = Dense(len(labels_index), activation='softmax')(x)

model = Model(sequence_input, preds)
model.compile(loss='categorical_crossentropy',
             optimizer='rmsprop',
             metrics=['acc'])

model.fit(x_train, y_train, validation_data=(x_val, y_val),
         epochs=20, batch_size=30)

Train on 24329 samples, validate on 6082 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x19c1982f630>

In [66]:
scores_test = model.predict(x_test)

In [67]:
scores_test

array([[ 0.25327682,  0.74672318],
       [ 0.63319665,  0.36680329],
       [ 0.94194847,  0.05805152],
       ..., 
       [ 0.04637901,  0.95362097],
       [ 0.01016072,  0.98983932],
       [ 0.90257853,  0.09742147]], dtype=float32)

In [68]:
test_dataset['score'] = [0 if score[0] < 0 or math.isnan(score[0]) else round(score[0],4) for score in scores_test ]
test_dataset['relevance'] = ['true' if score[0] > 0.5 else 'false' for score in scores_test]
test_dataset['rank'] = 0

In [69]:
test_dataset

Unnamed: 0_level_0,Unnamed: 1_level_0,QAanswer,QAconf,QAquestion,QArel,Qtext,score,relevance,rank
QID,QAID,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
69579,43523,يعود تطبل البطن أو ما يعرف بغازات البطن الى ال...,,اعاني من سرعة نبضات القلب وضيق في التنفس وألم ...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.2533,false,0
69579,51753,قبل أن تبدأ ببرنامج المشي، يتطلب منك أن تعرف ف...,,هل المشي الغير سريع والذي لا يحدث خفقان سريع و...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.6332,true,0
69579,61846,التهاب الدم أو ما يعرف طبيا بتعفن الدم هو أحد ...,,ماهم التهاب الدم وماهي اعراضه وكيفية علاجه؟,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.9419,true,0
69579,63972,التهاب الكلى هو أمر شائع لدى مرضى الذئبة و يحد...,,أثار مرض الذئبة الحمراء على الكلى والعلاج الفعال,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.0262,false,0
69579,117912,الأول هو اخْتِبار أَضْدادِ الحالَّةِ العُقْدِي...,,السلام عليكم قمت مؤخرا باجراء تحاليل aslo و cr...,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.0033,false,0
69579,229172,العصب بنقل الايعازات الحسية والحركية من الجهاز...,,ما الاضرار الناتجة عن زيادة نشاط العصب الحائر ...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.8022,true,0
69579,289894,لا ينصح باستخدام الكورتيزون بهدف زيادة الوزن ل...,,اريد ان اعرف ما هى جرعات دواء ال dexamethasone...,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.9993,true,0
69579,684584,غالبا هذا سببه الرهاب الاجتماعي و رغم ذلك بجب ...,,لدى زياد في ضربات القلب و رعشة بمجرد حدوث أمر ...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.0186,false,0
69579,880238,نبدأ بعلاج دوائي اذا لم ينفع بنعمل الكي,,جوزي عنده نبضات القلب سريعه بتوصل 145 وتضخم في...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.4906,false,0
69578,47192,ممكن ان يكون شئ طبيعي لكن للاطمئنان انصحك بمرا...,,مرحبا انا عمري 25 وغير متزوجة دورتي كانت تاتي ...,0.0,متزوجة منذ شهرين في الشهر الاول جاتني دورة يوم...,0.3428,false,0


In [70]:
test_dataset = test_dataset.sort_index(level=0, ascending=[False, True])
test_dataset = test_dataset.reset_index().drop_duplicates().set_index(['QID', 'QAID'])

In [71]:
test_dataset.to_csv('../EVAL/SemEval2017-Task3-CQA-MD-test-cnn.xml.pred', sep='\t', header=None, columns=['QID', 'QAID', 'rank', 'score', 'relevance' ])

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_nested_tuple(tup)


In [72]:
MAP, Accuracy, P, R, F1  = evaluate('../EVAL/SemEval2017-Task3-CQA-MD-test.xml.subtaskD.relevancy', '../EVAL/SemEval2017-Task3-CQA-MD-test-cnn.xml.pred')

In [73]:
print("MAP: %5.4f" % MAP)
print("Accuracy: %5.4f" % Accuracy)
print("Precision: %5.4f" % P)
print("Recall: %5.4f" % R)
print("F1: %5.4f" % F1)

MAP: 0.4893
Accuracy: 0.4924
Precision: 0.3851
Recall: 0.4925
F1: 0.4323
