In [1]:
import sys
import pandas as pd
import numpy as np
import math
from scipy.spatial.distance import cosine
import xml.etree.ElementTree as ET
import pickle
import re

from nltk.corpus import stopwords

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer, HashingVectorizer
from sklearn.pipeline import Pipeline
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer
from sklearn.ensemble import GradientBoostingClassifier

In [3]:
from nltk.corpus import stopwords

stopwords.words('arabic')

['إذ',
 'إذا',
 'إذما',
 'إذن',
 'أف',
 'أقل',
 'أكثر',
 'ألا',
 'إلا',
 'التي',
 'الذي',
 'الذين',
 'اللاتي',
 'اللائي',
 'اللتان',
 'اللتيا',
 'اللتين',
 'اللذان',
 'اللذين',
 'اللواتي',
 'إلى',
 'إليك',
 'إليكم',
 'إليكما',
 'إليكن',
 'أم',
 'أما',
 'أما',
 'إما',
 'أن',
 'إن',
 'إنا',
 'أنا',
 'أنت',
 'أنتم',
 'أنتما',
 'أنتن',
 'إنما',
 'إنه',
 'أنى',
 'أنى',
 'آه',
 'آها',
 'أو',
 'أولاء',
 'أولئك',
 'أوه',
 'آي',
 'أي',
 'أيها',
 'إي',
 'أين',
 'أين',
 'أينما',
 'إيه',
 'بخ',
 'بس',
 'بعد',
 'بعض',
 'بك',
 'بكم',
 'بكم',
 'بكما',
 'بكن',
 'بل',
 'بلى',
 'بما',
 'بماذا',
 'بمن',
 'بنا',
 'به',
 'بها',
 'بهم',
 'بهما',
 'بهن',
 'بي',
 'بين',
 'بيد',
 'تلك',
 'تلكم',
 'تلكما',
 'ته',
 'تي',
 'تين',
 'تينك',
 'ثم',
 'ثمة',
 'حاشا',
 'حبذا',
 'حتى',
 'حيث',
 'حيثما',
 'حين',
 'خلا',
 'دون',
 'ذا',
 'ذات',
 'ذاك',
 'ذان',
 'ذانك',
 'ذلك',
 'ذلكم',
 'ذلكما',
 'ذلكن',
 'ذه',
 'ذو',
 'ذوا',
 'ذواتا',
 'ذواتي',
 'ذي',
 'ذين',
 'ذينك',
 'ريث',
 'سوف',
 'سوى',
 'شتان',
 'عدا',
 'عسى',
 'عل'

In [4]:
sys.path.insert(0, '../EVAL/scorer_v2.3/MAP_scripts/')
from ev import evaluate

In [5]:
def readXML(path):
    """
    Read XML file into a dictionary
    """
    tree = ET.parse(path)
    root = tree.getroot()
    
    dataset = pd.DataFrame(columns=['QID', 'QAID'], dtype=int)
    
    for Question in root:
        QID = int(Question.get('QID'))
        Qtext = Question.find('Qtext').text
        
        for QApair in Question.iter('QApair'): 
            QAID = int(QApair.get('QAID'))
            QArel = QApair.get('QArel')
            QAconf = QApair.get('QAconf')
            QAquestion = QApair.find('QAquestion').text
            QAanswer = QApair.find('QAanswer').text
            
            dataset = dataset.append({'QID': QID,
                                    'QAID': QAID,
                                    'Qtext': Qtext,
                                    'QAquestion': QAquestion,
                                    'QAanswer': QAanswer,
                                    'QArel': 0 if QArel == 'I' else 1,
                                    'QAconf': QAconf}, ignore_index=True)
            
            with open('../TEST/2017/PROCESSED/' + str(QID) + '/' + str(QID) + '_q.lemma', encoding='utf-8') as f:
                Qtext_lemmatized = ''.join(f.readlines())
                Qtext_lemmatized = ' '.join([lemma.strip() for lemma in re.findall(r'Lemma:(.*?)BW:', Qtext_lemmatized)])
                
            with open('../TEST/2017/PROCESSED/' + str(QID) + '/' + str(QAID) + '_qaq.lemma', encoding='utf-8') as f:
                QAquestion_lemmatized = ''.join(f.readlines())
                QAquestion_lemmatized = ' '.join([lemma.strip() for lemma in re.findall(r'Lemma:(.*?)BW:', QAquestion_lemmatized)])
            
            with open('../TEST/2017/PROCESSED/' + str(QID) + '/' + str(QAID) + '_qaq.lemma', encoding='utf-8') as f:
                QAanswer_lemmatized = ''.join(f.readlines())
                QAanswer_lemmatized = ' '.join([lemma.strip() for lemma in re.findall(r'Lemma:(.*?)BW:', QAanswer_lemmatized)])
                
            dataset_lemmatized = dataset.append({'QID': QID,
                                    'QAID': QAID,
                                    'Qtext': Qtext_lemmatized,
                                    'QAquestion': QAquestion_lemmatized,
                                    'QAanswer': QAanswer_lemmatized,
                                    'QArel': 0 if QArel == 'I' else 1,
                                    'QAconf': QAconf}, ignore_index=True)
            
    dataset.set_index(['QID', 'QAID'], inplace=True)
    return dataset, dataset_lemmatized

In [6]:
test_dataset, lemmatized_test_dataset = readXML('../TEST/2017/SemEval2017-Task3-CQA-MD-test.xml')

In [7]:
test_dataset = test_dataset.sort_index(level=0, ascending=[False, True])
test_dataset = test_dataset.reset_index().drop_duplicates().set_index(['QID', 'QAID'])

lemmatized_test_dataset = lemmatized_test_dataset.sort_index(level=0, ascending=[False, True])
lemmatized_test_dataset = lemmatized_test_dataset.reset_index().drop_duplicates().set_index(['QID', 'QAID'])

In [8]:
from nltk import wordpunct_tokenize
from nltk.stem import ISRIStemmer

class StemTokenizer(object):
    def __init__(self):
        self.wnl = ISRIStemmer()
    def __call__(self, doc):
         return [self.wnl.stem(t) for t in wordpunct_tokenize(doc)]

In [11]:
model = Pipeline([('tfidf', TfidfVectorizer(min_df=1, max_df=0.1, tokenizer=StemTokenizer(), stop_words=stopwords.words('arabic'), smooth_idf=False, sublinear_tf=True, norm='l2', max_features=10000)),
                ('classifier', GradientBoostingClassifier(10))])
model.fit(test_dataset['Qtext'])

ValueError: bad input shape ()

In [641]:
scores = model.predict()

In [642]:
test_dataset['score'] = [0 if similarity < 0 or math.isnan(similarity) else round(similarity,4) for similarity in similarities ]

In [643]:
test_dataset['relevance'] = ['true' if similarity > 0.5 else 'false' for similarity in similarities]

In [644]:
test_dataset['rank'] = 0

In [645]:
test_dataset.to_csv('../EVAL/SemEval2017-Task3-CQA-MD-test-lsa-mlp.xml.pred', sep='\t', header=None, columns=['QID', 'QAID', 'rank', 'score', 'relevance' ])

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_nested_tuple(tup)


In [646]:
test_dataset = test_dataset.sort_index(level=0, ascending=[False, True])
test_dataset = test_dataset.reset_index().drop_duplicates().set_index(['QID', 'QAID'])
test_dataset

Unnamed: 0_level_0,Unnamed: 1_level_0,QAanswer,QAconf,QAquestion,QArel,Qtext,score,relevance,rank
QID,QAID,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
69579,43523,يعود تطبل البطن أو ما يعرف بغازات البطن الى ال...,,اعاني من سرعة نبضات القلب وضيق في التنفس وألم ...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.0703,false,0
69579,51753,قبل أن تبدأ ببرنامج المشي، يتطلب منك أن تعرف ف...,,هل المشي الغير سريع والذي لا يحدث خفقان سريع و...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.1986,false,0
69579,61846,التهاب الدم أو ما يعرف طبيا بتعفن الدم هو أحد ...,,ماهم التهاب الدم وماهي اعراضه وكيفية علاجه؟,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.1333,false,0
69579,63972,التهاب الكلى هو أمر شائع لدى مرضى الذئبة و يحد...,,أثار مرض الذئبة الحمراء على الكلى والعلاج الفعال,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.1292,false,0
69579,117912,الأول هو اخْتِبار أَضْدادِ الحالَّةِ العُقْدِي...,,السلام عليكم قمت مؤخرا باجراء تحاليل aslo و cr...,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.1102,false,0
69579,229172,العصب بنقل الايعازات الحسية والحركية من الجهاز...,,ما الاضرار الناتجة عن زيادة نشاط العصب الحائر ...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.3086,false,0
69579,289894,لا ينصح باستخدام الكورتيزون بهدف زيادة الوزن ل...,,اريد ان اعرف ما هى جرعات دواء ال dexamethasone...,0.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.3320,false,0
69579,684584,غالبا هذا سببه الرهاب الاجتماعي و رغم ذلك بجب ...,,لدى زياد في ضربات القلب و رعشة بمجرد حدوث أمر ...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.2803,false,0
69579,880238,نبدأ بعلاج دوائي اذا لم ينفع بنعمل الكي,,جوزي عنده نبضات القلب سريعه بتوصل 145 وتضخم في...,1.0,عدم انتظام ضربات القلب بعد الاصابة بالتهاب الل...,0.1005,false,0
69578,47192,ممكن ان يكون شئ طبيعي لكن للاطمئنان انصحك بمرا...,,مرحبا انا عمري 25 وغير متزوجة دورتي كانت تاتي ...,0.0,متزوجة منذ شهرين في الشهر الاول جاتني دورة يوم...,0.2398,false,0


In [647]:
MAP, Accuracy, P, R, F1  = evaluate('../EVAL/SemEval2017-Task3-CQA-MD-test.xml.subtaskD.relevancy', '../EVAL/SemEval2017-Task3-CQA-MD-test-lsa-mlp.xml.pred')

In [648]:
a

MAP: 0.6136
Accuracy: 0.6215
Precision: 0.8295
Recall: 0.0444
F1: 0.0842
