In [290]:
import pickle
import pandas as pd
import numpy as np
import scipy
import concurrent.futures as cf
from pymongo import MongoClient
from pprint import pprint
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.metrics.pairwise import cosine_similarity

In [278]:
df = pd.read_csv('question_data.csv')

In [279]:
code = df['code'].values.tolist()
code

['2D3Y1_163',
 '2D3Y3_74',
 '2D4Y3_24',
 '2D4Y3_26',
 '2D4Y3_27',
 '2D3Y2_48',
 '2D3Y2_74',
 '2D3Y2_76',
 '2D3Y2_83',
 '2D3Y2_91',
 '2D3Y2_171',
 '2D3Y2_175',
 '2D3Y3_52',
 '2D3Y3_66',
 '2D3Y3_80',
 '2D4Y3_16',
 '2D3Y2_39',
 '2D3Y2_54',
 '2D3Y2_47',
 '2D3Y2_56',
 '2D3Y3_60',
 '2D3Y3_26',
 '2D3Y2_105',
 '2D3Y2_60',
 '2D3Y3_71',
 '2D3Y3_96',
 '2D4Y2_49',
 '2D4Y2_61',
 '2D4Y2_65',
 '2D3Y2_34',
 '2D3Y2_46',
 '2D3Y2_49',
 '2D3Y2_80',
 '2D3Y2_72',
 '2D3Y2_82',
 '2D3Y3_12',
 '2D3Y3_28',
 '2D4Y2_57',
 '2D4Y3_10',
 '2D4Y3_17',
 '2D4Y3_28',
 '2D3Y2_35',
 '2D3Y2_42',
 '2D3Y2_43',
 '2D3Y3_3',
 '2D3Y2_100',
 '2D3Y2_111',
 '2D3Y2_179',
 '2D3Y3_98',
 '2D4B1_68',
 '2D4Y2_48',
 '2D4Y2_64',
 '2D4Y3_1',
 '2D4Y3_2',
 '2D3Y2_50',
 '2D3Y2_55',
 '2D3Y2_65',
 '2D3Y3_40',
 '2D3Y2_94',
 '2D3Y3_30',
 '2D3Y3_37',
 '2D3Y3_57',
 '2D3Y3_67',
 '2D3Y3_72',
 '2D3Y3_81',
 '2D4B1_41',
 '2D4Y2_45',
 '2D4Y2_59',
 '2D3Y2_109',
 '2D3Y3_54',
 '2D3Y3_39',
 '2D3Y3_8',
 '2D3Y3_6',
 '2D3Y3_25',
 '2D3Y3_55',
 '2D3Y3_73',
 '2D3Y3_8

In [280]:
client = MongoClient('mongodb://tuan.nva:data-tuan.nva@mongo.data-advising.net:27017/?authSource=QuestionDB_dev&authMechanism=SCRAM-SHA-256&readPreference=primary&appname=MongoDB%20Compass&directConnection=true&ssl=false')
db = client['Service_Exam_dev']
coll = db['questions']

In [281]:
def preprocessing(question) -> dict:
    bar = dict(code=question['code'])
    bar['text'] = ' '.join([foo['content'] for foo in question['question_contents'] if foo['variety'] == 'TEXT'])
    return bar

In [282]:
list_questions = list(coll.find({'code': {'$in': code}}, {'_id': 0, 'code': 1, 'question_contents': 1}))

In [283]:
%%time

with cf.ThreadPoolExecutor() as executor:
    preprocessed = list(executor.map(preprocessing, list_questions))

Wall time: 1.59 s


In [284]:
preprocessed

[{'code': '2D1X5_59',
  'text': 'Biết hàm số $y=ax^4+bx^2+c$ có đồ thị như hình vẽ bên. Mệnh đề nào dưới đây là đúng?'},
 {'code': '2D1X5_60',
  'text': 'Hãy xác định các số thực $a$ và $b$ để hàm số $y=\\dfrac{ax+2}{x+b}$ có đồ thị như hình vẽ bên.'},
 {'code': '2D1X5_68',
  'text': 'Đường cong ở hình bên là đồ thị của hàm số nào trong các hàm số sau?'},
 {'code': '2D1X5_70',
  'text': 'Cho hàm số $y=\\dfrac{ax+b}{cx+d}$ có đồ thị như hình vẽ bên. Mệnh đề nào sau đây đúng?'},
 {'code': '2D1X5_76',
  'text': 'Đồ thị sau là đồ thị của hàm số được cho trong 4 đáp án A, B, C, D dưới đây. Đó là hàm số nào?'},
 {'code': '2D1X5_86', 'text': 'Đồ thị bên là của hàm số nào?'},
 {'code': '2D1X5_106', 'text': 'Đồ thị nào có đúng một điểm cực trị?'},
 {'code': '2D1X5_119',
  'text': 'Cho hàm số $y=f\\left( x \\right)$ có bảng biến thiên như sau. Dựa vào bảng biến thiên, tìm mệnh đề đúng trong các mệnh đề sau đây.'},
 {'code': '2D1X5_138',
  'text': 'Cho hàm số $y=f\\left(x\\right)$ có bảng biến th

In [285]:
code = [foo['code'] for foo in preprocessed]
corpus = [foo['text'] for foo in preprocessed]

In [286]:
corpus

['Biết hàm số $y=ax^4+bx^2+c$ có đồ thị như hình vẽ bên. Mệnh đề nào dưới đây là đúng?',
 'Hãy xác định các số thực $a$ và $b$ để hàm số $y=\\dfrac{ax+2}{x+b}$ có đồ thị như hình vẽ bên.',
 'Đường cong ở hình bên là đồ thị của hàm số nào trong các hàm số sau?',
 'Cho hàm số $y=\\dfrac{ax+b}{cx+d}$ có đồ thị như hình vẽ bên. Mệnh đề nào sau đây đúng?',
 'Đồ thị sau là đồ thị của hàm số được cho trong 4 đáp án A, B, C, D dưới đây. Đó là hàm số nào?',
 'Đồ thị bên là của hàm số nào?',
 'Đồ thị nào có đúng một điểm cực trị?',
 'Cho hàm số $y=f\\left( x \\right)$ có bảng biến thiên như sau. Dựa vào bảng biến thiên, tìm mệnh đề đúng trong các mệnh đề sau đây.',
 'Cho hàm số $y=f\\left(x\\right)$ có bảng biến thiên như hình vẽ. Khẳng định nào sau đây là đúng?',
 'Cho hàm số $y=f(x)$ xác định trên $\\mathbb{R}\\backslash\\{2\\}$, liên tục trên mỗi khoảng xác định và có bảng biến thiên sau. Khẳng định nào dưới đây là khẳng định $\\textbf{sai}$?',
 'Cho hàm số $y=f(x)$ liên tục trên $\\mathbb{R}

In [287]:
tfidf = TfidfVectorizer()

In [288]:
%%time

X = tfidf.fit_transform(corpus)
X

Wall time: 717 ms


<34799x4517 sparse matrix of type '<class 'numpy.float64'>'
	with 683668 stored elements in Compressed Sparse Row format>

In [291]:
vocabulary = tfidf.vocabulary_
idf = tfidf.idf_

In [292]:
np.savez_compressed('tfidf/idf', idf=idf)
pickle.dump(vocabulary, open('tfidf/vocab.pkl', 'wb'))

In [258]:
idf

array([ 7.06292351, 10.76422549, 10.76422549, ..., 10.76422549,
       10.76422549,  6.6370911 ])

In [202]:
new_tfidf = TfidfVectorizer()
new_tfidf.vocabulary_ = vocabulary
new_tfidf.idf_ = idf

In [228]:
new_tfidf

TfidfVectorizer()

In [293]:
mini_corpus = [corpus[f], corpus[s], corpus[234], corpus[981]]
mini_X = new_tfidf.transform(mini_corpus)

In [298]:
mini_X[0]

<1x4517 sparse matrix of type '<class 'numpy.float64'>'
	with 16 stored elements in Compressed Sparse Row format>

In [306]:
cosine_similarity(mini_X, X[0])

array([[0.35468638],
       [0.02123111],
       [0.00660203],
       [0.02442019]])

In [204]:
new_X = new_tfidf.transform(corpus)

In [235]:
f = 9542
s = 34000
origin = cosine_similarity(X[f], X[s]).ravel()[0]
truncated = cosine_similarity(mini_X[0], mini_X[1]).ravel()[0]

print("Origin: %f" % origin)
print("Trunacted: %f" % truncated)

Origin: 0.019722
Trunacted: 0.019722


In [213]:
f = 9542
s = 34028
origin = cosine_similarity(new_X[f], new_X[s]).ravel()[0]
truncated = cosine_similarity(X[f], X[s]).ravel()[0]

print("No-Train: %f" % origin)
print("Trained: %f" % truncated)

No-Train: 0.025679
Trained: 0.025679
