# DRMM (Deep Relevance Matching Model)


But de ce notebook: Construire une architecture DRMM fonctionnelle avec Pytorch.

Pour cela, 2 étapes:

- construire la chaîne de pré traitements:
    - générer des paires document-requête non pertinentes et pertinentes pour l'apprentissage
    - générer des histogrammes d'interaction locales au niveau document-requête
- construire l'architecture DRMM

Les interractions sont pour le moment des interactions locales sur des word embeddings et sont mesurées comme une similarité cosinus entre les vecteurs des mots de la requête et ceux du document.

In [1]:
from gensim.models import KeyedVectors
import numpy as np
import matplotlib.pyplot as plt
from os import sep

%matplotlib inline

embeddings_path = "embeddings_wiki2017"
dataset_path = "data"

## Pré traitements: 

### Récupérer des word embeddings 

Ce word embedding a les caractéristiques suivantes:

- Gensim Continuous Skipgram
- taille de vecteur ${300}$
- window ${5}$
- entrainé sur wikipédia février 2017 en langue anglaise
- pas de lemmatisation
- ${302866}$ mots

http://vectors.nlpl.eu/repository/

In [2]:
model = KeyedVectors.load_word2vec_format(embeddings_path + sep + "model.bin", binary=True)

In [3]:
vocabulary = [w for w in model.vocab]

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer(analyzer='word', vocabulary=vocabulary, binary=True)

### On Récupère les paires de pertinence/non pertinence pour chaque requête 

On génère un dictionnaire qui contient pour chaque requête en clé, un dictionnaire contenant 2 listes:
- "relevant" contenant des id de document pertinents pour la requête.
- "irrelevant" contenant des id de document non pertinents pour la requête.

In [5]:
paires = {}

with open(dataset_path + sep + "qrels.robust2004.txt", "r") as f:
    for line in f:
        lol = line.split()
        paires.setdefault(lol[0], {})
        paires[lol[0]].setdefault('relevant', []) 
        paires[lol[0]].setdefault('irrelevant', [])
        if lol[-1] == '1':
            paires[lol[0]]["relevant"].append(lol[2])
        else:
            paires[lol[0]]["irrelevant"].append(lol[2])

### On récupère les requêtes:

Elles se trouvent sous forme de tuple ([mots clés], [texte de la requête]). On ne garde que les mots clés.

In [10]:
import ast
with open(dataset_path + sep + "robust2004.txt", "r") as f:
    queries = ast.literal_eval(f.read())
queries = {d:queries[d][0] for d in queries}

In [13]:
print(queries["301"])
print(queries["302"])

international organized crime
poliomyelitis and post polio


In [91]:
def query_term_maxlen(queries):
    return np.max([len(queries[q].split()) for q in queries])

### On peut maintenant construire l'histogramme des interactions entre les embeddings de la requête et ceux du document.

On prend comme exemple 4 bins: ${[-1, -0.5]}$ ${[-0.5, 0]}$ ${[0, 0.5]}$ ${[0.5, 1]}$.

**Plusieurs manières de construire un histogramme**: compter le nombre de valeurs, compter puis normaliser...

In [22]:
from sklearn.metrics.pairwise import cosine_similarity

In [80]:
intvls = np.linspace(-1, 1, 5)

def hist(query, document, intervals=intvls, normalize=False):
    X = []
    for i in query.nonzero()[1]:
        histo = []
        for j in document.nonzero()[1]:
            histo.append(cosine_similarity([model.vectors[i]], [model.vectors[j]])[0][0])
        histo, bin_edges = np.histogram(histo, bins=intervals)
        if normalize:
            histo = histo / histo.sum()
        X.append(histo)
    return np.array(X)

In [46]:
x = vectorizer.transform([queries["301"]])
y = vectorizer.transform(["I am a criminal and i kill"]) #rajouter prétraitements
y2 = vectorizer.transform(["I am a peaceful dude"])

In [87]:
print(hist(x,y))

[[0 0 3 0]
 [0 0 3 0]
 [0 0 2 1]]


In [88]:
print(hist(x,y2))

[[0 0 2 0]
 [0 0 2 0]
 [0 0 2 0]]


## Architecture du modèle

d'après <a href="https://dl.acm.org/citation.cfm?id=2983769">les chinois</a>

In [95]:
from keras.layers import Input, Dense, Activation, Dot
from keras.models import Model, Sequential

In [None]:
#l'input pour les interactions
interaction_input = Input(shape=(query_term_maxlen, hist_size), dtype='int32', name='interaction_input')

#on construit le réseau feed forward
z = Dense(layer_size[0], activation='tanh')(interaction_input)
for dim in layer_size[1:]:
    z = Dense(dim, activation='tanh')(z)

#l'input pour le term gating network
input_gating = Input(shape=(query_term_maxlen, embedding_size), name='term_gating_input')
#le vecteur de poids du term gating network
gating = Dense(query_term_maxlen, activation='softmax')(input_gating)

#on fait la combinaison du feed forward et de la sortie du term gating
s = Dot(x, gating)