In [1]:

import os
import pandas as pd
import numpy as np
import re
import math as m
from collections import Counter
from bs4 import BeautifulSoup
import nltk
nltk.download('stopwords')
from nltk.stem import PorterStemmer
from nltk.corpus import stopwords



[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\nmadali\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
stop_list = stopwords.words('english')

## Prétraitement des documents et du fichier de requêtes

In [3]:
def extractTokens(beautSoup, tag):
    """Extraire des jetons du texte entre un <tag> SGML spécifique. La fonction
    appelle la fonction tokenize() pour générer des tokens à partir du texte.

    Arguments :
        beautSoup {bs4.BeautifulSoup} -- objet soupe bs formé à partir du texte d'un fichier
        tag {chaîne} -- <tag> SGML cible

    Retourne :
        string -- chaîne de mots extraits du texte entre le <tag> SGML cible
    """

    # extraire le texte d'un <tag> SGML particulier
    textData = beautSoup.findAll(tag)

    # conversion en chaîne de caractères
    textData = ''.join(map(str, textData))
    # supprimer le <tag> SGML du texte
    textData = textData.replace(tag, '')



    return textData

In [4]:
# Initialisation de l'objet Porter Stemmer
st = PorterStemmer()

# Initialisation de l'expression rationnelle pour supprimer les mots d'une longueur d'un ou deux caractères
shortword = re.compile(r'\W*\b\w{1,2}\b')

def tokenize(data):
    """Prétraite la chaîne donnée en entrée. Convertit en minuscules,
    supprime les ponctuations et les chiffres, sépare les espaces blancs,
    supprime les mots vides, effectue un stemming et supprime les mots d'une longueur d'un ou deux caractères.
    deux caractères.

    Arguments :
        data {string} -- chaine de caractères à transformer en jeton

    Retourne :
        string -- chaîne de tokens générée
    """

    # conversion en minuscules
    lines = data.lower()

    # suppression des ponctuations à l'aide d'une expression régulière
    lines = re.sub('[^A-Za-z]+', ' ', lines)

    # séparation des espaces blancs pour générer des tokens
    tokens = lines.split()

    # supprimer les mots vides des tokens
    clean_tokens = [word for word in tokens if word not in stop_list]

    # stemming the tokens
    stem_tokens = [st.stem(word) for word in clean_tokens]

    # vérification des mots vides à nouveau
    clean_stem_tokens = [word for word in stem_tokens if word not in stop_list]

    # conversion d'une liste de tokens en chaîne de caractères
    clean_stem_tokens = ' '.join(map(str,  clean_stem_tokens))

    # supprimer les tokens d'une longueur d'un ou deux caractères
    clean_stem_tokens = shortword.sub('', clean_stem_tokens)

    return clean_stem_tokens

* Prétraitement de tous les documents du répertoire

In [5]:
# Déclaration des variables pour le chemin d'accès au fichier
in_path = '../data/Cranfield/cranfieldDocs'

# Récupérer tous les noms de fichiers du dossier docs
filenames = os.listdir(in_path)



In [6]:
print(filenames)

['cranfield0001', 'cranfield0002', 'cranfield0003', 'cranfield0004', 'cranfield0005', 'cranfield0006', 'cranfield0007', 'cranfield0008', 'cranfield0009', 'cranfield0010', 'cranfield0011', 'cranfield0012', 'cranfield0013', 'cranfield0014', 'cranfield0015', 'cranfield0016', 'cranfield0017', 'cranfield0018', 'cranfield0019', 'cranfield0020', 'cranfield0021', 'cranfield0022', 'cranfield0023', 'cranfield0024', 'cranfield0025', 'cranfield0026', 'cranfield0027', 'cranfield0028', 'cranfield0029', 'cranfield0030', 'cranfield0031', 'cranfield0032', 'cranfield0033', 'cranfield0034', 'cranfield0035', 'cranfield0036', 'cranfield0037', 'cranfield0038', 'cranfield0039', 'cranfield0040', 'cranfield0041', 'cranfield0042', 'cranfield0043', 'cranfield0044', 'cranfield0045', 'cranfield0046', 'cranfield0047', 'cranfield0048', 'cranfield0049', 'cranfield0050', 'cranfield0051', 'cranfield0052', 'cranfield0053', 'cranfield0054', 'cranfield0055', 'cranfield0056', 'cranfield0057', 'cranfield0058', 'cranfield005

In [7]:
out_path = '../data/Cranfield/preprocessed_cranfieldDocs'
# Vérifier si le dossier docs pré-traité existe déjà
if not os.path.isdir(out_path):
    os.mkdir(out_path)

In [8]:

all_docs = []


for fname in filenames:

    # générer des noms de fichiers
    infilepath = in_path + '/' + fname
    outfilepath = out_path + '/' + fname

    with open(infilepath) as infile:
        with open(outfilepath, 'w') as outfile:

            # lire tout le texte d'un fichier
            fileData = infile.read()

            # création d'un objet BeautifulSoup pour extraire le texte entre les balises SGML
            soup = BeautifulSoup(fileData)

            # extraire les tokens pour <title>
            title = extractTokens(soup, 'title')
            title = tokenize(title)

            # extraire les tokens pour <text>
            text = extractTokens(soup, 'text')
            text = tokenize(text)

            # écrire les tokens pour <title> dans un nouveau fichier
            outfile.write(title)
            outfile.write(" ")

            # écrire les tokens pour <texte> dans un nouveau fichier
            outfile.write(text)
        outfile.close()
    infile.close()

*  Prétraitement du fichier queries.txt

In [9]:

# Déclaration des variables pour les fichiers de requête
query = '../data/Cranfield/queries.txt'
preproc_query = '../data/Cranfield/preprocessed_queries.txt'


q = open(query)

In [10]:


# ouverture d'un nouveau fichier pour y écrire les tokens prétraités
new_q = open(preproc_query, 'w')

# lire chaque ligne du fichier séparément
text = q.readlines()
for line in text:
    print(line)
    # si condition pour éviter le caractère de nouvelle ligne à la fin du fichier
    if(line != text[-1]):
        query_tokens = tokenize(line)
        new_q.write(query_tokens + '\n')
    else:
        query_tokens = tokenize(line)
        new_q.write(query_tokens)
new_q.close()

what investigations have been made of the wave system created by a static pressure distribution over a liquid surface .

has anyone investigated the effect of shock generated vorticity on heat transfer to a blunt body .

what is the heat transfer to a blunt body in the absence of vorticity .

what are the general effects on flow fields when the reynolds number is small .

find a calculation procedure applicable to all incompressible laminar boundary layer flow problems having good accuracy and reasonable computation time .

papers applicable to this problem (calculation procedures for laminar incompressible flow with arbitrary pressure gradient) .

has anyone investigated the shear buckling of stiffened plates .

papers on shear buckling of unstiffened rectangular plates under shear .

in practice, how close to reality are the assumptions that the flow in a hypersonic shock tube using nitrogen is non-viscous and in thermodynamic equilibrium .

what design factors can be used to control

## Calculation of df values for each vocabulary term

* Générer une liste unique de tous les documents prétraités

In [11]:

all_docs = []

for fname in filenames:
    outfilepath = out_path + '/' + fname
    with open(outfilepath) as file:
        fileData = file.read()

        # ajouter les données du fichier à la liste
        all_docs.append(fileData)



In [12]:
print(all_docs[0])

experiment investig aerodynam wing slipstream experiment studi wing propel slipstream made order determin spanwis distribut lift increas due slipstream differ angl attack wing differ free stream slipstream veloc ratio result intend part evalu basi differ theoret treatment problem compar span load curv togeth support evid show substanti part lift increment produc slipstream due destal boundari layer control effect integr remain lift increment subtract destal lift found agre well potenti flow theori empir evalu destal effect made specif configur experi


In [13]:
# Le nombre total de documents
no_of_docs = len(all_docs)
no_of_docs

1400

In [14]:
# créer un dictionnaire de paires clé-valeur où les tokens sont les clés et leur occurrence dans le corpus la valeur
DF = {}

for i in range(no_of_docs):
    tokens = all_docs[i].split()
    for w in tokens:
        try:
            # l'ajout d'un jeton comme clé et d'un numéro de document comme valeur est enchaîné
            DF[w].add(i)
        except:
            # à gérer lorsqu'un nouveau jeton est rencontré
            DF[w] = {i}



In [15]:
for i in DF:
    # convertir en nombre d'occurrences du jeton à partir de la liste des documents où le jeton apparaît
    DF[i] = len(DF[i])

In [16]:
print(DF)

{'experiment': 339, 'investig': 361, 'aerodynam': 178, 'wing': 226, 'slipstream': 15, 'studi': 240, 'propel': 35, 'made': 352, 'order': 193, 'determin': 299, 'spanwis': 27, 'distribut': 360, 'lift': 158, 'increas': 206, 'due': 143, 'differ': 192, 'angl': 210, 'attack': 114, 'free': 213, 'stream': 230, 'veloc': 314, 'ratio': 296, 'result': 692, 'intend': 12, 'part': 106, 'evalu': 70, 'basi': 68, 'theoret': 235, 'treatment': 41, 'problem': 323, 'compar': 247, 'span': 40, 'load': 200, 'curv': 123, 'togeth': 40, 'support': 70, 'evid': 34, 'show': 202, 'substanti': 41, 'increment': 17, 'produc': 78, 'destal': 2, 'boundari': 467, 'layer': 411, 'control': 61, 'effect': 541, 'integr': 147, 'remain': 50, 'subtract': 2, 'found': 322, 'agre': 59, 'well': 163, 'potenti': 58, 'flow': 729, 'theori': 455, 'empir': 32, 'specif': 63, 'configur': 81, 'experi': 152, 'simpl': 184, 'shear': 99, 'past': 84, 'flat': 187, 'plate': 227, 'incompress': 132, 'fluid': 160, 'small': 239, 'viscos': 63, 'high': 233, 

In [17]:
# compter le nombre de mots uniques dans le corpus
vocab_size = len(DF)
print(vocab_size)

4394


In [18]:
# créer une liste de vocabulaire de tous les mots uniques
vocab = [term for term in DF]
print(vocab)

['experiment', 'investig', 'aerodynam', 'wing', 'slipstream', 'studi', 'propel', 'made', 'order', 'determin', 'spanwis', 'distribut', 'lift', 'increas', 'due', 'differ', 'angl', 'attack', 'free', 'stream', 'veloc', 'ratio', 'result', 'intend', 'part', 'evalu', 'basi', 'theoret', 'treatment', 'problem', 'compar', 'span', 'load', 'curv', 'togeth', 'support', 'evid', 'show', 'substanti', 'increment', 'produc', 'destal', 'boundari', 'layer', 'control', 'effect', 'integr', 'remain', 'subtract', 'found', 'agre', 'well', 'potenti', 'flow', 'theori', 'empir', 'specif', 'configur', 'experi', 'simpl', 'shear', 'past', 'flat', 'plate', 'incompress', 'fluid', 'small', 'viscos', 'high', 'speed', 'viscou', 'two', 'dimension', 'bodi', 'usual', 'necessari', 'consid', 'shock', 'wave', 'emit', 'nose', 'lead', 'edg', 'consequ', 'exist', 'inviscid', 'rotat', 'region', 'situat', 'aris', 'instanc', 'hyperson', 'somewhat', 'prandtl', 'classic', 'origin', 'outsid', 'irrot', 'must', 'possibl', 'vortic', 'recen

* Calcul des valeurs tf-idf pour chaque terme du vocabulaire

In [19]:
doc = 0

# création d'un dictionnaire pour stocker les valeurs tf-idf de chaque terme du vocabulaire
tf_idf = {}

for i in range(no_of_docs):

    tokens = all_docs[i].split()

    # objet compteur pour compter efficacement le nombre d'occurrences d'un terme dans un document particulier
    counter = Counter(tokens)
    words_count = len(tokens)

    for token in np.unique(tokens):

        # compter les occurrences d'un terme dans un objet à l'aide d'un objet compteur
        tf = counter[token]/words_count
        # récupération des valeurs df du dictionnaire DF
        df = DF[token] if token in vocab else 0

        # ajouter 1 au numérateur et au dénominateur pour éviter l'erreur de diviser par 0
        idf = np.log((no_of_docs+1)/(df+1))

        tf_idf[doc, token] = tf*idf

    doc += 1

In [20]:

tf_idf

{(0, 'aerodynam'): 0.02604500937337028,
 (0, 'agre'): 0.03988097448246716,
 (0, 'angl'): 0.023963081175454943,
 (0, 'attack'): 0.03164568883511085,
 (0, 'basi'): 0.03811183597138921,
 (0, 'boundari'): 0.013879408233156457,
 (0, 'compar'): 0.021917883546481325,
 (0, 'configur'): 0.035926864545224736,
 (0, 'control'): 0.03946591343407488,
 (0, 'curv'): 0.0306918984902781,
 (0, 'destal'): 0.23340490851907206,
 (0, 'determin'): 0.01950834267950387,
 (0, 'differ'): 0.07527536800375145,
 (0, 'distribut'): 0.01716536187346995,
 (0, 'due'): 0.057598183462303956,
 (0, 'effect'): 0.02404241885816103,
 (0, 'empir'): 0.0474485314540573,
 (0, 'evalu'): 0.07550029542520738,
 (0, 'evid'): 0.04670371499807081,
 (0, 'experi'): 0.028031691454994574,
 (0, 'experiment'): 0.03584799819561518,
 (0, 'flow'): 0.00825186091385532,
 (0, 'found'): 0.018573281305244944,
 (0, 'free'): 0.023784373814115894,
 (0, 'increas'): 0.024205351304704276,
 (0, 'increment'): 0.11024227312508461,
 (0, 'integr'): 0.028452269273

* Formation de vecteurs de documents à l'aide des valeurs tf-idf

In [21]:
# initialisation d'un vecteur vide de la taille du vocabulaire
D = np.zeros((no_of_docs, vocab_size))

# création d'un vecteur de valeurs tf-idf
for i in tf_idf:
    ind = vocab.index(i[1])
    D[i[0]][ind] = tf_idf[i]

In [22]:

print(D)

[[0.035848   0.01713035 0.02604501 ... 0.         0.         0.        ]
 [0.         0.01166636 0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.14559543]
 [0.         0.02182738 0.         ... 0.         0.         0.        ]]


## Calcul de la similarité en cosinus entre chaque vecteur de requête et les vecteurs de documents

In [23]:
def gen_vector(tokens):
    """Créer un vecteur (en rapport avec le vocabulaire) des mots-clés passés en entrée.

    Arguments :
        tokens {list} -- liste de tokens à convertir

    Retourne :
        numpy.ndarray -- vecteur de tokens
    """
    Q = np.zeros((len(vocab)))

    counter = Counter(tokens)
    words_count = len(tokens)

    query_weights = {}

    for token in np.unique(tokens):

        tf = counter[token]/words_count
        df = DF[token] if token in vocab else 0
        idf = m.log((no_of_docs+1)/(df+1))

        try:
            ind = vocab.index(token)
            Q[ind] = tf*idf
        except:
            pass
    return Q

In [24]:
def cosine_sim(x, y):
    """Calculer la similarité cosinus entre 2 vecteurs.

    Arguments :
        x {numpy.ndarray} -- vecteur 1
        y {numpy.ndarray} -- vecteur 2

    Retourne :
        numpy.float64 -- similarité cosinus entre le vecteur 1 et le vecteur 2
    """
    cos_sim = np.dot(x, y)/(np.linalg.norm(x)*np.linalg.norm(y))

    return cos_sim

In [25]:
def cosine_similarity(k, query):
    """Déterminer une liste classée des k premiers documents dans l'ordre décroissant de leur
    similarité cosinus avec la requête

    Arguments :
        k {integer} -- les k premiers documents à récupérer
        query {string} -- requête dont la similarité en cosinus doit être calculée avec le corpus

    Retourne :
        numpy.ndarray -- liste des k premières similarités cosinus entre la requête et le corpus de documents
    """

    tokens = query.split()

    d_cosines = []

    # vectoriser les mots clés de la requête d'entrée
    query_vector = gen_vector(tokens)

    for d in D:
        d_cosines.append(cosine_sim(query_vector, d))

    if k == 0:
        # k=0 pour récupérer tous les documents par ordre décroissant
        out = np.array(d_cosines).argsort()[::-1]

    else:
        # Récupérer les k premiers documents dans l'ordre décroissant
        out = np.array(d_cosines).argsort()[-k:][::-1]

    return out

In [26]:
# liste de toutes les requêtes du fichier de requêtes prétraitées
query_file = open(preproc_query, 'r')
queries = query_file.readlines()
queries

['investig made wave system creat static pressur distribut liquid surfac\n',
 'anyon investig effect shock gener vortic heat transfer blunt bodi\n',
 'heat transfer blunt bodi absenc vortic\n',
 'gener effect flow field reynold number small\n',
 'find calcul procedur applic incompress laminar boundari layer flow problem good accuraci reason comput time\n',
 'paper applic problem calcul procedur laminar incompress flow arbitrari pressur gradient\n',
 'anyon investig shear buckl stiffen plate\n',
 'paper shear buckl unstiffen rectangular plate shear\n',
 'practic close realiti assumpt flow hyperson shock tube use nitrogen non viscou thermodynam equilibrium\n',
 'design factor use control lift drag ratio mach number']

In [27]:
def list_of_docs(k):
    """Générer une liste classée des k meilleurs documents dans l'ordre décroissant de leur similarité cosinusoïdale
    calculée par rapport aux requêtes. Le résultat est une liste de paires (identifiant de la requête, identifiant du document).

    Si k=0 est donné en entrée, la liste de tous les documents dans l'ordre décroissant est retournée.

    Arguments :
        k {intégral} -- nombre de documents principaux à récupérer

    Retourne :
        liste -- liste des documents dans l'ordre décroissant de leur similarité cosinusoïdale
    """
    cos_sims = []
    for i in range(len(queries)):
        cs = [i, cosine_similarity(k, queries[i])]
        cos_sims.append(cs)

    return cos_sims


In [28]:
#to get list of all documents
no_of_top=0
list_of_docs(no_of_top)

[[0, array([ 763,  957,  406, ...,  612, 1059,  222], dtype=int64)],
 [1, array([ 323, 1394,  322, ...,  879,  878,  937], dtype=int64)],
 [2, array([323, 322, 628, ..., 818, 817,   0], dtype=int64)],
 [3, array([1077, 1221,  667, ...,  881,  262,  910], dtype=int64)],
 [4, array([ 737,    3,  381, ...,  399, 1056,  912], dtype=int64)],
 [5, array([1365,    2, 1385, ...,  881,  882,  870], dtype=int64)],
 [6, array([1399, 1397, 1129, ...,  584,  583, 1196], dtype=int64)],
 [7, array([ 399, 1398, 1397, ...,  777,  776,    0], dtype=int64)],
 [8, array([1311, 1285,  316, ...,  762,  760, 1399], dtype=int64)],
 [9, array([1379, 1123, 1187, ...,  663, 1357,  652], dtype=int64)]]