In [1]:
import json
from sqlalchemy import create_engine, MetaData, Table
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import joblib 
import os
import numpy as np

In [2]:
def connect_db():
    engine = create_engine("mysql+pymysql://root:root@localhost:3306/9mois")
    metadata = MetaData()
    return engine, metadata

In [3]:
# Fonction pour charger la liste des stop words
def load_stop_words(path):
    with open(path, "r") as file:
        return json.load(file)

# Fonction pour concat√©ner les valeurs textuelles de toutes les colonnes
def concatenate_row_values(row):
    return ' '.join(str(value) for value in row if isinstance(value, str))

# Fonction pour traiter une table
def process_table(engine, metadata,table_name):
    table = Table(table_name, metadata, autoload_with=engine)
    with engine.connect() as connection:
        result_set = connection.execute(table.select()).fetchall()
    concatenated_docs = [concatenate_row_values(row) for row in result_set]
    return concatenated_docs

In [4]:
def init_api():
    engine, metadata = connect_db()
    stop_words = load_stop_words("stop_words_french.json")
    tables = ['articles', 'food', 'questions', 'recipes']
    data = {table: process_table(engine, metadata, table) for table in tables}
    # Pr√©paration du vectorisateur TF-IDF

    vectorizers = {table: TfidfVectorizer(stop_words=stop_words) for table in tables}
    for table in tables:
        docs = data[table]
        vectorizers[table].fit_transform(docs)

    #Save the vectorizers

    save_files_path = './ML/'
    for key, vect in vectorizers.items():
        save_path = os.path.join(save_files_path, str(key+'.sav'))
        joblib.dump(vect, save_path)

    #build corpus and export it
    corpus = {table : vectorizers[table].transform(data[table]) for table in tables}

    for key, mat in corpus.items():
        save_path = os.path.join('./data/', str(key))
        np.save(save_path, mat)
    
    return data

In [5]:
data = init_api()



In [6]:
def load_vect():
    tables = ['articles', 'food', 'questions', 'recipes']
    base_path = './ML/'
    vect = { table : joblib.load(os.path.join(base_path, str(table+'.sav'))) for table in tables}
    return vect

In [7]:
vect_loaded = load_vect()

In [8]:
vect_loaded

{'articles': TfidfVectorizer(stop_words=['a', '√†', '√¢', 'abord', 'afin', 'ah', 'ai', 'aie',
                             'ainsi', 'allaient', 'allo', 'all√¥', 'allons',
                             'apr√®s', 'assez', 'attendu', 'au', 'aucun',
                             'aucune', 'aujourd', "aujourd'hui", 'auquel',
                             'aura', 'auront', 'aussi', 'autre', 'autres', 'aux',
                             'auxquelles', 'auxquels', ...]),
 'food': TfidfVectorizer(stop_words=['a', '√†', '√¢', 'abord', 'afin', 'ah', 'ai', 'aie',
                             'ainsi', 'allaient', 'allo', 'all√¥', 'allons',
                             'apr√®s', 'assez', 'attendu', 'au', 'aucun',
                             'aucune', 'aujourd', "aujourd'hui", 'auquel',
                             'aura', 'auront', 'aussi', 'autre', 'autres', 'aux',
                             'auxquelles', 'auxquels', ...]),
 'questions': TfidfVectorizer(stop_words=['a', '√†', '√¢', 'abord', 'afin', 

In [10]:
def load_corpus():
    corpus = { 'articles' : np.load('./data/articles.npy', allow_pickle= True).item(),
               'food' : np.load('./data/food.npy', allow_pickle= True).item(),
                'questions' : np.load('./data/questions.npy', allow_pickle= True).item(),
                 'recipes' : np.load('./data/recipes.npy', allow_pickle= True).item() }
    return corpus

In [None]:
array_mat = np.load('./data/articles.npy', allow_pickle= True).item()

In [11]:
corpus_loaded = load_corpus()

In [None]:
corpus_loaded

{'articles': <28x1942 sparse matrix of type '<class 'numpy.float64'>'
 	with 4118 stored elements in Compressed Sparse Row format>,
 'food': <2153x5989 sparse matrix of type '<class 'numpy.float64'>'
 	with 19742 stored elements in Compressed Sparse Row format>,
 'questions': <68x1257 sparse matrix of type '<class 'numpy.float64'>'
 	with 2928 stored elements in Compressed Sparse Row format>,
 'recipes': <51x1359 sparse matrix of type '<class 'numpy.float64'>'
 	with 4948 stored elements in Compressed Sparse Row format>}

In [14]:
def search(query, table_name = 'Toutes'):
    tables = ['articles', 'food', 'questions', 'recipes']
    corpus = load_corpus()
    vectorizers = load_vect()
    # TODO : get it out of the loop
    if table_name != "Toutes":
        documents = data[table_name]
        vectorizer = vectorizers[table_name]
        query_vec = vectorizer.transform([query])
        scores = cosine_similarity(query_vec, corpus[table_name]).flatten()
        ranked_scores = sorted([(score, doc) for doc, score in zip(documents, scores)], reverse=True)
        return ranked_scores[:10]  # 10 meilleurs r√©sultats
    else:
        all_scores = []
        for table in tables:
            documents = data[table]
            vectorizer = vectorizers[table]
            query_vec = vectorizer.transform([query])
            scores = cosine_similarity(query_vec, corpus[table]).flatten()
            all_scores.extend([(score, doc, table) for doc, score in zip(documents, scores)])
        return sorted(all_scores, key=lambda x: x[0], reverse=True)[:10]


In [15]:
search("j'ai des naus√©es le matin et je manque de fer, que manger?")

[(0.326431809539738,
  "Manque de fer, an√©mie : que faire pendant la grossesse ? ***üë©üèª\u200d‚öïÔ∏èVotre sage-femme ou votre gyn√©cologue vous a diagnostiqu√© un manque de fer ou de l‚Äôan√©mie ? <br>\nVous n‚Äô√™tes pas la seule, une majorit√© de femmes enceintes sont carenc√©es en fer, notamment au 3e trimestre, car les besoins augmentent fortement. <br>\nVoici quelques astuces et conseils qui vous aideront √† booster vos apports en fer !***\n  \n<br><br>\n\n**ü©∏An√©mie, carence en fer : quelle diff√©rence ?**<br>\nUne **<u>carence en fer</u>** signifie que vos r√©serves de fer sont trop faibles, pour le d√©terminer, on mesure la ferritine lors d‚Äôune **prise de sang**. En France, entre **60 et 80% des femmes enceintes** sont carenc√©es en fer. <br>\nL‚Äô **<u>an√©mie ¬´ ferriprive ¬ª</u>** correspond √† un taux d‚Äô**h√©moglobine** trop faible dans le sang associ√© √† une **carence en fer**. Elle est un peu moins fr√©quente et touche **25% des femmes enceintes** en France. 

In [12]:
# Fonction de recherche
def search_opti(query, data, corpus, vectorizers, table_name = 'Toutes'):
    tables = ['articles', 'food', 'questions', 'recipes']
    # corpus = load_corpus()
    # vectorizers = load_vect()
    # TODO : get it out of the loop
    if table_name != "Toutes":
        documents = data[table_name]
        vectorizer = vectorizers[table_name]
        query_vec = vectorizer.transform([query])
        scores = cosine_similarity(query_vec, corpus[table_name]).flatten()
        ranked_scores = sorted([(score, doc) for doc, score in zip(documents, scores)], reverse=True)
        return ranked_scores[:10]  # 10 meilleurs r√©sultats
    else:
        all_scores = []
        for table in tables:
            documents = data[table]
            vectorizer = vectorizers[table]
            query_vec = vectorizer.transform([query])
            scores = cosine_similarity(query_vec, corpus[table]).flatten()
            all_scores.extend([(score, doc, table) for doc, score in zip(documents, scores)])
        return sorted(all_scores, key=lambda x: x[0], reverse=True)[:10]

In [17]:
search_opti("fenouil farci au riz", data, corpus_loaded, vect_loaded)

[(0.5038627744504616,
  'Cabillaud r√¥ti au fenouil et curry Facile Bon March√© /images/recipes/Cabillaud_roti_fenouil_curry.png > ***L‚Äôavis 9 mois √† croquer :***\n> \n> - Une recette qui contribue √† la **consommation hebdomadaire de poisson maigre**.\n> - Cette recette est riche en **prot√©ines** et en **iode** (1 portion apporte *80 Œºg d‚Äôiode*, soit 40% de l‚Äôapport recommand√© par jour). L‚Äôiode a un r√¥le majeur pendant la grossesse, notamment dans le d√©veloppement c√©r√©bral du f≈ìtus au cours des premiers mois.\n> - Le **colin** est un des poissons **les moins co√ªteux** ! Si on a un petit budget, on peut le trouver surgel√© en filet. *Liste non-exhaustive (de nouvelles id√©es viendront s‚Äôajouter avec le temps)*\n\n- Cabillaud r√¥ti au fenouil et curry + riz (complet de pr√©f√©rence)\n- Cabillaud r√¥ti au fenouil et curry + pain complet ou aux noix\n- Cabillaud r√¥ti au fenouil et curry + tagliatelles 1. Pr√©chauffer le four √† 200¬∞C.\n2. Laver les bulbes de fenouil.

In [21]:
from nltk.tokenize.api import TokenizerI

In [20]:
tokenizer = TokenizerI()

TypeError: word_tokenize() missing 1 required positional argument: 'text'