In [1]:
import os 

current_directory = os.getcwd()

print("Le répertoire actuel est :", current_directory)

new_directory = '/Users/pouplesse/Documents/Projet - RAG/'
os.chdir(new_directory)
print("Le répertoire actuel est maintenant :", os.getcwd())

Le répertoire actuel est : /Users/pouplesse/Documents/Projet - RAG
Le répertoire actuel est maintenant : /Users/pouplesse/Documents/Projet - RAG


In [2]:
import wikipedia

wikipedia.set_lang("fr")

page_title = "Progrès"

pg = wikipedia.page(page_title)

# save the content

output_file = page_title.replace(" ", "_").replace("'", "").lower() + ".txt"

with open(f"{output_file}", "w", encoding="utf-8") as f:
    f.write(pg.content)

print(f"content saved in {output_file}")


content saved in progrès.txt


In [3]:
"""
Chunk the text over line returns with overlap and window_size parameters
saves content to a json format
"""

import glob
import typing as t
import uuid
import pandas as pd
import tiktoken


def chunkit(input_: t.List[str], window_size: int = 3, overlap: int = 1) -> t.List[str]:
    assert (
        overlap < window_size
    ), f"overlap {overlap} needs to be smaller than window size {window_size}"
    start_ = 0
    chunks = []
    while start_ + window_size < len(input_):
        chunks.append(input_[start_ : start_ + window_size])
        start_ = start_ + window_size - overlap
    # add the remaining paragraphs
    if start_ < len(input_):
        chunks.append(input_[start_ - len(input_) :])

    extracts = ["\n".join(chk) for chk in chunks]

    return extracts


def test_chunkit() -> None:
    # array of the alphabet
    input_ = [l for l in "abcdefghijklmnopqrstuvwxyz"]
    output_ = chunkit(input_, window_size=5, overlap=2)
    assert len(output_) == 8
    output_ = chunkit(input_, window_size=2, overlap=1)
    assert len(output_) == 25


test_chunkit()

if __name__ == "__main__":
    source_path = "sources/*.txt"
    source_files = glob.glob(source_path)

    allchunks = []
    for filename in source_files:
        print(f"-- loading {filename}")
        with open(filename, "r", encoding="utf-8", errors="replace") as f:
            txt = f.read()

        # split the text over line returns
        lines = txt.split("\n")
        # remove empty lines
        lines = [par.strip() for par in lines if len(par.strip()) > 1]
        chunked_version = chunkit(lines)

        allchunks += chunked_version

        print(f"extracted {len(chunked_version)} allchunks")

    # set as dataframe, to make it easier to add other info for each chunk and save it to json later on
    data = pd.DataFrame(data=allchunks, columns=["text"])

    # create unique id for each chunk
    data["uuid"] = [str(uuid.uuid4()) for i in range(len(data))]

    # count the number of tokens
    print("-- count tokens")
    encoding = tiktoken.get_encoding("cl100k_base")

    data["token_count"] = data.text.apply(lambda txt: len(encoding.encode(txt)))

    # check the max number of tokens in the dataset
    print(f"max number of tokens: {max(data.token_count)}")
    print(f"distribution of number of tokens: {data.token_count.describe()}")

    # save to json
    output_file_json = "sources/extracted_wikipedia_chunks.json"
    with open(output_file_json, "w", encoding="utf-8") as f:
        data.to_json(f, force_ascii=False, orient="records", indent=4)

    print(f"-- saved to {output_file_json}")


-- loading sources/progrès_accéléré.txt
extracted 20 allchunks
-- loading sources/hartmut_rosa.txt
extracted 27 allchunks
-- loading sources/progrès.txt
extracted 267 allchunks
-- loading sources/progrès_technique.txt
extracted 66 allchunks
-- count tokens
max number of tokens: 838
distribution of number of tokens: count    380.000000
mean     224.539474
std      151.418956
min       14.000000
25%      106.000000
50%      191.000000
75%      313.250000
max      838.000000
Name: token_count, dtype: float64
-- saved to sources/extracted_wikipedia_chunks.json


In [4]:
# sauvegarde clef d'acces Weaviate
import os
os.environ['OPENAI_API_KEY'] = "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"
os.environ["WEAVIATE_KEY"] = "TRroU187hKQOK5kQKdoNIBeolVyMQd8Mxjxg"
os.environ["WEAVIATE_CLUSTER_URL"] = "https://6q45jbvsfo4cmhzrpjwoq.c1.europe-west3.gcp.weaviate.cloud"

In [5]:
# verifier que la clé a bien été enregistrée
assert os.environ.get('OPENAI_API_KEY')  is not None
assert os.environ.get('WEAVIATE_KEY')  is not None
assert os.environ.get('WEAVIATE_CLUSTER_URL') is not None

In [6]:
import weaviate

def connect_to_weaviate() -> weaviate.client.WeaviateClient:
    client = weaviate.connect_to_wcs(
        cluster_url=os.environ["WEAVIATE_CLUSTER_URL"],
        auth_credentials=weaviate.AuthApiKey(os.environ["WEAVIATE_KEY"]),
        headers={
            "X-OpenAI-Api-Key": os.environ["OPENAI_API_KEY"],
        },
    )
    # check that the vector store is up and running
    if client.is_live() & client.is_ready() & client.is_connected():
        print(f"client is live, ready and connected ")

    assert (
        client.is_live() & client.is_ready()
    ), "Weaviate client is not live or not ready or not connected"
    return client


In [7]:
client = connect_to_weaviate()



client is live, ready and connected 


In [8]:
from weaviate.classes.config import Property, DataType, Configure, Reconfigure

In [9]:
import pandas as pd
input_file = "sources/extracted_wikipedia_chunks.json"
data = pd.read_json(input_file)
data = data[["uuid", "text"]]
print("-- loaded ", data.shape[0], "items")

-- loaded  380 items


In [10]:
collection_name = "Ludivine_progres_mars_2024"
collection = client.collections.get(collection_name)

In [11]:
# insert the data
batch_result = collection.data.insert_many(data.to_dict(orient="records"))

In [12]:
if batch_result.has_errors:
    print(batch_result.errors)
    raise RuntimeError("stopping")

In [13]:
collection = client.collections.get(collection_name)

records_num = collection.aggregate.over_all(total_count=True).total_count
print(f"collection {collection_name} now has {records_num} records")

collection Ludivine_progres_mars_2024 now has 1140 records


In [14]:
properties = [
    Property(
        name="uuid",
        data_type=DataType.UUID,
        skip_vectorization=True,
        vectorize_property_name=False,
    ),
    Property(
        name="text",
        data_type=DataType.TEXT,
        skip_vectorization=False,
        vectorize_property_name=False,
    ),
]


In [15]:
vectorizer = Configure.Vectorizer.text2vec_openai(
    vectorize_collection_name=False, model="text-embedding-3-small"
)

In [16]:
# create collection
# 1st check if collection does not exist
all_existing_collections = client.collections.list_all().keys()
collection_exists = collection_name in all_existing_collections
assert not collection_exists, f"{collection_name} (exists {collection_exists})"




AssertionError: Ludivine_progres_mars_2024 (exists True)

In [17]:
# now create the collection
collection = client.collections.create(
    name=collection_name,
    vectorizer_config=vectorizer,
    properties=properties,
)

UnexpectedStatusCodeError: Collection may not have been created properly.! Unexpected status code: 422, with response body: {'error': [{'message': 'class name "Ludivine_progres_mars_2024" already exists'}]}.

In [18]:
print("add French stopwords")
import nltk

nltk.download("stopwords")
from nltk.corpus import stopwords

collection.config.update(
    # Note, use Reconfigure here (not Configure)
    inverted_index_config=Reconfigure.inverted_index(
        stopwords_additions=list(stopwords.words("french"))
    )
)

add French stopwords


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/pouplesse/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [19]:
all_existing_collections = client.collections.list_all().keys()

if collection_name in all_existing_collections:
    print(f"{collection_name} has been created")
else:
    print(f"{collection_name} has NOT been created")
    

Ludivine_progres_mars_2024 has been created


In [20]:
def search(query, search_mode = "hybrid", response_count = 1):
    metadata = ["distance", "certainty", "score", "explain_score"]
    if search_mode == "hybrid":
        response = collection.query.hybrid(
            query=query,
            query_properties=["text"],
            limit=response_count,
            return_metadata=metadata,
        )
    elif search_mode == "near_text":
        response = collection.query.near_text(
            query=query,
            limit=response_count,
            return_metadata=metadata,
        )
    elif search_mode == "bm25":
        response = collection.query.bm25(
            query=query,
            limit=response_count,
            return_metadata=metadata,
        )
    return response


In [21]:
query = "Qui est Hartmut Rosa"
response = search(query, response_count = 4)

In [22]:
for item in response.objects:
    print("--" * 20)
    print(item.properties.get("uuid"))
    print()
    print(item.properties.get("text"))
    print()
    print(f"metadata: {item.metadata.__dict__}")
    print()

----------------------------------------
eb411ad7-8729-46f8-882d-49c67afb7cd2

Hartmut Rosa, né le 15 août 1965 à Lörrach, est un sociologue, philosophe et universitaire allemand, professeur à l'université Friedrich-Schiller d'Iéna et directeur du Max-Weber-Kolleg (de) à Erfurt. Il fait partie d'une nouvelle génération de penseurs travaillant dans le sillage de la théorie critique (École de Francfort).
== Biographie ==
Hartmut Rosa fait des études de science politique et philosophie à l'université de Fribourg-en-Brisgau, puis il obtient en 1997 un doctorat en sciences sociales de l'université Humboldt de Berlin. Sa thèse, publiée en 1998, porte sur la philosophie sociale et politique de Charles Taylor. Il réalise un postdoctorat à la London School of Economics.

metadata: {'creation_time': None, 'last_update_time': None, 'distance': None, 'certainty': None, 'score': 0.8723698854446411, 'explain_score': '\nHybrid (Result Set vector) Document 7c39281b-e2d5-4456-aebd-518449f0cee0: origina

In [110]:
from langchain_openai import ChatOpenAI
from langchain.chains import LLMChain
from langchain.chains import SequentialChain

# Local
from langchain.prompts import ChatPromptTemplate

prompt_generate_groundtruth = ChatPromptTemplate.from_template(
        """
Prends le rôle d'une journaliste, spécialiste de la notion de progrès
Tu dois écrire une question et sa réponse en fonction du contexte.

Respecte les consignes suivantes:
- formule une question simple, de quelques mots
- donne la question et sa réponse au format JSON

--------
Le contexte:
{context}
--------

    "question": "<la question>"
    "reponse": "<la réponse>"

"""
    )


In [111]:
class Generate(object):
    def __init__(self,
            model: str = "gpt-3.5-turbo-0125",
            temperature: float = 0.9
        ) -> None:

        llm = ChatOpenAI(model=model, temperature=temperature)

        context_chain = LLMChain(
            llm=llm,
            prompt= prompt_generate_groundtruth,
            output_key="output",
            verbose=False,
        )

        self.overall_context_chain = SequentialChain(
            chains=[context_chain, ],
            input_variables=["context"],
            output_variables=["output"],
            verbose=True,
        )

    def generate_question_answer(self, context):
        response = self.overall_context_chain({"context": context})
        return response["output"]

In [118]:
import pandas as pd
data = pd.read_json('sources/extracted_wikipedia_chunks.json')
data = data.head(5)

In [119]:
import json
qa = []
bad_formatted = []
for i, chunk in data.iterrows():

    gen = Generate()
    answer = gen.generate_question_answer(chunk.text)
    print(i, answer)
    try:
        qa.append(json.loads(answer))
    except:
        bad_formatted.append(answer)




[1m> Entering new SequentialChain chain...[0m

[1m> Finished chain.[0m
0 {
    "question": "Le progrès technique s'accélère-t-il ?",
    "reponse": "Oui, plusieurs chercheurs croient en l'augmentation du taux d'accélération du progrès technique au cours de l'histoire."
}


[1m> Entering new SequentialChain chain...[0m

[1m> Finished chain.[0m
1 
{
    "question": "Qu'est-ce que l'éphémérisation ?",
    "reponse": "La tendance à faire plus avec moins dans divers domaines industriels."
}


[1m> Entering new SequentialChain chain...[0m

[1m> Finished chain.[0m
2 {
    "question": "Le progrès technique est-il en accélération constante ?",
    "reponse": "Oui, selon Stanislaw Ulam, le progrès technique est en accélération constante, ce qui peut conduire à une singularité dans l'histoire de l'espèce."
}


[1m> Entering new SequentialChain chain...[0m

[1m> Finished chain.[0m
3 {
    "question": "Quelle théorie a été développée par Hans Moravec ?",
    "reponse": "Hans Morav

In [120]:
qa

[{'question': "Le progrès technique s'accélère-t-il ?",
  'reponse': "Oui, plusieurs chercheurs croient en l'augmentation du taux d'accélération du progrès technique au cours de l'histoire."},
 {'question': "Qu'est-ce que l'éphémérisation ?",
  'reponse': 'La tendance à faire plus avec moins dans divers domaines industriels.'},
 {'question': 'Le progrès technique est-il en accélération constante ?',
  'reponse': "Oui, selon Stanislaw Ulam, le progrès technique est en accélération constante, ce qui peut conduire à une singularité dans l'histoire de l'espèce."},
 {'question': 'Quelle théorie a été développée par Hans Moravec ?',
  'reponse': 'Hans Moravec a théorisé le progrès accéléré.'},
 {'question': 'Quelles sont les prédictions de Hans Moravec sur la vie artificielle ?',
  'reponse': 'Hans Moravec a développé des prédictions sur la vie artificielle à partir de la loi de Moore dans ses articles et livres.'}]

In [121]:
qa_df = pd.DataFrame(qa)

In [122]:
output_file_json = "qa_20240312.json"
with open(output_file_json, "w", encoding="utf-8") as f:
    qa_df.to_json(f, force_ascii=False, orient="records", indent=4)



In [123]:
import typing as t
class Retrieve(object):
    collection_name = "Ludivine_progres_mars_2024"

    def __init__(self, query: str, search_params: t.Dict) -> None:
        self.client = connect_to_weaviate()
        assert self.client is not None
        assert self.client.is_live()

        # retrieval
        self.collection = self.client.collections.get(Retrieve.collection_name)
        self.query = query
        self.search_mode = search_params.get("search_mode")
        self.response_count = search_params.get("response_count")

        # output
        self.response = ""
        self.chunk_texts = []
        self.metadata = []

    # retrieve
    def search(self):
        metadata = ["distance", "certainty", "score", "explain_score"]
        if self.search_mode == "hybrid":
            self.response = self.collection.query.hybrid(
                query=self.query,
                # query_properties=["text"],
                limit=self.response_count,
                return_metadata=metadata,
            )
        elif self.search_mode == "near_text":
            self.response = self.collection.query.near_text(
                query=self.query,
                limit=self.response_count,
                return_metadata=metadata,
            )
        elif self.search_mode == "bm25":
            self.response = self.collection.query.bm25(
                query=self.query,
                limit=self.response_count,
                return_metadata=metadata,
            )

    def get_context(self):
        texts = []
        metadata = []
        if len(self.response.objects) > 0:
            for i in range(min([self.response_count, len(self.response.objects)])):
                prop = self.response.objects[i].properties
                texts.append(f"--- \n{prop.get('text')}")
                metadata.append(self.response.objects[i].metadata)
            self.chunk_texts = texts
            self.metadata = metadata

    def close(self):
        self.client.close()

    def process(self):
        self.search()
        self.get_context()
        self.close()


In [127]:
    params = {
        "search_mode": "hybrid",
        "response_count": 5,
        "model": "gpt-3.5-turbo-0125",
        "temperature": 0.5,
    }

    query = "Quelle est le problème du progrès ?"

In [128]:
ret = Retrieve(query, params)
ret.process()


client is live, ready and connected 


In [129]:
ret.chunk_texts

["--- \nEn 1851, dans Parerga et Paralipomena, Arthur Schopenhauer écrit ces mots : « Le progrès c’est là votre chimère. Il est le rêve du XIXe siècle comme la résurrection était celui du Xe siècle ; chaque âge a le sien ».\nEn 1853, Gustave Flaubert est plus sévère encore : « Ô Lumières, Ô Progrès, Ô humanité ! (...) Quelle éternelle horloge de bêtises que le cours des âges ! (...) C'est une chose curieuse comme l'humanité, à mesure qu'elle se fait autolâtre, devient stupide ».\nEn 1855, le philosophe Eugène Huzar formule la première approche catastrophiste du « progrès »,.",
 "--- \nEn 1851, dans Parerga et Paralipomena, Arthur Schopenhauer écrit ces mots : « Le progrès c’est là votre chimère. Il est le rêve du XIXe siècle comme la résurrection était celui du Xe siècle ; chaque âge a le sien ».\nEn 1853, Gustave Flaubert est plus sévère encore : « Ô Lumières, Ô Progrès, Ô humanité ! (...) Quelle éternelle horloge de bêtises que le cours des âges ! (...) C'est une chose curieuse comme

In [130]:
ret.metadata

[MetadataReturn(creation_time=None, last_update_time=None, distance=None, certainty=None, score=0.5516278743743896, explain_score='\nHybrid (Result Set vector) Document a1f24388-9feb-4620-ba32-f5c36eb60d10: original score 0.61426604, normalized score: 0.05162785 - \nHybrid (Result Set keyword) Document a1f24388-9feb-4620-ba32-f5c36eb60d10: original score 2.971829, normalized score: 0.5', is_consistent=None, rerank_score=None),
 MetadataReturn(creation_time=None, last_update_time=None, distance=None, certainty=None, score=0.5516278743743896, explain_score='\nHybrid (Result Set vector) Document 156bc83d-e6cd-4bb5-aa91-ae923593f3c1: original score 0.61426604, normalized score: 0.05162785 - \nHybrid (Result Set keyword) Document 156bc83d-e6cd-4bb5-aa91-ae923593f3c1: original score 2.971829, normalized score: 0.5', is_consistent=None, rerank_score=None),
 MetadataReturn(creation_time=None, last_update_time=None, distance=None, certainty=None, score=0.5516278743743896, explain_score='\nHybri

In [131]:
# le prompt
from langchain.prompts import ChatPromptTemplate


prompt_generative_context = ChatPromptTemplate.from_template(
        """Prends le rôle d'une journaliste spécialisée sur le progrès.
Tu écris un article sur l'UE pour le grand public.

En tant qu'IA, tu peux utiliser tes connaissances générales pour répondre à la question mais surtout n'invente rien.

Indique clairement
- Si le contexte ne permet pas de répondre à la question
- Si tes connaissances générales ne te permettent pas de répondre à la question

Voici une question et un contexte.
Réponds à la question en prenant compte l'information dans le contexte.
Écris une réponse dans un style concis .

--- Le contexte:
{context}
--- La question:
{query}
Ta réponse:
"""
    )


In [132]:
from langchain_openai import ChatOpenAI
from langchain.chains import LLMChain
from langchain.chains import SequentialChain



class Generate(object):
    def __init__(self, model: str = "gpt-3.5-turbo-0125", temperature: float = 0.5) -> None:
        self.model = model
        self.temperature = temperature
        llm = ChatOpenAI(model=model, temperature=temperature)

        llm_chain = LLMChain(
            llm=llm,
            prompt=prompt_generative_context,
            output_key="answer",
            verbose=True,
        )

        self.overall_context_chain = SequentialChain(
            chains=[llm_chain],
            input_variables=["context", "query"],
            output_variables=["answer"],
            verbose=True,
        )
        # outputs
        self.answer = ""

    def generate_answer(self, chunk_texts: t.List[str], query: str) -> str:
        response_context = self.overall_context_chain(
            {"context": "\n".join(chunk_texts), "query": query}
        )
        self.answer = response_context["answer"]

In [133]:
print(query)
gen = Generate()
gen.generate_answer(ret.chunk_texts, query)



Quelle est le problème du progrès ?


[1m> Entering new SequentialChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mHuman: Prends le rôle d'une journaliste spécialisée sur le progrès.
Tu écris un article sur l'UE pour le grand public.

En tant qu'IA, tu peux utiliser tes connaissances générales pour répondre à la question mais surtout n'invente rien.

Indique clairement
- Si le contexte ne permet pas de répondre à la question
- Si tes connaissances générales ne te permettent pas de répondre à la question

Voici une question et un contexte.
Réponds à la question en prenant compte l'information dans le contexte.
Écris une réponse dans un style concis .

--- Le contexte:
--- 
En 1851, dans Parerga et Paralipomena, Arthur Schopenhauer écrit ces mots : « Le progrès c’est là votre chimère. Il est le rêve du XIXe siècle comme la résurrection était celui du Xe siècle ; chaque âge a le sien ».
En 1853, Gustave Flaubert est plus sévère encore : 

In [134]:
gen.answer


"Le problème du progrès réside dans le fait qu'il est devenu un enchevêtrement de faits concrets plutôt qu'une simple conception philosophique. Cela rend extrêmement difficile de formuler un avis consensuel sur le progrès, car le respect du fait est devenu le critère de vérité, empêchant ainsi de remettre en question les structures de la civilisation et de se lancer dans une révolution nécessaire."