#  Analyste Financier avec LLaMa - 3

---
Dans ce notebook nous allons:
1. Affiner localement un mod√®le LLaMa 3 √† l‚Äôaide de donn√©es de questions-r√©ponses contextuelles issues de formulaires 10-K, en utilisant un apprentissage supervis√© et une adaptation √† bas rang (LoRA).

2. Mettre en place un pipeline de donn√©es pour r√©cup√©rer les derniers rapports 10-K aupr√®s de la SEC.

3. Utiliser des embeddings locaux et une base vectorielle en m√©moire pour cr√©er une fonction de recherche (retrieval).

4. Combiner le tout afin de construire un agent RAG (Retrieval-Augmented Generation) destin√© √† l‚Äôanalyse financi√®re.

Par Yvan-Manuel BALEGUEL, inspir√© de [Data Camp Tutorial] (https://www.datacamp.com/tutorial/llama3-fine-tuning-locally)

---

### Installation des d√©pendances et configuration des cl√©s API

Dans cette section, nous allons :

1. Installer toutes les biblioth√®ques n√©cessaires √† l'entra√Ænement du mod√®le, √† la r√©cup√©ration des donn√©es financi√®res et √† la cr√©ation de la base de donn√©es vectorielle locale.

2. Ajouter les cl√©s d'authentification API pour Hugging Face (acc√®s aux mod√®les LLaMa) et, si besoin, pour l'API SEC (acc√®s aux rapports financiers 10-K).



In [None]:
%%capture
# Installe Unsloth, Xformers (Flash Attention) et autres packages
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers trl peft accelerate bitsandbytes
!pip install sec_api
!pip install -U langchain
!pip install -U langchain-community
!pip install -U sentence-transformers
!pip install -U faiss-gpu
!pip install faiss-gpu
!pip install python-dotenv

Le Token HF et l'api SEC ci-dessosus sont personnels et √† ne pas pertager.
Baleguel Yvan-Manuel

In [None]:
from dotenv import load_dotenv
import os
load_dotenv()
# HuggingFace token, n√©cessaire pour acc√©der aux mod√®les  (comme LLaMa 3 8B Instruct)
hf_token = os.getenv("HF_TOKEN")
# SEC-API Key
sec_api_key = os.getenv("SEC_API_KEY")

In [28]:
# Packages pour Fine Tuning
from unsloth import FastLanguageModel
import torch
from datasets import load_dataset
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

# Packages pour Pipeline & RAG
from sec_api import ExtractorApi, QueryApi
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

---
## **Partie 1: Fine Tuning LLaMa 3 avec Unsloth**

Nous allons utiliser le **GPU int√©gr√© de Colab** pour effectuer tout le processus de **fine-tuning**, en utilisant la biblioth√®que [**Unsloth**](https://github.com/unslothai/unsloth).

Une grande partie du code ci-dessous est **adapt√©e √† partir de la [documentation officielle d‚ÄôUnsloth](https://colab.research.google.com/drive/135ced7oHytdxu3N2DNe1Z0kqjyYIkDXp?usp=sharing#scrollTo=AEEcJ4qfC7Lp)**.



### **Initialisation du mod√®le pr√©-entra√Æn√© et du tokenizer**

Dans cet exemple, nous utiliserons le mod√®le [**LLaMa 3 8B Instruct de Meta**](https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct).  
**REMARQUE** : Il s'agit d‚Äôun mod√®le restreint ("gated model") ‚Äî vous devez **demander un acc√®s sur Hugging Face** et **fournir votre token HF** dans l‚Äô√©tape ci-dessous.


In [4]:
# Charger le mod√®le et tokenizer du pre-trained FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
    # S√©lectionner le pre-trained model √† utiliser
    model_name = "meta-llama/Meta-Llama-3-8B-Instruct",
    # Sp√©cifier le nombre de Tokens max que le mod√®le peut process en un seul forward
    max_seq_length = 2048,
    # Type de donn√©es utilis√© pour le mod√®le. None signifie que le type est d√©tect√© automatiquement selon le mat√©riel disponible. Float16 est recommand√© pour certains GPU sp√©cifiques, comme le Tesla T4.
    dtype = None,
    # Activer la quantification en 4 bits. En quantifiant les poids du mod√®le en 4 bits au lieu des 16 ou 32 bits habituels,la m√©moire n√©cessaire pour stocker ces poids est fortement r√©duite. Cela permet de faire tourner des mod√®les plus gros sur du mat√©riel avec une m√©moire limit√©e.
    load_in_4bit = True,
    # Jeton d'acc√®s pour les mod√®les restreints ("gated models"), requis pour s'authentifier et utiliser des mod√®les comme Meta-Llama-2-7b-hf.
    token = hf_token,
)


==((====))==  Unsloth 2025.3.19: Fast Llama patching. Transformers: 4.50.3.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.70G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/220 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/51.1k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/345 [00:00<?, ?B/s]

**Ajout des adaptateurs LoRA pour un fine-tuning efficace en param√®tres**

LoRA, ou **Low-Rank Adaptation**, est une technique utilis√©e en apprentissage automatique pour **affiner plus efficacement les grands mod√®les**.  
Elle consiste √† ajouter un petit ensemble de param√®tres suppl√©mentaires au mod√®le existant, **sans avoir √† r√©entra√Æner tous les param√®tres** d‚Äôorigine.

Cela rend le processus de fine-tuning **plus rapide** et **moins gourmand en ressources**.  
En r√©sum√©, LoRA permet d‚Äôadapter un mod√®le pr√©-entra√Æn√© √† des t√¢ches ou jeux de donn√©es sp√©cifiques, **sans n√©cessiter une puissance de calcul ou une m√©moire importante**.


In [5]:
# Apply LoRA (Low-Rank Adaptation) adapters to the model for parameter-efficient fine-tuning
model = FastLanguageModel.get_peft_model(
    model,
    # Appliquer les adaptateurs LoRA (Low-Rank Adaptation) au mod√®le pour un fine-tuning efficace avec un nombre r√©duit de param√®tres √† entra√Æner.
    r = 16,
    # Sp√©cifier les couches du mod√®le auxquelles les adaptateurs LoRA doivent √™tre appliqu√©s.
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj"],
    # Facteur d‚Äô√©chelle pour LoRA.Contr√¥le l‚Äôimportance de l‚Äôadaptation. En g√©n√©ral, c‚Äôest un petit entier positif.
    lora_alpha = 16,
    # Taux de dropout (abandon) pour LoRA.Une valeur de 0 signifie aucun dropout, ce qui est optimal pour les performances.
    lora_dropout = 0,
    # Gestion du biais dans LoRA. Le param√®tre "none" est optimis√© pour les performances, mais d'autres options peuvent √™tre utilis√©es selon les besoins.
    bias = "none",
    # Active le gradient checkpointing pour √©conomiser de la m√©moire pendant l'entra√Ænement. L'option "unsloth" est optimis√©e pour les contextes tr√®s longs.
    use_gradient_checkpointing = "unsloth",
    # Graine pour la g√©n√©ration de nombres al√©atoires, afin de garantir la reproductibilit√© des r√©sultats.
    random_state = 3407,
)

Unsloth 2025.3.19 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


1. **r** : Le **rang** de la matrice d‚Äôadaptation √† bas rang (Low-Rank Adaptation).  
   Il d√©termine la capacit√© de l‚Äôadaptateur √† capturer des informations suppl√©mentaires.  
   Un rang plus √©lev√© permet de mod√©liser des motifs plus complexes, mais augmente √©galement le co√ªt de calcul.

2. **target_modules** : Liste des **couches du mod√®le** auxquelles les adaptateurs LoRA doivent √™tre appliqu√©s.  
   Il s‚Äôagit en g√©n√©ral des projections internes aux couches transformeurs (transformer layers), telles que :

   - **q_proj** : Projette les caract√©ristiques d‚Äôentr√©e vers les vecteurs de requ√™tes (queries) pour le m√©canisme d‚Äôattention.
   - **k_proj** : Projette les caract√©ristiques d‚Äôentr√©e vers les vecteurs de cl√©s (keys).
   - **v_proj** : Projette les caract√©ristiques d‚Äôentr√©e vers les vecteurs de valeurs (values).
   - **o_proj** : Projette la sortie du m√©canisme d‚Äôattention vers la couche suivante.
   - **gate_proj** : Applique des m√©canismes de ¬´‚ÄØgating‚ÄØ¬ª pour r√©guler le flux d‚Äôinformation.
   - **up_proj** : Projette les caract√©ristiques dans un espace de plus haute dimension (feed-forward).
   - **down_proj** : Projette les caract√©ristiques dans un espace de plus basse dimension.

   Ces couches sont essentielles au bon fonctionnement des mod√®les bas√©s sur les transformeurs, notamment pour les calculs d‚Äôattention et les transformations dans les r√©seaux feed-forward.

3. **lora_alpha** : Facteur d‚Äô√©chelle pour l‚Äôadaptateur LoRA.  
   Il contr√¥le l‚Äôimpact de l‚Äôadaptateur sur les sorties du mod√®le.  
   En g√©n√©ral, on utilise un petit entier positif.

4. **lora_dropout** : Taux de dropout appliqu√© aux adaptateurs LoRA.  
   Le dropout aide √† r√©gulariser l‚Äôapprentissage.  
   Une valeur de `0` signifie **aucun dropout**, ce qui est souvent optimal pour les performances.

5. **bias** : Sp√©cifie la gestion des biais dans les adaptateurs LoRA.  
   La valeur `"none"` d√©sactive les biais pour optimiser les performances,  
   mais d‚Äôautres options sont possibles selon le cas d‚Äôusage.

6. **use_gradient_checkpointing** : Active le **gradient checkpointing**,  
   ce qui permet d‚Äô√©conomiser de la m√©moire pendant l‚Äôentra√Ænement en **ne stockant pas tous les √©tats interm√©diaires**.  
   L‚Äôoption `"unsloth"` est optimis√©e pour les contextes tr√®s longs, mais on peut aussi la remplacer par `True`.

7. **random_state** : Graine du g√©n√©rateur de nombres al√©atoires,  
   utilis√©e pour assurer la **reproductibilit√©** des r√©sultats entre diff√©rentes ex√©cutions du code.


### **Pr√©paration du jeu de donn√©es pour le fine-tuning**

Nous allons utiliser un jeu de donn√©es Hugging Face de **questions-r√©ponses financi√®res extraites de rapports 10-K**, mis √† disposition par l‚Äôutilisateur [**Virat Singh**](https://github.com/virattt) :  
https://huggingface.co/datasets/virattt/llama-3-8b-financialQA

Le code ci-dessous formate les entr√©es selon le **prompt d'entra√Ænement d√©fini plus t√¥t**, en veillant √† bien ajouter les **tokens sp√©ciaux** n√©cessaires.  
Dans notre cas, le **token de fin de phrase** est `<|eot_id|>`.

La liste compl√®te des tokens sp√©ciaux pour LLaMa 3 est disponible [ici](https://llama.meta.com/docs/model-cards-and-prompt-formats/meta-llama-3/)


In [6]:
# D√©finir le prompt exact attendu
ft_prompt = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
Below is a user question, paired with retrieved context. Write a response that appropriately answers the question,
include specific details in your response. <|eot_id|>

<|start_header_id|>user<|end_header_id|>

### Question:
{}

### Context:
{}

<|eot_id|>

### Response: <|start_header_id|>assistant<|end_header_id|>
{}"""

# R√©cup√©rer la fin de phrase Token Sp√©cial
EOS_TOKEN = tokenizer.eos_token # Doit ajouter EOS_TOKEN

# Fonction permettant de formater le prompt ci-dessus √† partir des informations du jeu de donn√©es Financial QA.

def formatting_prompts_func(examples):
    questions = examples["question"]
    contexts       = examples["context"]
    responses      = examples["answer"]
    texts = []
    for question, context, response in zip(questions, contexts, responses):
        # Il est imp√©ratif d‚Äôajouter le EOS_TOKEN, sinon la g√©n√©ration risque de ne jamais s‚Äôarr√™ter !

        text = ft_prompt.format(question, context, response) + EOS_TOKEN
        texts.append(text)
    return { "text" : texts, }
pass

dataset = load_dataset("virattt/llama-3-8b-financialQA", split = "train")
dataset = dataset.map(formatting_prompts_func, batched = True,)

README.md:   0%|          | 0.00/419 [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/7000 [00:00<?, ? examples/s]

Map:   0%|          | 0/7000 [00:00<?, ? examples/s]

In [7]:
dataset[0]

{'question': 'What area did NVIDIA initially focus on before expanding to other computationally intensive fields?',
 'answer': 'NVIDIA initially focused on PC graphics.',
 'context': 'Since our original focus on PC graphics, we have expanded to several other large and important computationally intensive fields.',
 'ticker': 'NVDA',
 'filing': '2023_10K',
 'text': '<|begin_of_text|><|start_header_id|>system<|end_header_id|>\nBelow is a user question, paired with retrieved context. Write a response that appropriately answers the question,\ninclude specific details in your response. <|eot_id|>\n\n<|start_header_id|>user<|end_header_id|>\n\n### Question:\nWhat area did NVIDIA initially focus on before expanding to other computationally intensive fields?\n\n### Context:\nSince our original focus on PC graphics, we have expanded to several other large and important computationally intensive fields.\n\n<|eot_id|>\n\n### Response: <|start_header_id|>assistant<|end_header_id|>\nNVIDIA initially

### **D√©finition des arguments du Trainer**

Nous allons configurer et utiliser le [**Supervised Fine-Tuning Trainer**](https://huggingface.co/docs/trl/sft_trainer) de la librairie **HuggingFace TRL (Transformer Reinforcement Learning)**.

Le **fine-tuning supervis√©** est un processus en apprentissage automatique o√π un mod√®le pr√©-entra√Æn√© est ensuite entra√Æn√© sur un **jeu de donn√©es sp√©cifique avec des exemples annot√©s**.  
Pendant ce processus, le mod√®le apprend √† faire des pr√©dictions ou des classifications en se basant sur ces exemples, am√©liorant ainsi sa performance sur la t√¢che cibl√©e.

Cette technique permet de tirer parti des **connaissances g√©n√©rales** acquises lors de la phase de pr√©-entra√Ænement, tout en adaptant le mod√®le √† un **contexte ou domaine pr√©cis**.

Le fine-tuning supervis√© est couramment utilis√© pour personnaliser un mod√®le sur des applications sp√©cifiques telles que :

- l‚Äôanalyse de sentiments,  
- la reconnaissance d‚Äôobjets,  
- ou la traduction automatique,  

en s‚Äôappuyant sur des donn√©es annot√©es selon la t√¢che vis√©e.


In [10]:
trainer = SFTTrainer(
    # Le mod√®le qui doit √™tre fine-tuned
    model = model,
    # Le Tokenizer associ√© au mod√®le
    tokenizer = tokenizer,
    # Le dataset urilis√© pour training
    train_dataset = dataset,
    # La partie du dataset avec le texte
    dataset_text_field = "text",
    # Longueur maximale des s√©quences pour les donn√©es d'entra√Ænement
    max_seq_length = 2048,
    # Nombre de processus √† utiliser pour le chargement des donn√©es
    dataset_num_proc = 2,
    # Utiliser ou non le "sequence packing", ce qui peut acc√©l√©rer l'entra√Ænement pour les s√©quences courtes
    packing = False,
    args = TrainingArguments(
    # Taille de batch par appareil pendant l'entra√Ænement
    per_device_train_batch_size = 2,
    # Nombre d'√©tapes d'accumulation de gradients avant la mise √† jour des param√®tres du mod√®le
    gradient_accumulation_steps = 4,
    # Nombre d'√©tapes de "warmup" pour le scheduler du taux d'apprentissage
    warmup_steps = 5,
    # Nombre total d'√©tapes d'entra√Ænement
    max_steps = 60,
    # Nombre d'√©poques d'entra√Ænement ‚Äî peut √™tre utilis√© √† la place de max_steps ; ici, le dataset permettrait ~900 √©tapes
    # num_train_epochs = 1,
    # Taux d'apprentissage de l'optimiseur
    learning_rate = 2e-4,
    # Utiliser la pr√©cision en virgule flottante 16 bits si bfloat16 n'est pas support√©
    fp16 = not is_bfloat16_supported(),
    # Utiliser la pr√©cision bfloat16 si elle est support√©e
    bf16 = is_bfloat16_supported(),
    # Nombre d'√©tapes entre chaque enregistrement de logs
    logging_steps = 1,
    # Optimiseur √† utiliser (ici, AdamW en pr√©cision 8 bits)
    optim = "adamw_8bit",
    # D√©croissance de poids √† appliquer aux param√®tres du mod√®le (r√©gularisation)
    weight_decay = 0.01,
    # Type de scheduler utilis√© pour le taux d'apprentissage
    lr_scheduler_type = "linear",
    # Graine pour la g√©n√©ration de nombres al√©atoires afin d'assurer la reproductibilit√©
    seed = 3407,
    # Dossier de sortie pour sauvegarder les mod√®les et les logs
    output_dir = "outputs",
  ),
)

Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/7000 [00:00<?, ? examples/s]

1. **model** : Le mod√®le √† affiner.  
   Il s'agit du **mod√®le pr√©-entra√Æn√©** qui sera adapt√© au jeu de donn√©es d'entra√Ænement sp√©cifique.

2. **tokenizer** : Le tokenizer associ√© au mod√®le.  
   Il transforme les textes en **tokens** exploitables par le mod√®le.

3. **train_dataset** : Le jeu de donn√©es utilis√© pour l'entra√Ænement.  
   C'est l'ensemble d'exemples annot√©s √† partir duquel le mod√®le va apprendre.

4. **dataset_text_field** : Le champ contenant les textes dans le dataset.  
   Il indique **quelle colonne** contient les donn√©es textuelles √† utiliser pour l'entra√Ænement.

5. **max_seq_length** : Longueur maximale des s√©quences.  
   Elle limite le nombre de tokens par entr√©e pour respecter la capacit√© du mod√®le.

6. **dataset_num_proc** : Nombre de processus utilis√©s pour charger les donn√©es.  
   Cela permet d'acc√©l√©rer le chargement des donn√©es par **traitement parall√®le**.

7. **packing** : Bool√©en indiquant si le **regroupement de s√©quences** est activ√©.  
   Le "packing" permet de **regrouper plusieurs courtes s√©quences** dans un m√™me lot, ce qui acc√©l√®re l'entra√Ænement.

8. **args** : Ensemble d‚Äô**arguments de configuration de l'entra√Ænement** (hyperparam√®tres) :

   - **per_device_train_batch_size** : Taille du batch par appareil pendant l'entra√Ænement.  
     Cela d√©termine combien d'exemples sont trait√©s √† chaque it√©ration.

   - **gradient_accumulation_steps** : Nombre d'√©tapes d'accumulation de gradients avant mise √† jour des poids.  
     Cela permet de simuler un batch plus grand sans d√©passer la m√©moire disponible.

   - **warmup_steps** : Nombre d‚Äô√©tapes de "chauffe" pour le scheduler de taux d‚Äôapprentissage.  
     Le learning rate augmente progressivement durant ces √©tapes initiales.

   - **max_steps** : Nombre total d'√©tapes d‚Äôentra√Ænement.  
     D√©finit combien de batchs seront utilis√©s au total pour l‚Äôapprentissage.

   - **num_train_epochs** : Nombre d‚Äô**√©poques d‚Äôentra√Ænement** (comment√© dans l‚Äôexemple).  
     D√©finit combien de fois l‚Äôensemble du dataset sera parcouru par le mod√®le.

   - **learning_rate** : Taux d‚Äôapprentissage pour l‚Äôoptimiseur.  
     Contr√¥le l‚Äôintensit√© des ajustements de poids √† chaque mise √† jour.

   - **fp16** : Bool√©en pour activer l‚Äôentra√Ænement en virgule flottante 16 bits si bfloat16 n‚Äôest pas support√©.  
     Permet de r√©duire la m√©moire utilis√©e et acc√©l√©rer l‚Äôentra√Ænement.

   - **bf16** : Bool√©en pour activer le format **bfloat16**, plus stable que fp16 si disponible.

   - **logging_steps** : Fr√©quence (en nombre d‚Äô√©tapes) √† laquelle les logs d'entra√Ænement sont enregistr√©s.

   - **optim** : Optimiseur utilis√©.  
     Ici, **AdamW en 8 bits**, qui am√©liore l'efficacit√© m√©moire pour les grands mod√®les.

   - **weight_decay** : Taux de **p√©nalisation des grands poids** (r√©gularisation).  
     R√©duit le risque de surapprentissage (overfitting).

   - **lr_scheduler_type** : Type de scheduler utilis√© pour le learning rate.  
     Contr√¥le l‚Äô√©volution du taux d‚Äôapprentissage au fil du temps.

   - **seed** : Graine utilis√©e pour la g√©n√©ration al√©atoire, garantissant la **reproductibilit√©** des r√©sultats.

   - **output_dir** : Dossier de sortie o√π seront **enregistr√©s le mod√®le entra√Æn√© et les logs** d'entra√Ænement.


# **Pr√™t pour l'entrainement!**

In [15]:
import wandb
wandb.init(project="mon_projet_llama3")
trainer_stats = trainer.train()

<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
wandb: Paste an API key from your profile and hit enter:

 ¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑¬∑


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33myvanmanuelbbm[0m ([33myvanmanuelbbm-centralesup-lec[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 7,000 | Num Epochs = 1 | Total steps = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)


Step,Training Loss
1,4.5535
2,4.0169
3,4.0079
4,3.7049
5,2.6846
6,2.5416
7,2.0939
8,2.1582
9,2.0109
10,1.5898


---
### **Sauvegarde locale de votre mod√®le fine-tun√©**

Commencez par cliquer sur l‚Äôonglet **Fichiers**, puis **montez Google Drive** pour y acc√©der depuis Colab.  
Cr√©ez ensuite un dossier dans votre Drive et remplacez le chemin d‚Äôenregistrement ci-dessous par le v√¥tre.


In [16]:
model.save_pretrained("/content/drive/MyDrive/projet_ia_centralesup_finance/projet_ia_centralesup_finance_step60") # Sauvegarde locale
tokenizer.save_pretrained("/content/drive/MyDrive/projet_ia_centralesup_finance/projet_ia_centralesup_finance_step60")

('/content/drive/MyDrive/projet_ia_centralesup_finance/projet_ia_centralesup_finance_step60/tokenizer_config.json',
 '/content/drive/MyDrive/projet_ia_centralesup_finance/projet_ia_centralesup_finance_step60/special_tokens_map.json',
 '/content/drive/MyDrive/projet_ia_centralesup_finance/projet_ia_centralesup_finance_step60/tokenizer.json')

### **Fonction pour recharger votre mod√®le fine-tun√© plus tard**

Pour √©viter de devoir r√©entra√Æner le mod√®le √† chaque fois, il suffit de **remplacer `False` par `True`** et d‚Äôex√©cuter ce bloc.  


In [17]:
# Red√©finition du prompt si le mod√®le est import√© sans passer par la phase d'entra√Ænement
ft_prompt = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
Below is a user question, paired with retrieved context. Write a response that appropriately answers the question,
include specific details in your response. <|eot_id|>

<|start_header_id|>user<|end_header_id|>

### Question:
{}

### Context:
{}

<|eot_id|>

### Response: <|start_header_id|>assistant<|end_header_id|>
{}"""

if False: # switch √† true pour charger le back up du mod√®le
    model, tokenizer = FastLanguageModel.from_pretrained(
        model_name = "/content/drive/MyDrive/projet_ia_centralesup_finance/projet_ia_centralesup_finance_step60", # Chemin vers mod√®le sauvegard√©
        dtype = None,
        load_in_4bit = True,
    )
    FastLanguageModel.for_inference(model)

### **Mise en place des fonctions pour ex√©cuter l‚Äôinf√©rence**

L‚Äô**inf√©rence** d√©signe le processus d‚Äôutilisation d‚Äôun mod√®le de machine learning entra√Æn√© pour **faire des pr√©dictions ou g√©n√©rer du contenu** √† partir de nouvelles donn√©es, jamais vues auparavant.  
Elle consiste √† **fournir une entr√©e au mod√®le**, qui retourne ensuite une **pr√©diction, une classification ou un texte g√©n√©r√©**, selon la t√¢che pour laquelle il a √©t√© con√ßu.

C‚Äôest la **phase d‚Äôapplication du mod√®le**, par opposition √† la phase d‚Äôentra√Ænement.


In [22]:
# Fonction principale d'inf√©rence
def inference(question, context):
  inputs = tokenizer(
  [
      ft_prompt.format(
          question,
          context,
          "", # output - √† laisser vide pour g√©neration!
      )
  ], return_tensors = "pt").to("cuda")

  # G√©n√®re des tokens √† partir du prompt d‚Äôentr√©e en utilisant le mod√®le,
  # avec un maximum de 64 nouveaux tokens g√©n√©r√©s.
  # Le param√®tre `use_cache` permet d‚Äôacc√©l√©rer la g√©n√©ration en r√©utilisant les calculs pr√©c√©dents.
  # Le `pad_token_id` est d√©fini sur le token de fin (EOS) pour g√©rer correctement le padding.

  outputs = model.generate(**inputs, max_new_tokens = 64, use_cache = True, pad_token_id=tokenizer.eos_token_id)
  response = tokenizer.batch_decode(outputs) # D√©code le Token en mots anglais
  return response

In [21]:
# Fonction permettant d'extraire uniquement la r√©ponse g√©n√©r√©e par le mod√®le √† partir de la sortie compl√®te du prompt.

def extract_response(text):
    text = text[0]
    start_token = "### Response: <|start_header_id|>assistant<|end_header_id|>"
    end_token = "<|eot_id|>"

    start_index = text.find(start_token) + len(start_token)
    end_index = text.find(end_token, start_index)

    if start_index == -1 or end_index == -1:
        return None

    return text[start_index:end_index].strip()

In [23]:
# Test!
context = "The increase in research and development expense for fiscal year 2023 was primarily driven by increased compensation, employee growth, engineering development costs, and data center infrastructure."
question = "What were the primary drivers of the notable increase in research and development expenses for fiscal year 2023?"

resp = inference(question, context)
parsed_response = extract_response(resp)
print(parsed_response)

The notable increase in research and development expenses for fiscal year 2023 was primarily driven by increased compensation, employee growth, engineering development costs, and data center infrastructure.


In [24]:
print(resp)

['<|begin_of_text|><|begin_of_text|><|start_header_id|>system<|end_header_id|>\nBelow is a user question, paired with retrieved context. Write a response that appropriately answers the question,\ninclude specific details in your response. <|eot_id|>\n\n<|start_header_id|>user<|end_header_id|>\n\n### Question:\nWhat were the primary drivers of the notable increase in research and development expenses for fiscal year 2023?\n\n### Context:\nThe increase in research and development expense for fiscal year 2023 was primarily driven by increased compensation, employee growth, engineering development costs, and data center infrastructure.\n\n<|eot_id|>\n\n### Response: <|start_header_id|>assistant<|end_header_id|>\nThe notable increase in research and development expenses for fiscal year 2023 was primarily driven by increased compensation, employee growth, engineering development costs, and data center infrastructure.<|eot_id|>']


---
# **Partie 2 : Mise en place du pipeline de donn√©es SEC 10-K et de la fonctionnalit√© de recherche (retrieval)**

Maintenant que nous avons notre **mod√®le de langage fine-tun√©**, nos **fonctions d‚Äôinf√©rence** et un **format de prompt bien d√©fini**,  
nous allons mettre en place un pipeline **RAG** (Retrieval-Augmented Generation) pour injecter automatiquement le **contexte pertinent** dans chaque g√©n√©ration.

Voici le flux que nous allons construire :

**Question de l‚Äôutilisateur** ‚Üí **R√©cup√©ration du contexte depuis le 10-K** ‚Üí **Le LLM r√©pond en s‚Äôappuyant sur ce contexte**

Pour cela, nous devons √™tre capables de :

1. R√©cup√©rer des informations pr√©cises depuis les rapports 10-K  
2. Parser et d√©couper le texte de ces documents  
3. Vectoriser et transformer ces segments en **embeddings**, stock√©s dans une base de donn√©es vectorielle  
4. Mettre en place un **retriever** qui effectue une recherche s√©mantique √† partir des questions utilisateur, afin de retourner le contexte le plus pertinent

Un **Formulaire 10-K** est un rapport annuel obligatoire d√©pos√© aupr√®s de la **U.S. Securities and Exchange Commission (SEC)**.  
Il fournit un r√©sum√© d√©taill√© de la performance financi√®re d‚Äôune entreprise sur l‚Äôann√©e √©coul√©e.


### **Fonction de r√©cup√©ration des rapports 10-K**

Pour simplifier cette √©tape, nous utilisons l‚ÄôAPI de la SEC : https://sec-api.io/.  
L‚Äôinscription est gratuite et permet d‚Äôeffectuer **100 appels par jour**.  
Chaque chargement de symboles boursiers (tickers) consomme environ **3 appels API**.

Dans ce projet, nous allons nous concentrer uniquement sur les sections suivantes des rapports 10-K :

- **Section 1A** : Facteurs de risque (*Risk Factors*)  
- **Section 7** : Analyse de la situation financi√®re et des r√©sultats d‚Äôexploitation (*Management's Discussion and Analysis of Financial Condition and Results of Operations*)


In [25]:
# Extraction des fillings
def get_filings(ticker):
    global sec_api_key

    # cherche les Filings r√©cents avec QueryAPI
    queryApi = QueryApi(api_key=sec_api_key)
    query = {
      "query": f"ticker:{ticker} AND formType:\"10-K\"",
      "from": "0",
      "size": "1",
      "sort": [{ "filedAt": { "order": "desc" } }]
    }
    filings = queryApi.get_filings(query)

    # 10-K URL
    filing_url = filings["filings"][0]["linkToFilingDetails"]

    # Extrait le Texte avec ExtractorAPI
    extractorApi = ExtractorApi(api_key=sec_api_key)
    onea_text = extractorApi.get_section(filing_url, "1A", "text") # Section 1A - Risk Factors
    seven_text = extractorApi.get_section(filing_url, "7", "text") # Section 7 - Management‚Äôs Discussion and Analysis of Financial Condition and Results of Operations

    # Joindre les Textes
    combined_text = onea_text + "\n\n" + seven_text

    return combined_text

### **Configuration locale des embeddings**

Dans l‚Äôesprit d‚Äôune approche **locale et fine-tun√©e**, nous utiliserons un mod√®le open source d‚Äôembedding d√©velopp√© par la **Beijing Academy of Artificial Intelligence** :  
üëâ [**Large English Embedding Model**](https://huggingface.co/BAAI/bge-large-en-v1.5)  
Plus d‚Äôinformations disponibles dans leur [d√©p√¥t GitHub](https://github.com/FlagOpen/FlagEmbedding)

---

**Les embeddings** sont des repr√©sentations num√©riques de donn√©es, utilis√©es pour convertir des informations complexes et de haute dimension en un espace vectoriel de plus faible dimension.  
Dans le domaine du **traitement du langage naturel (NLP)**, les embeddings servent √† repr√©senter des mots, phrases ou documents sous forme de **vecteurs de nombres r√©els**.

Ces vecteurs capturent les **relations s√©mantiques** : autrement dit, des mots ou phrases ayant un sens proche auront des vecteurs proches dans l‚Äôespace vectoriel.

---

**Les mod√®les d‚Äôembedding** sont des mod√®les d‚Äôapprentissage automatique con√ßus pour apprendre ces repr√©sentations.  
Ils sont entra√Æn√©s √† encoder divers types de donn√©es tout en conservant leurs caract√©ristiques et relations essentielles.

Par exemple, en NLP, des mod√®les comme **Word2Vec**, **GloVe** ou **BERT** sont entra√Æn√©s sur de larges corpus pour produire des embeddings exploitables dans de nombreuses t√¢ches :  
- classification de texte,  
- analyse de sentiment,  
- traduction automatique, etc.

Dans notre cas, les embeddings seront utilis√©s pour **mesurer la similarit√© s√©mantique** entre une question et des documents financiers.


In [26]:
# Chemin mod√®le HF
modelPath = "BAAI/bge-large-en-v1.5"
# Cr√©e un dictionnaire avec les options de configuration du mod√®le,en pr√©cisant l‚Äôutilisation de CUDA pour optimiser l‚Äôex√©cution sur GPU.
model_kwargs = {'device':'cuda'}
encode_kwargs = {'normalize_embeddings': True}

# Initialise une instance des embeddings HuggingFace de LangChain en utilisant les param√®tres sp√©cifi√©s pr√©c√©demment.
embeddings = HuggingFaceEmbeddings(
    model_name=modelPath,     # chemin vers le pre-trained model
    model_kwargs=model_kwargs, # Pass les options de config du mod√®le
    encode_kwargs=encode_kwargs # Pass les encoding options
)

  embeddings = HuggingFaceEmbeddings(


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/94.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/779 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/366 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/711k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

### **Traitement et d√©finition de la base de donn√©es vectorielle**

Dans cette partie, nous allons utiliser les donn√©es r√©cup√©r√©es via les fonctions de l‚ÄôAPI SEC, puis les traiter en suivant trois √©tapes :

1. **D√©coupage du texte**  
2. **Vectorisation**  
3. **Mise en place de la fonction de recherche (retrieval)**

---

#### üîπ **D√©coupage du texte (Text Splitting)**  
Le d√©coupage consiste √† diviser un document volumineux (rapport financier, document juridique, etc.) en **segments plus petits et g√©rables**.  
Cela permet de mieux traiter, analyser et indexer le contenu √† l‚Äôaide de mod√®les d‚ÄôIA ou de bases de donn√©es.

---

#### üîπ **Bases de donn√©es vectorielles (Vector Databases)**  
Ces bases stockent les donn√©es sous forme de **vecteurs num√©riques** (embeddings), qui capturent le **sens s√©mantique** du texte, d‚Äôune image ou d‚Äôautres types de donn√©es.  
Elles permettent ensuite des **recherches par similarit√©** tr√®s efficaces.

Dans ce projet, nous utilisons **[FAISS](https://ai.meta.com/tools/faiss/)**, la librairie de recherche vectorielle d√©velopp√©e par **Facebook AI**.  
C‚Äôest une solution l√©g√®re, **enti√®rement en m√©moire** (pas besoin de sauvegarde disque), parfaitement adapt√©e √† notre cas d‚Äôusage, m√™me si moins puissante que d‚Äôautres bases vectorielles industrielles.

---

#### üîÅ **Comment les documents d√©coup√©s et les embeddings sont utilis√©s ensemble :**

1. **Embeddings** : Chaque segment de texte d√©coup√© est transform√© en **vecteur num√©rique** √† l‚Äôaide d‚Äôun mod√®le d‚Äôembedding.  
   Ces vecteurs repr√©sentent le sens s√©mantique du texte.

2. **Stockage** : La base vectorielle conserve les embeddings **ainsi qu‚Äôun lien vers le texte d‚Äôorigine**.

3. **Indexation** : Les vecteurs sont index√©s pour permettre une **recherche rapide et efficace** par similarit√©.

4. **Utilisation** : Lors d‚Äôune requ√™te, la base vectorielle retrouve les **vecteurs les plus proches** du vecteur de la question, et renvoie les **passages de texte pertinents** √† utiliser comme contexte.


In [34]:
!pip install faiss-cpu
import faiss

Collecting faiss-cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl (30.7 MB)
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m30.7/30.7 MB[0m [31m32.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.10.0


In [36]:
# Prompt input par l'utilisateur pour le stock ticker √† analyser
ticker = input("What Ticker Would you Like to Analyze? ex. AAPL: ")

print("-----")
print("Getting Filing Data")
# r√©cup√©rer les fillings pour le ticker
filing_data = get_filings(ticker)

print("-----")
print("Initializing Vector Database")
# Initialise un d√©coupeur de texte pour diviser le contenu en segments
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 1000,         # Taille maximale de chaque segment
    chunk_overlap = 500,       # Nombre de caract√®res de chevauchement entre segments
    length_function = len,     # Fonction utilis√©e pour mesurer la longueur des segments
    is_separator_regex = False # Le s√©parateur n'est pas une expression r√©guli√®re
)
# D√©coupe le contenu du rapport en segments exploitables
split_data = text_splitter.create_documents([filing_data])

# Cr√©e une base vectorielle FAISS √† partir des segments et des embeddings
db = FAISS.from_documents(split_data, embeddings)

# Cr√©e un objet de r√©cup√©ration pour effectuer des recherches dans la base vectorielle
retriever = db.as_retriever()

print("-----")
print("Filing Initialized")


What Ticker Would you Like to Analyze? ex. AAPL: AAPL
-----
Getting Filing Data
-----
Initializing Vector Database
-----
Filing Initialized



### **Recherche (Retrieval)**

**Description :**  
La recherche (retrieval) consiste √† **interroger une base de donn√©es vectorielle** afin de retrouver les **segments de texte les plus pertinents** par rapport √† une requ√™te donn√©e.  
Cela implique de parcourir les embeddings index√©s pour identifier ceux qui sont les plus proches de l‚Äôembedding de la question.

---

**Fonctionnement :**

1. **Embedding de la requ√™te** :  
   Lorsqu‚Äôune question est pos√©e, elle est d‚Äôabord **convertie en vecteur (embedding)** √† l‚Äôaide du **m√™me mod√®le d‚Äôembedding** que celui utilis√© pour les documents.

2. **Recherche par similarit√©** :  
   Le syst√®me effectue une recherche des vecteurs les plus proches dans la base vectorielle.  
   La **similarit√©** est g√©n√©ralement mesur√©e √† l‚Äôaide de **distances cosinus** ou **euclidiennes**.

3. **R√©cup√©ration des documents** :  
   Le syst√®me identifie les **segments de texte originaux** associ√©s aux vecteurs similaires retrouv√©s.

4. **Assemblage du contexte** :  
   Les segments de texte s√©lectionn√©s sont **assembl√©s** pour fournir un **contexte coh√©rent** qui sera inject√© dans le prompt du mod√®le.

---

Dans la fonction ci-dessous, la requ√™te sert √† **invoquer le retriever**,  
qui renvoie une liste de documents.  
Le contenu de ces documents est ensuite extrait et retourn√© en tant que **contexte** pour le mod√®le.


In [37]:
def retrieve_context(query):
    global retriever
    retrieved_docs = retriever.invoke(query)
    context = []
    for doc in retrieved_docs:
        context.append(doc.page_content)
    return context

In [38]:
context = retrieve_context("How have currency fluctuations impacted the company's net sales and gross margins?")
print(context)

['The weakening of foreign currencies relative to the U.S. dollar adversely affects the U.S. dollar value of the Company&#8217;s foreign currency&#8211;denominated sales and earnings, and generally leads the Company to raise international pricing, potentially reducing demand for the Company&#8217;s products. In some circumstances, for competitive or other reasons, the Company may decide not to raise international pricing to offset the U.S. dollar&#8217;s strengthening, which would adversely affect the U.S. dollar value of the gross margins the Company earns on foreign currency&#8211;denominated sales.', 'The Company&#8217;s profit margins vary across its products, services, geographic segments and distribution channels. For example, the gross margins on the Company&#8217;s products and services vary significantly and can change over time. The Company&#8217;s gross margins are subject to volatility and downward pressure due to a variety of factors, including: continued industry-wide glo

---
# **Script principal : tout assembler !**

Nous allons maintenant **regrouper toutes les √©tapes pr√©c√©dentes** dans une boucle `while` tr√®s simple.  
Cette boucle va :

1. Prendre une **question de l‚Äôutilisateur**  
2. **R√©cup√©rer le contexte pertinent** depuis la base vectorielle aliment√©e par le rapport 10-K de l‚Äôentreprise concern√©e  
3. Lancer l‚Äô**inf√©rence avec notre mod√®le fine-tun√©** pour g√©n√©rer une r√©ponse

Essayez par vous-m√™me !


In [39]:
while True:
  question = input(f"What would you like to know about {ticker}'s form 10-K? ")
  if question == "x":
    break
  else:
    context = retrieve_context(question) # Context Retrieval
    resp = inference(question, context) # Running Inference
    parsed_response = extract_response(resp) # Parsing Response
    print(f"L3 Agent: {parsed_response}")
    print("-----\n")


What would you like to know about AAPL's form 10-K? Where is outsourcing located currently?
L3 Agent: The outsourcing partners are located primarily in China mainland, India, Japan, South Korea, Taiwan, and Vietnam.
-----

What would you like to know about AAPL's form 10-K? Does the US dollar weakening help or hurt the company?
L3 Agent: The weakening of the US dollar relative to other currencies generally negatively affects the company's sales and earnings due to reduced demand and lower gross margins.
-----



KeyboardInterrupt: Interrupted by user

What region contributes most to international sales?  
Where is outsourcing located currently?  
Does the US dollar weakening help or hurt the company?  
What are significant announcements of products during fiscal year 2023?  
iPhone Net Sales?


---
# Disclaimer
Les informations contenues dans ce notebook sont fournies **√† des fins purement acad√©miques**, dans le cadre du cours d‚Äô**Intelligence Artificielle** dispens√© par **Hugues Talbot** √† **CentraleSup√©lec - MSTM**. Ce travail ne constitue en aucun cas un **conseil en investissement** ni une recommandation financi√®re. Le contenu est destin√© √† un usage strictement p√©dagogique et **ne doit pas √™tre diffus√©, partag√© ou publi√©** en dehors de ce contexte sans autorisation pr√©alable.
###Yvan-Manuel BALEGUEL