
# Assistant Analyste Financier Intelligent pour les Rapports Financiers

## Introduction

Ce notebook vous guide dans la création d'une application complète pour un analyste financier intelligent. L'application permet :
- De résumer les points clés des rapports financiers des entreprises.
- De poser des questions spécifiques sur les données du rapport.
- D’interagir avec les rapports via une interface intuitive.

Nous utilisons **LangChain**, **OpenAI API**, et **Streamlit** pour offrir une expérience utilisateur fluide et efficace.

### Prérequis
- Une clé API OpenAI.
- Les bibliothèques Python nécessaires.


# Introduction à LangChain

LangChain est une **bibliothèque open-source** conçue pour intégrer des **grands modèles de langage (LLMs)**, tels que ceux d'OpenAI, dans des applications complexes. Il simplifie la création de solutions interactives basées sur des LLMs, comme les assistants intelligents ou les systèmes de recherche contextuelle.

---

## Fonctionnalités principales

1. **Chaînes de traitement (Chains)**  
   Combine plusieurs étapes, par exemple :  
   - Résumer un document.
   - Répondre à des questions basées sur le résumé.

2. **Gestion de la mémoire (Memory)**  
   Ajoute une **mémoire à long terme** pour que les applications comme les chatbots se souviennent du contexte des conversations.

3. **Connecteurs de données (Document Loaders)**  
   Chargez des données depuis des sources variées :  
   - Fichiers PDF, JSON.
   - Bases de données SQL.
   - APIs externes.

4. **Recherche vectorielle (Vector Search)**  
   Convertit des documents en **vecteurs sémantiques** (via des embeddings) pour effectuer des recherches avancées basées sur le contenu.

5. **Personnalisation des prompts (Prompt Engineering)**  
   Facilite la création et la gestion de **prompts efficaces** pour maximiser la pertinence des réponses.

6. **Agents**  
   Permet aux LLMs de prendre des décisions autonomes et d'interagir avec des outils externes comme des bases de données ou des APIs.

7. **Intégrations**  
   Compatible avec des services tels que :  
   - **OpenAI**, **Hugging Face**, **Google Vertex AI**.  
   - **Pinecone** et d'autres outils pour la recherche vectorielle.

---

## Pourquoi utiliser LangChain ?

1. **Simplification de l'intégration des LLMs** :  
   Utilisez des abstractions prêtes à l'emploi pour accélérer le développement.

2. **Applications avancées** :  
   - Analyser des documents (PDF, JSON, etc.).  
   - Construire des assistants interactifs capables de répondre à des questions contextuelles.

3. **Flexibilité** :  
   Configurez des pipelines complexes en combinant différentes étapes.

4. **Domaines d'application spécifiques** :  
   - Chatbots conversationnels.  
   - Résumés automatiques.  
   - Traductions juridiques ou médicales.

---



In [30]:

# Installation des bibliothèques nécessaires
!pip install -qU langchain-openai openai streamlit


In [32]:
%pip install -qU pypdf

Note: you may need to restart the kernel to use updated packages.


## Configuration de l'environnement

In [34]:
!pip install langchain-community




In [36]:

# Importer les bibliothèques nécessaires
import os

# Renseignez votre clé OpenAI ici ou configurez une variable d'environnement
os.environ["OPENAI_API_KEY"] = "Votre clé API"


In [38]:
# Importer PyPDFLoader pour charger le PDF
from langchain_community.document_loaders import PyPDFLoader

# Chemin d'accès vers votre fichier
file_path="rapportfinanciersocietegenerale.pdf"


# Charger le rapport PDF
loader = PyPDFLoader(file_path)
pages = []

# Charger le document de manière asynchrone
async for page in loader.alazy_load():
    pages.append(page)

print(f"Nombre de pages chargées : {len(pages)}")

# Afficher un aperçu de la première page
print(f"Page 1 :\n{pages[0].page_content[:500]}")


Nombre de pages chargées : 20
Page 1 :
 
1 
  
RÉSULTATS AU 30 SEPTEMBRE 2024 
 
Communiqué de presse        
Paris, le 31 octobre 2024 
PERFORMANCE SOUTENUE DES MÉTIERS AU T3-24, 
RÉSULTAT NET PART DU GROUPE À 1,4 MD EUR 
Revenus de 6,8 milliards d’euros, en hausse de +10,5% vs. T3-231, portés notamment par le fort rebond de 
la marge nette d’intérêt en France, conformément à l’estimation de fin d’année , et par une performance une 
nouvelle fois solide en Banque de Grande Clientèle et Solutions Investisseurs, en particulier sur les


In [40]:
print(f"{pages[0].metadata}\n")
print(pages[0].page_content)

{'source': 'rapportfinanciersocietegenerale.pdf', 'page': 0}

 
1 
  
RÉSULTATS AU 30 SEPTEMBRE 2024 
 
Communiqué de presse        
Paris, le 31 octobre 2024 
PERFORMANCE SOUTENUE DES MÉTIERS AU T3-24, 
RÉSULTAT NET PART DU GROUPE À 1,4 MD EUR 
Revenus de 6,8 milliards d’euros, en hausse de +10,5% vs. T3-231, portés notamment par le fort rebond de 
la marge nette d’intérêt en France, conformément à l’estimation de fin d’année , et par une performance une 
nouvelle fois solide en Banque de Grande Clientèle et Solutions Investisseurs, en particulier sur les métiers Actions 
et de Transaction Banking 
Effets de ciseaux positifs, maîtrise des frais de gestion, en baisse de -0,8% vs. T3-23  
Coefficient d’exploitation de 63,3% au T3-24, en amélioration de 7,1 points de pourcentage vs. T3-23 
Coût du risque stable à 27 points de base au T3-24 
Rentabilité (ROTE) de 9,6%, vs. 3,8% au T3-23 
RÉSULTATS SUR 9M-24 EN HAUSSE DE 5 3% VS. 9M-23 À 3,2 MD D’EUROS, 
TIRÉS PAR L’AMÉLIORATION DE LA PERF

In [42]:
documents = loader.load()
# Afficher les sections chargées
for i, page in enumerate(documents):
    print(f"Page {i + 1}:")
    print(page.page_content[:500])  # Imprimer les 500 premiers caractères

Page 1:
 
1 
  
RÉSULTATS AU 30 SEPTEMBRE 2024 
 
Communiqué de presse        
Paris, le 31 octobre 2024 
PERFORMANCE SOUTENUE DES MÉTIERS AU T3-24, 
RÉSULTAT NET PART DU GROUPE À 1,4 MD EUR 
Revenus de 6,8 milliards d’euros, en hausse de +10,5% vs. T3-231, portés notamment par le fort rebond de 
la marge nette d’intérêt en France, conformément à l’estimation de fin d’année , et par une performance une 
nouvelle fois solide en Banque de Grande Clientèle et Solutions Investisseurs, en particulier sur les
Page 2:
 
2 
1. RÉSULTATS CONSOLIDÉS DU GROUPE 
 
En M EUR T3-24 T3-23 Variation 9M-24 9M-23 Variation 
Produit net bancaire 6 837 6 189 +10,5% +11,8%* 20 167 19 147 +5,3% +6,5%* 
Frais de gestion (4 327) (4 360) -0,8% -0,3%* (13 877) (13 858) +0,1% +0,5%* 
Résultat brut d'exploitation 2 511 1 829 +37,3% +41,0%* 6 290 5 289 +18,9% +22,4%* 
Coût net du risque (406) (316) +28,4% +30,5%* (1 192) (664) +79,6% +81,0%* 
Résultat d'exploitation 2 105 1 513 +39,1% +43,2%* 5 098 4 625 +10,2% +13

# Recherche Vectorielle dans des Fichiers PDF

Une fois les fichiers PDF chargés en tant qu'objets `Document` dans LangChain, il devient possible de les indexer pour des cas d'utilisation avancés, comme une application RAG (Retrieval-Augmented Generation). 

Cette approche permet d'exploiter efficacement les données contenues dans les PDF pour effectuer des recherches rapides et contextuelles. Dans l'exemple ci-dessous, nous utilisons les embeddings fournis par OpenAI, mais tout modèle d'embeddings compatible avec LangChain peut être utilisé selon vos besoins.


In [44]:
%pip install -qU langchain-openai

Note: you may need to restart the kernel to use updated packages.


In [46]:
import getpass
import os

if "OPENAI_API_KEY" not in os.environ:
    os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

In [13]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
# Diviser le document en sections pour l'analyse
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=50)
split_docs = text_splitter.split_documents(documents)

print(f"Nombre de sections créées : {len(split_docs)}")

Nombre de sections créées : 70


In [52]:
# Importer les outils pour la recherche vectorielle
from langchain_core.vectorstores import InMemoryVectorStore
from langchain_openai import OpenAIEmbeddings

# Créer un index vectoriel à partir des pages
vector_store = InMemoryVectorStore.from_documents(pages, OpenAIEmbeddings())

# Exemple de recherche vectorielle
query = "Quel est le résultat net bancaire ?"
docs = vector_store.similarity_search(query, k=2)

# Afficher les résultats de la recherche
for doc in docs:
    print(f'Page {doc.metadata["page"]}: {doc.page_content[:300]}\n')


Page 1:  
2 
1. RÉSULTATS CONSOLIDÉS DU GROUPE 
 
En M EUR T3-24 T3-23 Variation 9M-24 9M-23 Variation 
Produit net bancaire 6 837 6 189 +10,5% +11,8%* 20 167 19 147 +5,3% +6,5%* 
Frais de gestion (4 327) (4 360) -0,8% -0,3%* (13 877) (13 858) +0,1% +0,5%* 
Résultat brut d'exploitation 2 511 1 829 +37,3% +4

Page 11:  
12 
 
Coût du risque  
Sur le trimestre , le coût du risque se normalise à un niveau de 4 8 points de base (soit 201 millions 
d’euros). 
 
Sur 9M-24, le coût du risque est de 45 points de base par rapport à 32 points de base au 9M-23. 
 
Résultat net part du Groupe  
Sur le trimestre , le résulta



## Interface utilisateur avec Streamlit