# Automated Portfolio Commentary

**Objectif :** Automatisation de la génération de commentaires de performance avec un LLM. 

- Structuration de données financières
- Retrieval-Augmented Generation (RAG) basique
- Génération de texte avec OpenAI
- Validation simple


In [8]:
!pip install openai pandas numpy python-dotenv

import pandas as pd
import numpy as np
import json
from datetime import datetime
from openai import OpenAI
from dotenv import load_dotenv
import os

# api key
load_dotenv()
client = OpenAI(api_key="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")
print("Imports réussis")

✅ Imports réussis


In [15]:
#(En production, ces données viendraient d'une base de données)
#j'ai structuré des données de performance d'un portfolio fictif (performance, benchmark, allocation d'actifs, métriques de risque)

portfolio_data = {
    "name": "AAA Strategic Growth Fund",
    "period": "Janvier 2025",
    "performance": {
        "portfolio_return": 2.34,     
        "benchmark_return": 1.82,       
        "excess_return": 0.52,        
        "volatility": 8.45,             
        "sharpe_ratio": 1.32           
    },
    "asset_allocation": {
        "equities": {
            "weight": 45.2,            
            "return": 4.12,            
            "main_sectors": {
                "technology": 18.5,
                "healthcare": 12.3,
                "financials": 8.9
            }
        },
        "bonds": {
            "weight": 35.8,
            "return": 0.85,
            "types": {
                "government": 20.1,
                "corporate": 15.7
            }
        },
        "alternatives": {
            "weight": 12.0,
            "return": 1.23
        },
        "cash": {
            "weight": 7.0,
            "return": 0.33
        }
    }
}

# Affichage
print("DONNÉES DU PORTFOLIO")
print(f"Portfolio : {portfolio_data['name']}")
print(f"Période : {portfolio_data['period']}")
print(f"\nPerformance : {portfolio_data['performance']['portfolio_return']}%")
print(f"Benchmark : {portfolio_data['performance']['benchmark_return']}%")
print(f"Surperformance : +{portfolio_data['performance']['excess_return']}%")

DONNÉES DU PORTFOLIO
Portfolio : AAA Strategic Growth Fund
Période : Janvier 2025

Performance : 2.34%
Benchmark : 1.82%
Surperformance : +0.52%


In [11]:
# 2. CONTEXTE MACROÉCONOMIQUE
# Au lieu de demander au LLM de deviner, je lui fournis le contexte macroéconomique pertinent. En production, ces données viendraient d'apis de news ou de bases de données.
market_context = {
    "january_2025": {
        "central_banks": "La BCE a maintenu ses taux à 3.75%, signalant une pause dans le resserrement monétaire.",
        "inflation": "L'inflation dans la zone euro continue de décélérer, atteignant 2.8%.",
        "equities": "Les marchés actions ont progressé grâce aux résultats solides du secteur technologique.",
        "bonds": "Les obligations ont bénéficié d'un léger repli des taux longs.",
        "sentiment": "Le sentiment des investisseurs s'améliore avec l'apaisement des tensions géopolitiques."
    }
}

# Fonction pour récupérer le contexte
#RAG (Retrieval-Augmented Generation) simplifié :
#Récupère le contexte macroéconomique pertinent pour la période.En production, cela utiliserait(Une vector database (ChromaDB, Pinecone), Une recherche sémantique, Des sources multiples (news APIs, Bloomberg, etc.))

def get_relevant_context(period_key):
    if period_key in market_context:
        context = market_context[period_key]
        context_text = "\n".join([f"- {key.replace('_', ' ').title()}: {value}" 
                                   for key, value in context.items()])
        return context_text
    return "Contexte non disponible"

context = get_relevant_context("january_2025")

print("CONTEXTE MACROÉCONOMIQUE")
print(context)

CONTEXTE MACROÉCONOMIQUE
- Central Banks: La BCE a maintenu ses taux à 3.75%, signalant une pause dans le resserrement monétaire.
- Inflation: L'inflation dans la zone euro continue de décélérer, atteignant 2.8%.
- Equities: Les marchés actions ont progressé grâce aux résultats solides du secteur technologique.
- Bonds: Les obligations ont bénéficié d'un léger repli des taux longs.
- Sentiment: Le sentiment des investisseurs s'améliore avec l'apaisement des tensions géopolitiques.


In [22]:
# 3. FORMATAGE DES DONNÉES POUR LE LLM
# c'est la partie 'Augmented' du RAG : on enrichit le prompt avec des données factuelles.On structure toutes les informations dans un 
#format clair.

def format_data_for_llm(portfolio, context):    
    perf = portfolio['performance']
    alloc = portfolio['asset_allocation']
    
    formatted_context = f"""
DONNÉES DE PERFORMANCE - {portfolio['period']}

Portfolio : {portfolio['name']}

PERFORMANCE GLOBALE :
- Rendement du portfolio : {perf['portfolio_return']}%
- Rendement du benchmark : {perf['benchmark_return']}%
- Surperformance : {perf['excess_return']}% ({perf['excess_return']*100:.0f} points de base)
- Volatilité annualisée : {perf['volatility']}%
- Ratio de Sharpe : {perf['sharpe_ratio']}

ALLOCATION D'ACTIFS ET CONTRIBUTIONS :
1. Actions ({alloc['equities']['weight']}% du portfolio) : +{alloc['equities']['return']}%
   - Technologie : {alloc['equities']['main_sectors']['technology']}%
   - Santé : {alloc['equities']['main_sectors']['healthcare']}%
   - Finance : {alloc['equities']['main_sectors']['financials']}%

2. Obligations ({alloc['bonds']['weight']}% du portfolio) : +{alloc['bonds']['return']}%
   - Obligations d'État : {alloc['bonds']['types']['government']}%
   - Obligations corporate : {alloc['bonds']['types']['corporate']}%

3. Actifs alternatifs ({alloc['alternatives']['weight']}% du portfolio) : +{alloc['alternatives']['return']}%

4. Liquidités ({alloc['cash']['weight']}% du portfolio) : +{alloc['cash']['return']}%

CONTEXTE MACROÉCONOMIQUE :
{context}
"""
    
    return formatted_context

# Génération du contexte
llm_context = format_data_for_llm(portfolio_data, context)

print("CONTEXTE FORMATÉ POUR LE LLM")
print(llm_context)

CONTEXTE FORMATÉ POUR LE LLM

DONNÉES DE PERFORMANCE - Janvier 2025

Portfolio : AAA Strategic Growth Fund

PERFORMANCE GLOBALE :
- Rendement du portfolio : 2.34%
- Rendement du benchmark : 1.82%
- Surperformance : 0.52% (52 points de base)
- Volatilité annualisée : 8.45%
- Ratio de Sharpe : 1.32

ALLOCATION D'ACTIFS ET CONTRIBUTIONS :
1. Actions (45.2% du portfolio) : +4.12%
   - Technologie : 18.5%
   - Santé : 12.3%
   - Finance : 8.9%

2. Obligations (35.8% du portfolio) : +0.85%
   - Obligations d'État : 20.1%
   - Obligations corporate : 15.7%

3. Actifs alternatifs (12.0% du portfolio) : +1.23%

4. Liquidités (7.0% du portfolio) : +0.33%

CONTEXTE MACROÉCONOMIQUE :
- Central Banks: La BCE a maintenu ses taux à 3.75%, signalant une pause dans le resserrement monétaire.
- Inflation: L'inflation dans la zone euro continue de décélérer, atteignant 2.8%.
- Equities: Les marchés actions ont progressé grâce aux résultats solides du secteur technologique.
- Bonds: Les obligations ont bé

In [16]:
# 4. GÉNÉRATION DU COMMENTAIRE AVEC LE LLM, J'ai mis une température basse pour être le plus factuel possible, 
#des instructions strictes de ne jamais inventer de chiffres.

def generate_commentary(context_data):
    system_prompt = """Tu es un analyste financier senior qui rédige des commentaires de performance pour des investisseurs institutionnels.

RÈGLES STRICTES :
1. Utilise UNIQUEMENT les chiffres fournis dans le contexte
2. Ne jamais inventer de données
3. Ton professionnel et factuel
4. Structure : 3 paragraphes (performance, drivers, contexte)
5. Maximum 250 mots

Ton commentaire doit expliquer :
- La performance globale vs benchmark
- Les principaux contributeurs (quelles classes d'actifs ont bien performé)
- Le lien avec le contexte macroéconomique"""

    user_prompt = f"""Génère un commentaire de performance professionnel basé sur ces données :

{context_data}

Commentaire :"""

    try:
        response = client.chat.completions.create(
            model="gpt-4o-mini",  # Modèle moins cher pour la demo
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt}
            ],
            temperature=0.3,
            max_tokens=500
        )
        
        commentary = response.choices[0].message.content
        return commentary
    
    except Exception as e:
        return f"Erreur lors de la génération : {str(e)}"

# Génération
print("GÉNÉRATION DU COMMENTAIRE...")
print("(Cela peut prendre quelques secondes)")
print()

generated_commentary = generate_commentary(llm_context)

print("="*80)
print("COMMENTAIRE GÉNÉRÉ")
print("="*80)
print()
print(generated_commentary)

GÉNÉRATION DU COMMENTAIRE...
(Cela peut prendre quelques secondes)

COMMENTAIRE GÉNÉRÉ

En janvier 2025, le AAA Strategic Growth Fund a enregistré un rendement de 2.34%, surpassant son benchmark qui a affiché un rendement de 1.82%, soit une surperformance de 0.52% (52 points de base). La volatilité annualisée du portefeuille s'établit à 8.45%, avec un ratio de Sharpe de 1.32, indiquant une gestion efficace du risque.

Les principales contributions à la performance proviennent des actions, qui représentent 45.2% du portefeuille et ont généré un rendement de +4.12%. Le secteur technologique, avec une pondération de 18.5%, a particulièrement bien performé, soutenu par des résultats solides. Les secteurs de la santé et de la finance ont également contribué positivement avec des rendements respectifs de 12.3% et 8.9%. Les obligations, représentant 35.8% du portefeuille, ont enregistré un rendement de +0.85%, bénéficiant d'un léger repli des taux longs. Les actifs alternatifs et les liquidit

In [21]:
# 5. VALIDATION DU COMMENTAIRE
# Garde-fous contre les hallucinations, j'ai ajouté des validations basiques, vérifier que les chiffres sont cohérents, qu'il n'y a pas de ton inapproprié, etc.

def validate_commentary(commentary, source_data):
    issues = []
    warnings = []
    
    # vérifier que les chiffres clés sont mentionnés
    perf = source_data['performance']
    
    if str(perf['portfolio_return']) not in commentary and \
       f"{perf['portfolio_return']:.1f}" not in commentary:
        warnings.append("Performance totale pas clairement mentionnée")
    
    # pas de chiffres absurdes
    import re
    numbers = re.findall(r'(\d+(?:\.\d+)?)\s*%', commentary)
    for num_str in numbers:
        num = float(num_str)
        if num > 50:  # Performance mensuelle > 50% est suspect
            issues.append(f" Chiffre suspect détecté : {num}%")
    
    # pas trop long
    word_count = len(commentary.split())
    if word_count > 400:
        warnings.append(f"Commentaire long : {word_count} mots")
    
    # ton professionnel (pas de mots trop informels)
    unprofessional = ['super', 'génial', 'terrible', 'catastrophique', 'explosé']
    for word in unprofessional:
        if word.lower() in commentary.lower():
            warnings.append(f"Mot informel détecté : '{word}'")
    
    return issues, warnings

# Validation
issues, warnings = validate_commentary(generated_commentary, portfolio_data)

print("RAPPORT DE VALIDATION")

if not issues and not warnings:
    print("Toutes les validations sont passées !")
else:
    if issues:
        print("\nPROBLÈMES CRITIQUES :")
        for issue in issues:
            print(f"  {issue}")
    
    if warnings:
        print("\nAVERTISSEMENTS :")
        for warning in warnings:
            print(f"  {warning}")



RAPPORT DE VALIDATION
Toutes les validations sont passées !
