In [None]:
# üìä Projet : Intelligence Artificielle & Pricing d'Obligations High Yield
**Auteur :** Ma√©va Cavaleri (T√©l√©com SudParis)  
**Sujet :** Imputation de donn√©es manquantes par Syst√®me de Recommandation (Matrix Factorization) et Analyse de Valeur Relative (Rich/Cheap).

In [None]:
## 1. Introduction : Le Probl√®me de l'Illiquidit√© en Finance

### 1.1 Le March√© High Yield (HY)
Les obligations "High Yield" (obligations √† haut rendement) sont √©mises par des entreprises dont la note de cr√©dit est jug√©e risqu√©e (inf√©rieure √† **BBB-**). En √©change de ce risque de d√©faut plus √©lev√©, l'investisseur re√ßoit un **Spread** (une prime de rendement) important.

### 1.2 Le d√©fi des donn√©es manquantes (NaN)
Contrairement aux actions cot√©es en continu, les obligations HY s'√©changent de gr√© √† gr√© (**OTC - Over The Counter**). Cons√©quence :
*   De nombreux titres ne s'√©changent pas tous les jours.
*   Il y a des **"NaN" (Not a Number)** dans nos bases de donn√©es : ce sont des trous d'information.
*   **Le probl√®me du Quant :** Comment estimer la valeur d'une obligation le mardi si sa derni√®re transaction date du vendredi ?

In [None]:
## 2. G√©n√©ration des Donn√©es : Cr√©ation d'un Monde Synth√©tique

Pour tester notre IA, nous cr√©ons un univers financier contr√¥l√©. Nous utilisons un **Mod√®le Factoriel**.

### 2.1 La Formule Stochastique
Le spread d'une obligation $i$ au temps $t$ est g√©n√©r√© par :
$$Spread_{i,t} = Base + (\beta_i \times March√©_t) + Secteur_{s,t} + \epsilon_{i,t}$$

*   **Base (350 bps) :** Le niveau de risque "plancher" de notre univers.
*   **March√© ($M_t$) :** Une marche al√©atoire (`np.cumsum`) qui repr√©sente l'√©conomie globale.
*   **Secteur ($S_{s,t}$) :** Une tendance propre √† chaque industrie (Tech, Energie...). C'est ce qui cr√©e la **corr√©lation**.
*   **Beta ($\beta_i$) :** La sensibilit√© de l'obligation (agressive ou d√©fensive).
*   **$\epsilon$ (Bruit Idiosyncratique) :** L'al√©a pur de l'entreprise.

In [2]:
# CODE : G√©n√©ration du "monde complet"
import sys, os
sys.path.append('../') # On pointe vers le dossier src/
from src.data_generation import BondDataGenerator

gen = BondDataGenerator('../config/settings.yaml')
df_full, metadata = gen.generate()

# On cr√©e la "Matrice de Gruy√®re" (on cache 75% des donn√©es)
df_incomplete = gen.apply_illiquidity(df_full)

ModuleNotFoundError: No module named 'src'

In [None]:
## 3. Le Cerveau : Matrix Factorization (SVD It√©rative)

C'est ici que nous utilisons les techniques des syst√®mes de recommandation (type Netflix/Amazon).

### 3.1 Pourquoi la SVD ?
La **Singular Value Decomposition** d√©compose la matrice des spreads en **Facteurs Latents**.
*   Elle d√©couvre que les obligations ne bougent pas au hasard mais suivent des "th√®mes" cach√©s.
*   Si le th√®me "P√©trole" baisse, la SVD va automatiquement baisser le prix de toutes les obligations li√©es au p√©trole, m√™me celles qui n'ont pas de prix affich√© aujourd'hui.

### 3.2 L'importance du Centrage
Avant de lancer l'IA, on soustrait la moyenne de chaque obligation. 
**Pourquoi ?** Pour que le mod√®le ne compare pas des niveaux de prix (200 vs 600) mais des **variations de prix**. On veut que l'IA apprenne les corr√©lations, pas les moyennes.

### 3.3 L'algorithme It√©ratif
1.  On remplit les trous par une valeur simple (moyenne).
2.  On d√©compose avec la SVD pour extraire la structure du march√©.
3.  On utilise cette structure pour pr√©dire plus pr√©cis√©ment les trous.
4.  On recommence $X$ fois pour affiner la pr√©cision.

In [None]:
from src.models import OASImputer
imputer = OASImputer(n_factors=15) # On cherche les 15 th√®mes majeurs du march√©

# Imputation par IA
df_ml = imputer.matrix_factorization_fill(df_incomplete, iterations=5)

In [None]:
## 4. √âvaluation : L'IA est-elle fiable ?

Nous utilisons le **RMSE (Root Mean Squared Error)**. On calcule l'√©cart entre la **Vraie Valeur** (que nous avons g√©n√©r√©e) et la **Valeur Pr√©dite** par l'IA, uniquement sur les points qui √©taient manquants.

$$RMSE = \sqrt{\frac{1}{N} \sum (Vrai - Pr√©dit)^2}$$

### Analyse par Secteur
Toutes les industries ne sont pas √©gales. Certains secteurs sont tr√®s corr√©l√©s (faciles √† pr√©dire), d'autres sont tr√®s volatils. L'analyse sectorielle permet au g√©rant de savoir quel cr√©dit accorder au mod√®le.

In [None]:
from src.evaluation import ModelEvaluator
eval = ModelEvaluator(df_full, df_incomplete, metadata)
print(f"Pr√©cision globale : {eval.calculate_rmse(df_ml):.2f} bps")

In [None]:
## 5. Application M√©tier : Strat√©gie Rich / Cheap

C'est l'√©tape finale : **faire de l'argent**. 

### 5.1 La notion de Fair Value
Le prix pr√©dit par l'IA est la **"Fair Value"** (la juste valeur th√©orique). Si le march√© s'√©loigne trop de cette valeur, il y a une anomalie.

### 5.2 Les Signaux de Trading
On calcule : $Ecart = Spread_{March√©} - Spread_{IA}$.

1.  **CHEAP (Achat) :** Si $Ecart > 15$ bps. Le march√© demande un rendement de 500 alors que l'IA dit que le risque n'en vaut que 450. L'obligation est "brad√©e", on l'ach√®te.
2.  **RICH (Vente) :** Si $Ecart < -15$ bps. Le march√© est trop optimiste, le rendement est trop faible pour le risque r√©el. On vend.

**Pourquoi 15 bps ?** Pour couvrir les frais de transaction (Bid-Ask Spread) et l'incertitude du mod√®le.

In [None]:
from src.trading_strategy import TradingStrategy
strat = TradingStrategy(threshold=15)
signals, _ = strat.generate_signals(df_incomplete, df_ml)

In [None]:
## 6. Conclusion & Perspectives (Lien avec Cassiop√©e)

Ce projet d√©montre qu'une approche par **R√©duction de Dimension (SVD)** permet de vaincre l'illiquidit√©. 