Implémentation d'un Adaboost 

In [7]:
# Imports nécessaires pour l'implémentation AdaBoost
import pandas as pd
import numpy as np
from sklearn.ensemble import AdaBoostClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

In [8]:
# Chargement des données depuis le dossier features avec Pandas
data_path = Path(r'..\data\features\DATA_0')

# Chargement du fichier XBT_EUR.parquet avec Pandas
xbt_data = pd.read_parquet(data_path / 'XBT_EUR.parquet')

print(f"Shape des données XBT_EUR: {xbt_data.shape}")
print(f"\nPremières lignes des données:")
print(xbt_data.head())

print(f"\nInformations sur les colonnes:")
print(xbt_data.info())

print(f"\nStatistiques descriptives:")
print(xbt_data.describe())

print(f"\nTypes de données:")
print(xbt_data.dtypes)

Shape des données XBT_EUR: (880093, 15)

Premières lignes des données:
                     V-bid-5-levels  V-ask-5-levels  \
timestamp    row_id                                   
1.748488e+09 0             8.211519        9.762466   
             1             8.211519        7.472074   
             2             8.211519        7.472074   
             3             8.211519        7.472074   
             4             8.211519        9.762472   

                     bid-ask-imbalance-5-levels  spread  slope-bid-5-levels  \
timestamp    row_id                                                           
1.748488e+09 0                        -0.086288     0.1           -0.584545   
             1                         0.047148     0.1           -0.584545   
             2                         0.047148     0.1           -0.584545   
             3                         0.047148     0.1           -0.584545   
             4                        -0.086289     0.1           -0.

In [9]:
# Analyse de la structure des données
print("=== ANALYSE DE LA STRUCTURE DES DONNÉES ===")
print(f"Nombre de lignes: {len(xbt_data)}")
print(f"Nombre de colonnes: {len(xbt_data.columns)}")
print(f"\nNoms des colonnes:")
print(xbt_data.columns.tolist())

# Vérifier s'il y a une colonne timestamp
timestamp_cols = [col for col in xbt_data.columns if 'time' in col.lower() or 'date' in col.lower()]
print(f"\nColonnes potentielles de timestamp: {timestamp_cols}")

# Vérifier l'index
print(f"\nType d'index: {type(xbt_data.index)}")
print(f"Index: {xbt_data.index[:5]}")

# Afficher les premières lignes avec plus de détails
print("\n=== APERÇU DES DONNÉES ===")
print(xbt_data.head(3))

=== ANALYSE DE LA STRUCTURE DES DONNÉES ===
Nombre de lignes: 880093
Nombre de colonnes: 15

Noms des colonnes:
['V-bid-5-levels', 'V-ask-5-levels', 'bid-ask-imbalance-5-levels', 'spread', 'slope-bid-5-levels', 'slope-ask-5-levels', 'vwap-bid-5-levels', 'vwap-ask-5-levels', 'liquidity-ratio', 'inst_volatility', 'momentum', 'mid_price_trend', 'vwap_mid', 'avg-bid-volume-level-1', 'avg-ask-volume-level-1']

Colonnes potentielles de timestamp: []

Type d'index: <class 'pandas.core.indexes.multi.MultiIndex'>
Index: MultiIndex([(1748488448.889497, 0),
            (1748488448.889497, 1),
            (1748488448.988629, 2),
            (1748488449.029294, 3),
            (1748488449.032322, 4)],
           names=['timestamp', 'row_id'])

=== APERÇU DES DONNÉES ===
                     V-bid-5-levels  V-ask-5-levels  \
timestamp    row_id                                   
1.748488e+09 0             8.211519        9.762466   
             1             8.211519        7.472074   
            