In [26]:
import os
import pandas as pd
import numpy as np
import psycopg2
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from sqlalchemy import create_engine
from sklearn.impute import KNNImputer
from sklearn.ensemble import IsolationForest
from tabulate import tabulate


In [27]:

DB_URL = "postgresql://postgres:123456@localhost:5432/bourse_tunisie"
engine = create_engine(DB_URL)


try:
    conn = psycopg2.connect(
        dbname="bourse_tunisie",
        user="postgres",
        password="123456",
        host="localhost",
        port="5432"
    )
    conn.set_client_encoding('UTF8')
    print("✅ Connexion réussie à PostgreSQL !")

except Exception as e:
    print(f"❌ Erreur de connexion à PostgreSQL : {e}")
    exit()

# 🔹 Fonction pour construire la requête SQL

def build_stock_query():
    """Build SQL query for retrieving stock data using the code ISIN."""
    return """
    SELECT
        ct.date_seance::date AS date,
        v.id AS valeur_id,
        v.code_isin,
        v.libelle_long,
        v.prix_introduction,
        ct.prix_cloture_ajuste,
        ct.prix_plus_bas_ajuste,
        ct.prix_plus_haut_ajuste,
        ct.volume,
        ct.perf_annuelle,
        ct.qte_echangee
        
    FROM cours_titre ct
    JOIN valeur v ON ct.valeur_id = v.id
    JOIN groupe g ON v.groupe_id = g.id
    WHERE g.id IN (155, 157, 159)
    ORDER BY ct.date_seance::date DESC;
    """


# 🔹 Exécuter la requête et récupérer les données
try:
    query = build_stock_query()
    df = pd.read_sql(query, engine)  # Lire les données dans un DataFrame
    print("✅ Données extraites avec succès !")
    print(df.head()) 

except Exception as e:
    print(f"❌ Erreur lors de l'exécution de la requête : {e}")





✅ Connexion réussie à PostgreSQL !
✅ Données extraites avec succès !
         date  valeur_id     code_isin      libelle_long  prix_introduction  \
0  2025-03-04        264  TN0007530017  ONE TECH HOLDING                6.5   
1  2025-03-04        241  TN0006660013          SOTRAPIL               12.5   
2  2025-03-04        274  TN0007630015        SOTIPAPIER                5.0   
3  2025-03-04        233  TN0006530018           SOTETEL               23.0   
4  2025-03-04        288  TNQPQXRODTH8     SMART TUNISIE               25.5   

   prix_cloture_ajuste  prix_plus_bas_ajuste  prix_plus_haut_ajuste  \
0                 9.08                  8.88                   9.08   
1                17.35                 17.35                  17.35   
2                 4.45                  4.43                   4.47   
3                 7.10                  7.00                   7.10   
4                13.20                 13.10                  13.20   

      volume  perf_annuelle  

In [28]:
import os
import pandas as pd
import numpy as np
import psycopg2
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from sqlalchemy import create_engine
from sklearn.impute import KNNImputer
from sklearn.ensemble import IsolationForest
from tabulate import tabulate

DB_URL = "postgresql://postgres:123456@localhost:5432/bourse_tunisie"
engine = create_engine(DB_URL)


try:
    conn = psycopg2.connect(
        dbname="bourse_tunisie",
        user="postgres",
        password="123456",
        host="localhost",
        port="5432"
    )
    conn.set_client_encoding('UTF8')
    print("✅ Connexion réussie à PostgreSQL !")

except Exception as e:
    print(f"❌ Erreur de connexion à PostgreSQL : {e}")
    exit()

# 🔹 Fonction pour construire la requête SQL

def build_stock_query():
    """Build SQL query for retrieving stock data using the code ISIN."""
    return """
    SELECT
        ct.date_seance::date AS date,
        v.id AS valeur_id,
        v.code_isin,
        v.libelle_long,
        v.prix_introduction,
        ct.prix_cloture_ajuste,
        ct.prix_plus_bas_ajuste,
        ct.prix_plus_haut_ajuste,
        ct.volume,
        ct.perf_annuelle,
        ct.qte_echangee
        
    FROM cours_titre ct
    JOIN valeur v ON ct.valeur_id = v.id
    JOIN groupe g ON v.groupe_id = g.id
    WHERE g.id IN (155, 157, 159)
    ORDER BY ct.date_seance::date DESC;
    """


# 🔹 Exécuter la requête et récupérer les données
try:
    query = build_stock_query()
    df = pd.read_sql(query, engine)  # Lire les données dans un DataFrame
    print("✅ Données extraites avec succès !")
    print(df.head()) 

except Exception as e:
    print(f"❌ Erreur lors de l'exécution de la requête : {e}")


def nettoyer_donnees(df):
    print("\n🔍 Début du nettoyage des données...")

    # 🔹 Vérifier et corriger l'encodage des colonnes textuelles
    for col in df.select_dtypes(include=[object]).columns:
        df[col] = df[col].astype(str).apply(
            lambda x: x.encode('utf-8', 'ignore').decode('utf-8') if isinstance(x, str) else x)

    # 🔹 Afficher le nombre de NaN avant traitement
    print(f"\n🔍 Nombre de valeurs manquantes AVANT nettoyage :\n{df.isna().sum()}")

    # 🔹 Remplacer les valeurs NaN par des valeurs par défaut
    df.fillna(value={'prix': 0, 'date': pd.Timestamp.today()}, inplace=True)

    # 🔹 Suppression des prix négatifs si la colonne existe
    if 'prix' in df.columns:
        df = df[df['prix'] >= 0]
        print(f"➡️ Taille après suppression des prix négatifs: {df.shape}")

    # 🔹 Correction du format des dates si la colonne existe
    if 'date' in df.columns:
        df['date'] = pd.to_datetime(df['date'], errors='coerce')
        df.dropna(subset=['date'], inplace=True)
        print(f"➡️ Taille après suppression des dates invalides: {df.shape}")

    # 🔹 Sélectionner les colonnes numériques pour imputation
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        # 🔹 Vérifier si les colonnes numériques contiennent encore des NaN
        nan_counts = df[numeric_cols].isna().sum()
        if nan_counts.sum() > 0:
            print(f"\n⚠️ Il reste {nan_counts.sum()} valeurs NaN dans les colonnes numériques.")
            print("⚠️ Remplacement des valeurs manquantes par la moyenne des colonnes.")

            # 🔹 Remplacer les NaN par la moyenne des colonnes
            df[numeric_cols] = df[numeric_cols].apply(lambda x: x.fillna(x.mean()))

        # 🔹 Appliquer KNNImputer sur un échantillon max de 50,000 lignes
        sample_size = min(50000, len(df))
        df_sample = df.sample(n=sample_size, random_state=42)
        imputer = KNNImputer(n_neighbors=5)
        df_sample[numeric_cols] = imputer.fit_transform(df_sample[numeric_cols])

        # 🔹 Réinjecter les valeurs imputées dans le dataset principal
        df.update(df_sample)
        print(f"✅ KNNImputer appliqué sur {sample_size} lignes.")

    # 🔹 Afficher le nombre de NaN après nettoyage
    print(f"\n🔍 Nombre de valeurs manquantes APRÈS nettoyage :\n{df.isna().sum()}")

    print("✅ Nettoyage terminé.")
    return df



df_propre = nettoyer_donnees(df)



✅ Connexion réussie à PostgreSQL !
✅ Données extraites avec succès !
         date  valeur_id     code_isin libelle_long  prix_introduction  \
0  2025-03-04        279  TN0007690019         UADH               6.50   
1  2025-03-04        259  TN0007410012       ENNAKL              10.70   
2  2025-03-04        212  TN0002200053           BT              35.00   
3  2025-03-04        209  TN0001800457         BIAT              19.00   
4  2025-03-04        218  TN0003100609          BNA              15.35   

   prix_cloture_ajuste  prix_plus_bas_ajuste  prix_plus_haut_ajuste  \
0                 0.40                  0.40                   0.40   
1                11.70                  0.00                   0.00   
2                 5.14                  5.13                   5.14   
3               103.50                101.00                 103.50   
4                 8.79                  8.60                   8.79   

      volume  perf_annuelle  qte_echangee  
0    2000.00   

In [29]:
#calcul_RSI

def calcul_rsi(prix, n=14):
    delta = prix.diff()
    gain = delta.where(delta > 0, 0)
    perte = -delta.where(delta < 0, 0)
    avg_gain = gain.rolling(window=n).mean()
    avg_loss = perte.rolling(window=n).mean()
    rs = avg_gain / avg_loss
    rsi = 100 - (100 / (1 + rs))
    return rsi


In [30]:


def construire_dataframe_indicateurs(df):
    df_resultat = pd.DataFrame()
    all_societes = []
    log_traitement = []

    print("\n📋 Analyse des sociétés :\n")

    for societe, groupe in df.groupby('libelle_long'):
        groupe = groupe.sort_values('date', ascending=True).reset_index(drop=True)
        nb_lignes = len(groupe)

        if nb_lignes < 30:
            log_traitement.append([societe, nb_lignes, "❌ Trop peu de données"])
            continue

        log_traitement.append([societe, nb_lignes, "✔️ OK"])

        dates = groupe['date']
        prix = groupe['prix_cloture_ajuste']
        high = groupe['prix_plus_haut_ajuste']
        low = groupe['prix_plus_bas_ajuste']
        close = prix.shift(1)

        # ➡️ Moyennes mobiles
        mm_5 = prix.rolling(window=5).mean()
        mm_10 = prix.rolling(window=10).mean()
        mm_22 = prix.rolling(window=22).mean()
        mm_66 = prix.rolling(window=66).mean()

        # ➡️ EMA (Exponentielle Moving Averages)
        ema_9 = prix.ewm(span=9, adjust=False).mean()
        ema_12 = prix.ewm(span=12, adjust=False).mean()
        ema_26 = prix.ewm(span=26, adjust=False).mean()

        # ➡️ MACD
        macd = ema_12 - ema_26
        macd_9 = ema_9 - ema_26

        # ➡️ RSI
        rsi_14 = calcul_rsi(prix, n=14)

        # ➡️ Momentum
        momentum_10 = prix - prix.shift(10)

        # ➡️ ROC
        roc_10 = ((prix - prix.shift(10)) / prix.shift(10)) * 100

        # ➡️ Disparity Index
        disparity_5 = (prix / mm_5) * 100
        disparity_14 = (prix / prix.rolling(window=14).mean()) * 100

        # ➡️ Bollinger Bands
        std_20 = prix.rolling(window=20).std()
        sma_20 = prix.rolling(window=20).mean()
        upper_band = sma_20 + 2 * std_20
        lower_band = sma_20 - 2 * std_20

        # ➡️ Volatilité et Rendement annuel
        rendement_journalier = prix.pct_change()
        volatilite_annuelle = rendement_journalier.std() * np.sqrt(252)
        rendement_annuel = (prix.iloc[-1] / prix.iloc[0]) - 1 if prix.iloc[0] != 0 else np.nan

        # ➡️ Trend (variation entre j et j-1)
        trend_delta = prix.diff()
        trend_signal = trend_delta.apply(lambda x: "Hausse" if x > 0 else ("Baisse" if x < 0 else "Stable"))

        # ➡️ %K (Stochastique)
        lowest_low = low.rolling(window=14).min()
        highest_high = high.rolling(window=14).max()
        k_percent = 100 * ((prix - lowest_low) / (highest_high - lowest_low))

        # ➡️ %D (Moyenne mobile de %K)
        d_percent = k_percent.rolling(window=3).mean()

        # ➡️ Williams %R
        williams_r = -100 * ((highest_high - prix) / (highest_high - lowest_low))

        # ➡️ ATR (Average True Range)
        tr1 = high - low
        tr2 = (high - close).abs()
        tr3 = (low - close).abs()
        true_range = pd.concat([tr1, tr2, tr3], axis=1).max(axis=1)
        atr_14 = true_range.rolling(window=14).mean()

        # ➡️ Construction du DataFrame
        temp_df = pd.DataFrame({
            'Date_seance': dates,
            'Nom_Societe': societe,
            'Prix_Introduction': groupe['prix_introduction'],
            'Prix_Cloture': prix,
            'MM_5': mm_5,
            'MM_10': mm_10,
            'MM_22': mm_22,
            'MM_66': mm_66,
            'EMA_9': ema_9,
            'EMA_12': ema_12,
            'EMA_26': ema_26,
            'MACD': macd,
            'MACD_9': macd_9,
            'RSI_14': rsi_14,
            'Momentum_10': momentum_10,
            'ROC_10': roc_10,
            'Disparity_5': disparity_5,
            'Disparity_14': disparity_14,
            'Upper_Band': upper_band,
            'Lower_Band': lower_band,
            'Volatilite_Annualisée': volatilite_annuelle,
            'Rendement_Annualisé': rendement_annuel,
            'Perf_Ann_BDD': groupe['perf_annuelle'],
            'Trend': trend_signal,
            '%K': k_percent,
            '%D': d_percent,
            '%R': williams_r,
            'ATR_14': atr_14
        })

        all_societes.append(temp_df)

    if all_societes:
        df_resultat = pd.concat(all_societes, ignore_index=True)

    print(tabulate(log_traitement, headers=["Société", "Lignes", "Statut"], tablefmt="grid"))
    print(f"\n✅ Total des sociétés traitées : {len(all_societes)}")

    return df_resultat

# 🔥 Appel de ta fonction
df_indicateurs_complet = construire_dataframe_indicateurs(df_propre)




📋 Analyse des sociétés :



  sqr = _ensure_numeric((avg - values) ** 2)
  sqr = _ensure_numeric((avg - values) ** 2)


+-----------------------+----------+----------+
| Société               |   Lignes | Statut   |
| ADWYA                 |     3738 | ✔️ OK    |
+-----------------------+----------+----------+
| AETEC                 |     2991 | ✔️ OK    |
+-----------------------+----------+----------+
| AIR LIQUIDE           |     4280 | ✔️ OK    |
+-----------------------+----------+----------+
| ALKIMIA               |     4280 | ✔️ OK    |
+-----------------------+----------+----------+
| AMEN BANK             |     4280 | ✔️ OK    |
+-----------------------+----------+----------+
| ARTES                 |     4217 | ✔️ OK    |
+-----------------------+----------+----------+
| ASSAD                 |     4280 | ✔️ OK    |
+-----------------------+----------+----------+
| ASSMA                 |     1053 | ✔️ OK    |
+-----------------------+----------+----------+
| ASTREE                |     4280 | ✔️ OK    |
+-----------------------+----------+----------+
| ATB                   |     4280 | ✔️ 

In [31]:
os.makedirs("exports", exist_ok=True)


csv_path = os.path.join("exports", "indicateurs_techniques.csv")
xlsx_path = os.path.join("exports", "indicateurs_techniques.xlsx")

df_indicateurs_complet.to_csv(csv_path, index=False, encoding="utf-8-sig")
df_indicateurs_complet.to_excel(xlsx_path, index=False)

print("✅ Données exportées dans le dossier 'exports'.")

✅ Données exportées dans le dossier 'exports'.
