# 0 - QB - Utils

## Importation des modules

In [None]:
# Modules de base
import pandas as pd
import numpy as np
from datetime import datetime

# Utilitaires
from tsforecast.utils.time import get_period_start, get_period_end, timeseries_to_string, string_to_timeseries

## Identification des dates de début et de fin de période

### Identification de la date de début de période

In [None]:
# Génération d'une date
date = pd.Timestamp('2024-03-15 14:30:00')
print(f"Date de référence: {date}")

# Parcours des fréquences
for frequency in ['daily', 'weekly', 'monthly', 'quarterly', 'annual'] :
    # Génération de la date de début de période
    start_date = get_period_start(date=date, frequency=frequency)
    print(f"Début {frequency:10s}: {start_date}")

### Identification de la date de fin de période

In [None]:
# Génération d'une date
date = pd.Timestamp('2024-03-15 14:30:00')
print(f"Date de référence: {date}")

# Parcours des fréquences
for frequency in ['daily', 'weekly', 'monthly', 'quarterly', 'annual'] :
    # Génération de la date de fin  de période
    end_date = get_period_end(date=date, frequency=frequency)
    print(f"Fin {frequency:10s}: {end_date}")

## Conversion entre séries temporelles et chaînes de caractères

### Conversion d'une série temporelle en chaînes de caractères

In [None]:
# Création d'une série temporelle de démonstration
dates = pd.date_range('2023-01-01', periods=8, freq='MS')  # Mensuel début de mois
values = np.random.randn(8).cumsum() + 100
ts_demo = pd.Series(values, index=dates, name='economic_indicator')

print("📊 Série temporelle originale:")
print(ts_demo)
print(f"\nType de l'index: {type(ts_demo.index[0])}")

print("\n" + "="*50)

# Conversion avec format par défaut (année-mois-jour)
ts_string_default = timeseries_to_string(ts_demo)
print("🔤 Conversion avec format par défaut (%Y-%m-%d):")
print(ts_string_default)
print(f"Type de l'index: {type(ts_string_default.index[0])}")

print("\n" + "="*30)

# Conversion avec format personnalisé
ts_string_custom = timeseries_to_string(ts_demo, format="%B %Y")  # Mois complet Année
print("🔤 Conversion avec format personnalisé (%B %Y):")
print(ts_string_custom)

print("\n" + "="*30)

# Conversion avec format français
ts_string_fr = timeseries_to_string(ts_demo, format="%d/%m/%Y")  # Format français
print("🔤 Conversion au format français (%d/%m/%Y):")
print(ts_string_fr)

print("\n" + "="*30)

# Conversion avec format ISO complet
ts_string_iso = timeseries_to_string(ts_demo, format="%Y-%m-%dT%H:%M:%S")
print("🔤 Conversion au format ISO complet:")
print(ts_string_iso.head(3))  # Affichage partiel pour la lisibilité

### Conversion inverse : chaînes de caractères vers série temporelle

In [None]:
# Conversion inverse sans spécification de format (inférence automatique)
print("🔄 Conversion inverse avec inférence automatique:")
ts_converted_auto = string_to_timeseries(ts_string_default)
print("Série avec format par défaut reconvertie:")
print(ts_converted_auto)
print(f"Type de l'index: {type(ts_converted_auto.index[0])}")

# Vérification que nous retrouvons les mêmes données
print(f"\n✅ Données identiques après conversion: {ts_demo.equals(ts_converted_auto)}")

print("\n" + "="*50)

# Conversion inverse avec format spécifique
print("🔄 Conversion inverse avec format spécifique:")
ts_converted_specific = string_to_timeseries(ts_string_fr, format="%d/%m/%Y")
print("Série avec format français reconvertie:")
print(ts_converted_specific)

# Vérification de l'équivalence (en ignorant les heures/minutes)
dates_equal = all(ts_demo.index.date == ts_converted_specific.index.date)
values_equal = np.allclose(ts_demo.values, ts_converted_specific.values)
print(f"\n✅ Dates équivalentes: {dates_equal}")
print(f"✅ Valeurs équivalentes: {values_equal}")

print("\n" + "="*50)

# Démonstration avec des formats complexes
print("🎯 Démonstration avec des formats plus complexes:")

# Création d'une série avec dates irrégulières
irregular_dates = ['2023-01-15', '2023-02-28', '2023-04-10', '2023-07-04', '2023-12-25']
irregular_values = [150.2, 148.7, 152.1, 149.5, 155.8]
ts_irregular = pd.Series(irregular_values, index=irregular_dates, name='irregular_series')

print("Série avec index string (irrégulier):")
print(ts_irregular)
print(f"Type de l'index: {type(ts_irregular.index[0])}")

# Conversion en datetime
ts_datetime = string_to_timeseries(ts_irregular)
print("\nAprès conversion en datetime:")
print(ts_datetime)
print(f"Type de l'index: {type(ts_datetime.index[0])}")

print("\n" + "="*30)

# Test avec format américain
american_dates = ['01/15/2023', '02/28/2023', '04/10/2023']
american_values = [100, 105, 98]
ts_american = pd.Series(american_values, index=american_dates)

print("Série avec format américain (MM/dd/yyyy):")
print(ts_american)

# Conversion avec format spécifique
ts_american_converted = string_to_timeseries(ts_american, format="%m/%d/%Y")
print("Après conversion avec format spécifique:")
print(ts_american_converted)

# Comparaison avec inférence automatique
ts_american_inferred = string_to_timeseries(ts_american)
print("Avec inférence automatique:")
print(ts_american_inferred)

# Vérification des différences potentielles
dates_same = ts_american_converted.index.equals(ts_american_inferred.index)
print(f"\n⚠️  Résultats identiques: {dates_same}")
if not dates_same:
    print("Attention: L'inférence automatique peut parfois interpréter différemment les dates ambigües!")

### Cas d'usage pratiques et exemples avancés

In [None]:
# Cas d'usage 1: Sauvegarde et chargement de données
print("💾 Cas d'usage 1: Sauvegarde et chargement de données")
print("="*55)

# Simulation d'une série de données économiques
dates_econ = pd.date_range('2020-01-01', '2024-12-01', freq='QS')  # Trimestriel
pib_growth = np.random.normal(0.5, 2.0, len(dates_econ)).cumsum()
ts_pib = pd.Series(pib_growth, index=dates_econ, name='pib_growth_rate')

print("Série PIB originale (5 premières valeurs):")
print(ts_pib.head())

# Conversion pour sauvegarde dans un format lisible
ts_pib_string = timeseries_to_string(ts_pib, format="%Y-Q%q")  # Format trimestriel
print("\nFormat string pour sauvegarde:")
print(ts_pib_string.head())

# Simulation: sauvegarde et rechargement (DataFrame pour démonstration)
df_save = pd.DataFrame({
    'date_str': ts_pib_string.index,
    'pib_growth': ts_pib_string.values
})
print("\nDataFrame pour sauvegarde CSV:")
print(df_save.head())

# Rechargement et reconversion
ts_loaded = pd.Series(df_save['pib_growth'].values, index=df_save['date_str'])
ts_reloaded = string_to_timeseries(ts_loaded)
print("\nSérie rechargée:")
print(ts_reloaded.head())

print("\n" + "="*40)

# Cas d'usage 2: Comparaison de différents formats de dates
print("📅 Cas d'usage 2: Harmonisation de formats de dates multiples")
print("="*65)

# Simulation de données provenant de sources différentes
# Source 1: Format ISO
dates_iso = ['2023-01-01', '2023-02-01', '2023-03-01']
values_iso = [100, 102, 104]
ts_iso = pd.Series(values_iso, index=dates_iso, name='source_iso')

# Source 2: Format français
dates_fr = ['01/04/2023', '01/05/2023', '01/06/2023']
values_fr = [106, 108, 110]
ts_fr_source = pd.Series(values_fr, index=dates_fr, name='source_fr')

# Source 3: Format américain
dates_us = ['07/01/2023', '08/01/2023', '09/01/2023']
values_us = [112, 114, 116]
ts_us_source = pd.Series(values_us, index=dates_us, name='source_us')

print("Données provenant de 3 sources différentes:")
print("Source ISO:", ts_iso.index.tolist())
print("Source FR:", ts_fr_source.index.tolist())
print("Source US:", ts_us_source.index.tolist())

# Harmonisation vers datetime
ts_iso_dt = string_to_timeseries(ts_iso)
ts_fr_dt = string_to_timeseries(ts_fr_source, format="%d/%m/%Y")
ts_us_dt = string_to_timeseries(ts_us_source, format="%m/%d/%Y")

print("\nAprès harmonisation:")
print("Source ISO:", ts_iso_dt.index.tolist()[:2])
print("Source FR:", ts_fr_dt.index.tolist()[:2])
print("Source US:", ts_us_dt.index.tolist()[:2])

# Concaténation des séries harmonisées
ts_combined = pd.concat([ts_iso_dt, ts_fr_dt, ts_us_dt]).sort_index()
print("\nSérie combinée et triée:")
print(ts_combined)

print("\n" + "="*40)

# Cas d'usage 3: Analyse de périodicité et conversion de fréquence
print("🔄 Cas d'usage 3: Impact des formats sur l'analyse temporelle")
print("="*60)

# Création d'une série avec différentes résolutions temporelles
hourly_dates = pd.date_range('2023-01-01 00:00', '2023-01-01 23:00', freq='H')
hourly_data = np.sin(np.arange(len(hourly_dates)) * 2 * np.pi / 24) + np.random.normal(0, 0.1, len(hourly_dates))
ts_hourly = pd.Series(hourly_data, index=hourly_dates)

print(f"Série horaire (24 observations): {len(ts_hourly)} points")

# Conversion vers différents formats de granularité
formats_and_names = [
    ("%Y-%m-%d %H:00", "Format heure"),
    ("%Y-%m-%d", "Format jour"),
    ("%Y-%m", "Format mois"),
    ("%Y", "Format année")
]

for format_str, name in formats_and_names:
    ts_string_format = timeseries_to_string(ts_hourly, format=format_str)
    unique_dates = len(ts_string_format.index.unique())
    print(f"{name:12}: {unique_dates:2d} périodes uniques, exemple: '{ts_string_format.index[0]}'")

print("\n" + "="*40)

# Cas d'usage 4: Validation et gestion d'erreurs
print("⚠️  Cas d'usage 4: Gestion des cas limites")
print("="*45)

# Test avec des dates ambiguës
ambiguous_dates = ['01/02/2023', '03/04/2023', '05/06/2023']
ambiguous_values = [1, 2, 3]
ts_ambiguous = pd.Series(ambiguous_values, index=ambiguous_dates)

print("Dates ambiguës (jour/mois ou mois/jour?):")
print(ts_ambiguous)

# Conversion avec formats différents
try:
    ts_dm = string_to_timeseries(ts_ambiguous, format="%d/%m/%Y")
    print("\nInterprétation jour/mois:")
    print(ts_dm)
except Exception as e:
    print(f"Erreur format jour/mois: {e}")

try:
    ts_md = string_to_timeseries(ts_ambiguous, format="%m/%d/%Y")
    print("\nInterprétation mois/jour:")
    print(ts_md)
except Exception as e:
    print(f"Erreur format mois/jour: {e}")

print("\n📋 Résumé des bonnes pratiques:")
print("1. Toujours spécifier le format lors de la conversion inverse si ambiguïté")
print("2. Vérifier la cohérence des dates après conversion")
print("3. Utiliser des formats standards (ISO 8601) quand possible")
print("4. Tester avec des échantillons de données avant traitement en masse")