# üîß Notebook 02 : Transformation des Donn√©es

**Auteur** : Oumaro Titans DJIGUIMDE  
**Date** : F√©vrier 2026  
**Objectif** : Transformer et enrichir le flux de transactions pour l'analyse

---

## üéØ Objectifs de ce notebook

1. Charger le flux de transactions
2. Nettoyer et valider les donn√©es
3. Extraire des features temporelles
4. Enrichir avec des m√©triques d√©riv√©es
5. Cr√©er des agr√©gations
6. Pr√©parer les donn√©es pour l'analyse

## üì¶ Importation des biblioth√®ques

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta

# Configuration
pd.set_option('display.max_columns', None)
pd.set_option('display.float_format', '{:.2f}'.format)

# Style
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette('husl')

print("‚úÖ Biblioth√®ques import√©es avec succ√®s")

## 1Ô∏è‚É£ Chargement du flux

In [None]:
print("="*70)
print("üìÇ CHARGEMENT DU FLUX")
print("="*70)

# Chargement
df = pd.read_csv('../data/transactions_stream.csv')

print(f"\n‚úÖ Flux charg√©")
print(f"   ‚Ä¢ Transactions : {len(df):,}")
print(f"   ‚Ä¢ Colonnes : {len(df.columns)}")
print("="*70)

In [None]:
# Aper√ßu
print("\nüëÄ Aper√ßu des donn√©es :")
df.head(10)

In [None]:
# Informations
print("\nüìã Informations :")
df.info()

## 2Ô∏è‚É£ Nettoyage et validation

In [None]:
print("üßπ NETTOYAGE DES DONN√âES")
print("="*70)

# Conversion timestamp
df['timestamp'] = pd.to_datetime(df['timestamp'])
print("‚úÖ Timestamp converti en datetime")

# Tri par timestamp
df = df.sort_values('timestamp').reset_index(drop=True)
print("‚úÖ Donn√©es tri√©es par ordre chronologique")

# V√©rification valeurs manquantes
missing = df.isnull().sum()
print(f"\nüìä Valeurs manquantes : {missing.sum()}")
if missing.sum() > 0:
    print(missing[missing > 0])

# Suppression doublons (si pr√©sents)
doublons_avant = df.duplicated().sum()
df = df.drop_duplicates()
doublons_apres = df.duplicated().sum()
print(f"\nüîÑ Doublons supprim√©s : {doublons_avant}")

print(f"\n‚úÖ Donn√©es nettoy√©es : {len(df):,} transactions")
print("="*70)

## 3Ô∏è‚É£ Extraction de features temporelles

In [None]:
print("‚è∞ EXTRACTION DE FEATURES TEMPORELLES")
print("="*70)

# Date et heure
df['date'] = df['timestamp'].dt.date
df['hour'] = df['timestamp'].dt.hour
df['day_of_week'] = df['timestamp'].dt.dayofweek  # 0=Lundi, 6=Dimanche
df['day_name'] = df['timestamp'].dt.day_name()
df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)

print("‚úÖ Features extraites :")
print("   ‚Ä¢ date (jour)")
print("   ‚Ä¢ hour (heure 0-23)")
print("   ‚Ä¢ day_of_week (0-6)")
print("   ‚Ä¢ day_name (nom du jour)")
print("   ‚Ä¢ is_weekend (0/1)")

# P√©riode de la journ√©e
def get_period(hour):
    if 6 <= hour < 12:
        return 'Matin'
    elif 12 <= hour < 18:
        return 'Apr√®s-midi'
    elif 18 <= hour < 22:
        return 'Soir'
    else:
        return 'Nuit'

df['period'] = df['hour'].apply(get_period)
print("   ‚Ä¢ period (Matin/Apr√®s-midi/Soir/Nuit)")

print(f"\n‚úÖ {len(df.columns)} colonnes totales")
print("="*70)

In [None]:
# Aper√ßu des nouvelles features
print("\nüëÄ Aper√ßu avec features temporelles :")
df[['timestamp', 'date', 'hour', 'day_name', 'period', 'is_weekend', 'amount']].head(10)

## 4Ô∏è‚É£ Enrichissement avec m√©triques d√©riv√©es

In [None]:
print("‚ûï CR√âATION DE M√âTRIQUES D√âRIV√âES")
print("="*70)

# Cat√©gorie de montant
df['amount_category'] = pd.cut(
    df['amount'],
    bins=[0, 10000, 50000, 100000, float('inf')],
    labels=['Faible', 'Moyen', '√âlev√©', 'Tr√®s √©lev√©']
)
print("‚úÖ Cat√©gorie de montant cr√©√©e")

# Log du montant (pour normalisation)
df['amount_log'] = np.log1p(df['amount'])
print("‚úÖ Log du montant cr√©√©")

# Rang de la transaction par jour
df['transaction_rank'] = df.groupby('date').cumcount() + 1
print("‚úÖ Rang de transaction par jour cr√©√©")

print("\n" + "="*70)

In [None]:
# Aper√ßu
print("\nüëÄ Aper√ßu avec m√©triques d√©riv√©es :")
df[['timestamp', 'amount', 'amount_category', 'amount_log', 'transaction_rank']].head(10)

## 5Ô∏è‚É£ Agr√©gations

In [None]:
print("üìä AGR√âGATIONS PAR DIMENSIONS")
print("="*70)

# Par ville
agg_ville = df.groupby('city').agg({
    'transaction_id': 'count',
    'amount': ['sum', 'mean', 'median', 'std']
})
agg_ville.columns = ['Nb_transactions', 'Volume_total', 'Montant_moyen', 'Montant_median', 'Ecart_type']
agg_ville = agg_ville.sort_values('Volume_total', ascending=False)

print("\nüèôÔ∏è  Agr√©gation par VILLE :")
print(agg_ville)
print("\n" + "="*70)

In [None]:
# Par type de transaction
agg_type = df.groupby('transaction_type').agg({
    'transaction_id': 'count',
    'amount': ['sum', 'mean', 'median']
})
agg_type.columns = ['Nb_transactions', 'Volume_total', 'Montant_moyen', 'Montant_median']
agg_type = agg_type.sort_values('Volume_total', ascending=False)

print("üí≥ Agr√©gation par TYPE :")
print(agg_type)
print("\n" + "="*70)

In [None]:
# Par heure
agg_hour = df.groupby('hour').agg({
    'transaction_id': 'count',
    'amount': 'sum'
})
agg_hour.columns = ['Nb_transactions', 'Volume_total']

print("‚è∞ Agr√©gation par HEURE :")
print(agg_hour)
print("\n" + "="*70)

In [None]:
# Par jour
agg_day = df.groupby('date').agg({
    'transaction_id': 'count',
    'amount': 'sum'
})
agg_day.columns = ['Nb_transactions', 'Volume_total']

print("üìÖ Agr√©gation par JOUR :")
print(agg_day.head(10))
print("\n" + "="*70)

## 6Ô∏è‚É£ Visualisation des transformations

In [None]:
# Activit√© par heure
plt.figure(figsize=(14, 6))
agg_hour['Nb_transactions'].plot(kind='bar', color='skyblue', alpha=0.8)
plt.title('Nombre de Transactions par Heure', fontsize=16, fontweight='bold')
plt.xlabel('Heure', fontsize=12)
plt.ylabel('Nombre de transactions', fontsize=12)
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

In [None]:
# √âvolution temporelle
plt.figure(figsize=(14, 6))
agg_day['Volume_total'].plot(kind='line', marker='o', color='green', linewidth=2, markersize=6)
plt.title('√âvolution du Volume Transactionnel', fontsize=16, fontweight='bold')
plt.xlabel('Date', fontsize=12)
plt.ylabel('Volume (FCFA)', fontsize=12)
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

In [None]:
# Distribution par p√©riode et jour
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Par p√©riode
df['period'].value_counts().plot(kind='bar', ax=axes[0], color='coral', alpha=0.8)
axes[0].set_title('Transactions par P√©riode', fontsize=14, fontweight='bold')
axes[0].set_xlabel('P√©riode')
axes[0].set_ylabel('Nombre de transactions')
axes[0].tick_params(axis='x', rotation=45)
axes[0].grid(True, alpha=0.3, axis='y')

# Par jour de la semaine
df['day_name'].value_counts().reindex(
    ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
).plot(kind='bar', ax=axes[1], color='lightgreen', alpha=0.8)
axes[1].set_title('Transactions par Jour de la Semaine', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Jour')
axes[1].set_ylabel('Nombre de transactions')
axes[1].tick_params(axis='x', rotation=45)
axes[1].grid(True, alpha=0.3, axis='y')

plt.tight_layout()
plt.show()

## 7Ô∏è‚É£ Sauvegarde des donn√©es transform√©es

In [None]:
print("üíæ SAUVEGARDE DES DONN√âES TRANSFORM√âES")
print("="*70)

# Sauvegarder le dataset enrichi
output_path = '../data/transactions_transformed.csv'
df.to_csv(output_path, index=False, encoding='utf-8')

print(f"\n‚úÖ Dataset transform√© sauvegard√© : {output_path}")
print(f"üìä Lignes : {len(df):,}")
print(f"üìã Colonnes : {len(df.columns)}")
print(f"üíæ Taille : {df.memory_usage(deep=True).sum() / 1024 / 1024:.2f} MB")

# Sauvegarder les agr√©gations
agg_ville.to_csv('../data/agg_ville.csv')
agg_type.to_csv('../data/agg_type.csv')
agg_hour.to_csv('../data/agg_hour.csv')
agg_day.to_csv('../data/agg_day.csv')

print("\n‚úÖ Agr√©gations sauvegard√©es :")
print("   ‚Ä¢ agg_ville.csv")
print("   ‚Ä¢ agg_type.csv")
print("   ‚Ä¢ agg_hour.csv")
print("   ‚Ä¢ agg_day.csv")

print("\n" + "="*70)

## üìå R√©sum√© des transformations

### ‚úÖ Transformations appliqu√©es

1. **Nettoyage** :
   - ‚úÖ Conversion des timestamps
   - ‚úÖ Tri chronologique
   - ‚úÖ Suppression des doublons

2. **Features temporelles** :
   - ‚úÖ Date, heure, jour de la semaine
   - ‚úÖ P√©riode de la journ√©e
   - ‚úÖ Flag weekend

3. **M√©triques d√©riv√©es** :
   - ‚úÖ Cat√©gorie de montant
   - ‚úÖ Log du montant
   - ‚úÖ Rang de transaction

4. **Agr√©gations** :
   - ‚úÖ Par ville, type, heure, jour
   - ‚úÖ Volumes et moyennes

### üìä Dataset enrichi

- **Colonnes initiales** : 8
- **Colonnes finales** : 15+
- **Nouvelles features** : 7+
- **Agr√©gations cr√©√©es** : 4 fichiers

### üöÄ Prochaine √©tape

**Notebook 03** : Analyse et Dashboard
- KPIs business
- Visualisations avanc√©es
- Insights m√©tier
- Recommandations