## Partie 0 : Introduction aux Bases de Donn√©es Time-Series

### 0.1 Qu'est-ce qu'une donn√©e time-series ?

Une **donn√©e time-series** (s√©rie temporelle) est une s√©quence de points de donn√©es index√©s dans l'ordre temporel. Exemples courants :

- **Capteurs IoT** : temp√©rature, pression, humidit√© mesur√©es toutes les secondes
- **Tracking d'animaux** : positions GPS avec timestamp (notre cas!)
- **Finance** : cours de bourse, transactions bancaires
- **Monitoring IT** : m√©triques serveur (CPU, RAM, r√©seau)

**Caract√©ristiques cl√©s :**
- Chaque point a un **timestamp** pr√©cis
- Les donn√©es arrivent g√©n√©ralement dans l'ordre chronologique
- Souvent volumineuses (millions de points)
- Les requ√™tes portent fr√©quemment sur des **intervalles de temps**

### 0.2 Pourquoi InfluxDB plut√¥t que MongoDB ou MySQL ?

| Crit√®re | MySQL (Relationnel) | MongoDB (Document) | InfluxDB (Time-Series) |
|---------|---------------------|-------------------|------------------------|
| **Structure** | Tables fixes avec sch√©ma rigide | Documents JSON flexibles | Mesures + tags + fields + time |
| **Force** | Relations complexes, ACID | Flexibilit√© sch√©ma, scalabilit√© horizontale | Optimis√© pour time-series |
| **Indexation temporelle** | Index B-tree standard | Index sur n'importe quel champ | Index temporel natif (TSM) |
| **Agr√©gations temporelles** | Lent (window functions) | Acceptable (aggregate pipeline) | **Tr√®s rapide** (downsampling) |
| **Compression** | Faible | Moyenne | **Tr√®s √©lev√©e** (10-20x) |
| **Cas d'usage** | E-commerce, CRM | Applications web, JSON | **Monitoring, IoT, tracking** |

**Pour notre dataset de migration d'oiseaux :**
- ‚úÖ **89 867 points temporels** ‚Üí structure time-series
- ‚úÖ Requ√™tes fr√©quentes par **intervalle de temps** (saison de migration)
- ‚úÖ Besoin d'**agr√©gations temporelles** (distance parcourue par jour)
- ‚úÖ **Compression** importante (donn√©es g√©ographiques r√©p√©titives)

### 0.3 Concepts Cl√©s d'InfluxDB

InfluxDB organise les donn√©es diff√©remment des bases relationnelles ou documents :

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ MEASUREMENT (table)                                          ‚îÇ
‚îú‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î§
‚îÇ Tags (index√©s)          ‚îÇ Fields (valeurs)    ‚îÇ Timestamp   ‚îÇ
‚îÇ ======================= ‚îÇ =================== ‚îÇ =========== ‚îÇ
‚îÇ bird_id: "91732A"       ‚îÇ latitude: 61.24     ‚îÇ 2009-05-27  ‚îÇ
‚îÇ tag_id: 91732           ‚îÇ longitude: 24.58    ‚îÇ 14:00:00    ‚îÇ
‚îÇ                         ‚îÇ vegetation: 0.96    ‚îÇ             ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

**1. Measurement** : nom de la "table" (ex: `bird_migration`)

**2. Tags** : m√©tadonn√©es index√©es
   - Cha√Ænes de caract√®res uniquement
   - Cardinalit√© mod√©r√©e recommand√©e (< 100k valeurs uniques)
   - **Utilis√©s pour filtrer** : `WHERE bird_id = "91732A"`
   - Exemples : bird_id, sensor_type, region

**3. Fields** : valeurs mesur√©es
   - Peuvent √™tre de tout type (float, int, string, bool)
   - **Non index√©s** ‚Üí ne pas filtrer dessus si possible
   - Exemples : latitude, longitude, temp√©rature, vitesse

**4. Timestamp** : horodatage du point (nanoseconde precision)

**R√®gle d'or pour choisir tag vs field :**
- **Tag** si vous filtrez souvent dessus (`WHERE ...`)
- **Field** si c'est une valeur mesur√©e/calcul√©e
- **Tag** seulement si cardinalit√© raisonnable (√©viter timestamps, IDs uniques)

## Partie 1 : Installation et Configuration

### 1.1 Importation des biblioth√®ques n√©cessaires

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# InfluxDB
from influxdb_client import InfluxDBClient, Point
from influxdb_client.client.write_api import SYNCHRONOUS

# Kaggle
import kagglehub

# Visualisation
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go
import folium
from folium.plugins import HeatMap, MarkerCluster

plt.style.use('seaborn-v0_8-darkgrid')
%matplotlib inline

### 1.2 Configuration InfluxDB

**Objectif** : Se connecter √† InfluxDB 2.x et v√©rifier que la connexion fonctionne.

**Configuration requise :**
- **URL** : adresse du serveur InfluxDB (ici dans Docker : `http://influxdb2:8086`)
- **Token** : cl√© d'authentification (admin-token configur√© dans docker-compose)
- **Organisation** : espace de travail logique
- **Bucket** : "base de donn√©es" o√π stocker les donn√©es

In [None]:
# Configuration InfluxDB
INFLUX_URL = "http://influxdb2:8086" 
INFLUX_TOKEN = "admin-token"
INFLUX_ORG = "fil-A3-back-bigData"
INFLUX_BUCKET = "animal-tracking"  

# Connexion au client
client = InfluxDBClient(url=INFLUX_URL, token=INFLUX_TOKEN, org=INFLUX_ORG)

# APIs
write_api = client.write_api(write_options=SYNCHRONOUS)
query_api = client.query_api()

print("‚úì Client InfluxDB connect√©")
print(f"  Bucket: {INFLUX_BUCKET}")
print(f"  Organisation: {INFLUX_ORG}")

# V√©rification de la connexion
try:
    ping_result = client.ping()
    if ping_result:
        print(f"‚úì Serveur InfluxDB r√©pond (ping successful)")
    else:
        print("‚ö†Ô∏è Serveur ne r√©pond pas")
except Exception as e:
    print(f"‚ùå Erreur de connexion: {e}")

# V√©rifier si le bucket contient d√©j√† des donn√©es
check_query = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> count()
  |> limit(n: 1)
'''

try:
    result = query_api.query_data_frame(check_query, org=INFLUX_ORG)
    if isinstance(result, list) and len(result) > 0:
        existing_count = result[0]['_value'].sum() if '_value' in result[0].columns else 0
        print(f"‚ÑπÔ∏è Le bucket contient d√©j√† {existing_count:,} points de donn√©es")
    else:
        print(f"‚ÑπÔ∏è Le bucket est vide (premi√®re insertion)")
except Exception as e:
    # Bucket vide ou erreur de requ√™te (normal si premi√®re fois)
    print(f"‚ÑπÔ∏è Le bucket semble vide ou c'est la premi√®re utilisation")

## Partie 2 : Chargement et Exploration des Donn√©es

**Objectif** : Comprendre la structure des donn√©es et identifier ce qui en fait une s√©rie temporelle.

In [None]:
import os

# Download the Movebank animal tracking dataset
path = "pulkit8595/movebank-animal-tracking"
print("Downloading dataset from Kaggle...")
dataset_path = kagglehub.dataset_download(path)
print(f"Dataset downloaded to: {dataset_path}")

# List files in the dataset
print("\nFiles in dataset:")
for file in os.listdir(dataset_path):
    file_size = os.path.getsize(os.path.join(dataset_path, file)) / 1024  # KB
    print(f"  - {file} ({file_size:.2f} KB)")

In [None]:
df = pd.read_csv(os.path.join(dataset_path, "migration_original.csv"))

print("Dataset loaded into DataFrame")
print(f"DataFrame shape: {df.shape}")
df.head()

In [None]:
# Informations sur le dataset
print("Informations sur le dataset:")
print(df.info())
print("\n Statistiques descriptives:")
print(df.describe())
print("\n Valeurs manquantes:")
print(df.isnull().sum())

### 2.1 Analyse de cardinalit√© (crucial pour le design du sch√©ma)

**Question cl√©** : Combien de valeurs uniques par colonne ?

La **cardinalit√©** (nombre de valeurs distinctes) d√©termine si une colonne doit √™tre un **tag** ou un **field** dans InfluxDB :
- **Cardinalit√© basse** (< 100 valeurs) ‚Üí Bon candidat pour tag
- **Cardinalit√© moyenne** (100-100k valeurs) ‚Üí Acceptable comme tag si filtrage fr√©quent
- **Cardinalit√© haute** (> 100k valeurs) ‚Üí **NE PAS** mettre en tag (explosion des index)

In [None]:
# Analyse de cardinalit√© pour chaque colonne
print("=" * 70)
print("ANALYSE DE CARDINALIT√â".center(70))
print("=" * 70)
print(f"{'Colonne':<50} {'Cardinalit√©':>15}")
print("-" * 70)

for col in df.columns:
    cardinality = df[col].nunique()
    total = len(df)
    percentage = (cardinality / total) * 100
    
    # Colorier selon le type de cardinalit√©
    if cardinality == 1:
        indicator = "üî¥ CONSTANTE"
    elif cardinality < 100:
        indicator = "üü¢ BASSE (bon tag)"
    elif cardinality < 10000:
        indicator = "üü° MOYENNE (tag ok)"
    elif cardinality == total:
        indicator = "üî¥ UNIQUE (PK)"
    else:
        indicator = "üü† HAUTE (field)"
    
    print(f"{col:<50} {cardinality:>10,} ({percentage:>5.1f}%)  {indicator}")

print("=" * 70)

### 2.2 Analyse temporelle

**Question** : √Ä quelle fr√©quence les oiseaux sont-ils track√©s ? Est-ce r√©gulier ?

In [None]:
# Convertir timestamp en datetime pour l'analyse temporelle
df['timestamp'] = pd.to_datetime(df['timestamp'])

# Analyse de la plage temporelle
print("=" * 70)
print("ANALYSE TEMPORELLE".center(70))
print("=" * 70)
print(f"Date de d√©but    : {df['timestamp'].min()}")
print(f"Date de fin      : {df['timestamp'].max()}")
print(f"Dur√©e totale     : {(df['timestamp'].max() - df['timestamp'].min()).days} jours")
print(f"Nombre de points : {len(df):,}")
print()

# Analyser la fr√©quence de tracking par oiseau
print("Fr√©quence de tracking (intervalles entre points):")
print("-" * 70)

# Prendre un oiseau exemple
sample_bird = df['individual-local-identifier'].value_counts().index[0]
bird_data = df[df['individual-local-identifier'] == sample_bird].sort_values('timestamp')

# Calculer les intervalles
intervals = bird_data['timestamp'].diff().dt.total_seconds() / 3600  # en heures

print(f"Oiseau exemple : {sample_bird}")
print(f"  Intervalle moyen : {intervals.mean():.1f} heures")
print(f"  Intervalle m√©dian: {intervals.median():.1f} heures")
print(f"  Intervalle min   : {intervals.min():.1f} heures")
print(f"  Intervalle max   : {intervals.max():.1f} heures")
print()
print("üìä Conclusion : Tracking irr√©gulier (pas toutes les heures exactes)")
print("   ‚Üí Ceci est typique des donn√©es GPS r√©elles (√©conomie batterie, couverture r√©seau)")
print("=" * 70)

### 2.3 Distribution des donn√©es par oiseau

**Question** : Tous les oiseaux sont-ils track√©s de mani√®re √©quivalente ?

In [None]:
# Distribution du nombre de points par oiseau
bird_counts = df['individual-local-identifier'].value_counts()

print("=" * 70)
print("DISTRIBUTION DU TRACKING PAR OISEAU".center(70))
print("=" * 70)
print(f"Nombre d'oiseaux   : {len(bird_counts)}")
print(f"Points par oiseau  : {bird_counts.mean():.0f} ¬± {bird_counts.std():.0f} (moyenne ¬± √©cart-type)")
print(f"Min/Max            : {bird_counts.min()} / {bird_counts.max()} points")
print()
print("Top 10 oiseaux les plus track√©s:")
print("-" * 70)
for i, (bird_id, count) in enumerate(bird_counts.head(10).items(), 1):
    bar = "‚ñà" * int(count / bird_counts.max() * 40)
    print(f"{i:2}. {bird_id:<15} {count:>5,} points {bar}")
print("=" * 70)

### 2.4 Visualisation g√©ographique rapide

**Question** : O√π se trouvent les oiseaux ? Migration visible ?

In [None]:
# Pr√©parer les donn√©es
sample_df = df.iloc[::5].copy()
sample_df['date'] = pd.to_datetime(sample_df['timestamp'])
sample_df['bird_id'] = sample_df['individual-local-identifier']


# Visualisation des trajectoires d'oiseaux
fig = px.scatter_geo(sample_df,
                     lat='location-lat',
                     lon='location-long',
                     color='bird_id',
                     hover_data=['date', 'bird_id'],
                     title='Migration Patterns - Bird Tracking Data',
                     projection='natural earth')

fig.update_layout(
    height=600,
    showlegend=True,
    geo=dict(
        showland=True,
        landcolor='rgb(243, 243, 243)',
        coastlinecolor='rgb(204, 204, 204)',
    )
)

fig.show()

# Statistiques par oiseau
print(f"üìä Dataset √©chantillonn√©: {len(sample_df):,} points")
print(f"ü¶Ö Nombre d'oiseaux: {sample_df['bird_id'].nunique()}")
print(f"üìÖ P√©riode: {sample_df['date'].min()} ‚Üí {sample_df['date'].max()}")

## Partie 3 : Nettoyage des Donn√©es (3-5 min)

**Objectif** : Pr√©parer les donn√©es pour InfluxDB en supprimant les colonnes inutiles.

**Strat√©gie de nettoyage** :

1. **Supprimer les colonnes 100% vides** (aucune valeur utile)
   - Exemple : `manually-marked-outlier`, `NCEP NARR SFC Vegetation at Surface`
   - Ces colonnes ajouteraient des fields inutiles dans InfluxDB

2. **Garder les colonnes redondantes mais utiles**
   - `visible` et `visible.1` semblent dupliqu√©es mais gardons-les pour l'instant
   - Si vraiment identiques, on pourra supprimer apr√®s v√©rification

3. **Renommer les colonnes pour la lisibilit√©**
   - `ECMWF Interim Full Daily...` ‚Üí `vegetation_cover_low/high`
   - Noms courts = queries Flux plus lisibles

In [None]:
# √âtape 1: Identifier et supprimer les colonnes 100% vides
columns_to_drop = df.columns[df.isnull().all()].tolist()
df_clean = df.drop(columns=columns_to_drop)

print("üßπ Nettoyage des donn√©es:")
print(f"  Colonnes supprim√©es : {columns_to_drop}")
print(f"  Raison : 100% de valeurs manquantes (inutiles)")
print()

# √âtape 2: Renommer les colonnes de v√©g√©tation pour plus de clart√©
df_clean = df_clean.rename(columns={
    'ECMWF Interim Full Daily Invariant Low Vegetation Cover': 'vegetation_cover_low',
    'ECMWF Interim Full Daily Invariant High Vegetation Cover': 'vegetation_cover_high'
})

print(f"‚úì Colonnes renomm√©es pour lisibilit√©:")
print(f"  'ECMWF Interim...' ‚Üí 'vegetation_cover_low/high'")
print()

# √âtape 3: V√©rifier qu'il ne reste plus de valeurs manquantes
null_counts = df_clean.isnull().sum()
remaining_nulls = null_counts[null_counts > 0]

if len(remaining_nulls) == 0:
    print(f"‚úì Aucune valeur manquante dans les {df_clean.shape[1]} colonnes restantes")
else:
    print(f"‚ö†Ô∏è Valeurs manquantes d√©tect√©es:")
    for col, count in remaining_nulls.items():
        print(f"  {col}: {count:,} valeurs manquantes ({count/len(df_clean)*100:.1f}%)")

print()
print(f"üìä Dataset nettoy√© : {df_clean.shape[0]:,} lignes √ó {df_clean.shape[1]} colonnes")
print(f"   Pr√™t pour insertion dans InfluxDB!")

## Partie 4 : Design du Sch√©ma et Insertion dans InfluxDB (10-12 min)

**Objectif** : Comprendre comment choisir entre tags et fields, puis ins√©rer les donn√©es efficacement.

### 4.1 D√©cisions de Design : Tags vs Fields

**Rappel de la r√®gle d'or** :
- **Tags** = filtres fr√©quents + cardinalit√© raisonnable
- **Fields** = valeurs mesur√©es + pas de filtrage

Analysons chaque colonne :

In [None]:
# Matrice de d√©cision Tag vs Field 
import pandas as pd

decisions = [
    {
        "Colonne": "timestamp",
        "Cardinalit√©": df_clean['timestamp'].nunique(),
        "Type": "‚è±Ô∏è TIMESTAMP",
        "D√©cision": "Timestamp InfluxDB",
        "Raison": "Index temporel principal"
    },
    {
        "Colonne": "individual-local-identifier",
        "Cardinalit√©": df_clean['individual-local-identifier'].nunique(),
        "Type": "üü¢ TAG",
        "D√©cision": "Tag",
        "Raison": "Filtrage fr√©quent par oiseau, ~199 valeurs (cardinalit√© ok)"
    },
    {
        "Colonne": "tag-local-identifier",
        "Cardinalit√©": df_clean['tag-local-identifier'].nunique(),
        "Type": "üü¢ TAG",
        "D√©cision": "Tag",
        "Raison": "Filtrage par device, ~199 valeurs (cardinalit√© ok)"
    },
    {
        "Colonne": "sensor-type",
        "Cardinalit√©": df_clean['sensor-type'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field (anti-pattern si tag)",
        "Raison": "CARDINALIT√â = 1 ! Index inutile, gaspillage m√©moire"
    },
    {
        "Colonne": "individual-taxon-canonical-name",
        "Cardinalit√©": df_clean['individual-taxon-canonical-name'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "Cardinalit√© = 1 (tous Larus fuscus), m√™me raison"
    },
    {
        "Colonne": "study-name",
        "Cardinalit√©": df_clean['study-name'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "Cardinalit√© = 1, pas de filtrage n√©cessaire"
    },
    {
        "Colonne": "event-id",
        "Cardinalit√©": df_clean['event-id'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "Cardinalit√© = 89867 (unique), jamais en tag!"
    },
    {
        "Colonne": "location-lat",
        "Cardinalit√©": df_clean['location-lat'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "Valeur mesur√©e (coordonn√©e GPS)"
    },
    {
        "Colonne": "location-long",
        "Cardinalit√©": df_clean['location-long'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "Valeur mesur√©e (coordonn√©e GPS)"
    },
    {
        "Colonne": "vegetation_cover_low",
        "Cardinalit√©": df_clean['vegetation_cover_low'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "Valeur mesur√©e (donn√©e environnementale)"
    },
    {
        "Colonne": "vegetation_cover_high",
        "Cardinalit√©": df_clean['vegetation_cover_high'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "Valeur mesur√©e (donn√©e environnementale)"
    },
    {
        "Colonne": "visible / visible.1",
        "Cardinalit√©": df_clean['visible'].nunique(),
        "Type": "üî¥ FIELD",
        "D√©cision": "Field",
        "Raison": "M√©tadonn√©e bool√©enne, pas de filtrage"
    }
]

decision_df = pd.DataFrame(decisions)

print("=" * 100)
print("MATRICE DE D√âCISION : TAGS vs FIELDS".center(100))
print("=" * 100)
print(f"{'Colonne':<35} {'Card.':>10} {'Type':^20} {'Raison':<30}")
print("-" * 100)

for _, row in decision_df.iterrows():
    print(f"{row['Colonne']:<35} {row['Cardinalit√©']:>10,} {row['Type']:^20} {row['Raison']:<30}")

print("=" * 100)
print()
print("üìã R√âSUM√â DU SCH√âMA:")
print(f"  üü¢ Tags (2)   : individual-local-identifier, tag-local-identifier")
print(f"  üî¥ Fields (9) : location-lat, location-long, event-id, vegetation_cover_*, etc.")
print(f"  ‚è±Ô∏è Timestamp  : timestamp")
print()

### 4.2 Anti-Patterns √† √âviter

**‚ùå NE JAMAIS faire √ßa** :

```python
# MAUVAIS EXEMPLE - Ne pas reproduire!
data_frame_tag_columns=[
    'sensor-type',                    # ‚ùå Cardinalit√© = 1 (gaspillage)
    'individual-taxon-canonical-name',  # ‚ùå Cardinalit√© = 1 (gaspillage)
    'event-id',                       # ‚ùå Cardinalit√© = 89867 (explosion index!)
    'timestamp',                      # ‚ùå Timestamp n'est JAMAIS un tag
    'location-lat'                    # ‚ùå Float avec haute cardinalit√©
]
```

**Cons√©quences** :
- **Explosion de la cardinalit√©** ‚Üí Index gigantesques ‚Üí RAM satur√©e
- **Queries lentes** ‚Üí Trop d'index √† parcourir
- **Gaspillage m√©moire** ‚Üí Indexer des constantes ne sert √† rien

**‚úÖ Notre sch√©ma optimis√©** :
- Seulement 2 tags avec cardinalit√© raisonnable (~199 valeurs chacun)
- Tout le reste en fields
- Performance maximale pour les requ√™tes de tracking par oiseau/device

### 4.3 Insertion des Donn√©es

In [None]:
# Conversion timestamp (d√©j√† fait dans Part 2, mais on s'assure)
df_clean['timestamp'] = pd.to_datetime(df_clean['timestamp'])

print(f"üì§ Pr√©paration de l'insertion...")
print(f"   Records √† ins√©rer : {len(df_clean):,}")
print(f"   Measurement       : bird_migration")
print(f"   Tags (2)          : individual-local-identifier, tag-local-identifier")
print(f"   Fields (auto)     : {df_clean.shape[1] - 3} colonnes")  # Total - timestamp - 2 tags
print(f"   P√©riode           : {df_clean['timestamp'].min()} ‚Üí {df_clean['timestamp'].max()}")
print()

# Insertion dans InfluxDB avec sch√©ma optimis√©
import time
start_time = time.time()

try:
    write_api.write(
        bucket=INFLUX_BUCKET, 
        org=INFLUX_ORG, 
        record=df_clean, 
        data_frame_measurement_name='bird_migration',
        data_frame_tag_columns=[
            'individual-local-identifier',  # ~199 oiseaux (filtrage fr√©quent)
            'tag-local-identifier',         # ~199 devices (filtrage fr√©quent)
        ],
        # Toutes les autres colonnes deviennent automatiquement des fields:
        # location-long, location-lat, event-id, vegetation_cover_low/high, etc.
        data_frame_timestamp_column='timestamp'
    )
    
    elapsed = time.time() - start_time
    
    print(f"‚úÖ Insertion r√©ussie en {elapsed:.2f} secondes!")
    print(f"   D√©bit: {len(df_clean)/elapsed:.0f} points/seconde")
    print()
    
except Exception as e:
    print(f"‚ùå Erreur lors de l'insertion: {e}")
    raise

### 4.4 V√©rification de l'Insertion

In [None]:
# Requ√™te de v√©rification: compter tous les points ins√©r√©s
verification_query = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> group()
  |> count()
'''

print("üîç V√©rification de l'insertion...")
result = query_api.query_data_frame(verification_query, org=INFLUX_ORG)

if isinstance(result, list) and len(result) > 0:
    # InfluxDB retourne un point par field, on compte le total
    total_points = len(result) if isinstance(result, list) else len(result)
    
    # Nombre de fields attendus
    num_fields = df_clean.shape[1] - 3  # Total - timestamp - 2 tags
    expected_records = len(df_clean)
    
    print(f"‚úÖ V√©rification r√©ussie:")
    print(f"   Measurement       : bird_migration")
    print(f"   Records ins√©r√©s   : {expected_records:,}")
    print(f"   Fields par record : {num_fields}")
    print(f"   Points totaux     : {expected_records * num_fields:,} (records √ó fields)")
    print()
    print(f"üìä Taille estim√©e  : {(expected_records * num_fields * 8) / 1024 / 1024:.2f} MB (sans compression)")
    print(f"   Compression InfluxDB : ~10-20x ‚Üí {(expected_records * num_fields * 8) / 1024 / 1024 / 15:.2f} MB estim√©")
else:
    print(result)
    print(f"‚ö†Ô∏è Aucune donn√©e trouv√©e. V√©rifier l'insertion.")

## Partie 5 : Langage de Requ√™tes Flux - Construction Progressive (12-15 min)

**Objectif** : Ma√Ætriser Flux en construisant des requ√™tes de plus en plus complexes.

In [None]:
# Helper function pour afficher les r√©sultats Flux proprement
def display_flux_result(result, title="R√©sultat"):
    """Affiche les r√©sultats d'une requ√™te Flux de mani√®re lisible"""
    if isinstance(result, list):
        if len(result) > 0:
            result_df = pd.concat(result, ignore_index=True)
            print(f"üìä {title}: {len(result)} DataFrames, {len(result_df)} lignes totales")
            display(result_df.head(10))
            return result_df
        else:
            print(f"‚ö†Ô∏è {title}: Aucune donn√©e trouv√©e")
            return None
    else:
        print(f"üìä {title}: {len(result)} lignes")
        if len(result) > 0:
            display(result.head(10))
        return result

### 5.1 Requ√™te de Base : R√©cup√©rer des Donn√©es

**Anatomie d'une requ√™te Flux** :
```
from(bucket: "nom")              ‚Üê Source des donn√©es
  |> range(start: xxx, stop: yyy)  ‚Üê Filtre temporel (OBLIGATOIRE)
  |> filter(fn: (r) => ...)        ‚Üê Filtres suppl√©mentaires
  |> limit(n: 10)                  ‚Üê Limiter le nombre de r√©sultats
```

**Pipeline** : Chaque op√©rateur `|>` passe les donn√©es √† l'op√©rateur suivant

In [None]:
# Requ√™te 1: R√©cup√©rer les 100 premiers points
query_basic = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)  
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> limit(n: 100)
'''

print("=" * 80)
print("REQU√äTE 1: R√âCUP√âRATION BASIQUE (100 premiers points)".center(80))
print("=" * 80)
print(query_basic)
print()

result_basic = query_api.query_data_frame(query_basic, org=INFLUX_ORG)
df_basic = display_flux_result(result_basic, "Requ√™te basique")

### 5.2 Filtrage par Tag : Requ√™tes Efficaces

**Pourquoi filtrer sur les tags** : Index optimis√©s ‚Üí queries ultra-rapides

**√âquivalence** :
- Flux : `filter(fn: (r) => r["individual-local-identifier"] == "91732A")`
- SQL : `WHERE individual_local_identifier = '91732A'`
- Pandas : `df[df['individual-local-identifier'] == '91732A']`

In [None]:
# Requ√™te 2: Filtrer par oiseau sp√©cifique (tag)
bird_id = "91732A"

query_by_bird = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["individual-local-identifier"] == "{bird_id}")
  |> limit(n: 50)
'''

print("=" * 80)
print(f"REQU√äTE 2: FILTRAGE PAR TAG (oiseau {bird_id})".center(80))
print("=" * 80)
print(query_by_bird)
print()

result_by_bird = query_api.query_data_frame(query_by_bird, org=INFLUX_ORG)
df_by_bird = display_flux_result(result_by_bird, f"Donn√©es pour {bird_id}")

print()
print("üîç V√©rification avec Pandas:")
pandas_count = len(df_clean[df_clean['individual-local-identifier'] == bird_id])
print(f"   Pandas : {pandas_count:,} records pour {bird_id}")
print(f"   ‚Üí Coh√©rence avec InfluxDB ‚úÖ")

### 5.3 Filtrage Temporel : La Force des Time-Series DB

**C'est ICI que InfluxDB brille** : requ√™tes temporelles ultra-optimis√©es

**Exemple** : Trouver les donn√©es de migration estivale (juin-ao√ªt 2009)

In [92]:
# Requ√™te 3: Filtrage par plage temporelle (summer 2009)
query_summer = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 2009-06-01T00:00:00Z, stop: 2009-08-31T23:59:59Z)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> limit(n: 100)
'''

print("=" * 80)
print("REQU√äTE 3: FILTRAGE TEMPOREL (√©t√© 2009)".center(80))
print("=" * 80)
print(query_summer)
print()

result_summer = query_api.query_data_frame(query_summer, org=INFLUX_ORG)
df_summer = display_flux_result(result_summer, "Donn√©es √©t√© 2009")

print()
print("üîç V√©rification avec Pandas:")
summer_mask = (df_clean['timestamp'] >= '2009-06-01') & (df_clean['timestamp'] <= '2009-08-31')
pandas_summer = len(df_clean[summer_mask])
print(f"   Pandas : {pandas_summer:,} records pour l'√©t√© 2009")

print()
print("‚ö° Performance:")
print("   InfluxDB : Index temporel (TSM) ‚Üí recherche en O(log n)")
print("   Pandas   : Scan complet ‚Üí O(n)")
print("   ‚Üí Pour millions de points, InfluxDB est 100-1000x plus rapide!")

                    REQU√äTE 3: FILTRAGE TEMPOREL (√©t√© 2009)                     

from(bucket: "animal-tracking")
  |> range(start: 2009-06-01T00:00:00Z, stop: 2009-08-31T23:59:59Z)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> limit(n: 100)


üìä Donn√©es √©t√© 2009: 7539 lignes


Unnamed: 0,result,table,_start,_stop,_time,_value,_field,_measurement,individual-local-identifier,tag-local-identifier
0,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-01 05:00:00+00:00,61.233,location-lat,bird_migration,91732A,91732
1,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-02 05:00:00+00:00,61.22933,location-lat,bird_migration,91732A,91732
2,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-02 14:00:00+00:00,61.217,location-lat,bird_migration,91732A,91732
3,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-02 20:00:00+00:00,61.19,location-lat,bird_migration,91732A,91732
4,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-03 05:00:00+00:00,61.23317,location-lat,bird_migration,91732A,91732
5,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-03 08:00:00+00:00,61.24783,location-lat,bird_migration,91732A,91732
6,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-03 14:00:00+00:00,61.24783,location-lat,bird_migration,91732A,91732
7,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-03 20:00:00+00:00,61.26983,location-lat,bird_migration,91732A,91732
8,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-04 05:00:00+00:00,61.26833,location-lat,bird_migration,91732A,91732
9,_result,0,2009-06-01 00:00:00+00:00,2009-08-31 23:59:59+00:00,2009-06-04 08:00:00+00:00,61.24767,location-lat,bird_migration,91732A,91732



üîç V√©rification avec Pandas:
   Pandas : 13,294 records pour l'√©t√© 2009

‚ö° Performance:
   InfluxDB : Index temporel (TSM) ‚Üí recherche en O(log n)
   Pandas   : Scan complet ‚Üí O(n)
   ‚Üí Pour millions de points, InfluxDB est 100-1000x plus rapide!


### 5.4 Restructuration avec Pivot : Transformer Fields en Colonnes

**Probl√®me** : InfluxDB retourne 1 ligne par field ‚Üí difficile √† analyser

**Solution** : `pivot()` transforme les fields en colonnes (comme un DataFrame)

In [91]:
# Requ√™te 4: Utiliser pivot pour restructurer les donn√©es
query_pivot = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["individual-local-identifier"] == "91732A")
  |> filter(fn: (r) => r["_field"] == "location-lat" or r["_field"] == "location-long")
  |> pivot(rowKey:["_time"], columnKey: ["_field"], valueColumn: "_value")
  |> limit(n: 20)
'''

print("=" * 80)
print("REQU√äTE 4: PIVOT (fields ‚Üí colonnes)".center(80))
print("=" * 80)
print(query_pivot)
print()

result_pivot = query_api.query_data_frame(query_pivot, org=INFLUX_ORG)
df_pivot = display_flux_result(result_pivot, "Donn√©es pivot√©es")

print()
print("üìä Maintenant nous avons:")
print("   - 1 ligne = 1 point GPS (timestamp)")
print("   - Colonnes location-lat et location-long c√¥te √† c√¥te")
print("   ‚Üí Format id√©al pour l'analyse et la visualisation!")

                      REQU√äTE 4: PIVOT (fields ‚Üí colonnes)                      

from(bucket: "animal-tracking")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["individual-local-identifier"] == "91732A")
  |> filter(fn: (r) => r["_field"] == "location-lat" or r["_field"] == "location-long")
  |> pivot(rowKey:["_time"], columnKey: ["_field"], valueColumn: "_value")
  |> limit(n: 20)


üìä Donn√©es pivot√©es: 20 lignes


Unnamed: 0,result,table,_start,_stop,_time,_measurement,individual-local-identifier,tag-local-identifier,location-lat,location-long
0,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-27 14:00:00+00:00,bird_migration,91732A,91732,61.24783,24.58617
1,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-27 20:00:00+00:00,bird_migration,91732A,91732,61.23267,24.58217
2,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-28 05:00:00+00:00,bird_migration,91732A,91732,61.18833,24.53133
3,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-28 08:00:00+00:00,bird_migration,91732A,91732,61.23283,24.582
4,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-28 14:00:00+00:00,bird_migration,91732A,91732,61.23267,24.5825
5,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-28 20:00:00+00:00,bird_migration,91732A,91732,61.24767,24.58617
6,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-29 05:00:00+00:00,bird_migration,91732A,91732,61.24767,24.586
7,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-29 08:00:00+00:00,bird_migration,91732A,91732,61.24767,24.58617
8,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-29 14:00:00+00:00,bird_migration,91732A,91732,61.2475,24.5865
9,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:27:24.623621+00:00,2009-05-29 20:00:00+00:00,bird_migration,91732A,91732,61.23883,24.56967



üìä Maintenant nous avons:
   - 1 ligne = 1 point GPS (timestamp)
   - Colonnes location-lat et location-long c√¥te √† c√¥te
   ‚Üí Format id√©al pour l'analyse et la visualisation!


### 5.5 Agr√©gation : Compter, Grouper, Analyser

**Op√©rations d'agr√©gation courantes** :
- `count()` : nombre de points
- `mean()` : moyenne
- `sum()` : somme
- `max()` / `min()` : valeurs extr√™mes
- `group()` : grouper par tag(s)

**Exemple** : Compter le nombre de tracking points par oiseau

In [93]:
# Requ√™te 5: Compter les points de tracking par oiseau
query_count = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> group(columns: ["individual-local-identifier"])
  |> count()
  |> sort(columns: ["_value"], desc: true)
  |> limit(n: 20)
'''

print("=" * 80)
print("REQU√äTE 5: AGR√âGATION (count par oiseau)".center(80))
print("=" * 80)
print(query_count)
print()

result_count = query_api.query_data_frame(query_count, org=INFLUX_ORG)
df_count = display_flux_result(result_count, "Comptage par oiseau")

print()
print("üîç √âquivalence Pandas:")
print("   df.groupby('individual-local-identifier').size().sort_values(ascending=False)")
print()
print("üìä V√©rification (top 5):")
pandas_counts = df_clean.groupby('individual-local-identifier').size().sort_values(ascending=False).head(5)
print(pandas_counts)

                    REQU√äTE 5: AGR√âGATION (count par oiseau)                    

from(bucket: "animal-tracking")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> group(columns: ["individual-local-identifier"])
  |> count()
  |> sort(columns: ["_value"], desc: true)
  |> limit(n: 20)


üìä Comptage par oiseau: 126 lignes


Unnamed: 0,result,table,_start,_stop,_value,individual-local-identifier
0,_result,0,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,1970,91732A
1,_result,1,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,44,91733A
2,_result,2,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,1060,91734A
3,_result,3,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,477,91735A
4,_result,4,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,1039,91737A
5,_result,5,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,424,91738A
6,_result,6,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,2738,91739A
7,_result,7,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,335,91740A
8,_result,8,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,415,91741A
9,_result,9,1970-01-01 00:00:00+00:00,2025-11-02 16:28:23.889530+00:00,1006,91742A



üîç √âquivalence Pandas:
   df.groupby('individual-local-identifier').size().sort_values(ascending=False)

üìä V√©rification (top 5):
individual-local-identifier
91916A    8396
91752A    5751
91823A    5557
91763A    5216
91814A    4775
dtype: int64


### 5.6 Window Functions : Agr√©gation Temporelle

**Cas d'usage** : Calculer des moyennes par jour/heure/mois

`aggregateWindow()` divise le temps en fen√™tres et agr√®ge chacune s√©par√©ment

In [None]:
# Requ√™te 6: Moyenne quotidienne de la couverture v√©g√©tale (mai 2009)
query_window = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 2009-05-01T00:00:00Z, stop: 2009-05-31T23:59:59Z)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "vegetation_cover_high")
  |> aggregateWindow(every: 1d, fn: mean, createEmpty: false)
  |> limit(n: 31)
'''

print("=" * 80)
print("REQU√äTE 6: WINDOW FUNCTION (moyenne journali√®re)".center(80))
print("=" * 80)
print(query_window)
print()

result_window = query_api.query_data_frame(query_window, org=INFLUX_ORG)
df_window = display_flux_result(result_window, "Moyenne quotidienne v√©g√©tation")

print()
print("üìä Explication:")
print("   aggregateWindow(every: 1d, fn: mean)")
print("   ‚Üí Divise mai 2009 en fen√™tres de 1 jour")
print("   ‚Üí Calcule la moyenne pour chaque jour")
print("   ‚Üí Retourne 31 points (1 par jour)")
print()
print("üí° Tr√®s utile pour:")
print("   - Downsampling (r√©duire volume de donn√©es)")
print("   - D√©tecter tendances (patterns journaliers/hebdomadaires)")
print("   - Visualisations (√©viter trop de points sur un graphe)")

## Partie 5.5 : Analyse Time-Series - Patterns de Migration (10-12 min)

**Objectif** : Utiliser Flux pour extraire des insights sur les migrations d'oiseaux.

### 5.5.1 Trouver les Points Extr√™mes de Migration

**Question** : Quelle est la latitude la plus au nord et au sud visit√©e par chaque oiseau ?

In [None]:
# Requ√™te: Points les plus au nord et sud par oiseau
query_extremes = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> group(columns: ["individual-local-identifier"])
  |> reduce(
      fn: (r, accumulator) => ({{
        bird_id: r["individual-local-identifier"],
        max_lat: if r._value > accumulator.max_lat then r._value else accumulator.max_lat,
        min_lat: if r._value < accumulator.min_lat then r._value else accumulator.min_lat
      }}),
      identity: {{bird_id: "", max_lat: -90.0, min_lat: 90.0}}
    )
  |> limit(n: 10)
'''

print("=" * 80)
print("ANALYSE: POINTS EXTR√äMES DE MIGRATION".center(80))
print("=" * 80)
print(query_extremes)
print()

result_extremes = query_api.query_data_frame(query_extremes, org=INFLUX_ORG)
df_extremes = display_flux_result(result_extremes, "Points extr√™mes par oiseau")

print()
print("üìä Interpr√©tation:")
print("   max_lat = point le plus au nord (zone de reproduction probable)")
print("   min_lat = point le plus au sud (zone d'hivernage)")
print("   Diff√©rence = amplitude de migration")
print()

if df_extremes is not None and len(df_extremes) > 0:
    # Calculer l'amplitude de migration
    if 'max_lat' in df_extremes.columns and 'min_lat' in df_extremes.columns:
        df_extremes['migration_range'] = df_extremes['max_lat'] - df_extremes['min_lat']
        print("ü¶Ö Top 3 plus grandes amplitudes de migration:")
        top_migrants = df_extremes.nlargest(3, 'migration_range')[['bird_id', 'min_lat', 'max_lat', 'migration_range']]
        print(top_migrants.to_string(index=False))

### 5.5.3 Analyse Saisonni√®re : √ât√© vs Hiver

**Hypoth√®se** : Les oiseaux migrateurs se d√©placent vers le nord en √©t√© (reproduction) et vers le sud en hiver

Testons cette hypoth√®se avec les donn√©es !

In [None]:
# Comparer les latitudes moyennes √©t√© vs hiver
query_summer_lat = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 2009-06-01T00:00:00Z, stop: 2009-08-31T23:59:59Z)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> mean()
'''

query_winter_lat = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 2009-12-01T00:00:00Z, stop: 2010-02-28T23:59:59Z)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> mean()
'''

print("=" * 80)
print("ANALYSE SAISONNI√àRE: √âT√â vs HIVER".center(80))
print("=" * 80)

result_summer_lat = query_api.query_data_frame(query_summer_lat, org=INFLUX_ORG)
result_winter_lat = query_api.query_data_frame(query_winter_lat, org=INFLUX_ORG)

def extract_mean_value(result):
    """Extrait la valeur moyenne d'un r√©sultat Flux"""
    if isinstance(result, list) and len(result) > 0:
        return result[0]['_value'].values[0] if '_value' in result[0].columns else None
    elif isinstance(result, pd.DataFrame) and len(result) > 0:
        return result['_value'].values[0] if '_value' in result.columns else None
    return None

summer_mean = extract_mean_value(result_summer_lat)
winter_mean = extract_mean_value(result_winter_lat)

if summer_mean is not None and winter_mean is not None:
    print(f"üìä Latitude moyenne:")
    print(f"   √ât√© 2009 (juin-ao√ªt)    : {summer_mean:.2f}¬∞")
    print(f"   Hiver 2009-10 (d√©c-f√©v) : {winter_mean:.2f}¬∞")
    print(f"   Diff√©rence              : {summer_mean - winter_mean:.2f}¬∞")
    print()
    
    if summer_mean > winter_mean:
        print(f"‚úÖ HYPOTH√àSE CONFIRM√âE!")
        print(f"   Les oiseaux sont {summer_mean - winter_mean:.1f}¬∞ plus au nord en √©t√©")
        print(f"   ‚Üí Pattern de migration classique pour Larus fuscus (go√©land brun)")
        print(f"   ‚Üí Reproduction en Scandinavie (√©t√©), hivernage en Afrique (hiver)")
    else:
        print(f"‚ùå Hypoth√®se non confirm√©e (pattern inattendu)")
else:
    print(f"‚ö†Ô∏è Donn√©es insuffisantes pour cette analyse")

print("=" * 80)

### 5.5.4 Efficacit√© du Stockage : Compression des Time-Series

**Big Data Concept** : InfluxDB utilise une compression tr√®s efficace pour les donn√©es time-series.

**Pourquoi c'est important ?**
- Donn√©es time-series = souvent r√©p√©titives (m√™me tags, valeurs proches)
- Compression 10-20x typique ‚Üí √©conomies massives de stockage
- Impact sur co√ªts cloud et performance I/O

In [None]:
# Calculer la taille th√©orique des donn√©es non compress√©es
num_records = len(df_clean)
num_fields = df_clean.shape[1] - 3  # Exclude timestamp and 2 tags

# Estimation de taille par point de donn√©e
# - Timestamp: 8 bytes (int64)
# - Tags (2): ~20 bytes each (string) = 40 bytes
# - Fields (10): ~8 bytes each (float64) = 80 bytes
# - Overhead: ~20 bytes
bytes_per_record = 8 + 40 + 80 + 20  # = 148 bytes

total_size_uncompressed = num_records * bytes_per_record
total_size_mb = total_size_uncompressed / 1024 / 1024

print("=" * 80)
print("ANALYSE D'EFFICACIT√â DU STOCKAGE".center(80))
print("=" * 80)
print(f"üìä Donn√©es ins√©r√©es:")
print(f"   Records          : {num_records:,}")
print(f"   Fields par record: {num_fields}")
print(f"   Points totaux    : {num_records * num_fields:,}")
print()
print(f"üíæ Taille estim√©e SANS compression:")
print(f"   Par record       : {bytes_per_record} bytes")
print(f"   Total brut       : {total_size_mb:.2f} MB")
print()
print(f"‚ö° Avec compression InfluxDB (ratio 10-20x):")
print(f"   Compression 10x  : {total_size_mb / 10:.2f} MB")
print(f"   Compression 15x  : {total_size_mb / 15:.2f} MB")
print(f"   Compression 20x  : {total_size_mb / 20:.2f} MB")
print()
print(f"üîç Pourquoi une si bonne compression ?")
print(f"   1. **Tags r√©p√©t√©s** : 'individual-local-identifier' se r√©p√®te {num_records // df_clean['individual-local-identifier'].nunique()} fois en moyenne")
print(f"   2. **Timestamps ordonn√©s** : Delta encoding (stocker les diff√©rences)")
print(f"   3. **Valeurs proches** : Coordonn√©es GPS changent peu entre points cons√©cutifs")
print(f"   4. **Run-length encoding** : Colonnes constantes (sensor-type, study-name)")
print()
print(f"üìà Impact pour Big Data:")
print(f"   - 1 million d'oiseaux √ó 1000 points/oiseau = 1 milliard de points")
print(f"   - Sans compression : {(1_000_000_000 * bytes_per_record) / 1024 / 1024 / 1024:.1f} GB")
print(f"   - Avec compression 15x : {(1_000_000_000 * bytes_per_record) / 1024 / 1024 / 1024 / 15:.1f} GB")
print(f"   ‚Üí √âconomie de {((1_000_000_000 * bytes_per_record) / 1024 / 1024 / 1024) - ((1_000_000_000 * bytes_per_record) / 1024 / 1024 / 1024 / 15):.1f} GB!")
print("=" * 80)

### 5.5.5 Retention Policies : Gestion du Cycle de Vie des Donn√©es

**Big Data Concept** : En production, on ne garde pas toutes les donn√©es √©ternellement.

**Retention Policy** = r√®gle qui d√©finit :
- Combien de temps garder les donn√©es
- Suppression automatique des donn√©es anciennes
- √âconomie de stockage et am√©lioration des performances

In [None]:
print("=" * 80)
print("RETENTION POLICIES - GESTION DU CYCLE DE VIE".center(80))
print("=" * 80)
print()
print("üìã Concept:")
print("   Une Retention Policy d√©finit combien de temps garder les donn√©es")
print("   Apr√®s expiration ‚Üí suppression automatique ‚Üí lib√©ration d'espace")
print()
print("üîß Cas d'usage typiques:")
print()
print("   1. **Donn√©es brutes r√©centes** (haute r√©solution)")
print("      Retention: 7 jours")
print("      ‚Üí Tracking en temps r√©el, debugging")
print()
print("   2. **Donn√©es downsampl√©es** (agr√©gations horaires)")
print("      Retention: 90 jours")
print("      ‚Üí Analyses historiques, dashboards")
print()
print("   3. **Donn√©es agr√©g√©es** (moyennes journali√®res)")
print("      Retention: Illimit√©e ou 5 ans")
print("      ‚Üí Tendances long terme, reporting annuel")
print()
print("üí° Exemple pour notre dataset d'oiseaux:")
print("   Bucket 'raw-tracking'     : Retention 30 jours  (points GPS bruts)")
print("   Bucket 'hourly-positions' : Retention 1 an      (position moyenne/heure)")
print("   Bucket 'daily-summary'    : Retention illimit√©e (statistiques journali√®res)")
print()
print("‚öôÔ∏è Configuration InfluxDB (exemple):")
print("   ```")
print("   # Cr√©er un bucket avec retention de 30 jours")
print("   influx bucket create \\")
print("     --name raw-tracking \\")
print("     --retention 720h \\")  # 30 jours = 720 heures
print("     --org fil-A3-back-bigData")
print("   ```")
print()
print("üéØ B√©n√©fices pour Big Data:")
print("   ‚úÖ Contr√¥le automatique de la croissance des donn√©es")
print("   ‚úÖ Pas de scripts de nettoyage manuel")
print("   ‚úÖ Queries plus rapides (moins de donn√©es √† scanner)")
print("   ‚úÖ Co√ªts cloud pr√©visibles")
print()
print("üìä Pour notre dataset actuel:")
data_start = df_clean['timestamp'].min()
data_end = df_clean['timestamp'].max()
data_span_days = (data_end - data_start).days
print(f"   P√©riode des donn√©es: {data_start.date()} ‚Üí {data_end.date()}")
print(f"   Dur√©e: {data_span_days} jours")
print(f"   Avec retention de 30 jours, on garderait seulement:")
print(f"   - Les {min(30, data_span_days)} derniers jours de donn√©es")
print(f"   - ~{(30 / data_span_days * 100):.1f}% du dataset actuel")
print("=" * 80)

## Partie 6 : Visualisations - D√©monstration (OPTIONNEL - 8-10 min)

**Note p√©dagogique** : Cette partie est une **d√©monstration optionnelle** pour montrer ce qu'on peut faire avec les donn√©es. L'objectif principal du TP est d'apprendre **InfluxDB** (schema design, Flux queries), pas la visualisation de donn√©es.

**Objectif** : Montrer rapidement quelques visualisations possibles des patterns de migration.

### 6.1 Carte Interactive des Routes de Migration

**Objectif** : Visualiser les trajectoires des 3 oiseaux les plus track√©s sur une carte interactive avec Folium.

In [None]:
# Identifier les 3 oiseaux les plus track√©s
query_top_birds = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> group(columns: ["individual-local-identifier"])
  |> count()
  |> sort(columns: ["_value"], desc: true)
  |> limit(n: 3)
'''

result_top = query_api.query_data_frame(query_top_birds, org=INFLUX_ORG)

if isinstance(result_top, list) and len(result_top) > 0:
    df_top = pd.concat(result_top, ignore_index=True)
else:
    df_top = result_top

top_bird_ids = df_top['individual-local-identifier'].tolist()

print(f"ü¶Ö Top 3 oiseaux les plus track√©s:")
for i, bird_id in enumerate(top_bird_ids, 1):
    count = df_top[df_top['individual-local-identifier'] == bird_id]['_value'].values[0]
    print(f"  {i}. {bird_id}: {count:,} points")
print()

# Cr√©er une carte centr√©e sur l'Europe
m = folium.Map(location=[50, 15], zoom_start=4, tiles='OpenStreetMap')

colors = ['red', 'blue', 'green']

for idx, bird_id in enumerate(top_bird_ids):
    # R√©cup√©rer la trajectoire compl√®te
    query_traj = f'''
    from(bucket: "{INFLUX_BUCKET}")
      |> range(start: 0)
      |> filter(fn: (r) => r["_measurement"] == "bird_migration")
      |> filter(fn: (r) => r["individual-local-identifier"] == "{bird_id}")
      |> filter(fn: (r) => r["_field"] == "location-lat" or r["_field"] == "location-long")
      |> pivot(rowKey:["_time"], columnKey: ["_field"], valueColumn: "_value")
      |> sort(columns: ["_time"])
    '''
    
    result_traj = query_api.query_data_frame(query_traj, org=INFLUX_ORG)
    
    if isinstance(result_traj, list) and len(result_traj) > 0:
        df_traj = pd.concat(result_traj, ignore_index=True)
    else:
        df_traj = result_traj
    
    if len(df_traj) > 0:
        # Cr√©er la liste de points (lat, lon)
        points = list(zip(df_traj['location-lat'], df_traj['location-long']))
        
        # Ajouter la trajectoire avec animation
        from folium.plugins import AntPath
        AntPath(
            points,
            color=colors[idx],
            weight=2.5,
            opacity=0.8,
            delay=800,
            popup=f"<b>Oiseau: {bird_id}</b><br>{len(points)} points GPS"
        ).add_to(m)
        
        # Ajouter marqueur au d√©but et √† la fin
        folium.Marker(
            points[0],
            popup=f"D√©part: {bird_id}",
            icon=folium.Icon(color=colors[idx], icon='play')
        ).add_to(m)
        
        folium.Marker(
            points[-1],
            popup=f"Fin: {bird_id}",
            icon=folium.Icon(color=colors[idx], icon='stop')
        ).add_to(m)
        
        print(f"‚úì Trajectoire {bird_id} ({colors[idx]}): {len(points)} points")

print()
print("üó∫Ô∏è Carte interactive g√©n√©r√©e ci-dessous:")
display(m)

### 6.2 Time-Series: Latitude au Fil du Temps

**Objectif** : Visualiser le pattern de migration saisonni√®re d'un oiseau (latitude vs temps).

In [None]:
# R√©cup√©rer la s√©rie temporelle de latitude pour l'oiseau le plus track√©
main_bird = top_bird_ids[0]

query_lat_time = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["individual-local-identifier"] == "{main_bird}")
  |> filter(fn: (r) => r["_field"] == "location-lat")
  |> sort(columns: ["_time"])
'''

result_lat = query_api.query_data_frame(query_lat_time, org=INFLUX_ORG)

if isinstance(result_lat, list) and len(result_lat) > 0:
    df_lat = pd.concat(result_lat, ignore_index=True)
else:
    df_lat = result_lat

if len(df_lat) > 0:
    df_lat['_time'] = pd.to_datetime(df_lat['_time'])
    
    # Cr√©er le graphique time-series
    fig, ax = plt.subplots(figsize=(16, 6))
    
    ax.plot(df_lat['_time'], df_lat['_value'], linewidth=1.5, color='#2E86AB', alpha=0.8)
    
    # Ajouter des bandes de couleur pour les saisons
    import matplotlib.patches as mpatches
    from datetime import datetime
    
    # D√©finir les saisons (approximatif)
    years = df_lat['_time'].dt.year.unique()
    for year in years:
        # √ât√© (juin-ao√ªt) - jaune clair
        summer_start = pd.Timestamp(f'{year}-06-01')
        summer_end = pd.Timestamp(f'{year}-08-31')
        ax.axvspan(summer_start, summer_end, alpha=0.2, color='yellow', label='√ât√©' if year == years[0] else '')
        
        # Hiver (d√©cembre-f√©vrier)
        winter_start = pd.Timestamp(f'{year}-12-01')
        winter_end = pd.Timestamp(f'{year+1}-02-28')
        ax.axvspan(winter_start, winter_end, alpha=0.2, color='lightblue', label='Hiver' if year == years[0] else '')
    
    ax.set_xlabel('Date', fontsize=12)
    ax.set_ylabel('Latitude (¬∞)', fontsize=12)
    ax.set_title(f'Pattern de Migration: Oiseau {main_bird}\\nLatitude au fil du temps (2009-2015)', fontsize=14, fontweight='bold')
    ax.grid(True, alpha=0.3)
    ax.legend(loc='upper right')
    
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()
    
    print(f"üìä Observation:")
    print(f"   Les pics vers le haut (latitude haute) = √©t√© en Scandinavie")
    print(f"   Les creux vers le bas (latitude basse) = hiver en Afrique/M√©diterran√©e")
    print(f"   ‚Üí Pattern de migration saisonni√®re clairement visible!")
else:
    print("‚ö†Ô∏è Aucune donn√©e trouv√©e")

### 6.3 Heatmap: Densit√© des Points de Tracking en Fonction du Temps

**Objectif** : Visualiser l'√©volution temporelle des zones de pr√©sence des oiseaux (migration saisonni√®re).

In [None]:
# R√©cup√©rer tous les points GPS (√©chantillonn√©s pour performance)
query_all_points = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "location-lat" or r["_field"] == "location-long")
  |> sample(n: 1000)
  |> pivot(rowKey:["_time"], columnKey: ["_field"], valueColumn: "_value")
'''

result_all = query_api.query_data_frame(query_all_points, org=INFLUX_ORG)

if isinstance(result_all, list) and len(result_all) > 0:
    df_all = pd.concat(result_all, ignore_index=True)
else:
    df_all = result_all

if len(df_all) > 0:
    # Cr√©er la heatmap
    from folium.plugins import HeatMap
    
    m_heat = folium.Map(location=[45, 15], zoom_start=4, tiles='CartoDB positron')
    
    # Pr√©parer les donn√©es pour la heatmap
    heat_data = [[row['location-lat'], row['location-long']] for idx, row in df_all.iterrows()]
    
    HeatMap(
        heat_data,
        radius=8,
        blur=10,
        max_zoom=6,
        gradient={0.4: 'blue', 0.65: 'lime', 0.8: 'yellow', 1.0: 'red'}
    ).add_to(m_heat)
    
    print(f"üî• Heatmap g√©n√©r√©e avec {len(heat_data):,} points")
    print()
    print("üìç Interpr√©tation des zones chaudes (rouge/jaune):")
    print("   - Zones de haute densit√© = aires de repos/nidification")
    print("   - Zones froides (bleu) = corridors de migration rapide")
    print("   - Permet d'identifier les sites importants pour la conservation")
    print()
    
    display(m_heat)
else:
    print("‚ö†Ô∏è Aucune donn√©e trouv√©e")

### 6.4 Corr√©lation: Latitude vs Couverture V√©g√©tale

**Objectif** : Y a-t-il une corr√©lation entre la latitude (zones g√©ographiques) et la v√©g√©tation ?

In [None]:
# R√©cup√©rer les donn√©es de v√©g√©tation avec coordonn√©es
query_veg = f'''
from(bucket: "{INFLUX_BUCKET}")
  |> range(start: 0)
  |> filter(fn: (r) => r["_measurement"] == "bird_migration")
  |> filter(fn: (r) => r["_field"] == "vegetation_cover_high" or r["_field"] == "vegetation_cover_low" or r["_field"] == "location-lat")
  |> sample(n: 1000)
  |> pivot(rowKey:["_time"], columnKey: ["_field"], valueColumn: "_value")
'''

result_veg = query_api.query_data_frame(query_veg, org=INFLUX_ORG)

if isinstance(result_veg, list) and len(result_veg) > 0:
    df_veg = pd.concat(result_veg, ignore_index=True)
else:
    df_veg = result_veg

if len(df_veg) > 0 and 'vegetation_cover_high' in df_veg.columns:
    # Cr√©er les scatter plots
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))
    
    # Haute v√©g√©tation vs latitude
    ax1.scatter(df_veg['location-lat'], df_veg['vegetation_cover_high'], 
                alpha=0.3, s=2, color='#2E7D32')
    ax1.set_xlabel('Latitude (¬∞)', fontsize=11)
    ax1.set_ylabel('Couverture Haute V√©g√©tation', fontsize=11)
    ax1.set_title('Latitude vs Haute V√©g√©tation (for√™ts, arbres)', fontsize=13, fontweight='bold')
    ax1.grid(True, alpha=0.3)
    
    # Calculer et afficher la corr√©lation
    corr_high = df_veg['location-lat'].corr(df_veg['vegetation_cover_high'])
    ax1.text(0.05, 0.95, f'Corr√©lation: {corr_high:.3f}', 
             transform=ax1.transAxes, fontsize=10, verticalalignment='top',
             bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
    
    # Basse v√©g√©tation vs latitude
    if 'vegetation_cover_low' in df_veg.columns:
        ax2.scatter(df_veg['location-lat'], df_veg['vegetation_cover_low'], 
                    alpha=0.3, s=2, color='#F57C00')
        ax2.set_xlabel('Latitude (¬∞)', fontsize=11)
        ax2.set_ylabel('Couverture Basse V√©g√©tation', fontsize=11)
        ax2.set_title('Latitude vs Basse V√©g√©tation (prairies, cultures)', fontsize=13, fontweight='bold')
        ax2.grid(True, alpha=0.3)
        
        corr_low = df_veg['location-lat'].corr(df_veg['vegetation_cover_low'])
        ax2.text(0.05, 0.95, f'Corr√©lation: {corr_low:.3f}', 
                 transform=ax2.transAxes, fontsize=10, verticalalignment='top',
                 bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))
    
    plt.tight_layout()
    plt.show()
    
    print("üìä Interpr√©tation:")
    print(f"   Corr√©lation haute v√©g√©tation: {corr_high:.3f}")
    if 'vegetation_cover_low' in df_veg.columns:
        print(f"   Corr√©lation basse v√©g√©tation: {corr_low:.3f}")
    print()
    
    if corr_high < 0:
        print("   ‚úì Corr√©lation n√©gative haute v√©g√©tation:")
        print("     ‚Üí Latitudes √©lev√©es (Arctique/subarctique) = moins de for√™ts")
        print("     ‚Üí Coh√©rent avec la g√©ographie (toundra au nord)")
    else:
        print("   ‚úì Pas de corr√©lation forte ou positive")
    
    print()
    print("üí° Utilit√© pour la biologie:")
    print("   - Comprendre les habitats pr√©f√©r√©s")
    print("   - Identifier les zones critiques pour la conservation")
    print("   - Pr√©voir l'impact du changement climatique sur les routes migratoires")
else:
    print("‚ö†Ô∏è Donn√©es de v√©g√©tation non disponibles")

## üéâ Fin du TP : R√©capitulatif

### Ce que nous avons appris :

‚úÖ **Concepts Time-Series** :
- Diff√©rence entre bases relationnelles, documents, et time-series
- Pourquoi InfluxDB pour le tracking GPS et les m√©triques

‚úÖ **Schema Design InfluxDB** :
- **Tags vs Fields** : la d√©cision la plus critique
- Impact de la cardinalit√© sur les performances
- Anti-patterns √† √©viter (tags constants, haute cardinalit√©)

‚úÖ **Langage Flux** :
- Requ√™tes basiques (`from`, `range`, `filter`)
- Agr√©gations (`count`, `mean`, `group`)
- Window functions pour downsampling
- Pivot pour restructurer les donn√©es

‚úÖ **Analyse Time-Series** :
- Requ√™tes pour trouver les extremes (min/max)
- D√©tection de patterns saisonniers avec agr√©gation temporelle
- Analyse comparative (√©t√© vs hiver)

‚úÖ **Optimisation & Gestion** :
- Retention policies pour la gestion du cycle de vie des donn√©es
- Compression et efficacit√© du stockage
- Impact du schema design sur les performances

‚úÖ **Visualisations (D√©monstration)** :
- Cartes interactives de migration
- Time-series plots
- Heatmaps de densit√©
- Analyse de corr√©lation

### InfluxDB vs MongoDB : Quand utiliser quoi ?

| Crit√®re | InfluxDB | MongoDB |
|---------|----------|---------|
| **Use case** | M√©triques, IoT, tracking temporel | Documents flexibles, applications web |
| **Structure** | Tags + Fields + Timestamp | JSON documents |
| **Queries temporelles** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Ultra-rapides | ‚≠ê‚≠ê‚≠ê Correct avec indexes |
| **Compression** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê 10-20x | ‚≠ê‚≠ê‚≠ê Moyenne |
| **Flexibilit√© sch√©ma** | ‚≠ê‚≠ê Tags/Fields fixes | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Total freedom |
| **Relations complexes** | ‚≠ê Pas adapt√© | ‚≠ê‚≠ê‚≠ê Avec $lookup |

**Choix pour notre projet :**
- ‚úÖ InfluxDB : donn√©es temporelles, tracking GPS, m√©triques environnementales
- ‚ùå MongoDB : aurait fonctionn√© mais moins efficace pour les requ√™tes temporelles

### Prochaines √©tapes sugg√©r√©es :

1. **Continuous Queries** : Pr√©-calculer des agr√©gations (downsampling automatique)
2. **Tasks** : Automatiser le traitement de donn√©es
3. **Alerting** : D√©tecter des patterns anormaux (oiseau hors zone attendue)
4. **Grafana** : Dashboards temps-r√©el pour monitoring
5. **Sharding & Replication** : Scalabilit√© horizontale pour tr√®s gros volumes

üîó **Ressources** :
- [Documentation InfluxDB](https://docs.influxdata.com/influxdb/v2.0/)
- [Flux Language Guide](https://docs.influxdata.com/flux/v0.x/)
- [InfluxDB University](https://university.influxdata.com/)