# √âtape 1 : Exploration des Donn√©es (EDA)

## Objectif
Comprendre la structure et la qualit√© des donn√©es disponibles pour construire notre mod√®le pr√©dictif.

## Datasets √† explorer
1. **counting_data_april_2022.csv** : Donn√©es de comptage v√©lo
2. **temperature_converted.csv** : Donn√©es de temp√©rature
3. **eau_converted.csv** : Donn√©es de pluviom√©trie

---

## 1.1 Import des biblioth√®ques

**Pourquoi ces biblioth√®ques ?**
- `pandas` : Manipulation de donn√©es tabulaires (DataFrames)
- `numpy` : Calculs num√©riques et statistiques
- `matplotlib` et `seaborn` : Visualisations graphiques

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime

# Configuration pour de meilleurs graphiques
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
plt.rcParams['figure.figsize'] = (12, 6)

print("Biblioth√®ques import√©es avec succ√®s!")

  from scipy.stats import gaussian_kde


Biblioth√®ques import√©es avec succ√®s!


---
## 1.2 Chargement des Donn√©es V√©lo

**Ce qu'on va faire :**
1. Charger le fichier CSV des comptages v√©lo
2. Afficher les premi√®res lignes pour voir la structure
3. Obtenir des infos sur les colonnes (types, valeurs manquantes)
4. Statistiques descriptives

In [4]:
# Chargement du fichier avec s√©parateur ;
df_velo = pd.read_csv('../CSVs/counting_data_april_2022.csv', sep=';')

print("Dataset v√©lo charg√©!")
print(f"Dimensions : {df_velo.shape[0]} lignes x {df_velo.shape[1]} colonnes")
print("\n" + "="*80)
print("Aper√ßu des 5 premi√®res lignes :")
df_velo.head()

Dataset v√©lo charg√©!
Dimensions : 262872 lignes x 5 colonnes

Aper√ßu des 5 premi√®res lignes :


Unnamed: 0,channel_id,count,counter_id,end_datetime,start_datetime
0,102017788,0,X2H14116817,2022-04-07 02:00:00+02:00,2022-04-07 01:00:00+02:00
1,102017788,0,X2H14116817,2022-04-07 01:00:00+02:00,2022-04-07 00:00:00+02:00
2,102017788,0,X2H14116817,2022-04-07 00:00:00+02:00,2022-04-06 23:00:00+02:00
3,102017788,0,X2H14116817,2022-04-06 23:00:00+02:00,2022-04-06 22:00:00+02:00
4,102017788,0,X2H14116817,2022-04-06 22:00:00+02:00,2022-04-06 21:00:00+02:00


In [5]:
# Informations sur les colonnes
print("Informations sur les colonnes :")
print("="*80)
df_velo.info()

Informations sur les colonnes :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 262872 entries, 0 to 262871
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   channel_id      262872 non-null  int64 
 1   count           262872 non-null  int64 
 2   counter_id      164736 non-null  object
 3   end_datetime    262872 non-null  object
 4   start_datetime  262872 non-null  object
dtypes: int64(2), object(3)
memory usage: 10.0+ MB


In [6]:
# V√©rification des colonnes disponibles
print("Colonnes disponibles dans le dataset v√©lo :")
print("="*80)
for i, col in enumerate(df_velo.columns, 1):
    print(f"{i}. {col}")

Colonnes disponibles dans le dataset v√©lo :
1. channel_id
2. count
3. counter_id
4. end_datetime
5. start_datetime


**üí° Question importante :** Quelle colonne contient le nombre de v√©los ? Quelle colonne contient la date/heure ?

In [7]:
# Statistiques descriptives pour les colonnes num√©riques
print("Statistiques descriptives :")
print("="*80)
df_velo.describe()

Statistiques descriptives :


Unnamed: 0,channel_id,count
count,262872.0,262872.0
mean,178297900.0,26.669478
std,115641300.0,52.821758
min,100029800.0,0.0
25%,101053600.0,1.0
50%,102048700.0,8.0
75%,353244500.0,28.0
max,353309100.0,1008.0


---
## 1.3 Chargement des Donn√©es Temp√©rature

**Ce qu'on va faire :**
- M√™me processus que pour les donn√©es v√©lo
- Identifier la colonne de temp√©rature et la colonne temporelle

In [22]:
# Chargement des donn√©es de temp√©rature
df_temp = pd.read_csv('../CSVs/temperature_converted.csv', sep=';')

print("Dataset temp√©rature charg√©!")
print(f"Dimensions : {df_temp.shape[0]} lignes x {df_temp.shape[1]} colonnes")
print("\n" + "="*80)
print("Aper√ßu des 5 premi√®res lignes :")
df_temp.head()

Dataset temp√©rature charg√©!
Dimensions : 26618 lignes x 3 colonnes

Aper√ßu des 5 premi√®res lignes :


Unnamed: 0,deveui,horodate,degre_celsius
0,70b3d580a0100605,2022-04-29 23:59:00+02:00,1475
1,70b3d580a0100647,2022-04-29 23:58:00+02:00,14
2,70b3d580a0100648,2022-04-29 23:56:00+02:00,13625
3,70b3d580a0100623,2022-04-29 23:52:00+02:00,135625
4,70b3d580a0100654,2022-04-29 23:51:00+02:00,1525


In [23]:
# Informations sur les colonnes
print("üìã Informations sur les colonnes temp√©rature :")
print("="*80)
df_temp.info()

üìã Informations sur les colonnes temp√©rature :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26618 entries, 0 to 26617
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   deveui         26618 non-null  object
 1   horodate       26618 non-null  object
 2   degre_celsius  26618 non-null  object
dtypes: object(3)
memory usage: 624.0+ KB


In [12]:
# Statistiques descriptives
print("üìà Statistiques temp√©rature :")
print("="*80)
df_temp.describe()

üìà Statistiques temp√©rature :


Unnamed: 0,deveui,horodate,degre_celsius
count,26618,26618,26618
unique,17,21854,400
top,70b3d580a0100550,2022-04-10 04:34:00+02:00,12875
freq,2251,5,185


---
## 1.4 Chargement des Donn√©es Pluviom√©trie (Eau)

**Ce qu'on va faire :**
- Charger les donn√©es de pluie
- Identifier les colonnes pertinentes

In [14]:
# Chargement des donn√©es de pluviom√©trie
df_pluie = pd.read_csv('../CSVs/eau_converted.csv', sep=';')

print("Dataset pluviom√©trie charg√©!")
print(f"Dimensions : {df_pluie.shape[0]} lignes x {df_pluie.shape[1]} colonnes")
print("\n" + "="*80)
print("Aper√ßu des 5 premi√®res lignes :")
df_pluie.head()

Dataset pluviom√©trie charg√©!
Dimensions : 5866 lignes x 3 colonnes

Aper√ßu des 5 premi√®res lignes :


Unnamed: 0,identifiant,horodate,pluie_mm
0,1,2022-04-29 19:42:00+02:00,1
1,1,2022-04-29 19:36:00+02:00,1
2,1,2022-04-26 00:24:00+02:00,1
3,1,2022-04-26 00:12:00+02:00,1
4,1,2022-04-26 00:06:00+02:00,1


In [24]:
# Informations sur les colonnes
print("Informations sur les colonnes pluviom√©trie :")
print("="*80)
df_pluie.info()

Informations sur les colonnes pluviom√©trie :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5866 entries, 0 to 5865
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   identifiant  5866 non-null   int64 
 1   horodate     5866 non-null   object
 2   pluie_mm     5866 non-null   object
dtypes: int64(1), object(2)
memory usage: 137.6+ KB


In [25]:
# Statistiques descriptives
print("satistiques pluviom√©trie :")
print("="*80)
df_pluie.describe()

satistiques pluviom√©trie :


Unnamed: 0,identifiant
count,5866.0
mean,16.998295
std,10.111113
min,1.0
25%,8.0
50%,16.0
75%,26.0
max,37.0


---
## 1.5 Analyse de la Qualit√© des Donn√©es

**Objectif :** D√©tecter les probl√®mes potentiels avant de fusionner les donn√©es

### 1.5.1 Valeurs Manquantes (NaN)

In [26]:
# Fonction pour analyser les valeurs manquantes
def analyse_valeurs_manquantes(df, nom_dataset):
    print(f"\n{'='*80}")
    print(f"Valeurs manquantes - {nom_dataset}")
    print(f"{'='*80}")
    
    missing = df.isnull().sum()
    missing_pct = (missing / len(df)) * 100
    
    missing_df = pd.DataFrame({
        'Colonnes': missing.index,
        'Nb_Manquantes': missing.values,
        'Pourcentage': missing_pct.values
    })
    
    # Filtrer uniquement les colonnes avec des valeurs manquantes
    missing_df = missing_df[missing_df['Nb_Manquantes'] > 0].sort_values('Nb_Manquantes', ascending=False)
    
    if len(missing_df) == 0:
        print("Aucune valeur manquante d√©tect√©e!")
    else:
        print(missing_df.to_string(index=False))
    
    return missing_df

# Analyser chaque dataset
missing_velo = analyse_valeurs_manquantes(df_velo, "Donn√©es V√©lo")
missing_temp = analyse_valeurs_manquantes(df_temp, "Donn√©es Temp√©rature")
missing_pluie = analyse_valeurs_manquantes(df_pluie, "Donn√©es Pluviom√©trie")


Valeurs manquantes - Donn√©es V√©lo
  Colonnes  Nb_Manquantes  Pourcentage
counter_id          98136    37.332238

Valeurs manquantes - Donn√©es Temp√©rature
Aucune valeur manquante d√©tect√©e!

Valeurs manquantes - Donn√©es Pluviom√©trie
Aucune valeur manquante d√©tect√©e!


### 1.5.2 V√©rification des Formats de Dates

**Pourquoi c'est important ?**
Pour fusionner les 3 datasets, on doit avoir des dates dans le m√™me format (datetime).

In [28]:
# On va chercher les colonnes qui ressemblent √† des dates
print("Recherche des colonnes de type date/time...\n")

print("Dataset V√âLO :")
print(f"Colonnes potentielles : {[col for col in df_velo.columns if 'date' in col.lower() or 'time' in col.lower()]}")

print("\nDataset TEMP√âRATURE :")
print(f"Colonnes potentielles : {[col for col in df_temp.columns if 'date' in col.lower() or 'time' in col.lower()]}")

print("\nDataset PLUIE :")
print(f"Colonnes potentielles : {[col for col in df_pluie.columns if 'date' in col.lower() or 'time' in col.lower()]}")

Recherche des colonnes de type date/time...

Dataset V√âLO :
Colonnes potentielles : ['end_datetime', 'start_datetime']

Dataset TEMP√âRATURE :
Colonnes potentielles : ['horodate']

Dataset PLUIE :
Colonnes potentielles : ['horodate']


---
## 1.6 Visualisations Exploratoires Initiales

**Objectif :** Comprendre visuellement les distributions et patterns

### 1.6.1 Distribution des Temp√©ratures

In [None]:
# Cette cellule sera adapt√©e une fois qu'on conna√Ætra les noms de colonnes exacts
# Pour l'instant, on va juste afficher la structure

print("√Ä COMPL√âTER : Identifier la colonne de temp√©rature puis cr√©er un histogramme")
print("\nExemple de code √† utiliser :")
print("""
plt.figure(figsize=(10, 5))
plt.hist(df_temp['nom_colonne_temperature'], bins=30, edgecolor='black')
plt.xlabel('Temp√©rature (¬∞C)')
plt.ylabel('Fr√©quence')
plt.title('Distribution des Temp√©ratures - Avril 2022')
plt.grid(True, alpha=0.3)
plt.show()
""")

√Ä COMPL√âTER : Identifier la colonne de temp√©rature puis cr√©er un histogramme

Exemple de code √† utiliser :

plt.figure(figsize=(10, 5))
plt.hist(df_temp['nom_colonne_temperature'], bins=30, edgecolor='black')
plt.xlabel('Temp√©rature (¬∞C)')
plt.ylabel('Fr√©quence')
plt.title('Distribution des Temp√©ratures - Avril 2022')
plt.grid(True, alpha=0.3)
plt.show()



### 1.6.2 Distribution des Pr√©cipitations

In [30]:
print("√Ä COMPL√âTER : Identifier la colonne de pr√©cipitations puis cr√©er un histogramme")
print("\nExemple de code √† utiliser :")
print("""
plt.figure(figsize=(10, 5))
plt.hist(df_pluie['nom_colonne_precipitation'], bins=30, edgecolor='black')
plt.xlabel('Pr√©cipitations (mm)')
plt.ylabel('Fr√©quence')
plt.title('Distribution des Pr√©cipitations - Avril 2022')
plt.grid(True, alpha=0.3)
plt.show()
""")

√Ä COMPL√âTER : Identifier la colonne de pr√©cipitations puis cr√©er un histogramme

Exemple de code √† utiliser :

plt.figure(figsize=(10, 5))
plt.hist(df_pluie['nom_colonne_precipitation'], bins=30, edgecolor='black')
plt.xlabel('Pr√©cipitations (mm)')
plt.ylabel('Fr√©quence')
plt.title('Distribution des Pr√©cipitations - Avril 2022')
plt.grid(True, alpha=0.3)
plt.show()



---
## 1.7 R√©sum√© de l'Exploration

**√Ä compl√©ter apr√®s avoir ex√©cut√© toutes les cellules :**

### Findings
1. **Donn√©es V√©lo :**
   - Nombre de lignes : ?
   - Colonne de comptage : ?
   - Colonne temporelle : ?
   - Valeurs manquantes : ?

2. **Donn√©es Temp√©rature :**
   - Nombre de lignes : ?
   - Colonne temp√©rature : ?
   - Colonne temporelle : ?
   - Plage de temp√©rature : ? √† ? ¬∞C

3. **Donn√©es Pluviom√©trie :**
   - Nombre de lignes : ?
   - Colonne pr√©cipitation : ?
   - Colonne temporelle : ?
   - Jours de pluie : ?

### Prochaines √âtapes
- [ ] Convertir les colonnes temporelles en datetime
- [ ] Harmoniser les timestamps (m√™me granularit√©)
- [ ] Fusionner les 3 datasets
- [ ] G√©rer les valeurs manquantes

---
**‚úÖ √âtape 1 termin√©e ! Passer √† l'√©tape 2 : Fusion des donn√©es**