<span style="color:#1976d2; font-size:2.2em; font-weight:bold;">üî• Projet London Fire Response</span>

<span style="color:#42a5f5; font-size:2em; font-weight:bold;">Exploration des donn√©es</span>

Ce notebook a pour but de charger, assembler et analyser rapidement les donn√©es brutes provenant de deux sources :

-les incidents signal√©s 

-les mobilisations des pompiers

<span style="color:#e91e63; font-size:1em; font-weight:bold;">1. Import des biblioth√®ques Python</span>

In [1]:
import os                # Pour manipuler les chemins de fichiers
import pandas as pd      # Pour charger et analyser les donn√©es
import glob              # Pour lister automatiquement tous les fichiers d‚Äôun dossier
import matplotlib.pyplot as plt  # Visualisation
import seaborn as sns             # Visualisation statistique

In [2]:
# Pour afficher toutes les colonnes et tout explorer !
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

  <span style="color:#e91e63; font-size:1em; font-weight:bold;">2. D√©finition les chemins propres</span>

In [3]:
# Revenir au dossier parent
base_path = os.path.abspath(os.path.join(os.getcwd(), ".."))

# Dossiers contenant les fichiers incidents et mobilisations
incidents_path = os.path.join(base_path, "data", "raw", "incidents")
mobilisations_path = os.path.join(base_path, "data", "raw", "mobilisations")

print("üìÅ Chemin incidents :", incidents_path)
print("üìÅ Chemin mobilisations :", mobilisations_path)

üìÅ Chemin incidents : c:\Users\9609241C\london-fire-response\data\raw\incidents
üìÅ Chemin mobilisations : c:\Users\9609241C\london-fire-response\data\raw\mobilisations


<span style="color:#e91e63; font-size:1em; font-weight:bold;">3. Charger tous les fichiers incidents (.csv)  </span>

In [4]:
incident_files = glob.glob(os.path.join(incidents_path, "*.csv"))

# On charge tous les fichiers et on les regroupe
incidents = pd.concat([pd.read_csv(f) for f in incident_files], ignore_index=True)

# Aper√ßu rapide
print("‚úÖ Donn√©es incidents charg√©es !")
print(incidents.head())
print("üìä Nombre de lignes :", len(incidents))
print("üìä Nombre de colonnes :", len(incidents.columns))
print("üìä Colonnes :", incidents.columns.tolist())
print("üìä Types de donn√©es :", incidents.dtypes)

  incidents = pd.concat([pd.read_csv(f) for f in incident_files], ignore_index=True)


‚úÖ Donn√©es incidents charg√©es !
  IncidentNumber DateOfCall  CalYear TimeOfCall  HourOfCall    IncidentGroup  \
0    235138081.0  01-Jan-09     2009   00:00:37           0  Special Service   
1         1091.0  01-Jan-09     2009   00:00:46           0  Special Service   
2         2091.0  01-Jan-09     2009   00:03:00           0             Fire   
3         3091.0  01-Jan-09     2009   00:04:27           0             Fire   
4         5091.0  01-Jan-09     2009   00:05:39           0             Fire   

  StopCodeDescription     SpecialServiceType PropertyCategory  \
0     Special Service                    RTC     Road Vehicle   
1     Special Service  Assist other agencies          Outdoor   
2      Secondary Fire                    NaN          Outdoor   
3      Secondary Fire                    NaN          Outdoor   
4      Secondary Fire                    NaN          Outdoor   

                                  PropertyType  \
0                                         C

> ## üìä Observations de l'importation et exploration initiale des donn√©es `incidents`
* Les donn√©es ont bien √©t√© charg√©es (environ 1,8 million de lignes, 39 colonnes).
* Avertissement sur `IncidentNumber` : m√©lange de types (probablement des entiers et des cha√Ænes).
* Beaucoup de colonnes sont de type texte (`object`), avec aussi des num√©riques (`int64`, `float64`), notamment pour les co√ªts, le nombre de pompes, les temps d‚Äôintervention, etc.
* Il y a plusieurs colonnes temporelles redondantes (`DateOfCall`, `TimeOfCall`, `HourOfCall`, `CalYear`) ‚Üí √† combiner.
* Les colonnes li√©es √† la localisation sont riches : code postal, latitude/longitude, boroughs, wards‚Ä¶
* On observe des valeurs manquantes dans certaines colonnes (`UPRN`, `USRN`, `SecondPump...`).
* Quelques colonnes semblent redondantes ou doubl√©es (`IncGeo_WardName` vs `IncGeo_WardNameNew`, `FRS` vs `ProperCase`).
* Il faudra convertir les dates en datetime, harmoniser les types, et potentiellement nettoyer les colonnes peu remplies ou inutiles.

<span style="color:#e91e63; font-size:1em; font-weight:bold;">4. Charger tous les fichiers mobilisations (.csv ou .xlsx) </span>

In [7]:
# Fichiers .csv et .xlsx
mobilisation_csv = glob.glob(os.path.join(mobilisations_path, "*.csv"))
mobilisation_xlsx = glob.glob(os.path.join(mobilisations_path, "*.xlsx"))

# Charger tout et regrouper
mobilisations = pd.concat(
    [pd.read_csv(f) for f in mobilisation_csv] + 
    [pd.read_excel(f) for f in mobilisation_xlsx],
    ignore_index=True
)

print("‚úÖ Donn√©es mobilisations charg√©es !")
print(mobilisations.head())

  mobilisations = pd.concat(


‚úÖ Donn√©es mobilisations charg√©es !
    IncidentNumber  CalYear           BoroughName      WardName  HourOfCall  \
0  000004-01012021     2021              HARINGEY  Muswell Hill           0   
1  000005-01012021     2021             REDBRIDGE      MONKHAMS           0   
2  000006-01012021     2021  BARKING AND DAGENHAM       Village           0   
3  000007-01012021     2021            WANDSWORTH     West Hill           0   
4  000007-01012021     2021            WANDSWORTH     West Hill           0   

   ResourceMobilisationId Resource_Code PerformanceReporting  \
0                 5769249          A321                    1   
1                 5769250          F351                    1   
2                 5769251          F412                    1   
3                 5769252          H331                    1   
4                 5769253          G351                    2   

  DateAndTimeMobilised DateAndTimeMobile DateAndTimeArrived  \
0     01/01/2021 00:06  01/01/2021 00:

In [8]:
#suite exploration mobilisations
print("üìä Nombre de lignes :", len(mobilisations))
print("üìä Nombre de colonnes :", len(mobilisations.columns))
print("üìä Colonnes :", mobilisations.columns.tolist())
print("üìä Types de donn√©es :", mobilisations.dtypes)

üìä Nombre de lignes : 2561435
üìä Nombre de colonnes : 24
üìä Colonnes : ['IncidentNumber', 'CalYear', 'BoroughName', 'WardName', 'HourOfCall', 'ResourceMobilisationId', 'Resource_Code', 'PerformanceReporting', 'DateAndTimeMobilised', 'DateAndTimeMobile', 'DateAndTimeArrived', 'TurnoutTimeSeconds', 'TravelTimeSeconds', 'AttendanceTimeSeconds', 'DateAndTimeLeft', 'DateAndTimeReturned', 'DeployedFromStation_Code', 'DeployedFromStation_Name', 'DeployedFromLocation', 'PumpOrder', 'PlusCode_Code', 'PlusCode_Description', 'DelayCodeId', 'DelayCode_Description']
üìä Types de donn√©es : IncidentNumber                      object
CalYear                              int64
BoroughName                         object
WardName                            object
HourOfCall                           int64
ResourceMobilisationId               int64
Resource_Code                       object
PerformanceReporting                object
DateAndTimeMobilised                object
DateAndTimeMobile     

> ## üìä Observations de l'importation et exploration initiale des donn√©es `mobilisations`
- d'apres le warning du chargement avec pd : pr√©sence de colonnes vides ou tr√®s mal renseign√©es dans certains fichiers du dataset.
-`DelayCode_Description` contient beaucoup de valeurs manquantes
- Faudra faire attention √† la conversion des `IncidentNumber` notamment pr le join entre les 2 datasets !
- Les 4 colonnes temporelles 'DateAndTimeMobilised','DateAndTimeMobile' ,'DateAndTimeArrived' ,'DateAndTimeLeft': ont un format coh√©rent n√©cessitent un to_datetime().

IncidentNumber : etant  l'identifiant de l'incident
PumpOrder : ordre d‚Äôarriv√©e de l‚Äôengin 
ApplianceIdentifier / ApplianceCallSign : identifiants du v√©hicule
==> Plusieurs mobilisations sont donc li√©es √† un m√™me incident, ce qui cr√©era des doublons d‚Äôincidents mais lignes uniques de mobilisation.

Pour ce qui des donn√©es de Localisation :
BoroughCode / BoroughName, DeployedFromStation_Code / DeployedFromStation_Name, StationGround
==> Les donn√©es  semblentmajoritairement compl√®tes sur la g√©ographie, avec des noms lisibles. Peu de valeurs nulles.