### Importation des librairies

In [1]:
import pandas as pd
import numpy as np
import re
from collections import defaultdict
from datetime import datetime

### Importation des deux tableaux INCIDENTS et MOBILISATION

In [2]:
inter = pd.read_csv("./comp/LFB_incidents_data_combined.csv", low_memory = False)

In [3]:
mob = pd.read_csv("./comp/LFB_mobilisations_data_combined.csv", low_memory = False)

#### SUPRESSION .00 à la fin des incidents number du tableau INCIDENTS

In [4]:
inter['IncidentNumber'] = inter['IncidentNumber'].apply(lambda x: str(x).rstrip('.00') if str(x).endswith('.00') else str(x))

#### TRANSFORMATION du type du numéro en int64 (réduction de l'espace mémoire occupé)

In [6]:
def keep_only_digits(value):
    return re.sub(r'\D', '', str(value))

inter['IncidentNumber'] = inter['IncidentNumber'].apply(keep_only_digits)
mob['IncidentNumber'] = mob['IncidentNumber'].apply(keep_only_digits)

inter['IncidentNumber'] = inter['IncidentNumber'].astype('int64')
mob['IncidentNumber'] = mob['IncidentNumber'].astype('int64')


#### SUPPRESSION des valeurs non communes aux deux tableaux (sur la base du incident number)

In [7]:
# Affichages des valeurs communes
col1 = inter['IncidentNumber']
col2 = mob['IncidentNumber']
set1 = set(col1)
set2 = set(col2)

common_values = set1.intersection(set2)
num_common_values = len(common_values)

unique_values = set1.symmetric_difference(set2)

unique_to_df1 = set1 - set2
unique_to_df2 = set2 - set1

print("AVANT TRAITEMENT")
print(f"Nombre de valeurs communes: {num_common_values}")
print(f"Nombre de valeurs non communes: {len(unique_values)}")
print(f"Nombre de valeurs uniques à inter: {len(unique_to_df1)}")
print(f"Nombre de valeurs uniques à mob: {len(unique_to_df2)}")

# Suppression des valeurs communes
inter = inter[inter['IncidentNumber'].isin(common_values)]
mob = mob[mob['IncidentNumber'].isin(common_values)]

col1 = inter['IncidentNumber']
col2 = mob['IncidentNumber']
set1 = set(col1)
set2 = set(col2)

common_values = set1.intersection(set2)
num_common_values = len(common_values)

unique_values = set1.symmetric_difference(set2)

# Affichages des valeurs communes
unique_to_df1 = set1 - set2
unique_to_df2 = set2 - set1
print("APRES TRAITEMENT")
print(f"Nombre de valeurs communes: {num_common_values}")
print(f"Nombre de valeurs non communes: {len(unique_values)}")
print(f"Nombre de valeurs uniques à inter: {len(unique_to_df1)}")
print(f"Nombre de valeurs uniques à mob: {len(unique_to_df2)}")

AVANT TRAITEMENT
Nombre de valeurs communes: 1569258
Nombre de valeurs non communes: 138822
Nombre de valeurs uniques à inter: 132389
Nombre de valeurs uniques à mob: 6433
APRES TRAITEMENT
Nombre de valeurs communes: 1569258
Nombre de valeurs non communes: 0
Nombre de valeurs uniques à inter: 0
Nombre de valeurs uniques à mob: 0


### FUSION des 2 TABLEAUX

In [8]:
merged_df = pd.merge(mob, inter, on='IncidentNumber', how='inner')

#### SUPPRESSION DES DOUBLONS IMMEDIATS

In [9]:
# On vérifie que les colonnes présentes dans les deux tableaux sont bien des doublons
dif1 = merged_df['CalYear_y']-merged_df['CalYear_x']
dif2 = merged_df['HourOfCall_y']-merged_df['HourOfCall_x']

In [10]:
# On peut supprimer les colonnes doublons
merged_df = merged_df.drop(labels = ['CalYear_x','HourOfCall_x'], axis = 1)
merged_df = merged_df.rename(columns = {'CalYear_y':'CalYear','HourOfCall_y':'HourOfCall'})

### EXPORT du tableau Master

In [11]:
# Export du nouveau tableau sous format csv
merged_df.to_csv('./merged/heavy_data_merged.csv', index=False)