In [1]:
import pandas as pd
from pathlib import Path
import re

In [2]:
DATA_DIR = Path("./../data")
RAW_FILE = DATA_DIR / "raw/Sales_of_real_estate_N_per_quarter_per_municipality_2010_2025.xlsx"
PROCESSED_FILE = DATA_DIR / "processed/Sales_of_real_estate_N_per_quarter_per_municipality_2010_2025_processed.xlsx"

In [3]:
xls = pd.ExcelFile(RAW_FILE)
xls.sheet_names[:10]

['Par commune']

In [4]:
# Load with two header rows
df_raw = pd.read_excel(RAW_FILE, sheet_name="Par commune", header=[0, 1, 2])

# Combine the multi-index columns into one string
df_raw.columns = [
    "_".join([str(c) for c in col if str(c) != "nan"]).strip().lower().replace(" ", "_")
    for col in df_raw.columns.values
]

display(df_raw.columns)
df_raw.head()

Index(['catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_0_level_1_refnis',
       'catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_1_level_1_localité',
       'catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_2_level_1_année',
       'catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_3_level_1_période',
       'catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_4_level_1_période',
       'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions',
       'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)',
       'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)',
       'ventes_de_biens_immobiliers_toutes_les_

Unnamed: 0,catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_0_level_1_refnis,catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_1_level_1_localité,catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_2_level_1_année,catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_3_level_1_période,catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_4_level_1_période,"ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€).1",...,ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€),ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€).1,ventes_de_biens_immobiliers_appartements_nombre_transactions,ventes_de_biens_immobiliers_appartements_prix_médian(€),ventes_de_biens_immobiliers_appartements_prix_premier_quartile(€),ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€),ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).1,ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).2,ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).3,ventes_de_biens_immobiliers_appartements_0
0,11001,AARTSELAAR,2010,Q1,,29.0,252000.0,225000.0,290000.0,,...,,,9.0,,,,,,,1
1,11001,AARTSELAAR,2010,Q2,,25.0,254000.0,212000.0,289000.0,,...,,,11.0,,,,,,,1
2,11001,AARTSELAAR,2010,Q3,,21.0,255000.0,235000.0,285000.0,,...,,,9.0,,,,,,,1
3,11001,AARTSELAAR,2010,Q4,,28.0,245000.0,210000.0,312500.0,,...,,,13.0,,,,,,,1
4,11001,AARTSELAAR,2011,Q1,,23.0,310000.0,220000.0,370000.0,,...,,,10.0,,,,,,,1


In [5]:
df = df_raw.copy()

# Clean key columns

In [6]:
rename_map = {
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_0_level_1_refnis": "refnis",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_1_level_1_localité": "localite",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_2_level_1_année": "annee",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_3_level_1_période": "periode",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_4_level_1_période": "periode_dup",
}
df = df.rename(columns=rename_map)

# Drop the duplicate periode if present
if "periode_dup" in df.columns:
    df = df.drop(columns=["periode_dup"])

df.head()

Unnamed: 0,refnis,localite,annee,periode,"ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€).1",ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_nombre_transactions,...,ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€),ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€).1,ventes_de_biens_immobiliers_appartements_nombre_transactions,ventes_de_biens_immobiliers_appartements_prix_médian(€),ventes_de_biens_immobiliers_appartements_prix_premier_quartile(€),ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€),ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).1,ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).2,ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).3,ventes_de_biens_immobiliers_appartements_0
0,11001,AARTSELAAR,2010,Q1,29.0,252000.0,225000.0,290000.0,,25.0,...,,,9.0,,,,,,,1
1,11001,AARTSELAAR,2010,Q2,25.0,254000.0,212000.0,289000.0,,20.0,...,,,11.0,,,,,,,1
2,11001,AARTSELAAR,2010,Q3,21.0,255000.0,235000.0,285000.0,,18.0,...,,,9.0,,,,,,,1
3,11001,AARTSELAAR,2010,Q4,28.0,245000.0,210000.0,312500.0,,21.0,...,,,13.0,,,,,,,1
4,11001,AARTSELAAR,2011,Q1,23.0,310000.0,220000.0,370000.0,,18.0,...,,,10.0,,,,,,,1


In [7]:
df.describe()

Unnamed: 0,refnis,annee,"ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€).1",ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_nombre_transactions,ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_médian(€),ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_premier_quartile(€),...,ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€),ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€).1,ventes_de_biens_immobiliers_appartements_nombre_transactions,ventes_de_biens_immobiliers_appartements_prix_médian(€),ventes_de_biens_immobiliers_appartements_prix_premier_quartile(€),ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€),ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).1,ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).2,ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).3,ventes_de_biens_immobiliers_appartements_0
count,35030.0,35030.0,34946.0,23877.0,23877.0,23877.0,0.0,34447.0,15163.0,15163.0,...,8588.0,0.0,26058.0,5697.0,5697.0,5697.0,0.0,0.0,0.0,35030.0
mean,47214.663717,2017.258065,38.943313,247120.6,187969.107677,323259.5,,26.895027,223692.122601,174515.540262,...,435584.9,,21.790276,198068.62963,155117.849394,252891.906793,,,,283.0
std,24353.183803,4.479175,57.183636,98709.56,78875.542697,138333.6,,52.469113,92222.957181,76187.911934,...,225483.5,,74.463274,55217.463768,43348.814303,78546.195403,,,,163.103524
min,11001.0,2010.0,1.0,35000.0,14500.0,67000.0,,1.0,36250.0,31750.0,...,64250.0,,1.0,35000.0,18000.0,53000.0,,,,1.0
25%,24104.0,2013.0,14.0,180000.0,135000.0,237000.0,,6.0,162500.0,122500.0,...,312000.0,,2.0,160000.0,125000.0,200000.0,,,,142.0
50%,45062.0,2017.0,25.0,230000.0,175000.0,299000.0,,14.0,206000.0,161500.0,...,394000.0,,5.0,190000.0,150000.0,242000.0,,,,283.0
75%,63075.0,2021.0,45.0,294000.0,230000.0,377000.0,,29.0,265000.0,210000.0,...,497500.0,,14.0,228750.0,180000.0,286250.0,,,,424.0
max,93090.0,2025.0,1260.0,1200000.0,750000.0,2275000.0,,1219.0,950000.0,750000.0,...,3931500.0,,2103.0,600000.0,400000.0,930500.0,,,,565.0


In [8]:
rename_map = {
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_0_level_1_refnis": "refnis",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_1_level_1_localité": "localite",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_2_level_1_année": "annee",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_3_level_1_période": "periode",
    "catégories_immobilières_basées_sur_la_nature_spécifiée_dans_l'acte_de_vente_unnamed:_4_level_1_période": "periode_dup",
}
df = df.rename(columns=rename_map)

# Drop the duplicate periode if present
if "periode_dup" in df.columns:
    df = df.drop(columns=["periode_dup"])

df.drop(columns=[
    'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€).1',
    'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_troisième_quartile(€).1',
    'ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€).1',
    'ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).1',
    'ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).2',
    'ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€).3',
], inplace=True)

df.head()

Unnamed: 0,refnis,localite,annee,periode,"ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)","ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)",ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_nombre_transactions,ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_médian(€),...,ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_troisième_quartile(€),ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_nombre_transactions,ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_médian(€),ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_premier_quartile(€),ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€),ventes_de_biens_immobiliers_appartements_nombre_transactions,ventes_de_biens_immobiliers_appartements_prix_médian(€),ventes_de_biens_immobiliers_appartements_prix_premier_quartile(€),ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€),ventes_de_biens_immobiliers_appartements_0
0,11001,AARTSELAAR,2010,Q1,29.0,252000.0,225000.0,290000.0,25.0,247000.0,...,265000.0,4.0,,,,9.0,,,,1
1,11001,AARTSELAAR,2010,Q2,25.0,254000.0,212000.0,289000.0,20.0,251250.0,...,275000.0,5.0,,,,11.0,,,,1
2,11001,AARTSELAAR,2010,Q3,21.0,255000.0,235000.0,285000.0,18.0,250000.0,...,275000.0,3.0,,,,9.0,,,,1
3,11001,AARTSELAAR,2010,Q4,28.0,245000.0,210000.0,312500.0,21.0,245000.0,...,280000.0,7.0,,,,13.0,,,,1
4,11001,AARTSELAAR,2011,Q1,23.0,310000.0,220000.0,370000.0,18.0,280000.0,...,360000.0,5.0,,,,10.0,,,,1


# Melt to long format

In [9]:
df.columns

Index(['refnis', 'localite', 'annee', 'periode',
       'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions',
       'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)',
       'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)',
       'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)',
       'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_nombre_transactions',
       'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_médian(€)',
       'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_premier_quartile(€)',
       'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fer

In [10]:
def melting(df, id_vars, value_vars):
    tmp_df = df[id_vars+value_vars].copy()
    tmp_df.head()
    
    df_long = df.melt(id_vars=id_vars, value_vars=value_vars,
                      var_name="variable", value_name="value")

    return df_long

In [11]:
id_vars = ["refnis", "localite", "annee", "periode", "ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions"]
value_vars = [
    'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)',
    'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)',
    'ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)',
]

df_long_1 = melting(df, id_vars, value_vars)

df_long_1.rename(columns={"ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_nombre_transactions": "nombre_transactions"}, inplace=True)

df_long_1.head()

Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value
0,11001,AARTSELAAR,2010,Q1,29.0,ventes_de_biens_immobiliers_toutes_les_maisons...,252000.0
1,11001,AARTSELAAR,2010,Q2,25.0,ventes_de_biens_immobiliers_toutes_les_maisons...,254000.0
2,11001,AARTSELAAR,2010,Q3,21.0,ventes_de_biens_immobiliers_toutes_les_maisons...,255000.0
3,11001,AARTSELAAR,2010,Q4,28.0,ventes_de_biens_immobiliers_toutes_les_maisons...,245000.0
4,11001,AARTSELAAR,2011,Q1,23.0,ventes_de_biens_immobiliers_toutes_les_maisons...,310000.0


In [12]:
id_vars = ["refnis", "localite", "annee", "periode", "ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_nombre_transactions"]
value_vars = [
    'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_médian(€)',
    'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_premier_quartile(€)',
    'ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_troisième_quartile(€)',
]

df_long_2 = melting(df, id_vars, value_vars)

df_long_2.rename(columns={"ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_nombre_transactions": "nombre_transactions"}, inplace=True)

df_long_2.head()

Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value
0,11001,AARTSELAAR,2010,Q1,25.0,ventes_de_biens_immobiliers_maisons_avec_2_ou_...,247000.0
1,11001,AARTSELAAR,2010,Q2,20.0,ventes_de_biens_immobiliers_maisons_avec_2_ou_...,251250.0
2,11001,AARTSELAAR,2010,Q3,18.0,ventes_de_biens_immobiliers_maisons_avec_2_ou_...,250000.0
3,11001,AARTSELAAR,2010,Q4,21.0,ventes_de_biens_immobiliers_maisons_avec_2_ou_...,245000.0
4,11001,AARTSELAAR,2011,Q1,18.0,ventes_de_biens_immobiliers_maisons_avec_2_ou_...,280000.0


In [13]:
id_vars = ["refnis", "localite", "annee", "periode", "ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_nombre_transactions"]
value_vars = [
    'ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_médian(€)',
    'ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_premier_quartile(€)',
    'ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€)',
]

df_long_3 = melting(df, id_vars, value_vars)

df_long_3.rename(columns={"ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_nombre_transactions": "nombre_transactions"}, inplace=True)

display(df_long_3.head())
df_long_3.describe()

Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value
0,11001,AARTSELAAR,2010,Q1,4.0,ventes_de_biens_immobiliers_maisons_avec_4_ou_...,
1,11001,AARTSELAAR,2010,Q2,5.0,ventes_de_biens_immobiliers_maisons_avec_4_ou_...,
2,11001,AARTSELAAR,2010,Q3,3.0,ventes_de_biens_immobiliers_maisons_avec_4_ou_...,
3,11001,AARTSELAAR,2010,Q4,7.0,ventes_de_biens_immobiliers_maisons_avec_4_ou_...,
4,11001,AARTSELAAR,2011,Q1,5.0,ventes_de_biens_immobiliers_maisons_avec_4_ou_...,


Unnamed: 0,refnis,annee,nombre_transactions,value
count,105090.0,105090.0,101325.0,25764.0
mean,47214.663717,2017.258065,12.86336,342952.2
std,24352.952063,4.479132,11.152755,179177.9
min,11001.0,2010.0,1.0,17000.0
25%,24104.0,2013.0,5.0,240000.0
50%,45062.0,2017.0,10.0,311000.0
75%,63075.0,2021.0,17.0,402500.0
max,93090.0,2025.0,153.0,3931500.0


In [14]:
id_vars = ["refnis", "localite", "annee", "periode", "ventes_de_biens_immobiliers_appartements_nombre_transactions"]
value_vars = [
    'ventes_de_biens_immobiliers_appartements_prix_médian(€)',
    'ventes_de_biens_immobiliers_appartements_prix_premier_quartile(€)',
    'ventes_de_biens_immobiliers_appartements_prix_troisième_quartile(€)',
]

df_long_4 = melting(df, id_vars, value_vars)

df_long_4.rename(columns={"ventes_de_biens_immobiliers_appartements_nombre_transactions": "nombre_transactions"}, inplace=True)

display(df_long_4.head())
df_long_4.describe()

Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value
0,11001,AARTSELAAR,2010,Q1,9.0,ventes_de_biens_immobiliers_appartements_prix_...,
1,11001,AARTSELAAR,2010,Q2,11.0,ventes_de_biens_immobiliers_appartements_prix_...,
2,11001,AARTSELAAR,2010,Q3,9.0,ventes_de_biens_immobiliers_appartements_prix_...,
3,11001,AARTSELAAR,2010,Q4,13.0,ventes_de_biens_immobiliers_appartements_prix_...,
4,11001,AARTSELAAR,2011,Q1,10.0,ventes_de_biens_immobiliers_appartements_prix_...,


Unnamed: 0,refnis,annee,nombre_transactions,value
count,105090.0,105090.0,78174.0,17091.0
mean,47214.663717,2017.258065,21.790276,202026.128606
std,24352.952063,4.479132,74.462321,72800.986729
min,11001.0,2010.0,1.0,18000.0
25%,24104.0,2013.0,2.0,153000.0
50%,45062.0,2017.0,5.0,190000.0
75%,63075.0,2021.0,14.0,240000.0
max,93090.0,2025.0,2103.0,930500.0


In [15]:
df_long = pd.concat([df_long_1, df_long_2, df_long_3, df_long_4], ignore_index=True)
df_long

Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value
0,11001,AARTSELAAR,2010,Q1,29.0,ventes_de_biens_immobiliers_toutes_les_maisons...,252000.0
1,11001,AARTSELAAR,2010,Q2,25.0,ventes_de_biens_immobiliers_toutes_les_maisons...,254000.0
2,11001,AARTSELAAR,2010,Q3,21.0,ventes_de_biens_immobiliers_toutes_les_maisons...,255000.0
3,11001,AARTSELAAR,2010,Q4,28.0,ventes_de_biens_immobiliers_toutes_les_maisons...,245000.0
4,11001,AARTSELAAR,2011,Q1,23.0,ventes_de_biens_immobiliers_toutes_les_maisons...,310000.0
...,...,...,...,...,...,...,...
420355,93090,VIROINVAL,2024,Q2,6.0,ventes_de_biens_immobiliers_appartements_prix_...,
420356,93090,VIROINVAL,2024,Q3,,ventes_de_biens_immobiliers_appartements_prix_...,
420357,93090,VIROINVAL,2024,Q4,,ventes_de_biens_immobiliers_appartements_prix_...,
420358,93090,VIROINVAL,2025,Q1,,ventes_de_biens_immobiliers_appartements_prix_...,


# Extract property_type and metric

In [16]:
def split_var(v):
    # Remove prefix
    v = v.replace("ventes_de_biens_immobiliers_", "")
    # Property type is text before last "_"
    # Metric is last chunk after "_"
    # Example: "appartements_prix_médian(€)"
    # We'll do regex to separate
    m = re.match(r"(.+?)_((nombre_transactions)|(prix.*))$", v)
    if m:
        return m.group(1), m.group(2)
    else:
        return v, None

df_long[["property_type", "metric"]] = df_long["variable"].apply(lambda x: pd.Series(split_var(x)))

df_long.head()

Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value,property_type,metric
0,11001,AARTSELAAR,2010,Q1,29.0,ventes_de_biens_immobiliers_toutes_les_maisons...,252000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€)
1,11001,AARTSELAAR,2010,Q2,25.0,ventes_de_biens_immobiliers_toutes_les_maisons...,254000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€)
2,11001,AARTSELAAR,2010,Q3,21.0,ventes_de_biens_immobiliers_toutes_les_maisons...,255000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€)
3,11001,AARTSELAAR,2010,Q4,28.0,ventes_de_biens_immobiliers_toutes_les_maisons...,245000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€)
4,11001,AARTSELAAR,2011,Q1,23.0,ventes_de_biens_immobiliers_toutes_les_maisons...,310000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€)


# Build datetime

In [17]:
df_long["quarter_str"] = df_long["annee"].astype(str) + df_long["periode"].astype(str)
df_long["date"] = pd.PeriodIndex(df_long["quarter_str"], freq="Q").to_timestamp("Q")

df_long.head()


Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value,property_type,metric,quarter_str,date
0,11001,AARTSELAAR,2010,Q1,29.0,ventes_de_biens_immobiliers_toutes_les_maisons...,252000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q1,2010-03-31
1,11001,AARTSELAAR,2010,Q2,25.0,ventes_de_biens_immobiliers_toutes_les_maisons...,254000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q2,2010-06-30
2,11001,AARTSELAAR,2010,Q3,21.0,ventes_de_biens_immobiliers_toutes_les_maisons...,255000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q3,2010-09-30
3,11001,AARTSELAAR,2010,Q4,28.0,ventes_de_biens_immobiliers_toutes_les_maisons...,245000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q4,2010-12-31
4,11001,AARTSELAAR,2011,Q1,23.0,ventes_de_biens_immobiliers_toutes_les_maisons...,310000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2011Q1,2011-03-31


In [18]:
df_long.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420360 entries, 0 to 420359
Data columns (total 11 columns):
 #   Column               Non-Null Count   Dtype         
---  ------               --------------   -----         
 0   refnis               420360 non-null  int64         
 1   localite             420360 non-null  object        
 2   annee                420360 non-null  int64         
 3   periode              420360 non-null  object        
 4   nombre_transactions  387678 non-null  float64       
 5   variable             420360 non-null  object        
 6   value                159975 non-null  float64       
 7   property_type        420360 non-null  object        
 8   metric               420360 non-null  object        
 9   quarter_str          420360 non-null  object        
 10  date                 420360 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(2), int64(2), object(6)
memory usage: 35.3+ MB


# clean variable column

In [19]:
df_long.variable.value_counts()

variable
ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)                35030
ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)      35030
ventes_de_biens_immobiliers_toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)    35030
ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_médian(€)                             35030
ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_premier_quartile(€)                   35030
ventes_de_biens_immobiliers_maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_troisième_quartile(€)                 35030
ventes_de_biens_immobiliers_maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_médian(€)                                        35030
ventes_de_biens_immobiliers_maisons_ave

In [20]:
def clean_var(v):
    # Remove prefix
    v = v.replace("ventes_de_biens_immobiliers_", "")
    return v

df_long["variable"] = df_long["variable"].apply(lambda x: pd.Series(clean_var(x)))

df_long.head()

Unnamed: 0,refnis,localite,annee,periode,nombre_transactions,variable,value,property_type,metric,quarter_str,date
0,11001,AARTSELAAR,2010,Q1,29.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",252000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q1,2010-03-31
1,11001,AARTSELAAR,2010,Q2,25.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",254000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q2,2010-06-30
2,11001,AARTSELAAR,2010,Q3,21.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",255000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q3,2010-09-30
3,11001,AARTSELAAR,2010,Q4,28.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",245000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2010Q4,2010-12-31
4,11001,AARTSELAAR,2011,Q1,23.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",310000.0,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",prix_médian(€),2011Q1,2011-03-31


In [21]:
df_long.variable.value_counts()

variable
toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_médian(€)                35030
toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_premier_quartile(€)      35030
toutes_les_maisons_avec_2,_3,_4_ou_plus_de_façades_(excl._appartements)_prix_troisième_quartile(€)    35030
maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_médian(€)                             35030
maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_premier_quartile(€)                   35030
maisons_avec_2_ou_3_façades_(type_fermé_+_type_demi-fermé)_prix_troisième_quartile(€)                 35030
maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_médian(€)                                        35030
maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_premier_quartile(€)                              35030
maisons_avec_4_ou_plus_de_façades_(type_ouvert)_prix_troisième_quartile(€)                            35030
appartements_prix_m

# result of cleaning

In [22]:
df_long.describe()

Unnamed: 0,refnis,annee,nombre_transactions,value,date
count,420360.0,420360.0,387678.0,159975.0,420360
mean,47214.663717,2017.258065,25.456464,254418.2,2017-11-14 10:03:52.258064384
min,11001.0,2010.0,1.0,14500.0,2010-03-31 00:00:00
25%,24104.0,2013.0,6.0,170000.0,2013-12-31 00:00:00
50%,45062.0,2017.0,13.0,230000.0,2017-11-15 00:00:00
75%,63075.0,2021.0,28.0,308750.0,2021-09-30 00:00:00
max,93090.0,2025.0,2103.0,3931500.0,2025-06-30 00:00:00
std,24352.865162,4.479116,53.502792,131947.9,


In [23]:
df_long[["localite", "periode", "variable", "property_type", "quarter_str", "metric"]].describe(include="all")

Unnamed: 0,localite,periode,variable,property_type,quarter_str,metric
count,420360,420360,420360,420360,420360,420360
unique,564,4,12,4,62,3
top,SAINT-NICOLAS,Q1,"toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...","toutes_les_maisons_avec_2,_3,_4_ou_plus_de_faç...",2010Q1,prix_médian(€)
freq,1488,108480,35030,105090,6780,140120


# save the processed file

In [24]:
# could have saved in "parquet" for better performance but just for sake of consistency, I used Excel format again to save the cleaned dataframe
df_long.to_excel(PROCESSED_FILE, sheet_name="Par commune", index=False)