
<br>
Exploration d'une jeu de données de réservations d'hôtel issu du site Kaggle.<br>


In [1]:
import calendar

Je place le contenu du csv dans un fichier, en tant que liste (liste de lignes: chaque ligne est une réservation.)

In [2]:
csvpath = "./hotel_reservations.csv"
with open(csvpath, "r") as f:
    csv = f.readlines()

Je transforme chaque ligne en une liste. L'ensemble est donc une liste de listes. Chaque ligne est une liste de valeurs.

In [3]:
csv = [line.split(",") for line in csv]
for i in csv[:3]:
    print(i)

['Booking_ID', 'no_of_adults', 'no_of_children', 'no_of_weekend_nights', 'no_of_week_nights', 'type_of_meal_plan', 'required_car_parking_space', 'room_type_reserved', 'lead_time', 'arrival_year', 'arrival_month', 'arrival_date', 'market_segment_type', 'repeated_guest', 'no_of_previous_cancellations', 'no_of_previous_bookings_not_canceled', 'avg_price_per_room', 'no_of_special_requests', 'booking_status\n']
['INN00001', '2', '0', '1', '2', 'Meal Plan 1', '0', 'Room_Type 1', '224', '2017', '10', '2', 'Offline', '0', '0', '0', '65', '0', 'Not_Canceled\n']
['INN00002', '2', '0', '2', '3', 'Not Selected', '0', 'Room_Type 1', '5', '2018', '11', '6', 'Online', '0', '0', '0', '106.68', '1', 'Not_Canceled\n']


Pour pouvoir plus facilement travailler, je transforme la liste de listes en dictionnaires de dictionnaires. L'ensemble est un dictionnaire, et chaque ligne du csv (chaque réservation) va constituer un sous-dictionnaire, dont les clés correspondront aux entêtes du csv (les intitulés des colonnes)

In [4]:
data = {}
for line in csv[1:]:
    no_reservation = line[0]
    data[no_reservation] = {}
    colonnes = [i for i in range(1, len(line))]
    for no in colonnes:
        data[no_reservation][csv[0][no]] = line[no]

Aperçu de la structure, deux entrées:

In [5]:
for j in [i for i in data.items()][:2]:
    print(j)

('INN00001', {'no_of_adults': '2', 'no_of_children': '0', 'no_of_weekend_nights': '1', 'no_of_week_nights': '2', 'type_of_meal_plan': 'Meal Plan 1', 'required_car_parking_space': '0', 'room_type_reserved': 'Room_Type 1', 'lead_time': '224', 'arrival_year': '2017', 'arrival_month': '10', 'arrival_date': '2', 'market_segment_type': 'Offline', 'repeated_guest': '0', 'no_of_previous_cancellations': '0', 'no_of_previous_bookings_not_canceled': '0', 'avg_price_per_room': '65', 'no_of_special_requests': '0', 'booking_status\n': 'Not_Canceled\n'})
('INN00002', {'no_of_adults': '2', 'no_of_children': '0', 'no_of_weekend_nights': '2', 'no_of_week_nights': '3', 'type_of_meal_plan': 'Not Selected', 'required_car_parking_space': '0', 'room_type_reserved': 'Room_Type 1', 'lead_time': '5', 'arrival_year': '2018', 'arrival_month': '11', 'arrival_date': '6', 'market_segment_type': 'Online', 'repeated_guest': '0', 'no_of_previous_cancellations': '0', 'no_of_previous_bookings_not_canceled': '0', 'avg_pri

Plus lisible:

In [6]:
for k in [data[i] for i in data.keys()][1].keys():
    print(k, ":", [data[i] for i in data.keys()][1][k])

no_of_adults : 2
no_of_children : 0
no_of_weekend_nights : 2
no_of_week_nights : 3
type_of_meal_plan : Not Selected
required_car_parking_space : 0
room_type_reserved : Room_Type 1
lead_time : 5
arrival_year : 2018
arrival_month : 11
arrival_date : 6
market_segment_type : Online
repeated_guest : 0
no_of_previous_cancellations : 0
no_of_previous_bookings_not_canceled : 0
avg_price_per_room : 106.68
no_of_special_requests : 1
booking_status
 : Not_Canceled



Je crée quelques fonctions simples pour explorer quelques aspects de ces données.<br>
Une fonction qui retourne une liste de tuples: l'id de la réservation et la valeur d'une colonne à choix, entrée comme paramètre.

In [7]:
def query_id_col(col: str):
    a = [(i, data[i][col]) for i in data.keys()]
    return a

Fonction qui retourne un dictionnaire associant (clé) l'id de la réservation à (valeur) la valeur attribuée à la colonne choisie pour cette réservation.

In [8]:
def query_id_dict(col: str):
    di = {}
    for i in data.keys():
        di[i] = data[i][col]
    return di

Fonction qui retourne pour une colonne, un dictionnaire qui associe (clé) les valeurs existantes pour cette colonnes au (valeur) nombre de réservation avec cette valeur dans cette colonne.

In [9]:
def query_valeur_nb(col: str):
    a = [(i, data[i][col]) for i in data.keys()]
    values = {}
    for i in a:
        if i[1] not in values.keys():
            values[i[1]] = 1
        else:
            values[i[1]] = values[i[1]] + 1
    return values

Fonction qui retourne, pour une colonne, un dictionnaire associant (clé) les valeurs existantes pour cette colonne à (valeur) une liste des ids des réservations ayant cette valeur.

In [10]:
def query_valeur_id(col: str):
    a = [(i, data[i][col]) for i in data.keys()]
    values = {}
    for i in a:
        if i[1] not in values.keys():
            values[i[1]] = []
        else:
            values[i[1]].append(i[0])
    return values

Combien d'années différentes sont concernées par ces réservations?

In [11]:
query_valeur_nb("arrival_year")

{'2017': 6514, '2018': 29761}

Y a-t-il des réservations pour tous les mois de l'années?

In [12]:
query_valeur_nb("arrival_month")

{'10': 5317,
 '11': 2980,
 '2': 1704,
 '5': 2598,
 '4': 2736,
 '9': 4611,
 '12': 3021,
 '7': 2920,
 '6': 3203,
 '8': 3813,
 '3': 2358,
 '1': 1014}

Question qui nous permettra peut-etre d'en apprendre davantage sur le type d'établissement: la distribution des réservations dans l'année.

In [13]:
months = query_valeur_nb("arrival_month")
for m in months.keys():
    j = "|" * int(months[m] / 100)
    print(calendar.month_name[int(m)][:3], j, months[m])

Oct ||||||||||||||||||||||||||||||||||||||||||||||||||||| 5317
Nov ||||||||||||||||||||||||||||| 2980
Feb ||||||||||||||||| 1704
May ||||||||||||||||||||||||| 2598
Apr ||||||||||||||||||||||||||| 2736
Sep |||||||||||||||||||||||||||||||||||||||||||||| 4611
Dec |||||||||||||||||||||||||||||| 3021
Jul ||||||||||||||||||||||||||||| 2920
Jun |||||||||||||||||||||||||||||||| 3203
Aug |||||||||||||||||||||||||||||||||||||| 3813
Mar ||||||||||||||||||||||| 2358
Jan |||||||||| 1014


Pour y voir un peu mieux, mettre les mois dans l'ordre, et répéter l'opération.

In [14]:
months_sorted = [(int(m), months[m]) for m in months.keys()]
months_sorted.sort()
months_sorted
for m in months_sorted:
    j = "|" * int(m[1] / 100)
    print(calendar.month_name[m[0]][:3], j, m[1])

Jan |||||||||| 1014
Feb ||||||||||||||||| 1704
Mar ||||||||||||||||||||||| 2358
Apr ||||||||||||||||||||||||||| 2736
May ||||||||||||||||||||||||| 2598
Jun |||||||||||||||||||||||||||||||| 3203
Jul ||||||||||||||||||||||||||||| 2920
Aug |||||||||||||||||||||||||||||||||||||| 3813
Sep |||||||||||||||||||||||||||||||||||||||||||||| 4611
Oct ||||||||||||||||||||||||||||||||||||||||||||||||||||| 5317
Nov ||||||||||||||||||||||||||||| 2980
Dec |||||||||||||||||||||||||||||| 3021


Vraisemblablement, il ne s'agit pas (par exemple) d'un hôtel dont le public-cible est constitué de skieureuses. Les mois d'hivers et du début du printemps sont ceux pour lesquels il y a le moins de réservations.

Une autre colonne, "required_car_parking_space", qui comporte deux valeurs possible: 0 ou 1, sans ou avec.

In [15]:
query_valeur_nb("required_car_parking_space")

{'0': 35151, '1': 1124}

Le champ "required_car_parking_space" me semble être intéressant à croiser avec d'autres champs. Par exemple: y a-t-il un rapport entre le mois de la réservation et le fait d'avoir besoin d'une place de parking? Peut-être qu'en été les gens viennent à pieds dans cet hôtel.

Pour chaque mois, le nombre de réservation avec une place de parking, et le nombre de réservation sans place de parking.

In [16]:
months = query_valeur_id("arrival_month")
parking = query_id_dict("required_car_parking_space")
a = {}
for i in months.keys():
    a[i] = {}
    a[i]["0"] = 0
    a[i]["1"] = 0
    for r in months[i]:
        if parking[r] == "0":
            a[i]["0"] = a[i]["0"] + 1
        elif parking[r] == "1":
            a[i]["1"] = a[i]["1"] + 1
        else:
            pass
    a[i]["total"] = a[i]["0"] + a[i]["1"]
    a[i]["proportion"] = round(a[i]["1"] / a[i]["total"], 3)

On peut voir des différences importantes dans les proportions de réservations avec voitures: de 0.018 par réservation en octobre à 0.058 en Aout.

In [17]:
for i in a.keys():
    print(calendar.month_name[int(i)][:3], a[i])

Oct {'0': 5222, '1': 94, 'total': 5316, 'proportion': 0.018}
Nov {'0': 2897, '1': 82, 'total': 2979, 'proportion': 0.028}
Feb {'0': 1650, '1': 53, 'total': 1703, 'proportion': 0.031}
May {'0': 2532, '1': 65, 'total': 2597, 'proportion': 0.025}
Apr {'0': 2670, '1': 65, 'total': 2735, 'proportion': 0.024}
Sep {'0': 4509, '1': 101, 'total': 4610, 'proportion': 0.022}
Dec {'0': 2918, '1': 102, 'total': 3020, 'proportion': 0.034}
Jul {'0': 2801, '1': 118, 'total': 2919, 'proportion': 0.04}
Jun {'0': 3129, '1': 73, 'total': 3202, 'proportion': 0.023}
Aug {'0': 3590, '1': 222, 'total': 3812, 'proportion': 0.058}
Mar {'0': 2262, '1': 95, 'total': 2357, 'proportion': 0.04}
Jan {'0': 959, '1': 54, 'total': 1013, 'proportion': 0.053}


Calculer l'écart entre les valeurs extrêmes.

In [18]:
proportions = [a[i]["proportion"] for i in a.keys()]
proportions.sort()
print(
    proportions[0],
    "/",
    proportions[-1],
    "=",
    round(proportions[-1] / proportions[0], 1),
)

0.018 / 0.058 = 3.2


Print les mois dans l'ordre allant de la plus grande proportion de réservation avec voiture à la plus faible. Octobre, qui a le nombre de reéservation le plus haut, a aussi, proportionnellement, le taux le plus faible de demande pour une place de parking.

In [19]:
p = [
    (a[i]["proportion"], calendar.month_name[int(i)][:3])
    for i in a.keys()
]
p.sort()
p.reverse()

In [20]:
for n, m in p:
    print(m, ":", n)

Aug : 0.058
Jan : 0.053
Mar : 0.04
Jul : 0.04
Dec : 0.034
Feb : 0.031
Nov : 0.028
May : 0.025
Apr : 0.024
Jun : 0.023
Sep : 0.022
Oct : 0.018


Une explication possible aurait pu être un nombre de place limité de places de parking, qui plafonnerait le nombre absolu de demande pour des places de parking et réduirait donc mécaniquement la proportion de demande pour une place de parc pour les mois avec le plus de réservations. Mais on peut probablement écarter cela, puisque le nombre le plus haut de demande de réservation en un mois est de 222 et que le nombre de réservation en octobre est très largement inférieur (94). Il faudrait toutefois, si l'on voulait s'en assurer, étudier les dates de réservations et non les mois, pour voir le nombre le plus haut de réservations simultanées de places de parking. Une hypothèse que je formule à partir de ces résultats: les réservations de place de parking sont corrélées avec le nombre d'enfants. Des vacances d'été (s'il y en a dans le pays dans lequel se trouve cet hôtel, où dans les pays dans lesquels vivent ses clients) dans une période (disons) standardisée pour l'ensemble d'une population pourrait être une explication pour ces disparités. Je commence par faire la même opération mais avec la colonne "no_of_children".

In [21]:
months = query_valeur_id("arrival_month")
children = query_id_dict("no_of_children")
b = {}
for i in months.keys():
    b[i] = {}
    b[i]["0"] = 0
    b[i]["1"] = 0
    for r in months[i]:
        if children[r] == "0":
            b[i]["0"] = b[i]["0"] + 1
        elif int(children[r]) > 0:
            b[i]["1"] = b[i]["1"] + 1
        else:
            pass
    b[i]["total"] = b[i]["0"] + b[i]["1"]
    b[i]["proportion"] = round(b[i]["1"] / b[i]["total"], 3)

Calculer l'écart entre les valeur extrêmes.

In [22]:
proportions = [b[i]["proportion"] for i in b.keys()]
proportions.sort()
print(
    proportions[0],
    "/",
    proportions[-1],
    "=",
    round(proportions[-1] / proportions[0], 1),
)

0.04 / 0.139 = 3.5


In [23]:
q = [
    (b[i]["proportion"], calendar.month_name[int(i)][:3])
    for i in b.keys()
]
q.sort()
q.reverse()

Print les résultats. Comme pour les places de parking, le mois avec, proportionnellement, le plus de réservation avec enfant est le mois d'aout.

In [24]:
for n, m in q:
    print(m, ":", n)

Aug : 0.139
Jul : 0.131
Dec : 0.098
Apr : 0.078
Mar : 0.076
Feb : 0.07
May : 0.061
Oct : 0.053
Sep : 0.048
Jun : 0.048
Jan : 0.041
Nov : 0.04


Maintenant, je vais essayer de voir si les familles avec enfant sont aussi les familles avec parking.

In [25]:
children = query_valeur_id("no_of_children")
parking = query_id_dict("required_car_parking_space")

Deux fonctions qui retournent "True" si les reservations contiennent une valeur supérieure à 0 pour, respectivement, la colonne "no_of_children" et la colonne "required_car_parking_space".

In [26]:
def with_children(key: str):
    return int(data[key]["no_of_children"]) > 0

In [27]:
def with_parking(key: str):
    return data[key]["required_car_parking_space"] != "0"

Compter les réservations pour construire les quatre possibilités: sans enfant ni parking, sans enfant mais avec parking, avec enfant mais sans parking, avec enfant et avec parking. (Le code est un peu désespérant, toutes mes excuses.)

In [28]:
d = {}
d["children, parking"] = len(
    [i for i in data.keys() if with_children(i) and with_parking(i)]
)
d["children, no parking"] = len(
    [
        i
        for i in data.keys()
        if with_children(i) and not with_parking(i)
    ]
)
d["no children, no parking"] = len(
    [
        i
        for i in data.keys()
        if not with_children(i) and not with_parking(i)
    ]
)
d["no children, parking"] = len(
    [
        i
        for i in data.keys()
        if not with_children(i) and with_parking(i)
    ]
)
d["children"] = d["children, parking"] + d["children, no parking"]
d["no children"] = (
    d["no children, parking"] + d["no children, no parking"]
)
d["parking"] = d["children, parking"] + d["no children, parking"]
d["no parking"] = (
    d["children, no parking"] + d["no children, no parking"]
)
total = len(csv[1:])

In [29]:
for i in d.keys():
    print(i, ":", d[i])

children, parking : 137
children, no parking : 2561
no children, no parking : 32590
no children, parking : 987
children : 2698
no children : 33577
parking : 1124
no parking : 35151


Parmi les réservations avec enfant, la proportion de réservation avec place de parking est plus importante que la proportion de réservation avec place de parc dans l'ensemble des réservations. Mais je ne saurais trop juger si cela est significatif.(Il faudrait probablement utiliser ici le test statistique du Chi-2.)

In [30]:
print(round(d['children, parking'] / d['children'], 3))
print(round(d['parking'] / total, 3))

0.051
0.031
