In [2]:
import numpy as np
import pandas as pd
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

# Import dataset

In [3]:
pd.set_option("display.max_columns", 200)
pd.set_option("display.max_rows", 200)

DATA_PATH_CLEAN = "../data/outputs/speed_dating_clean.csv"
df_clean = pd.read_csv(DATA_PATH_CLEAN, encoding="latin-1")

In [4]:
df_clean.head()

Unnamed: 0,dec,attr,sinc,intel,fun,amb,shar,gender,age,race,field_cd,career_c,goal,order,round,position,wave,attr_o,sinc_o,intel_o,fun_o,amb_o,shar_o,attr1_1,sinc1_1,intel1_1,fun1_1,amb1_1,shar1_1,gender_label
0,1,6.0,9.0,7.0,7.0,6.0,5.0,0,21.0,4.0,1.0,,2.0,4,10,7,1,6.0,8.0,8.0,8.0,8.0,6.0,15.0,20.0,20.0,15.0,15.0,15.0,Female
1,1,7.0,8.0,7.0,8.0,5.0,6.0,0,21.0,4.0,1.0,,2.0,3,10,7,1,7.0,8.0,10.0,7.0,7.0,5.0,15.0,20.0,20.0,15.0,15.0,15.0,Female
2,1,5.0,8.0,9.0,8.0,5.0,7.0,0,21.0,4.0,1.0,,2.0,10,10,7,1,10.0,10.0,10.0,10.0,10.0,10.0,15.0,20.0,20.0,15.0,15.0,15.0,Female
3,1,7.0,6.0,8.0,7.0,6.0,8.0,0,21.0,4.0,1.0,,2.0,5,10,7,1,7.0,8.0,9.0,8.0,9.0,8.0,15.0,20.0,20.0,15.0,15.0,15.0,Female
4,1,5.0,6.0,7.0,7.0,6.0,6.0,0,21.0,4.0,1.0,,2.0,7,10,7,1,8.0,7.0,9.0,6.0,9.0,7.0,15.0,20.0,20.0,15.0,15.0,15.0,Female


In [5]:
df_clean.shape

(8378, 30)

In [6]:
pd.set_option("display.max_columns", 200)
pd.set_option("display.max_rows", 200)

DATA_PATH_RATINGS = "../data/outputs/speed_dating_clean_ratings_only.csv"
df_ratings = pd.read_csv(DATA_PATH_RATINGS, encoding="latin-1")

In [7]:
df_ratings.head()

Unnamed: 0,dec,attr,sinc,intel,fun,amb,shar,gender,age,race,field_cd,career_c,goal,order,round,position,wave,attr_o,sinc_o,intel_o,fun_o,amb_o,shar_o,attr1_1,sinc1_1,intel1_1,fun1_1,amb1_1,shar1_1
0,1,6.0,9.0,7.0,7.0,6.0,5.0,0,21.0,4.0,1.0,,2.0,4,10,7,1,6.0,8.0,8.0,8.0,8.0,6.0,15.0,20.0,20.0,15.0,15.0,15.0
1,1,7.0,8.0,7.0,8.0,5.0,6.0,0,21.0,4.0,1.0,,2.0,3,10,7,1,7.0,8.0,10.0,7.0,7.0,5.0,15.0,20.0,20.0,15.0,15.0,15.0
2,1,5.0,8.0,9.0,8.0,5.0,7.0,0,21.0,4.0,1.0,,2.0,10,10,7,1,10.0,10.0,10.0,10.0,10.0,10.0,15.0,20.0,20.0,15.0,15.0,15.0
3,1,7.0,6.0,8.0,7.0,6.0,8.0,0,21.0,4.0,1.0,,2.0,5,10,7,1,7.0,8.0,9.0,8.0,9.0,8.0,15.0,20.0,20.0,15.0,15.0,15.0
4,1,5.0,6.0,7.0,7.0,6.0,6.0,0,21.0,4.0,1.0,,2.0,7,10,7,1,8.0,7.0,9.0,6.0,9.0,7.0,15.0,20.0,20.0,15.0,15.0,15.0


In [8]:
df_ratings.shape

(7040, 29)

# Visualisations clés

## Baseline – Distribution des décisions
- **Question :** Dire “oui” est-il fréquent ou rare ?
- **Visulisation :** Ce graphique présente la distribution globale des décisions de second rendez-vous.
- **Insight :** On observe qu’environ 42 % des interactions aboutissent à une décision positive, tandis que 58 % se concluent par un refus. La majorité des interactions n’aboutissent pas à un second rendez-vous, ce qui pourrait confirmer la sélectivité du processus.

In [9]:
rate = df_clean["dec"].mean()
df_rate = pd.DataFrame({
    "Décision": ["Oui", "Non"],
    "Pourcentage": [rate * 100, (1 - rate) * 100]
})

fig = px.bar(
    df_rate,
    x="Décision",
    y="Pourcentage",
    title="Taux de second rendez-vous",
    text=df_rate["Pourcentage"].round(1).astype(str) + " %"
)

fig.update_traces(textposition="outside")
fig.update_yaxes(range=[0, 100], ticksuffix="%")
fig.update_layout(xaxis_title="", yaxis_title="Pourcentage")
fig.show()

## Segmentation – Taux de YES par genre
- **Question :** Les décisions diffèrent-elles selon le genre ?
- **Visalisation :** Ce graphique présente le taux de décisions positives selon le genre de la personne.
- **Insight :** On observe que les hommes déclarent plus fréquemment vouloir un second rendez-vous (47 %) que les femmes (37 %). Les volumes d’observations sont comparables entre les deux groupes. Attention : Cette analyse ne permet pas d’expliquer les causes de cet écart et justifie l’étude des critères évalués afin de comprendre les leviers spécifiques de la décision.

In [10]:
rate_gender = (
    df_clean.groupby("gender_label", as_index=False)
    .agg(rate_yes=("dec", "mean"), n=("dec", "size"))
)

rate_gender["rate_pct"] = rate_gender["rate_yes"] * 100
rate_gender["label"] = rate_gender.apply(lambda r: f"{r.rate_pct:.1f}% (n={int(r.n)})", axis=1)

fig = px.bar(
    rate_gender,
    x="gender_label",
    y="rate_yes",
    text="label",
    title="Taux de second rendez-vous par genre",
    labels={"gender_label": "Genre", "rate_yes": "Taux de YES"},
)

fig.update_traces(textposition="outside")
fig.update_yaxes(range=[0, 1], tickformat=".0%")
fig.update_layout(xaxis_title="", yaxis_title="Taux de YES")
fig.show()

## Analyse centrale – Impact des attributs (YES vs NO)
- **Question :** Quels critères font réellement la différence ?
- **Visualisation :** Ce graphique compare la distribution des notes attribuées aux profils acceptés et refusés pour chaque attribut.
- **Insight :** L’écart est particulièrement marqué pour les critères “fun”, “attractiveness” et “shared interests” ce qui peut indiquer que ces dimensions jouent un rôle plus discriminant dans la décision d’accepter un second rendez-vous.

In [11]:
attributes = ["attr", "fun", "intel", "sinc", "amb", "shar"]
attributes_present = [c for c in attributes if c in df_ratings.columns]

df_long = df_ratings.melt(
    id_vars=["dec"],
    value_vars=attributes_present,
    var_name="attribute",
    value_name="score"
)

df_long["dec_label"] = df_long["dec"].map({0: "Non", 1: "Oui"})

fig = px.box(
    df_long,
    x="dec_label",
    y="score",
    color="dec_label",
    facet_col="attribute",
    facet_col_wrap=3,
    points="outliers",
    title="Impact des attributs sur la décision (comparaison YES vs NO)",
    labels={"dec_label": "Décision", "score": "Score"}
)

fig.update_yaxes(range=[0, 10])
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))
fig.show()

In [12]:
means = df_ratings.groupby("dec")[attributes].mean().T
means.columns = ["no_mean", "yes_mean"]
means["delta_yes_minus_no"] = means["yes_mean"] - means["no_mean"]
means = means.reset_index().rename(columns={"index": "attribute"})

fig = px.bar(
    means.sort_values("delta_yes_minus_no", ascending=False),
    x="attribute",
    y="delta_yes_minus_no",
    title="Attributs les plus discriminants (différence de moyenne YES - NO)",
    labels={"attribute": "Attribut", "delta_yes_minus_no": "Ecart de moyenne (YES - NO)"},
    text_auto=".2f"
)
fig.show()

## Priorisation – Quels attributs caractérisent les profils acceptés ?
- **Question :** Sur quels critères faut-il miser ?
- **Visusalisation :** Ce graphique présente la corrélation entre les notes attribuées aux différents attributs et la décision d’accepter un second rendez-vous.
- **Insight :** L’attribut "attractiveness" présente la corrélation la plus élevée avec la décision, suivi par les critères "fun" et "shared interests". Les autres attributs (intelligence, sincérité, ambition) montrent une association positive mais plus modérée.

In [13]:
corr = (
    df_ratings[attributes + ["dec"]]
    .corr(numeric_only=True)["dec"]
    .drop("dec")
    .reset_index()
    .rename(columns={"index": "attribute", "dec": "correlation"})
)

fig = px.bar(
    corr.sort_values("correlation", ascending=False),
    x="attribute",
    y="correlation",
    title="Impact global des attributs sur la décision (corrélation avec dec)",
    labels={"attribute": "Attribut", "correlation": "Corrélation"},
    text_auto=".2f"
)
fig.show()


## Analyse temporalité – Ordre du speed date ?
- **Question :** La fatigue ou l’effet contraste influencent-ils la décision ?
- **Visualisation :** Ce graphique présente le taux moyen de décisions positives en fonction de l’ordre du speed date au cours de la soirée.
- **Insight :** On observe un taux de “YES” légèrement plus élevé lors des premiers rendez-vous, suivi d’une stabilisation voire d’une légère baisse au fil de la soirée. Cet effet reste modéré comparé à l’impact des attributs perçus du partenaire mais pourrait suggérer que des facteurs contextuels tels que la fatigue ou l’effet de comparaison influencent la décision.

In [14]:
order_stats = (
    df_clean
    .groupby("order", as_index=False)
    .agg(
        rate_yes=("dec", "mean"),
        n=("dec", "size")
    )
)

In [15]:
fig = make_subplots(
    rows=2,
    cols=1,
    shared_xaxes=True,
    vertical_spacing=0.1,
    subplot_titles=(
        "Taux de second rendez-vous",
        "Nombre d'observations par ordre de date"
    )
)

fig.add_trace(
    go.Scatter(
        x=order_stats["order"],
        y=order_stats["rate_yes"],
        mode="lines+markers",
        name="Taux de YES"
    ),
    row=1, col=1
)

fig.add_trace(
    go.Bar(
        x=order_stats["order"],
        y=order_stats["n"],
        name="Nombre d'observations"
    ),
    row=2, col=1
)

fig.update_yaxes(range=[0, 1], tickformat=".0%", row=1, col=1)
fig.update_layout(title="Effet de l'ordre du speed date sur la décision")
fig.show()