# import des librairies

In [2]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Import du fichier et conversion en dataframe

In [3]:
df_tinder = pd.read_csv('data/Speed+Dating+Data.csv', sep=',', encoding='latin1')
df_tinder.shape

(8378, 195)

In [4]:
df_tinder.describe(include='all')

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3
count,8378.0,8377.0,8378.0,8378.0,8378.0,8378.0,8378.0,8378.0,6532.0,8378.0,...,3974.0,3974.0,3974.0,3974.0,3974.0,2016.0,2016.0,2016.0,2016.0,2016.0
unique,,,,,,,,,,,...,,,,,,,,,,
top,,,,,,,,,,,...,,,,,,,,,,
freq,,,,,,,,,,,...,,,,,,,,,,
mean,283.675937,8.960248,0.500597,17.327166,1.828837,11.350919,16.872046,9.042731,9.295775,8.927668,...,7.240312,8.093357,8.388777,7.658782,7.391545,6.81002,7.615079,7.93254,7.155258,7.048611
std,158.583367,5.491329,0.500029,10.940735,0.376673,5.995903,4.358458,5.514939,5.650199,5.477009,...,1.576596,1.610309,1.459094,1.74467,1.961417,1.507341,1.504551,1.340868,1.672787,1.717988
min,1.0,1.0,0.0,1.0,1.0,1.0,5.0,1.0,1.0,1.0,...,2.0,2.0,3.0,2.0,1.0,2.0,2.0,4.0,1.0,1.0
25%,154.0,4.0,0.0,8.0,2.0,7.0,14.0,4.0,4.0,4.0,...,7.0,7.0,8.0,7.0,6.0,6.0,7.0,7.0,6.0,6.0
50%,281.0,8.0,1.0,16.0,2.0,11.0,18.0,8.0,9.0,8.0,...,7.0,8.0,8.0,8.0,8.0,7.0,8.0,8.0,7.0,7.0
75%,407.0,13.0,1.0,26.0,2.0,15.0,20.0,13.0,14.0,13.0,...,8.0,9.0,9.0,9.0,9.0,8.0,9.0,9.0,8.0,8.0


# Exploration et nettoyage des données

In [5]:
# Stocker les colonnes avant la suppression
Listes_colonnes_origine = set(df_tinder.columns)

On supprime toutes les colonnes contenant moins de 25% de données

In [6]:
df_tinder = df_tinder.dropna(axis=1, thresh=df_tinder.shape[0]/4) 
Colonnes_apres_supp = set(df_tinder.columns)
print('Les colonnes qui ont été supprimées sont :',Listes_colonnes_origine-Colonnes_apres_supp)

Les colonnes qui ont été supprimées sont : {'shar7_2', 'shar2_3', 'shar7_3', 'num_in_3', 'attr7_3', 'attr5_3', 'sinc7_2', 'amb7_3', 'expnum', 'attr7_2', 'amb5_3', 'sinc7_3', 'fun5_3', 'amb7_2', 'intel5_3', 'intel7_2', 'fun7_3', 'fun7_2', 'sinc5_3', 'intel7_3', 'numdat_3'}


On convertit les genres et les matchs afin de rendre plus compréhensif les analyses

In [7]:
gender_list = {0: 'Femmes', 1: 'Hommes'}
df_tinder['gender'] = df_tinder['gender'].map(gender_list)

match_list = {0: 'Non', 1: 'Oui'}
df_tinder['match'] = df_tinder['match'].map(match_list)

goal_list = {1 : "Soirée sympa", 2 : "Nouvelles rencontres", 3: "Avoir un rendez-vous", 
             4: "Relation sérieuse", 5: "Dire que je l'ai fait", 6:"Autre"
            }
df_tinder['goal'] = df_tinder['goal'].map(goal_list)

same_list = {0: 'Non', 1: 'Oui'}
df_tinder['samerace'] = df_tinder['samerace'].map(same_list)

Combien de femmes et combien d'hommes ?

In [8]:
unique_iid_counts = df_tinder.groupby('gender')['iid'].nunique()
unique_iid_counts

gender
Femmes    274
Hommes    277
Name: iid, dtype: int64

274 femmes pour 277 hommes, c'est équilibré

Répartition des match

In [9]:
df_tinder["match"].value_counts(normalize=True)*100
match_valide = df_tinder["match"].value_counts(normalize=True).reset_index()
match_valide.columns = ['match', 'pourcentage']

# Créer un camembert avec Plotly Express
fig = px.pie(match_valide, values='pourcentage', names='match', title='Proportion de match')

# Afficher le camembert
fig.show()

Répartition des ages

In [10]:
fig = px.histogram(df_tinder, x='age', color='gender',
                   color_discrete_map={'Hommes': 'blue', 'Femmes': 'red'},
                   title='Distribution des âges par genre',
                   labels={'age': 'Age', 'gender': 'Genre'},
                   barmode='overlay', opacity=0.6)
fig.show()

Age assez homgène avec un petit décalage dans la tranche 20-30 ans

Répartition des objectifs de l'évènement

In [11]:
fig = px.histogram(df_tinder, x='goal', color='gender',
                   color_discrete_map={'Hommes': 'blue', 'Femmes': 'red'},
                   title='Distribution des objectifs',
                   labels={'goal': 'Objectif', 'gender': 'Genre'},
                   barmode='group', opacity=0.6)
fig.show()

Box plot de :
Attractivité
Sincèrité
Intelligence
Humour
Ambition
Intérêts partagés

In [12]:

# Boxplot: Attractiveness rated by gender
fig = px.box(df_tinder, x="gender", y="attr", color="match",
             labels={"attr": "Attractivité"},
             title="Attractivité perçue selon le sexe")
fig.show()


In [None]:
color_map = {"Oui": "#002FFF", "Non": "#FF5500"}  

traits = [("attr", "Attractivité"),
          ("sinc", "Sincèrité"),
          ("intel", "Intelligence"),
          ("fun", "Humour"),
          ("amb", "Ambition"),
          ("shar", "Intérêts partagés")]

fig = make_subplots(rows=2, cols=3,
                    subplot_titles=[label for _, label in traits])

for i, (trait_col, trait_name) in enumerate(traits):
    row = i // 3 + 1
    col = i % 3 + 1
    for match_value, color in color_map.items():
        subset = df_tinder[df_tinder["match"] == match_value]
        fig.add_trace(
            go.Box(x=subset["gender"], y=subset[trait_col],
                   marker_color=color, name=f"{trait_name} - {match_value}"),
            row=row, col=col
        )

fig.update_layout(
    title_text="Notation sur les critères",
    title_x=0.5,
    showlegend=True
)


fig.show()


Pour les hommes, l'humour et l'ambition ne semblent pas être un critère différenciant le résultat du match ou non.La sincérité et l'intelligence sont les critères les plus importants devant l'attractivité et le partage d'intérêt.
Pour les femmes, Tous les critères sont différenciant, l'humour semble particulièrement sélectionnant. L'ambition, la sincérité et l'intelligence le sont également.

Perception que l'on a su soit sur l'impact d'un match

In [14]:
color_map = {"Oui": "#002FFF", "Non": "#FF5500"}

traits = [("attr3_1", "Attractivité"),
          ("sinc3_1", "Sincèrité"),
          ("intel3_1", "Intelligence"),
          ("fun3_1", "Humour"),
          ("amb3_1", "Ambition")]

fig = make_subplots(rows=2, cols=3,
                    subplot_titles=[label for _, label in traits])

for i, (trait_col, trait_name) in enumerate(traits):
    row = i // 3 + 1
    col = i % 3 + 1
    for match_value, color in color_map.items():
        subset = df_tinder[df_tinder["match"] == match_value]
        fig.add_trace(
            go.Histogram(
                x=subset[trait_col],
                nbinsx=20,
                name=f"{trait_name} - {match_value}",
                marker_color=color,
                opacity=0.6,
                showlegend=(i == 0)  # Affiche la légende une seule fois
            ),
            row=row, col=col
        )

fig.update_layout(
    title_text="Auto-notation et match",
    title_x=0.5,
    barmode="overlay",  # superposition des barres pour comparaison
    height=800
)

fig.show()


Importance de l'ordre de la rencontre

In [None]:
# Calcul des pourcentages de match par ordre
match_counts = df_tinder.groupby(['order', 'match']).size().unstack(fill_value=0)
match_counts['total'] = match_counts.sum(axis=1)
match_counts['match_rate'] = match_counts.get('Oui', 0) / match_counts['total'] * 100

fig = make_subplots(specs=[[{"secondary_y": True}]])

for match_value, color in {"Oui": "#002FFF", "Non": "#FF5500"}.items():
    subset = df_tinder[df_tinder["match"] == match_value]
    fig.add_trace(
        go.Histogram(
            x=subset["order"],
            name=match_value,
            marker_color=color,
            opacity=0.6,
            nbinsx=20
        ),
        secondary_y=False
    )

fig.add_trace(
    go.Scatter(
        x=match_counts.index,
        y=match_counts['match_rate'],
        name="Taux de match (%)",
        mode='lines+markers',
        line=dict(color='green', width=2)
    ),
    secondary_y=True
)

fig.update_layout(
    title_text="Importance de l'ordre de la rencontre pour un match",
    barmode="overlay",
    xaxis_title="Ordre de la rencontre",
    yaxis_title="Nombre de personnes",
    yaxis2_title="Taux de match (%)",
    title_x=0.5,
    legend=dict(x=0.8, y=1.1)
)

fig.show()


Le nombre de match est décroissant mais l'on peut voir que le pourcentage de match est décroissant mais légèrmeent.

La race identique a-t-elle une importance

In [16]:
fig = px.histogram(df_tinder, x='samerace', color='match', barmode='group',
                   title='Race identique vs Match',
                   labels={'samerace': 'Même race', 'match': 'Match'})
fig.show()


# Conclusion

Tinder est une application de rencontre. Comme on peut le voir, tout peut importer et rien ne peut importer.
Que ce soit la race, l'âge, les traits de caractères, l'amour reste imprévisible ou en tout cas, on ne peut pas le décrypter avec si peu de lignes pour autant de colonnes.