⚠️ This project is mandatory for certification bloc #2.

![Tinder](https://full-stack-assets.s3.eu-west-3.amazonaws.com/M03-EDA/Tinder-Symbole.png)

# Speed Dating with Tinder

## Company's description 📇

<a href="https://tinder.com/" target="_blank">Tinder</a> is an online dating and geosocial networking application. In Tinder, users "swipe right" to like or "swipe left" to dislike other users' profiles, which include their photos, a short bio, and a list of their interests.

Tinder was launched by Sean Rad at a hackathon held at the Hatch Labs incubator in West Hollywood in 2012.

As of 2021, Tinder has recorded more than 65 billion matches worldwide.

## Project 🚧

The marketing team needs help on a new project. They are experiencing a decrease in the number of matches, and they are trying to find a way to understand **what makes people interested into each other**. 

They decided to run a speed dating experiment with people who had to give Tinder lots of informations about themselves that could ultimately reflect on ther dating profile on the app.

Tinder then gathered the data from this experiment. Each row in the dataset represents one speed date between two people, and indicates wether each of them secretly agreed to go on a second date with the other person.

## Goals 🎯

Use the dataset to understand what makes people interested into each other to go on a second date together:
* You may use descriptive statistics
* You may use visualisations

## Scope of this project 🖼️

Data was gathered from participants in experimental speed dating events from 2002-2004. During the events, the attendees would have a four minute "first date" with every other participant of the opposite sex. At the end of their four minutes, participants were asked if they would like to see their date again. They were also asked to rate their date on six attributes: Attractiveness, Sincerity, Intelligence, Fun, Ambition, and Shared Interests.

The dataset also includes questionnaire data gathered from participants at different points in the process. These fields include: demographics, dating habits, self-perception across key attributes, beliefs on what others find valuable in a mate, and lifestyle information. See the Speed Dating Data Key document below for details.

[Dataset](https://full-stack-assets.s3.eu-west-3.amazonaws.com/M03-EDA/Speed+Dating+Data.csv)

[Dataset Description](https://full-stack-assets.s3.eu-west-3.amazonaws.com/M03-EDA/Speed+Dating+Data+Key.doc)

## Helpers 🦮

To help you achieve this project, here are a few tips that should help youbest destinations on a map

Data Exploration Ideas :
* What are the least desirable attributes in a male partner? Does this differ for female partners?
* How important do people think attractiveness is in potential mate selection vs. its real impact?
* Are shared interests more important than a shared racial background?
* Can people accurately predict their own perceived value in the dating market?
* In terms of getting a second date, is it better to be someone's first speed date of the night or their last?

## Deliverable 📬

To complete this project, your team should deliver:

A notebook with:
* descriptive statistics
* visualisations
* captions and interpretations on how the stats and visualisations are relevant to why people agree to a second date

In [48]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [49]:
import chardet

with open('Speed+Dating+Data.csv', 'rb') as f:
    result = chardet.detect(f.read())

print(result['encoding'])

MacRoman


In [50]:
encoding = 'Windows-1252'
df = pd.read_csv('Speed+Dating+Data.csv', encoding=encoding)

In [51]:
df["gender"] = df["gender"].replace(0,"Female", regex=False).replace(1,"Male", regex=False)

In [52]:
df.head()

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3
0,1,1.0,Female,1,1,1,10,7,,4,...,5.0,7.0,7.0,7.0,7.0,,,,,
1,1,1.0,Female,1,1,1,10,7,,3,...,5.0,7.0,7.0,7.0,7.0,,,,,
2,1,1.0,Female,1,1,1,10,7,,10,...,5.0,7.0,7.0,7.0,7.0,,,,,
3,1,1.0,Female,1,1,1,10,7,,5,...,5.0,7.0,7.0,7.0,7.0,,,,,
4,1,1.0,Female,1,1,1,10,7,,7,...,5.0,7.0,7.0,7.0,7.0,,,,,


In [53]:
df.describe(include="all")

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3
count,8378.0,8377.0,8378,8378.0,8378.0,8378.0,8378.0,8378.0,6532.0,8378.0,...,3974.0,3974.0,3974.0,3974.0,3974.0,2016.0,2016.0,2016.0,2016.0,2016.0
unique,,,2,,,,,,,,...,,,,,,,,,,
top,,,Male,,,,,,,,...,,,,,,,,,,
freq,,,4194,,,,,,,,...,,,,,,,,,,
mean,283.675937,8.960248,,17.327166,1.828837,11.350919,16.872046,9.042731,9.295775,8.927668,...,7.240312,8.093357,8.388777,7.658782,7.391545,6.81002,7.615079,7.93254,7.155258,7.048611
std,158.583367,5.491329,,10.940735,0.376673,5.995903,4.358458,5.514939,5.650199,5.477009,...,1.576596,1.610309,1.459094,1.74467,1.961417,1.507341,1.504551,1.340868,1.672787,1.717988
min,1.0,1.0,,1.0,1.0,1.0,5.0,1.0,1.0,1.0,...,2.0,2.0,3.0,2.0,1.0,2.0,2.0,4.0,1.0,1.0
25%,154.0,4.0,,8.0,2.0,7.0,14.0,4.0,4.0,4.0,...,7.0,7.0,8.0,7.0,6.0,6.0,7.0,7.0,6.0,6.0
50%,281.0,8.0,,16.0,2.0,11.0,18.0,8.0,9.0,8.0,...,7.0,8.0,8.0,8.0,8.0,7.0,8.0,8.0,7.0,7.0
75%,407.0,13.0,,26.0,2.0,15.0,20.0,13.0,14.0,13.0,...,8.0,9.0,9.0,9.0,9.0,8.0,9.0,9.0,8.0,8.0


In [54]:
# Sélectionner uniquement les colonnes numériques
numeric_columns = df.select_dtypes(include=['float64', 'int64'])

# Grouper les données par l'identifiant de personne (iid) et calculer la moyenne des colonnes numériques
grouped_df = numeric_columns.groupby('iid').mean()

# Réinitialiser l'index pour obtenir un DataFrame plat avec une ligne par personne
grouped_df = grouped_df.reset_index()

# Fusionner la colonne 'gender' avec le DataFrame résultant
grouped_df = grouped_df.merge(df[['iid', 'gender']], on='iid', how='left')

# Maintenant, grouped_df contient à la fois les colonnes numériques moyennes et la colonne 'gender'


In [55]:
###Career Data

career_c_dict = {
    1: "Lawyer",
    2: "Academic",
    3: "Psychologist",
    4: "Doctor",
    5: "Engineer",
    6: "Entertainment",
    7: "Business",
    8: "Real Estate",
    9: "Humanitarian",
    10: "Undecided",
    11: "Social Work",
    12: "Speech",
    13: "Politics",
    14: "Sports",
    15: "Other",
    16: "Journalism",
    17: "Architecture",
}


grouped_df['career_groups']= grouped_df['career_c'].replace(career_c_dict)
grouped_df['career_groups']=grouped_df.career_groups.fillna('Unknown')
career_counts= grouped_df['career_groups'].value_counts(normalize= True)*100
grouped_df['career_populars']= grouped_df['career_groups'].apply(lambda x: 'Other' if career_counts[x]<5 else x)

###Field Data

field_c_dict = {
    1: 'Law',
    2: 'Math',
    3: 'Psychology',
    4: 'Medical',
    5: 'Engineering',
    6: 'Writing',
    7: 'Philosophy',
    8: 'Business',
    9: 'Education',
    10: 'Biology',
    11: 'SocialWork',
    12: 'Undergrad',
    13: 'Politics',
    14: 'Film',
    15: 'Arts',
    16: 'Languages',
    17: 'Architecture',
    18: 'Other'
}

grouped_df['field_groups']=grouped_df['field_cd'].replace(field_c_dict)
grouped_df['field_groups']=grouped_df['field_groups'].fillna('Unknown')
field_counts= grouped_df['field_groups'].value_counts(normalize=True) *100
grouped_df['fields_popular']= grouped_df['field_groups'].apply(lambda x: 'Other' if field_counts[x]<5 else x)

In [56]:
# Calculer la répartition des participants dans les catégories de carrières
field_groups_count = grouped_df['field_groups'].value_counts()

# Calculer la somme totale des matchs
total_match_sum = grouped_df['match'].sum()

# Calculer les pourcentages de matchs pour chaque enregistrement
grouped_df['match_percentage'] = (grouped_df['match'] / total_match_sum) * 100

# Calculer la somme des pourcentages de matchs pour chaque catégorie de carrière
field_groups_match_percentage_sum = grouped_df.groupby('field_groups')['match_percentage'].sum()

# Trier les catégories en fonction de leur pourcentage de 'match' dans l'ordre décroissant
sorted_field_groups = field_groups_match_percentage_sum.sort_values(ascending=False).index.tolist()

# Créer les sous-graphiques
fig = make_subplots(
    rows=2, cols=1, 
    subplot_titles=("Répartition des participants selon le domaine d'études'", 
                    "Pourcentage de match selon le domaine d'études'")
)

# Ajouter le premier graphique pour la répartition des participants
fig.add_trace(
    go.Bar(
        x=field_groups_count.index,
        y=field_groups_count.values,
        marker=dict(color='skyblue'),
        text=field_groups_count.values,
        textposition='auto'
    ),
    row=1, col=1
)

# Ajouter le deuxième graphique pour les pourcentages de match
fig.add_trace(
    go.Bar(
        x=sorted_field_groups,
        y=field_groups_match_percentage_sum[sorted_field_groups],
        marker=dict(color='orange'),
        text=field_groups_match_percentage_sum[sorted_field_groups].round(2).astype(str) + '%',
        textposition='auto'
    ),
    row=2, col=1
)

# Mettre à jour les mises en page
fig.update_layout(
    title="Analyse des domaines d'études et des pourcentages de match",
    showlegend=False,
    height=800
)

# Afficher le graphique
fig.show()


* On peut voir que les étudiants en Business sont ceux qui ont le plus de succès en match, mais ils sont aussi la catégorie la plus représentée. 
* On peut voir que les étudiants en Law, malgré un nombre moins élevé (6eme en nombre de représentants) que d'autres arrive en troisième position en pourcentage de match.

In [57]:
# Calculer la répartition des participants dans les catégories de carrières
career_groups_count = grouped_df['career_groups'].value_counts()

# Calculer la somme totale des matchs
total_match_sum = grouped_df['match'].sum()

# Calculer les pourcentages de matchs pour chaque enregistrement
grouped_df['match_percentage'] = (grouped_df['match'] / total_match_sum) * 100

# Calculer la somme des pourcentages de matchs pour chaque catégorie de carrière
career_groups_match_percentage_sum = grouped_df.groupby('career_groups')['match_percentage'].sum()

# Trier les catégories en fonction de leur pourcentage de 'match' dans l'ordre décroissant
sorted_career_groups = career_groups_match_percentage_sum.sort_values(ascending=False).index.tolist()

# Créer les sous-graphiques
fig = make_subplots(
    rows=2, cols=1, 
    subplot_titles=("Répartition des participants selon le domaine de carrière", 
                    "Pourcentage de match selon le domaine de carrière")
)

# Ajouter le premier graphique pour la répartition des participants
fig.add_trace(
    go.Bar(
        x=career_groups_count.index,
        y=career_groups_count.values,
        marker=dict(color='skyblue'),
        text=career_groups_count.values,
        textposition='auto'
    ),
    row=1, col=1
)

# Ajouter le deuxième graphique pour les pourcentages de match
fig.add_trace(
    go.Bar(
        x=sorted_career_groups,
        y=career_groups_match_percentage_sum[sorted_career_groups],
        marker=dict(color='orange'),
        text=career_groups_match_percentage_sum[sorted_career_groups].round(2).astype(str) + '%',
        textposition='auto'
    ),
    row=2, col=1
)

# Mettre à jour les mises en page
fig.update_layout(
    title="Analyse des domaines de carrière et des pourcentages de match",
    showlegend=False,
    height=800
)

# Afficher le graphique
fig.show()


* On peut remarquer au global les pourcentages sont reliés au nombres de représentants pour chaques catégories, cependant les carrières Business ont plus de match malgré un nombre de représentants plus petits qu'Academic. 
* On peut faire la même remarque pour Lawyer et Entertainment. 
* On peut faire un constat rapide que les métiers ou les gens ont plus l'habitude de parler, de défendre et de vendre ont plus de succès.

In [58]:
temp_df = grouped_df.groupby('date').count().reset_index()

# Conversion des objectifs de date en str
temp_df['date'] = temp_df['date'].astype(str)

temp_df = df.groupby('date').count().reset_index()
temp_df.loc[temp_df.date == 1,['date']] ='Plusieurs fois en une semaine'
temp_df.loc[temp_df.date == 2,['date']] ='Deux fois par semaine'
temp_df.loc[temp_df.date == 3,['date']] ='Une fois par semaine'
temp_df.loc[temp_df.date == 4,['date']] ='Deux fois par mois'
temp_df.loc[temp_df.date == 5,['date']] ='Une fois par mois'
temp_df.loc[temp_df.date == 6,['date']] ='Plusieurs fois en un an'
temp_df.loc[temp_df.date == 7,['date']] ='Quasiment jamais'

# Création du pie chart en utilisant plotly.express
fig = px.pie(temp_df, 
             values='iid', 
             names='date', 
             title='Réponses des candidats à la question :<br>"En général, à quelle fréquence allez-vous en date ?"')

# Ajustement de la disposition du graphique
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(title={'y':0.95, 'x':0.5, 'xanchor': 'center', 'yanchor': 'top', 'font': {'size': 20}})

# Affichage
fig.show()


Setting an item of incompatible dtype is deprecated and will raise an error in a future version of pandas. Value 'Plusieurs fois en une semaine' has dtype incompatible with float64, please explicitly cast to a compatible dtype first.



* On peut voir que presque 50% des participants vont à des dates deux fois par mois au maximum. 
* Ceux qui font des dates à minima une fois par semaine représentent environ 15% des participants.

In [59]:
# Groupement et comptage pour créer temp_df
temp_df = grouped_df.groupby('go_out').count().reset_index()

# Attribution des valeurs numériques à des str
temp_df['go_out'] = temp_df['go_out'].astype(int)

mapping = {
    1: 'Plusieurs fois en une semaine',
    2: 'Deux fois par semaine',
    3: 'Une fois par semaine',
    4: 'Deux fois par mois',
    5: 'Une fois par mois',
    6: 'Plusieurs fois en un an',
    7: 'Quasiment jamais'
}

temp_df['go_out'] = temp_df['go_out'].map(mapping)

# Création du pie chart en utilisant plotly.express
fig = px.pie(temp_df, 
             values='iid', 
             names='go_out', 
             title='Réponses des candidats à la question :<br>"En général, à quelle fréquence sortez vous ?"')

# Ajustement de la disposition du graphique
fig.update_traces(textposition='inside', textinfo='percent+label')
fig.update_layout(title={'y':0.95, 'x':0.5, 'xanchor': 'center', 'yanchor': 'top', 'font': {'size': 20}})

# Affichage
fig.show()


* On voit que dans la répartition des réponses que quasiment 2/3 des participants sortent à minima 2 fois par semaines.
* Et moins de 10% des participants sortent au maximum deux fois par mois.

In [60]:
# Créer le graphique en utilisant Plotly Express
fig = px.bar(
    grouped_df.groupby('exphappy').count().reset_index(),
    x='exphappy',
    y='iid',
    title="Répartition des participants à la question : <br>'Sur une échelle de 1 à 10, à quel point vous attendez-vous à être heureux avec les personnes que vous rencontrerez <br>lors du speed dating ?'",
    labels={"exphappy": "Note (1 à 10)", "iid": "Nombre de participants"}
)

# Affichage
fig.show()


* On peut voir qu'on est sur une loi normale, que la plupart des gens s'attendent à être heureux a 5 ou 6 sur 10 avec les personnes rencontrés lors du speed-dating

In [61]:
#Mask selon les types de notations:
#   mask_not1 : 100 points à répartir
#   mask_not2 : notation sur 10 pour chaque critère
mask_not1 = ((grouped_df['wave'] <6) | (grouped_df['wave'] >9))
mask_not2 = ((grouped_df['wave'] >5) | (grouped_df['wave'] <10))

mask_sexF = ((grouped_df['gender'] =='Female'))
mask_sexM = ((grouped_df['gender'] =='Male'))

In [62]:
# Remplacement des valeurs numériques en str pour la colonnes goal
grouped_df["goal"] = grouped_df["goal"].replace(1,"Passer une bonne soirée", regex=False).replace(2,"Rencontrer des gens", regex=False).replace(3,"Avoir un date", regex=False).replace(4,"Relation sérieuse", regex=False).replace(5,"Pour dire Je l'ai fais", regex=False).replace(6,"Autre", regex=False)

In [63]:
dff = grouped_df[mask_sexF]

# Effectuer le décompte des valeurs de la colonne "goal" et trier par ordre décroissant
goal_counts = dff['goal'].value_counts().sort_values(ascending=False)

# Convertir les décomptes en DataFrame pour pouvoir les utiliser avec Plotly Express
goal_counts_df = pd.DataFrame({'goal': goal_counts.index, 'count': goal_counts.values})

# Tracer le graphique à l'aide de Plotly Express
fig = px.bar(goal_counts_df, x='goal', y='count', title="Décompte des objectifs si il y a eu un match", 
             labels={'goal': 'Objectif', 'count': 'Nombre de matchs'}, 
             category_orders={'goal': goal_counts.index})  # Pour respecter l'ordre décroissant

# Affichage
fig.show()

* On est passé sur un masque ne prenant en compte que les réponses des femmes. 
* On remarque que les objectifs pour le speed dating les plus représentés en match sont la volonté de passer une bonne soirée et de rencontrer des gens.

In [64]:
#Différence entre les types de notations et selon les femmes sur "qu'est ce que vous cherchez chez le sexe opposé ?"
df_look1_1 = grouped_df.loc[(mask_not1 & mask_sexF), ["attr1_1", "sinc1_1", "intel1_1", "fun1_1","amb1_1", "shar1_1"]]
display(df_look1_1.mean())
df_look1_1 = grouped_df.loc[(mask_not2 & mask_sexF), ["attr1_1", "sinc1_1", "intel1_1", "fun1_1","amb1_1", "shar1_1"]]
display(df_look1_1.mean())
df_look1_1 = grouped_df.loc[(mask_not1 & mask_sexF), ["attr1_1", "sinc1_1", "intel1_1", "fun1_1","amb1_1", "shar1_1"]]
display(df_look1_1.mean())
df_look1_1 = grouped_df.loc[(mask_not2 & mask_sexF), ["attr1_1", "sinc1_1", "intel1_1", "fun1_1","amb1_1", "shar1_1"]]
display(df_look1_1.mean())

attr1_1     18.788883
sinc1_1     18.377089
intel1_1    21.568459
fun1_1      17.043556
amb1_1      12.005635
shar1_1     12.264193
dtype: float64

attr1_1     18.055224
sinc1_1     18.305008
intel1_1    21.002502
fun1_1      17.147292
amb1_1      12.827222
shar1_1     12.704194
dtype: float64

attr1_1     18.788883
sinc1_1     18.377089
intel1_1    21.568459
fun1_1      17.043556
amb1_1      12.005635
shar1_1     12.264193
dtype: float64

attr1_1     18.055224
sinc1_1     18.305008
intel1_1    21.002502
fun1_1      17.147292
amb1_1      12.827222
shar1_1     12.704194
dtype: float64

In [65]:
#Différence entre les types de notations sur "Qu'est ce que les gens du même sexe que vous cherchent le plus ?"
df_look4_1 = df.loc[(mask_not1), ["attr4_1", "sinc4_1", "intel4_1", "fun4_1","amb4_1", "shar4_1"]]
display(df_look4_1.mean())
df_look4_1 = df.loc[(mask_not2), ["attr4_1", "sinc4_1", "intel4_1", "fun4_1","amb4_1", "shar4_1"]]
display(df_look4_1.mean())

attr4_1     31.999797
sinc4_1     12.347121
intel4_1    14.455799
fun4_1      17.931062
amb4_1      10.842660
shar4_1     12.323829
dtype: float64

attr4_1     26.394360
sinc4_1     11.071506
intel4_1    12.636308
fun4_1      15.566805
amb4_1       9.780089
shar4_1     11.014845
dtype: float64

In [66]:
#Différence entre les types de notations sur "Que recherche le sexe opposé dans un date ?"
df_look2_1 = df.loc[(mask_not1), ["attr2_1", "sinc2_1", "intel2_1", "fun2_1","amb2_1", "shar2_1"]]
display(df_look2_1.mean())
df_look2_1 = df.loc[(mask_not2), ["attr2_1", "sinc2_1", "intel2_1", "fun2_1","amb2_1", "shar2_1"]]
display(df_look2_1.mean())


attr2_1     32.913230
sinc2_1     12.595966
intel2_1    14.092109
fun2_1      18.349748
amb2_1      11.024510
shar2_1     11.113339
dtype: float64

attr2_1     30.362192
sinc2_1     13.273691
intel2_1    14.416891
fun2_1      18.422620
amb2_1      11.744499
shar2_1     11.854817
dtype: float64

In [67]:
# "Comment vous vous mesureriez ?"
df_look3_1 = df.loc[:, ["attr3_1", "sinc3_1", "intel3_1", "fun3_1","amb3_1"]]
# "Quelles perceptions les autres ont de vous ?"
df_look5_1 = df.loc[:, ["attr5_1", "sinc5_1", "intel5_1", "fun5_1","amb5_1"]]
display(df_look3_1.mean())
display(df_look5_1.mean())

attr3_1     7.084733
sinc3_1     8.294935
intel3_1    8.403965
fun3_1      7.704460
amb3_1      7.578388
dtype: float64

attr5_1     6.941908
sinc5_1     7.927232
intel5_1    8.284346
fun5_1      7.426213
amb5_1      7.617611
dtype: float64

In [68]:
fig = px.box(df_look1_1 ,title="Ce que vous cherchez dans le sexe opposé")
fig.show()
fig = px.box(df_look4_1, title="Ce que recherche les semblables dans le sexe opposé")
fig.show()
fig = px.box(df_look2_1, title="Ce que le sexe opposé recherche dans un date")
fig.show()

* On peut remarquer sur le premier graphique, ce que les femmes recherchent le plus chez l'autre est l'intelligence.
* Cependant, à la question "que recherche vos semblables chez le sexe opposé", la caractéristique qui ressort le plus est l'attractivité. 
* Et c'est la même caractéristique qui ressort à la question "que recherche le sexe opposé dans un date"

In [69]:
fig = px.box(df_look3_1, title="Auto évaluation")
fig.show()
fig = px.box(df_look5_1, title="Comment pensez vous que les autres vous perçoivent ?")
fig.show()

* On peut voir avec ces deux graphiques que les valeurs ont à peu près les mêmes valeurs (les médians sont les mêmes) entre l'auto évaluation et "comment pensez vous que les autres vous perçoivent ?".
* Cependant le Q1 sera plus bas pour la sincérité et le fun dans la perception des autres.

In [70]:
fig = go.Figure()

fig.add_trace(
    go.Box(x=df["match"], y=df["int_corr"]))

fig.add_trace(
    go.Box(x=df["match"], y=df["age"],
        visible = False))

fig.update_layout(
        title = go.layout.Title(text = "Exploring different variables", x = 0.5),
        xaxis = go.layout.XAxis(title = 'Matches'),
        showlegend = False)

fig.update_layout(
    updatemenus = [go.layout.Updatemenu(
        active = 0,
        buttons = [
                    go.layout.updatemenu.Button(
                        label = "Interest notation",
                        method = "update",
                        args = [{"visible" : [True, False]}]),
                    go.layout.updatemenu.Button(
                            label = "Age",
                            method = "update",
                            args = [{"visible" : [False, True]}]),
                ]
    )]
)



## Trace Interest notation : 
* On voit que la corrélation entre les notations d'intérêts entre les participants dans le Time 1 n'ont pas d'impact évident sur le match
## Trace Age :
* On voit que l'age n'a aucun impact significatif sur le match
* NB : L'age médian est de 26 donc il y a un gap d'age dans la box de 16 ans.