In [92]:
import pandas as pd
import numpy
import os
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go

df = pd.read_csv('./data/Speed+Dating+Data.csv',low_memory=False,encoding='cp1252')
display(df.head())
display(df.shape)
display(df.columns)
display(df[['age','gender','match']].describe())

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3
0,1,1.0,0,1,1,1,10,7,,4,...,5.0,7.0,7.0,7.0,7.0,,,,,
1,1,1.0,0,1,1,1,10,7,,3,...,5.0,7.0,7.0,7.0,7.0,,,,,
2,1,1.0,0,1,1,1,10,7,,10,...,5.0,7.0,7.0,7.0,7.0,,,,,
3,1,1.0,0,1,1,1,10,7,,5,...,5.0,7.0,7.0,7.0,7.0,,,,,
4,1,1.0,0,1,1,1,10,7,,7,...,5.0,7.0,7.0,7.0,7.0,,,,,


(8378, 195)

Index(['iid', 'id', 'gender', 'idg', 'condtn', 'wave', 'round', 'position',
       'positin1', 'order',
       ...
       'attr3_3', 'sinc3_3', 'intel3_3', 'fun3_3', 'amb3_3', 'attr5_3',
       'sinc5_3', 'intel5_3', 'fun5_3', 'amb5_3'],
      dtype='object', length=195)

Unnamed: 0,age,gender,match
count,8283.0,8378.0,8378.0
mean,26.358928,0.500597,0.164717
std,3.566763,0.500029,0.370947
min,18.0,0.0,0.0
25%,24.0,0.0,0.0
50%,26.0,1.0,0.0
75%,28.0,1.0,0.0
max,55.0,1.0,1.0


# Remarques sur les données et data cleaning

1. Il y a une différence de notation entre les groupes sur les batchs 6 à 9 (notation de 1 à 10 au lieu de 100 points à distribuer)
2. Il y a un manque important de données principalement sur le remplissage des forulaires notamment après le speed dating 


Pour que les données restent cohérentes dans l'analyse qui va suivre je vais filtrer les données pour exclure les wave 6 à 9


In [93]:
print(f'Nombre de valeurs vides : \n{df.isna().sum().sort_values(ascending=False).head(10)}')
print(f"{len(df.columns[df.isna().sum() > 1000])} colonnes ont plus de 1000 valeurs manquantes")
print(f"{len(df.columns[df.isna().sum() > 2000])} colonnes ont plus de 2000 valeurs manquantes")
print(f"{len(df.columns[df.isna().sum() > 3000])} colonnes ont plus de 3000 valeurs manquantes")
print(f"{len(df.columns[df.isna().sum() > 4000])} colonnes ont plus de 4000 valeurs manquantes")

list_to_delete = df.columns[df.isna().sum() > 4000].to_list()

filterd_df = df[~df['wave'].isin([6,7,8,9])]
filterd_df = filterd_df.drop(list_to_delete,axis=1)
print(f"shape après le filtrage : {filterd_df.shape}")


Nombre de valeurs vides : 
num_in_3    7710
numdat_3    6882
expnum      6578
sinc7_2     6423
amb7_2      6423
shar7_2     6404
attr7_2     6394
fun7_2      6394
intel7_2    6394
fun5_3      6362
dtype: int64
94 colonnes ont plus de 1000 valeurs manquantes
83 colonnes ont plus de 2000 valeurs manquantes
71 colonnes ont plus de 3000 valeurs manquantes
65 colonnes ont plus de 4000 valeurs manquantes
shape après le filtrage : (6816, 130)



### Variables clés (extrait du Data Key)

- **match** (1/0) : match réciproque (deux "Yes").  
- **dec** / **dec_o** : décision du participant / du partenaire ce soir-là (1=Yes, 0=No).  
- **attr, sinc, intel, fun, amb, shar** : notes attribuées au partenaire lors du *date* (1–10).  
- **attr_o, ...** : notes que **le partenaire** vous attribue.  
- **pf_o_att** : préférences déclarées du partenaire (vagues/échelles différentes selon *wave*).  
- **samerace** : 1 si même origine ethnique, 0 sinon.  
- **age, age_o** : âge du participant / du partenaire.  
- **gender** : 0 = Femme, 1 = Homme.  
- **order** : numéro du rendez-vous dans la soirée.  
- **attr3_1, ..., amb3_1** : **auto-évaluations** (Time 1).  
- **attr1_1, ..., shar1_1** : **importance déclarée** des attributs (Time 1).


On se concentre sur TIME 1 car variabilité trop importante après



In [94]:
print("Distribution de gender")
fig = px.bar(filterd_df['gender'].value_counts().reset_index().replace(1,'Hommes').replace(0,'Femmes'),x='gender',y='count',title='Distribution gender')
fig.show()

Distribution de gender


In [95]:
distrib_metier = px.bar(filterd_df['career'].value_counts()[:40].reset_index(),x='career',y='count',title='Distribution career (40 premiers)')
distrib_metier.show()

# Distribution de l'étnie des participants

In [96]:
race = filterd_df['race'].value_counts().reset_index().sort_values(by='count',ascending=False)
print(race)
# affectation manuel de la concordance pour plus de clareté. attention si les données changent il faut changer ici
race['str_race'] = ['Caucasian','Asian/Pacific','Latino','Other','African American']
print(race)
distrib_wave = px.bar(race,x='str_race',y='count', title='Distribution sur etnies')
distrib_wave.show()

   race  count
0   2.0   3786
1   4.0   1649
2   3.0    569
3   6.0    446
4   1.0    308
   race  count          str_race
0   2.0   3786         Caucasian
1   4.0   1649     Asian/Pacific
2   3.0    569            Latino
3   6.0    446             Other
4   1.0    308  African American


### Analyse des niveaux de revenus

In [97]:
incomes = df['income'].str.removesuffix('.00').str.replace(',','')
incomes = incomes.dropna()
print(f"La moyenne des revenus estimés est : {round(incomes.astype(float).mean(),2)} $")
print(f"La médiane des revenus estimés est : {round(incomes.astype(float).median(),2)} $")
incomes

La moyenne des revenus estimés est : 44887.61 $
La médiane des revenus estimés est : 43185.0 $


0       69487
1       69487
2       69487
3       69487
4       69487
        ...  
8351    55138
8352    55138
8353    55138
8354    55138
8355    55138
Name: income, Length: 4279, dtype: object

## Qui dit oui pour un second RDV le plus souvent ?

In [98]:
male = filterd_df[filterd_df['gender']==1]
female = filterd_df[filterd_df['gender']==0]

print(f"Les hommes ont dit {round((male['dec'] == 1).sum()/male['dec'].count()*100,2)} % oui à un second RDV")
print(f"Les femmes ont dit {round((female['dec'] == 1).sum()/female['dec'].count()*100,2)} % oui à un second RDV")
print(f"% de match : {round((df['match'] == 1).sum()/df['match'].count()*100,2)} %")

Les hommes ont dit 45.53 % oui à un second RDV
Les femmes ont dit 37.88 % oui à un second RDV
% de match : 16.47 %


## Quel est l'attribut le moins désirable

In [99]:
female_attributes = female[['attr1_1','sinc1_1','intel1_1','fun1_1','amb1_1','shar1_1']]
moyenne_femme = female_attributes.mean().sort_values(ascending=True)

male_attributes = male[['attr1_1','sinc1_1','intel1_1','fun1_1','amb1_1','shar1_1']]
moyenne_male = male_attributes.mean().sort_values(ascending=True)

attr_men = pd.DataFrame(moyenne_male,columns=['moyenne']).reset_index()
attr_women = pd.DataFrame(moyenne_femme,columns=['moyenne']).reset_index()

fig_men = px.bar(attr_men,x='index',y="moyenne")
fig_women = px.bar(attr_women,x='index',y="moyenne")

fig_attr = make_subplots(rows=1,cols=2,subplot_titles=('hommes','femmes'))
fig_attr.add_trace(fig_men.data[0],row=1,col=1)
fig_attr.add_trace(fig_women.data[0],row=1,col=2)
fig_attr.update_layout(title_text="Moyenne des notes par genre")
fig_attr.show()

Pour les femmes et les hommes la qualité la moins désirable est l'ambition

L'Attirance physique est en 1ère position chez les hommes alors qu'en 2ème chez les femmes.

Qu'en est il de la réalité ? 

On cherche donc à trouver la moyenne des notes quand la ou le participant à dit oui

In [100]:
note_attribue_female_to_male = female[['attr','sinc','intel','fun','amb','shar','dec']]
note_attribue_male_to_female = male[['attr','sinc','intel','fun','amb','shar','dec']]

reel_impact_femmes = note_attribue_female_to_male[note_attribue_female_to_male['dec'] == 1].mean().sort_values(ascending=False)
reel_impact_femmes = pd.DataFrame(reel_impact_femmes.reset_index(name=('moyenne')))
fig_women_impact = px.bar(reel_impact_femmes,x='index',y="moyenne")

reel_impact_hommes = note_attribue_male_to_female[note_attribue_male_to_female['dec'] == 1].mean().sort_values(ascending=False)
reel_impact_hommes = pd.DataFrame(reel_impact_hommes.reset_index(name=('moyenne')))
fig_men_impact = px.bar(reel_impact_hommes,x='index',y="moyenne")

fig_impact = make_subplots(rows=1,cols=2,subplot_titles=('hommes','femmes'))
fig_impact.add_trace(fig_men_impact.data[0],row=1,col=1)
fig_impact.add_trace(fig_women_impact.data[0],row=1,col=2)
fig_impact.update_layout(title_text="Moyenne des notes par genre et ayant dit oui à un second rdv")
fig_impact.show()


L'attirance arrive en 5eme position quand les femmes ont dit oui à un seccond rdv

L'attirance arrive en 3eme position quand les hommes ont dit oui à un seccond rdv

### Y a t'il une corrélation entre le match et si les deux participants sont de la même etnie ?

In [None]:
print(filterd_df[['shar','samerace','dec']].corr()['dec'])

print("\nTaux de second rdv par même origine :")
print(filterd_df.groupby('samerace')['dec'].mean())

filterd_df['shar_supp_5'] = (filterd_df['shar'] >= 6).astype(int)

print("\nTaux de second rdv par intérêts partagés (>=6) :")
print(filterd_df.groupby('shar_supp_5')['dec'].mean())


shar        0.410090
samerace    0.025921
dec         1.000000
Name: dec, dtype: float64

Taux de yes par même origine :
samerace
0    0.406882
1    0.433083
Name: dec, dtype: float64

Taux de yes par intérêts partagés (>=6) :
shar_supp_5
0    0.272491
1    0.604377
Name: dec, dtype: float64


## L'origine n'a pas l'air d'avoir plus d'importance que le fait de partager les mêmes intérets

# Est ce que les gens percoivent correctement leur propre valeur ?

In [141]:
evaluation = ['attr3_1', 'sinc3_1', 'intel3_1', 'fun3_1', 'amb3_1',"attr_o", "sinc_o", "intel_o", "fun_o", "amb_o"]
# auto_eval = ['attr3_1', 'sinc3_1', 'intel3_1', 'fun3_1', 'amb3_1']
# eval_by_others = ["attr_o", "sinc_o", "intel_o", "fun_o", "amb_o"]

corr_eval = filterd_df[evaluation].corr('pearson')
print(corr_eval)
corr_df_fig = px.imshow(corr_eval, text_auto=True,
    color_continuous_scale="RdBu_r",
    title="Matrice de corrélation (Pearson)",
    zmin=-1, zmax=1)
corr_df_fig.show()

           attr3_1   sinc3_1  intel3_1    fun3_1    amb3_1    attr_o  \
attr3_1   1.000000  0.146111  0.340155  0.428987  0.288426  0.166647   
sinc3_1   0.146111  1.000000  0.217721  0.154494  0.142282 -0.015257   
intel3_1  0.340155  0.217721  1.000000  0.236325  0.331515 -0.063944   
fun3_1    0.428987  0.154494  0.236325  1.000000  0.362344  0.109623   
amb3_1    0.288426  0.142282  0.331515  0.362344  1.000000  0.036311   
attr_o    0.166647 -0.015257 -0.063944  0.109623  0.036311  1.000000   
sinc_o   -0.017336 -0.014434 -0.038025  0.022800 -0.023007  0.406243   
intel_o  -0.014007 -0.045467  0.014948 -0.012312 -0.030396  0.396611   
fun_o     0.061942 -0.046023 -0.037019  0.141601  0.016655  0.583165   
amb_o     0.027602 -0.058344  0.034594  0.030094  0.036803  0.356114   

            sinc_o   intel_o     fun_o     amb_o  
attr3_1  -0.017336 -0.014007  0.061942  0.027602  
sinc3_1  -0.014434 -0.045467 -0.046023 -0.058344  
intel3_1 -0.038025  0.014948 -0.037019  0.034594  
fun

Il n'y a pas de correlation entre la valeur autoévalué des participants et le valeur perçues par le partenaire lors du RDV.

In [149]:
taux_oui_par_ordre = filterd_df.groupby('order')[['dec','dec_o','match']].mean()
print(taux_oui_par_ordre)
fig_taux_oui_ordre = px.line(taux_oui_par_ordre.reset_index(), x="order",y=['dec','dec_o','match'])
fig_taux_oui_ordre.show()


            dec     dec_o     match
order                              
1      0.496659  0.485523  0.229399
2      0.391982  0.396437  0.155902
3      0.423163  0.407572  0.171492
4      0.440980  0.438753  0.180401
5      0.414254  0.438753  0.167038
6      0.445434  0.434298  0.173719
7      0.421801  0.409953  0.172986
8      0.415865  0.420673  0.165865
9      0.443902  0.456098  0.202439
10     0.439791  0.426702  0.183246
11     0.416667  0.380000  0.156667
12     0.376667  0.426667  0.133333
13     0.386667  0.406667  0.143333
14     0.416667  0.443333  0.153333
15     0.377863  0.389313  0.122137
16     0.357759  0.336207  0.099138
17     0.361502  0.352113  0.098592
18     0.403756  0.380282  0.169014
19     0.442029  0.405797  0.152174
20     0.365385  0.375000  0.192308
21     0.337209  0.337209  0.069767
22     0.386364  0.386364  0.227273


In [142]:
# mean_attract_features_before_dating = ['attr1_1','sinc1_1','intel1_1','fun1_1','amb1_1','shar1_1']
# print('Moyenne femmes et hommes confondus avant dating : ')
# # print(df[mean_attract_features_before_dating].set_axis(["Attirant", "Sincère", "Intelligent", "Drole", "Ambitieux","Interets commun"],axis='columns').mean())
# print(filterd_df[mean_attract_features_before_dating].mean())
# print('-------')

# ## avec filtre gender
# df_homme_b_dating = filterd_df[(df['gender']==1) & (filterd_df['wave'] != 6) & (filterd_df['wave'] != 7) & (filterd_df['wave'] != 8) & (filterd_df['wave'] != 9)]
# df_femme_b_dating = filterd_df[(df['gender']==0) & (filterd_df['wave'] != 6) & (filterd_df['wave'] != 7) & (filterd_df['wave'] != 8) & (filterd_df['wave'] != 9)]

# df_homme_b_dating = df_homme_b_dating[mean_attract_features_before_dating]
# df_femme_b_dating = df_femme_b_dating[mean_attract_features_before_dating].set_axis(["Attirante", "Sincère", "Intelligente", "Drole", "Ambitieuse","Interets commun"],axis='columns')
# df_femme_b_dating = df_femme_b_dating[mean_attract_features_before_dating]


# print("Score critères important pour les femmes avant speed dating :")
# print(df_femme_b_dating.mean())
# print('-------')
# print("Score critères important pour les hommes avant speed dating :")
# print(df_homme_b_dating.mean())

In [None]:
# mean_attract_features = ['attr7_2','sinc7_2','intel7_2','fun7_2','amb7_2','shar7_2']
# print('Moyenne femmes et hommes confondus : ')
# print(df[mean_attract_features].mean())
# # print(df[mean_attract_features].set_axis(["Attirant", "Sincère", "Intelligent", "Drole", "Ambitieux","Interets commun"],axis='columns').mean())
# print('-------')

# ## avec filtre gender
# df_homme = df[(df['gender']==1) & (df['wave'] != 6) & (df['wave'] != 7) & (df['wave'] != 8) & (df['wave'] != 9)]
# df_femme = df[(df['gender']==0) & (df['wave'] != 6) & (df['wave'] != 7) & (df['wave'] != 8) & (df['wave'] != 9)]

# # df_homme = df_homme[mean_attract_features].set_axis(["Attirant", "Sincère", "Intelligent", "Drole", "Ambitieux","partage_interet"],axis='columns')
# df_homme = df_homme[mean_attract_features]
# # df_femme = df_femme[mean_attract_features].set_axis(["Attirante", "Sincère", "Intelligente", "Drole", "Ambitieuse","partage_interet"],axis='columns')
# df_femme = df_femme[mean_attract_features]

# print("Score critères important pour les femmes après speed dating :")
# print(df_femme.mean())
# print('-------')
# print("Score critères important pour les hommes après speed dating :")
# print(df_homme.mean())


Moyenne femmes et hommes confondus : 
attr7_2     32.819556
sinc7_2     13.529923
intel7_2    15.293851
fun7_2      18.868448
amb7_2       7.286957
shar7_2     12.156028
dtype: float64
-------
Score critères important pour les femmes après speed dating :
attr7_2     28.630964
sinc7_2     15.263889
intel7_2    15.580331
fun7_2      18.426485
amb7_2       8.132937
shar7_2     13.779942
dtype: float64
-------
Score critères important pour les hommes après speed dating :
attr7_2     37.314525
sinc7_2     11.684266
intel7_2    14.986416
fun7_2      19.342738
amb7_2       6.386484
shar7_2     10.394931
dtype: float64
