In [1]:
# Packages

import pandas as pd
import numpy as np
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns

# Variables Globales

WIDTH = 1024
HEIGHT = 800
SWIDTH = 800
SHEIGHT = 600
FEMALE = '#ec4899'
MALE = '#646ffb'

In [2]:
# Chargement du fichier CSV

df = pd.read_csv("Speed_Dating_Data.csv", encoding='ISO-8859-1')

In [3]:
# Description du dataframe df

df.describe()

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3
count,8378.0,8377.0,8378.0,8378.0,8378.0,8378.0,8378.0,8378.0,6532.0,8378.0,...,3974.0,3974.0,3974.0,3974.0,3974.0,2016.0,2016.0,2016.0,2016.0,2016.0
mean,283.675937,8.960248,0.500597,17.327166,1.828837,11.350919,16.872046,9.042731,9.295775,8.927668,...,7.240312,8.093357,8.388777,7.658782,7.391545,6.81002,7.615079,7.93254,7.155258,7.048611
std,158.583367,5.491329,0.500029,10.940735,0.376673,5.995903,4.358458,5.514939,5.650199,5.477009,...,1.576596,1.610309,1.459094,1.74467,1.961417,1.507341,1.504551,1.340868,1.672787,1.717988
min,1.0,1.0,0.0,1.0,1.0,1.0,5.0,1.0,1.0,1.0,...,2.0,2.0,3.0,2.0,1.0,2.0,2.0,4.0,1.0,1.0
25%,154.0,4.0,0.0,8.0,2.0,7.0,14.0,4.0,4.0,4.0,...,7.0,7.0,8.0,7.0,6.0,6.0,7.0,7.0,6.0,6.0
50%,281.0,8.0,1.0,16.0,2.0,11.0,18.0,8.0,9.0,8.0,...,7.0,8.0,8.0,8.0,8.0,7.0,8.0,8.0,7.0,7.0
75%,407.0,13.0,1.0,26.0,2.0,15.0,20.0,13.0,14.0,13.0,...,8.0,9.0,9.0,9.0,9.0,8.0,9.0,9.0,8.0,8.0
max,552.0,22.0,1.0,44.0,2.0,21.0,22.0,22.0,22.0,22.0,...,12.0,12.0,12.0,12.0,12.0,10.0,10.0,10.0,10.0,10.0


In [3]:
# Nombre de lignes et de colonnes
print(f"(nombre de Lignes, nombre de Colonnes) : {df.shape}")

(nombre de Lignes, nombre de Colonnes) : (8378, 195)


In [4]:
# Calcul du pourcentage de valeurs manquantes par colonne

pourcentage_manquant = df.isnull().mean() * 100

# Affichage des résultats

print("Pourcentage de valeurs manquantes par colonne :")
print(pourcentage_manquant)

# Pourcentage total de valeurs manquantes dans tout le DataFrame
pourcentage_total_manquant = df.isnull().mean().mean() * 100
print(f"\nPourcentage total de valeurs manquantes dans le DataFrame : {pourcentage_total_manquant:.2f}%")


Pourcentage de valeurs manquantes par colonne :
iid          0.000000
id           0.011936
gender       0.000000
idg          0.000000
condtn       0.000000
              ...    
attr5_3     75.936978
sinc5_3     75.936978
intel5_3    75.936978
fun5_3      75.936978
amb5_3      75.936978
Length: 195, dtype: float64

Pourcentage total de valeurs manquantes dans le DataFrame : 26.44%


In [5]:
import pandas as pd

# Calcul du nombre de colonnes avec des valeurs manquantes
nombre_colonnes_manquantes = df.isnull().any().sum()

# Affichage du résultat
print(f"Nombre de colonnes avec des valeurs manquantes : {nombre_colonnes_manquantes} soit {round((nombre_colonnes_manquantes / df.shape[1]) * 100, 2)}% au total")


Nombre de colonnes avec des valeurs manquantes : 182 soit 93.33% au total


In [7]:
#Librairy Skimpy donne un aperçu plus complet que Describe
from skimpy import skim
skim(df)

In [3]:
# La librairie Summary tools donne un aperçu d'une façon différente
#from summarytools import dfSummary
#dfSummary(df)

In [6]:
df['age'] = df['age'].fillna(df['age'].median())
df['field'] = df['field'].fillna('Non spécifié')

In [11]:
# Vérifier les colonnes nécessaires
if 'age' in df.columns and 'gender' in df.columns:

    # Créer une version catégorielle du genre pour l'affichage
    df['gender_label'] = df['gender'].map({0: 'FEMALE', 1: 'MALE'})

    # Histogramme interactif avec Plotly Express
    fig = px.histogram(df,
                       x='age',
                       color='gender_label',
                       nbins=20,
                       title="Distribution de l'âge selon le sexe",
                       labels={'age': 'Âge', 'gender_label': 'Sexe'},
                       category_orders={'gender_label': ['Femme', 'Homme']},
                       opacity=0.8,
                       color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})  # Spécifier les couleurs ici

    fig.update_layout(barmode='overlay')
    fig.show()
else:
    print("Les colonnes 'age' et/ou 'gender' sont manquantes dans le dataset.")


In [12]:
# Création d'un score global d'attractivité
trait_cols = ['attr1_1', 'sinc1_1', 'intel1_1', 'fun1_1', 'amb1_1']
df['total_attraction_score'] = df[trait_cols].sum(axis=1)
#Taux de match par participant
df['match_ratio'] = df.groupby('iid')['match'].transform(lambda x: x.mean())

In [10]:
df

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3,gender_label,total_attraction_score,match_ratio
0,1,1.0,0,1,1,1,10,7,,4,...,7.0,7.0,,,,,,Femme,85.0,0.400000
1,1,1.0,0,1,1,1,10,7,,3,...,7.0,7.0,,,,,,Femme,85.0,0.400000
2,1,1.0,0,1,1,1,10,7,,10,...,7.0,7.0,,,,,,Femme,85.0,0.400000
3,1,1.0,0,1,1,1,10,7,,5,...,7.0,7.0,,,,,,Femme,85.0,0.400000
4,1,1.0,0,1,1,1,10,7,,7,...,7.0,7.0,,,,,,Femme,85.0,0.400000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8373,552,22.0,1,44,2,21,22,14,10.0,5,...,6.0,7.0,9.0,5.0,9.0,5.0,6.0,Homme,100.0,0.272727
8374,552,22.0,1,44,2,21,22,13,10.0,4,...,6.0,7.0,9.0,5.0,9.0,5.0,6.0,Homme,100.0,0.272727
8375,552,22.0,1,44,2,21,22,19,10.0,10,...,6.0,7.0,9.0,5.0,9.0,5.0,6.0,Homme,100.0,0.272727
8376,552,22.0,1,44,2,21,22,3,10.0,16,...,6.0,7.0,9.0,5.0,9.0,5.0,6.0,Homme,100.0,0.272727


In [13]:
age_match = df.groupby('age')['match'].mean().reset_index()
fig = px.line(age_match, x='age', y='match', title="Taux de match par âge")
fig.show()

In [15]:
# Dans la distribution il n'y a plus d'homme au delà de 42, on exclut aussi les femmes au-delà de cette âge
# Vérifier que les colonnes nécessaires sont présentes
if 'age' in df.columns and 'gender' in df.columns and 'match' in df.columns:
    # Filtrer jusqu'à 42 ans inclus
    df_filtered = df[df['age'] <= 36]

    # Calculer le taux de match par âge et par sexe
    age_gender_match = df_filtered.groupby(['age', 'gender'])['match'].mean().reset_index()

    # Renommer pour plus de lisibilité dans la légende
    age_gender_match['gender_label'] = age_gender_match['gender'].map({0: 'FEMALE', 1: 'MALE'})

    # Graphique interactif avec Plotly
    fig = px.line(
        age_gender_match,
        x='age',
        y='match',
        color='gender_label',
        title="Taux de match par âge et par sexe (jusqu'à 42 ans)",
        labels={'match': 'Taux de match moyen', 'age': 'Âge', 'gender_label': 'Sexe'},
        range_x=[age_gender_match['age'].min(), 36],
        color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE}  # Spécifier les couleurs ici
    )

    fig.update_layout(
        legend_title_text='Sexe',
        xaxis_title='Âge',
        yaxis_title='Taux de match'
    )

    fig.show()
else:
    print("Les colonnes nécessaires ('age', 'gender', 'match') ne sont pas toutes présentes.")


In [16]:
nouveaux_labels_o = ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt communs "]

In [17]:
df['career'] = df['career'].str.lower()
df[['gender']] = df[['gender']].astype(str)

In [18]:
# Modification des valeurs en utilisant .loc
df.loc[df['gender'] == '0', 'gender'] = 'FEMALE'
df.loc[df['gender'] == '1', 'gender'] = 'MALE'

In [19]:
#Display all the columns
pd.options.display.max_columns = None
df

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,partner,pid,match,int_corr,samerace,age_o,race_o,pf_o_att,pf_o_sin,pf_o_int,pf_o_fun,pf_o_amb,pf_o_sha,dec_o,attr_o,sinc_o,intel_o,fun_o,amb_o,shar_o,like_o,prob_o,met_o,age,field,field_cd,undergra,mn_sat,tuition,race,imprace,imprelig,from,zipcode,income,goal,date,go_out,career,career_c,sports,tvsports,exercise,dining,museums,art,hiking,gaming,clubbing,reading,tv,theater,movies,concerts,music,shopping,yoga,exphappy,expnum,attr1_1,sinc1_1,intel1_1,fun1_1,amb1_1,shar1_1,attr4_1,sinc4_1,intel4_1,fun4_1,amb4_1,shar4_1,attr2_1,sinc2_1,intel2_1,fun2_1,amb2_1,shar2_1,attr3_1,sinc3_1,fun3_1,intel3_1,amb3_1,attr5_1,sinc5_1,intel5_1,fun5_1,amb5_1,dec,attr,sinc,intel,fun,amb,shar,like,prob,met,match_es,attr1_s,sinc1_s,intel1_s,fun1_s,amb1_s,shar1_s,attr3_s,sinc3_s,intel3_s,fun3_s,amb3_s,satis_2,length,numdat_2,attr7_2,sinc7_2,intel7_2,fun7_2,amb7_2,shar7_2,attr1_2,sinc1_2,intel1_2,fun1_2,amb1_2,shar1_2,attr4_2,sinc4_2,intel4_2,fun4_2,amb4_2,shar4_2,attr2_2,sinc2_2,intel2_2,fun2_2,amb2_2,shar2_2,attr3_2,sinc3_2,intel3_2,fun3_2,amb3_2,attr5_2,sinc5_2,intel5_2,fun5_2,amb5_2,you_call,them_cal,date_3,numdat_3,num_in_3,attr1_3,sinc1_3,intel1_3,fun1_3,amb1_3,shar1_3,attr7_3,sinc7_3,intel7_3,fun7_3,amb7_3,shar7_3,attr4_3,sinc4_3,intel4_3,fun4_3,amb4_3,shar4_3,attr2_3,sinc2_3,intel2_3,fun2_3,amb2_3,shar2_3,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3,gender_label,total_attraction_score,match_ratio
0,1,1.0,FEMALE,1,1,1,10,7,,4,1,11.0,0,0.14,0,27.0,2.0,35.0,20.0,20.0,20.0,0.0,5.0,0,6.0,8.0,8.0,8.0,8.0,6.0,7.0,4.0,2.0,21.0,Law,1.0,,,,4.0,2.0,4.0,Chicago,60521,69487.00,2.0,7.0,1.0,lawyer,,9.0,2.0,8.0,9.0,1.0,1.0,5.0,1.0,5.0,6.0,9.0,1.0,10.0,10.0,9.0,8.0,1.0,3.0,2.0,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,35.0,20.0,15.0,20.0,5.0,5.0,6.0,8.0,8.0,8.0,7.0,,,,,,1,6.0,9.0,7.0,7.0,6.0,5.0,7.0,6.0,2.0,4.0,,,,,,,,,,,,6.0,2.0,1.0,,,,,,,19.44,16.67,13.89,22.22,11.11,16.67,,,,,,,,,,,,,6.0,7.0,8.0,7.0,6.0,,,,,,1.0,1.0,0.0,,,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,,,,,,,,,,,,,5.0,7.0,7.0,7.0,7.0,,,,,,FEMALE,85.0,0.400000
1,1,1.0,FEMALE,1,1,1,10,7,,3,2,12.0,0,0.54,0,22.0,2.0,60.0,0.0,0.0,40.0,0.0,0.0,0,7.0,8.0,10.0,7.0,7.0,5.0,8.0,4.0,2.0,21.0,Law,1.0,,,,4.0,2.0,4.0,Chicago,60521,69487.00,2.0,7.0,1.0,lawyer,,9.0,2.0,8.0,9.0,1.0,1.0,5.0,1.0,5.0,6.0,9.0,1.0,10.0,10.0,9.0,8.0,1.0,3.0,2.0,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,35.0,20.0,15.0,20.0,5.0,5.0,6.0,8.0,8.0,8.0,7.0,,,,,,1,7.0,8.0,7.0,8.0,5.0,6.0,7.0,5.0,1.0,4.0,,,,,,,,,,,,6.0,2.0,1.0,,,,,,,19.44,16.67,13.89,22.22,11.11,16.67,,,,,,,,,,,,,6.0,7.0,8.0,7.0,6.0,,,,,,1.0,1.0,0.0,,,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,,,,,,,,,,,,,5.0,7.0,7.0,7.0,7.0,,,,,,FEMALE,85.0,0.400000
2,1,1.0,FEMALE,1,1,1,10,7,,10,3,13.0,1,0.16,1,22.0,4.0,19.0,18.0,19.0,18.0,14.0,12.0,1,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,1.0,21.0,Law,1.0,,,,4.0,2.0,4.0,Chicago,60521,69487.00,2.0,7.0,1.0,lawyer,,9.0,2.0,8.0,9.0,1.0,1.0,5.0,1.0,5.0,6.0,9.0,1.0,10.0,10.0,9.0,8.0,1.0,3.0,2.0,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,35.0,20.0,15.0,20.0,5.0,5.0,6.0,8.0,8.0,8.0,7.0,,,,,,1,5.0,8.0,9.0,8.0,5.0,7.0,7.0,,1.0,4.0,,,,,,,,,,,,6.0,2.0,1.0,,,,,,,19.44,16.67,13.89,22.22,11.11,16.67,,,,,,,,,,,,,6.0,7.0,8.0,7.0,6.0,,,,,,1.0,1.0,0.0,,,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,,,,,,,,,,,,,5.0,7.0,7.0,7.0,7.0,,,,,,FEMALE,85.0,0.400000
3,1,1.0,FEMALE,1,1,1,10,7,,5,4,14.0,1,0.61,0,23.0,2.0,30.0,5.0,15.0,40.0,5.0,5.0,1,7.0,8.0,9.0,8.0,9.0,8.0,7.0,7.0,2.0,21.0,Law,1.0,,,,4.0,2.0,4.0,Chicago,60521,69487.00,2.0,7.0,1.0,lawyer,,9.0,2.0,8.0,9.0,1.0,1.0,5.0,1.0,5.0,6.0,9.0,1.0,10.0,10.0,9.0,8.0,1.0,3.0,2.0,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,35.0,20.0,15.0,20.0,5.0,5.0,6.0,8.0,8.0,8.0,7.0,,,,,,1,7.0,6.0,8.0,7.0,6.0,8.0,7.0,6.0,2.0,4.0,,,,,,,,,,,,6.0,2.0,1.0,,,,,,,19.44,16.67,13.89,22.22,11.11,16.67,,,,,,,,,,,,,6.0,7.0,8.0,7.0,6.0,,,,,,1.0,1.0,0.0,,,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,,,,,,,,,,,,,5.0,7.0,7.0,7.0,7.0,,,,,,FEMALE,85.0,0.400000
4,1,1.0,FEMALE,1,1,1,10,7,,7,5,15.0,1,0.21,0,24.0,3.0,30.0,10.0,20.0,10.0,10.0,20.0,1,8.0,7.0,9.0,6.0,9.0,7.0,8.0,6.0,2.0,21.0,Law,1.0,,,,4.0,2.0,4.0,Chicago,60521,69487.00,2.0,7.0,1.0,lawyer,,9.0,2.0,8.0,9.0,1.0,1.0,5.0,1.0,5.0,6.0,9.0,1.0,10.0,10.0,9.0,8.0,1.0,3.0,2.0,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,35.0,20.0,15.0,20.0,5.0,5.0,6.0,8.0,8.0,8.0,7.0,,,,,,1,5.0,6.0,7.0,7.0,6.0,6.0,6.0,6.0,2.0,4.0,,,,,,,,,,,,6.0,2.0,1.0,,,,,,,19.44,16.67,13.89,22.22,11.11,16.67,,,,,,,,,,,,,6.0,7.0,8.0,7.0,6.0,,,,,,1.0,1.0,0.0,,,15.0,20.0,20.0,15.0,15.0,15.0,,,,,,,,,,,,,,,,,,,5.0,7.0,7.0,7.0,7.0,,,,,,FEMALE,85.0,0.400000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8373,552,22.0,MALE,44,2,21,22,14,10.0,5,18,526.0,0,0.64,0,26.0,3.0,10.0,10.0,30.0,20.0,10.0,15.0,1,10.0,5.0,3.0,2.0,6.0,5.0,6.0,1.0,,25.0,Climate Dynamics,18.0,"Ecole Normale Suprieure, Paris",,,2.0,1.0,1.0,France,78110,,1.0,2.0,1.0,assistant master of the universe (otherwise it...,15.0,8.0,2.0,5.0,10.0,10.0,10.0,7.0,1.0,9.0,8.0,3.0,7.0,9.0,10.0,10.0,7.0,3.0,10.0,,70.0,0.0,15.0,15.0,0.0,0.0,90.0,0.0,0.0,0.0,0.0,10.0,50.0,0.0,0.0,30.0,0.0,20.0,8.0,7.0,6.0,7.0,7.0,9.0,7.0,10.0,5.0,9.0,0,3.0,5.0,5.0,5.0,,,2.0,5.0,0.0,3.0,,,,,,,,,,,,5.0,1.0,2.0,70.0,0.0,15.0,10.0,0.0,5.0,70.00,0.00,15.00,10.00,0.00,5.00,80.0,0.0,5.0,5.0,0.0,10.0,50.0,5.0,10.0,20.0,5.0,10.0,9.0,3.0,7.0,6.0,9.0,9.0,3.0,9.0,4.0,7.0,2.0,0.0,0.0,,1.0,70.0,0.0,20.0,10.0,0.0,0.0,70.0,0.0,20.0,10.0,0.0,0.0,80.0,0.0,10.0,0.0,0.0,10.0,50.0,5.0,10.0,20.0,10.0,5.0,8.0,5.0,7.0,6.0,7.0,9.0,5.0,9.0,5.0,6.0,MALE,100.0,0.272727
8374,552,22.0,MALE,44,2,21,22,13,10.0,4,19,527.0,0,0.71,0,24.0,6.0,50.0,20.0,10.0,5.0,10.0,5.0,0,6.0,3.0,7.0,3.0,7.0,2.0,2.0,2.0,2.0,25.0,Climate Dynamics,18.0,"Ecole Normale Suprieure, Paris",,,2.0,1.0,1.0,France,78110,,1.0,2.0,1.0,assistant master of the universe (otherwise it...,15.0,8.0,2.0,5.0,10.0,10.0,10.0,7.0,1.0,9.0,8.0,3.0,7.0,9.0,10.0,10.0,7.0,3.0,10.0,,70.0,0.0,15.0,15.0,0.0,0.0,90.0,0.0,0.0,0.0,0.0,10.0,50.0,0.0,0.0,30.0,0.0,20.0,8.0,7.0,6.0,7.0,7.0,9.0,7.0,10.0,5.0,9.0,0,4.0,6.0,8.0,4.0,4.0,,4.0,4.0,0.0,3.0,,,,,,,,,,,,5.0,1.0,2.0,70.0,0.0,15.0,10.0,0.0,5.0,70.00,0.00,15.00,10.00,0.00,5.00,80.0,0.0,5.0,5.0,0.0,10.0,50.0,5.0,10.0,20.0,5.0,10.0,9.0,3.0,7.0,6.0,9.0,9.0,3.0,9.0,4.0,7.0,2.0,0.0,0.0,,1.0,70.0,0.0,20.0,10.0,0.0,0.0,70.0,0.0,20.0,10.0,0.0,0.0,80.0,0.0,10.0,0.0,0.0,10.0,50.0,5.0,10.0,20.0,10.0,5.0,8.0,5.0,7.0,6.0,7.0,9.0,5.0,9.0,5.0,6.0,MALE,100.0,0.272727
8375,552,22.0,MALE,44,2,21,22,19,10.0,10,20,528.0,0,-0.46,0,29.0,3.0,40.0,10.0,30.0,10.0,10.0,,0,2.0,1.0,2.0,2.0,2.0,1.0,2.0,1.0,2.0,25.0,Climate Dynamics,18.0,"Ecole Normale Suprieure, Paris",,,2.0,1.0,1.0,France,78110,,1.0,2.0,1.0,assistant master of the universe (otherwise it...,15.0,8.0,2.0,5.0,10.0,10.0,10.0,7.0,1.0,9.0,8.0,3.0,7.0,9.0,10.0,10.0,7.0,3.0,10.0,,70.0,0.0,15.0,15.0,0.0,0.0,90.0,0.0,0.0,0.0,0.0,10.0,50.0,0.0,0.0,30.0,0.0,20.0,8.0,7.0,6.0,7.0,7.0,9.0,7.0,10.0,5.0,9.0,0,4.0,7.0,8.0,8.0,8.0,,6.0,5.0,0.0,3.0,,,,,,,,,,,,5.0,1.0,2.0,70.0,0.0,15.0,10.0,0.0,5.0,70.00,0.00,15.00,10.00,0.00,5.00,80.0,0.0,5.0,5.0,0.0,10.0,50.0,5.0,10.0,20.0,5.0,10.0,9.0,3.0,7.0,6.0,9.0,9.0,3.0,9.0,4.0,7.0,2.0,0.0,0.0,,1.0,70.0,0.0,20.0,10.0,0.0,0.0,70.0,0.0,20.0,10.0,0.0,0.0,80.0,0.0,10.0,0.0,0.0,10.0,50.0,5.0,10.0,20.0,10.0,5.0,8.0,5.0,7.0,6.0,7.0,9.0,5.0,9.0,5.0,6.0,MALE,100.0,0.272727
8376,552,22.0,MALE,44,2,21,22,3,10.0,16,21,529.0,0,0.62,0,22.0,4.0,10.0,25.0,25.0,10.0,10.0,20.0,1,5.0,7.0,5.0,5.0,3.0,6.0,6.0,4.0,2.0,25.0,Climate Dynamics,18.0,"Ecole Normale Suprieure, Paris",,,2.0,1.0,1.0,France,78110,,1.0,2.0,1.0,assistant master of the universe (otherwise it...,15.0,8.0,2.0,5.0,10.0,10.0,10.0,7.0,1.0,9.0,8.0,3.0,7.0,9.0,10.0,10.0,7.0,3.0,10.0,,70.0,0.0,15.0,15.0,0.0,0.0,90.0,0.0,0.0,0.0,0.0,10.0,50.0,0.0,0.0,30.0,0.0,20.0,8.0,7.0,6.0,7.0,7.0,9.0,7.0,10.0,5.0,9.0,0,4.0,6.0,5.0,4.0,,5.0,5.0,5.0,0.0,3.0,,,,,,,,,,,,5.0,1.0,2.0,70.0,0.0,15.0,10.0,0.0,5.0,70.00,0.00,15.00,10.00,0.00,5.00,80.0,0.0,5.0,5.0,0.0,10.0,50.0,5.0,10.0,20.0,5.0,10.0,9.0,3.0,7.0,6.0,9.0,9.0,3.0,9.0,4.0,7.0,2.0,0.0,0.0,,1.0,70.0,0.0,20.0,10.0,0.0,0.0,70.0,0.0,20.0,10.0,0.0,0.0,80.0,0.0,10.0,0.0,0.0,10.0,50.0,5.0,10.0,20.0,10.0,5.0,8.0,5.0,7.0,6.0,7.0,9.0,5.0,9.0,5.0,6.0,MALE,100.0,0.272727


In [20]:
match = df['match'].value_counts().reset_index()

match

Unnamed: 0,match,count
0,0,6998
1,1,1380


In [21]:
import plotly.graph_objects as go
labels = ['No Match', 'Match']
values = [6998 , 1380]
fig = go.Figure(data=[go.Pie(labels=labels, values=values, pull=[0, 0.2], texttemplate='<em>%{label}</em><br> <b>%{percent}</b>', textfont_size=15, textfont_color="yellow")])
fig.update_layout(
    width=SWIDTH,  # Largeur en pixels
    height=SHEIGHT, # Hauteur en pixels,
    legend=dict(
        title='Légende',  # Titre de la légende
        x=1,  # Position horizontale de la légende (1 signifie à droite)
        y=1,  # Position verticale de la légende (1 signifie en haut)
        bgcolor='rgba(255, 255, 255, 0.7)',  # Couleur de fond de la légende
        bordercolor='rgba(0, 0, 0, 0.5)',  # Couleur de la bordure de la légende
        borderwidth=1  # Largeur de la bordure de la légende
    )
)

fig.show()

In [22]:
# Filtrer les métiers exercés par les hommes
male_df = df[df['gender'] == 'MALE']

# Filtrer les métiers exercés par les femmes
female_df = df[df['gender'] == 'FEMALE']

# Compter les occurrences de chaque métier pour les hommes
male_career_counts = male_df['career'].value_counts().reset_index()
male_career_counts.columns = ['career', 'MALE']

# Compter les occurrences de chaque métier pour les femmes
female_career_counts = female_df['career'].value_counts().reset_index()
female_career_counts.columns = ['career', 'FEMALE']

# Fusionner les deux dataframes sur la colonne 'career' (inner join pour les métiers communs)
common_careers_df = pd.merge(male_career_counts, female_career_counts, on='career', how='inner')

# Affichage du dataframe résultant
print("DataFrame des métiers communs avec le nombre d'occurrences par genre :")
common_careers_df

DataFrame des métiers communs avec le nombre d'occurrences par genre :


Unnamed: 0,career,MALE,FEMALE
0,consulting,215,9
1,professor,191,156
2,finance,172,56
3,lawyer,156,102
4,investment banking,123,20
5,law,116,82
6,business,95,62
7,academic,70,67
8,academia,61,21
9,research,58,22


In [23]:
px.bar(
    common_careers_df,
    x='career',
    y=['MALE', 'FEMALE'],
    barmode='group',
    title="Carrière souhaitée selon le Sexe",
    width=WIDTH,
    height=HEIGHT,
    color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE}
)

In [24]:
import pandas as pd

# Nettoyage des lignes potentiellement mal formatées (si nécessaire)
df = df[df['gender'].isin(['MALE', 'FEMALE'])]
df = df[df['career'].astype(str).str.isalpha()]

# Filtrer le DataFrame pour ne garder que les hommes
male_df = df[df['gender'] == 'MALE']

# Filtrer le DataFrame pour ne garder que les femmes
female_df = df[df['gender'] == 'FEMALE']

# Obtenir la liste des métiers féminins uniques
female_unique_careers = female_df['career'].unique()

# Compter les occurrences de chaque métier exercé par les hommes
male_career_counts = male_df['career'].value_counts().reset_index()
male_career_counts.columns = ['career', 'nombre_hommes']

# Filtrer ce DataFrame pour ne garder que les métiers qui ne sont PAS dans la liste des métiers féminins uniques
only_male_careers_df = male_career_counts[~male_career_counts['career'].isin(female_unique_careers)]

# Affichage du DataFrame des métiers exercés uniquement par les hommes avec leur nombre
print("DataFrame des métiers exercés uniquement par les hommes avec le nombre d'hommes :")
print(only_male_careers_df)

DataFrame des métiers exercés uniquement par les hommes avec le nombre d'hommes :
          career  nombre_hommes
6   entrepreneur             73
14          film             33
15        banker             29
17        trader             27
18       science             22
19        doctor             22
21    management             22
23  enterpreneur             21
26          hero             20
28           ceo             20
30   engineering             18
32   millionaire             18
33     marketing             18
34           tba             16
35      politics             15
36       acadeic             15
37  cardiologist             10
38      novelist             10
39       trading             10
41    pediatrics             10
42   entrepeneur             10
43   academician             10
44    healthcare             10
45      diplomat             10
46    naturalist              9
47        energy              6
48      lobbyist              6
49    consultant      

In [25]:
fig_man_career_exclusif = px.bar(only_male_careers_df, x = 'career', y ='nombre_hommes', title="Carrière souhaitée <b>uniquement</b> par les hommes", width=WIDTH, height=HEIGHT)
fig_man_career_exclusif.update_traces(marker_color='#6366f1')
fig_man_career_exclusif.show()

In [26]:
# Filtrer le DataFrame pour ne garder que les hommes
male_df = df[df['gender'] == 'MALE']

# Filtrer le DataFrame pour ne garder que les femmes
female_df = df[df['gender'] == 'FEMALE']

# Obtenir la liste des métiers masculins uniques
male_unique_careers = male_df['career'].unique()

# Compter les occurrences de chaque métier exercé par les femmes
female_career_counts = female_df['career'].value_counts().reset_index()
female_career_counts.columns = ['career', 'nombre_femmes']

# Filtrer ce DataFrame pour ne garder que les métiers qui ne sont PAS dans la liste des métiers masculins uniques
only_female_careers_df = female_career_counts[~female_career_counts['career'].isin(male_unique_careers)]

# Affichage du DataFrame des métiers exercés uniquement par les femmes avec leur nombre
print("DataFrame des métiers exercés uniquement par les femmes avec le nombre de femmes :")
print(only_female_careers_df)

DataFrame des métiers exercés uniquement par les femmes avec le nombre de femmes :
              career  nombre_femmes
2            teacher             95
6            actress             66
8       psychologist             64
9          education             63
15        journalism             40
20          educator             23
21            acting             22
24         dietician             21
25         historian             20
27         filmmaker             19
28   pharmaceuticals             18
29          governor             18
30            artist             18
31      nutritionist             18
32       informatics             16
33     biostatistics             16
34         nonprofit             16
35          planning             15
36           unknown             15
37         economist             10
40        comedienne             10
41         academics             10
44         president              9
45  entrepreneurship              6


In [27]:
fig_women_career_exclusif = px.bar(only_female_careers_df, x = 'career', y ='nombre_femmes', title="Carrière souhaitée <b>uniquement</b> par les femmes", width=WIDTH, height=HEIGHT)
fig_women_career_exclusif.update_traces(marker_color='#ec4899')
fig_women_career_exclusif.show()

In [23]:

# Nettoyage basique
df['career'] = df['career'].str.lower().str.strip()  # Normalisation
df['satis_2'] = pd.to_numeric(df['satis_2'], errors='coerce')

# Filtrer les lignes avec des valeurs valides
df_filtered = df.dropna(subset=['career', 'satis_2'])

# Calculer la satisfaction moyenne par carrière
satisfaction_by_career = df_filtered.groupby('career')['satis_2'].mean().reset_index()

# Trier par satisfaction décroissante
satisfaction_by_career = satisfaction_by_career.sort_values(by='satis_2', ascending=False)

# Afficher un graphique interactif avec Plotly Express
fig = px.bar(
    satisfaction_by_career,
    x='career',
    y='satis_2',
    title="Satisfaction moyenne par carrière après l'événement",
    labels={'career': 'Carrière', 'satis_2': 'Satisfaction moyenne'},
    height=600,
    width=1000
)

fig.update_layout(xaxis_tickangle=-45)
fig.show()

In [28]:
ethnie_m_counts = male_df['imprace'].mean()
ethnie_f_counts = female_df['imprace'].mean()
ethnie_data = {
        "GENDER" : ['MALE', 'FEMALE'],
        "Count" : [ethnie_m_counts, ethnie_f_counts]}


ethnie_df = pd.DataFrame(ethnie_data)

In [29]:
ethnie_df

Unnamed: 0,GENDER,Count
0,MALE,3.280518
1,FEMALE,3.912426


In [30]:
px.bar(ethnie_df, x = "GENDER", y = 'Count', color = 'GENDER', width=SWIDTH, height=SHEIGHT, title="L'importance de l'Ethnie dans le choix du Partenaire", color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})

In [32]:
relig_m_counts = male_df['imprelig'].mean()
relig_f_counts = female_df['imprelig'].mean()
relig_data = {
        "GENDER" : ['MALE', 'FEMALE'],
        "Count" : [relig_m_counts, relig_f_counts]}


relig_df = pd.DataFrame(ethnie_data)

In [33]:
px.bar(relig_df, x = "GENDER", y = 'Count', color = 'GENDER', width=SWIDTH, height=SHEIGHT, title="L'importance de la Religion dans le choix du Partenaire", color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})

In [10]:
column_names = list(df.columns)
column_names

['iid',
 'id',
 'gender',
 'idg',
 'condtn',
 'wave',
 'round',
 'position',
 'positin1',
 'order',
 'partner',
 'pid',
 'match',
 'int_corr',
 'samerace',
 'age_o',
 'race_o',
 'pf_o_att',
 'pf_o_sin',
 'pf_o_int',
 'pf_o_fun',
 'pf_o_amb',
 'pf_o_sha',
 'dec_o',
 'attr_o',
 'sinc_o',
 'intel_o',
 'fun_o',
 'amb_o',
 'shar_o',
 'like_o',
 'prob_o',
 'met_o',
 'age',
 'field',
 'field_cd',
 'undergra',
 'mn_sat',
 'tuition',
 'race',
 'imprace',
 'imprelig',
 'from',
 'zipcode',
 'income',
 'goal',
 'date',
 'go_out',
 'career',
 'career_c',
 'sports',
 'tvsports',
 'exercise',
 'dining',
 'museums',
 'art',
 'hiking',
 'gaming',
 'clubbing',
 'reading',
 'tv',
 'theater',
 'movies',
 'concerts',
 'music',
 'shopping',
 'yoga',
 'exphappy',
 'expnum',
 'attr1_1',
 'sinc1_1',
 'intel1_1',
 'fun1_1',
 'amb1_1',
 'shar1_1',
 'attr4_1',
 'sinc4_1',
 'intel4_1',
 'fun4_1',
 'amb4_1',
 'shar4_1',
 'attr2_1',
 'sinc2_1',
 'intel2_1',
 'fun2_1',
 'amb2_1',
 'shar2_1',
 'attr3_1',
 'sinc3_1',
 

In [34]:
x = ["attr1_1", "sinc1_1", "intel1_1", "fun1_1", "amb1_1", "shar1_1"]

# Définir les nouveaux labels pour l'axe des x

nouveaux_labels_o = ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt communs "]

fig = px.box(df, x,
             color = "gender",
            title= "Critères d'attraction: <b>ce que l'on recherche 🔍 chez l'autre </b> ",
            labels=nouveaux_labels_o,
            width=WIDTH, height=HEIGHT, color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})


# Mettre à jour les labels de l'axe des x
fig.update_layout(
    yaxis=dict(
        tickmode='array',  # Utiliser un tableau personnalisé pour les ticks
        tickvals=x,       # Les valeurs actuelles de l'axe des x
        ticktext=nouveaux_labels_o, # Les nouveaux labels correspondants
        title_text="Critères d'attraction"  # Titre de l'axe X 
    ),
     xaxis=dict(
        title_text="Points"  # Titre de l'axe Y
)
)
fig.show()


ici on remarqe que la Séduction (Attractiveness) vient en premier quelque soit le sexe, ensuite l'intelligence, en 3e la sincérité, en queue de peloton les points communs.

In [35]:
#Before Dating
# mettre .copy() pour éviter l'alerte d'erreur
before_dating = df[['gender', "attr1_1", "sinc1_1", "intel1_1", "fun1_1", "amb1_1", "shar1_1"]].copy()

# renommer les colonnes pour obtenir une courbe avec des légendes adaptées
before_dating.rename(columns={"gender": "Gender", "attr1_1" : "Attractive", "sinc1_1" : "Sincere", "intel1_1" : "Intelligence", "fun1_1" : "Fun", "amb1_1" : "Ambition", "shar1_1": "Shared Interest"}, inplace=True)

#Transformer gender en string avant de faire la moyenne
#before_dating['Gender'] = before_dating['Gender'].apply(lambda x : 'Female' if x == 0 else 'Male')

# Calculer la moyenne par genre
df_mean = before_dating.groupby('Gender').mean().reset_index()

# Transformer en format long (pivot)
df_melted = df_mean.melt(id_vars=['Gender'], var_name='Trait', value_name='Moyenne')
df_melted = df_melted.sort_values(by="Moyenne", ascending=False)

# Créer une liste des critères triés
sorted_traits = df_melted['Trait'].unique()

# Création du graphique avec `barmode='group'`
fig = px.bar(df_melted, x='Trait', y='Moyenne', color='Gender', barmode='group',
             title="Les critères souhaités avant le Dating", opacity=0.9, 
             labels={'Moyenne': 'Mean Of Points', 'Trait': 'The Criteria'},
             category_orders={"Trait": sorted_traits}, width=WIDTH, height=HEIGHT, color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})

# Forcer un espace entre les barres pour éviter l'empilement visuel
fig.update_layout(bargap=0.2)

# Affichage
fig.show()


In [37]:
#Before Dating
# mettre .copy() pour éviter l'alerte d'erreur

after_match = df[df['dec'] == 1]

after_dating = after_match[['gender', "attr", "sinc", "intel", "fun", "amb", "shar"]]

# renommer les colonnes pour obtenir une courbe avec des légendes adaptées
after_dating.rename(columns={"gender": "Gender", "attr" : "Attractive", "sinc" : "Sincere", "intel" : "Intelligence", "fun" : "Fun", "amb" : "Ambition", "shar": "Shared Interest"}, inplace=True)

# Calculer la moyenne par genre
df_mean_after = after_dating.groupby('Gender').mean().reset_index()

# Transformer en format long (pivot)
df_melted_after = df_mean_after.melt(id_vars=['Gender'], var_name='Trait', value_name='Moyenne')
df_melted_after = df_melted_after.sort_values(by="Moyenne", ascending=False)

# Créer une liste des critères triés
sorted_traits = df_melted['Trait'].unique()

# Création du graphique avec `barmode='group'`
fig = px.bar(df_melted_after, x='Trait', y='Moyenne', color='Gender', barmode='group',
             title="Les critères après la volonté de Matcher", opacity=0.9, 
             labels={'Moyenne': 'Mean Of Points', 'Trait': 'Les critères'},
             category_orders={"Trait": sorted_traits}, width=WIDTH, height=HEIGHT, color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})

# Forcer un espace entre les barres pour éviter l'empilement visuel
fig.update_layout(bargap=0.2)

# Affichage
fig.show()




A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy



In [38]:
satisfaction = df[['satis_2', 'gender']]

In [39]:
satisfaction = df.groupby('gender')['satis_2'].mean().reset_index()

In [41]:
satisfaction

Unnamed: 0,gender,satis_2
0,FEMALE,5.113907
1,MALE,6.001665


In [43]:

# Créer le graphique à barres avec les couleurs spécifiées
fig = px.bar(satisfaction, x='gender', y='satis_2', color='gender',
             color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE},
             width=SWIDTH, height=SHEIGHT,
             title="Le Degré de Satisfaction après le Dating", )

# Afficher le graphique
fig.show()



In [None]:
import plotly.graph_objects as go

# Noter après la Satisfaction
value_sat = ["attr7_2", "sinc7_2", "intel7_2", "fun7_2", "amb7_2", 'shar7_2']
# Définir les nouveaux labels pour l'axe des x
labels_sat = ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt"]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"],
                    value_vars=value_sat,
                    var_name="Critère",
                    value_name="Points")

# Créer un dictionnaire de mapping
label_map = dict(zip(value_sat, labels_sat))
# Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Les critères qui comptent après la Note de la Satisfaction",
    width=WIDTH,
    height=HEIGHT
)

fig.show()


In [50]:
# Noter après la Satisfaction

value_sat= ["attr7_2", "sinc7_2", "intel7_2", "fun7_2", "amb7_2", 'shar7_2']

# Définir les nouveaux labels pour l'axe des x

labels_sat= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt"]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_sat,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_sat, labels_sat))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Les critères qui comptent après la Note de la Satisfaction ", width=WIDTH, height=HEIGHT
)

fig.show()

In [52]:
#filter satisfaction
satis_filter = df[df['satis_2'] == 2]

In [54]:
# Noter après la Satisfaction

value_sat = ["attr7_2", "sinc7_2", "intel7_2", "fun7_2", "amb7_2", 'shar7_2']

# Définir les nouveaux labels pour l'axe des x

labels_sat= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt"]

# Supposons que df est votre DataFrame
df_melted = satis_filter.melt(id_vars=["gender"], 
                    value_vars=value_sat,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_sat, labels_sat))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Ce qui compte même quand on est déçu par l'Expérience", width=WIDTH, height=HEIGHT
)

fig.show()

In [55]:
# Ce que l'on croit que le sex opposé recherche

x = ["attr4_1", "sinc4_1", "intel4_1", "fun4_1", "amb4_1", "shar4_1"]

# Définir les nouveaux labels pour l'axe des x

nouveaux_labels_o = ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt communs "]

fig = px.box(df, x,
             color = "gender",
            title= "Critères d'attraction : <b>ce que l'on croit 🤔 que l'autre recherche chez le sexe opposé...</b>",
            labels=nouveaux_labels_o, width=WIDTH, height=HEIGHT, color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})


# Mettre à jour les labels de l'axe des x
fig.update_layout(
    yaxis=dict(
        tickmode='array',  # Utiliser un tableau personnalisé pour les ticks
        tickvals=x,       # Les valeurs actuelles de l'axe des x
        ticktext=nouveaux_labels_o, # Les nouveaux labels correspondants
        title_text="Critères d'attraction"  # Titre de l'axe X 
    ),
     xaxis=dict(
        title_text="Points"  # Titre de l'axe Y
)
)
fig.show()

In [56]:
# Ce que l'on pense que le sexe opposé recherche
x = ["attr2_1", "sinc2_1", "intel2_1", "fun2_1", "amb2_1", "shar2_1"]

nouveaux_labels_o = ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt communs "]

fig = px.box(df, x,
             color = "gender",
            title= "Critères d'attraction: <b>on pense ce que le sexe opposé recherche  🔍 pour une rencontre </b> ",
            labels=nouveaux_labels_o, width=WIDTH, height=HEIGHT, color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})


# Mettre à jour les labels de l'axe des x
fig.update_layout(
    yaxis=dict(
        tickmode='array',  # Utiliser un tableau personnalisé pour les ticks
        tickvals=x,       # Les valeurs actuelles de l'axe des x
        ticktext=nouveaux_labels_o, # Les nouveaux labels correspondants
        title_text="Critères d'attraction"  # Titre de l'axe X 
    ),
     xaxis=dict(
        title_text="Points"  # Titre de l'axe Y
)
)
fig.show()


In [57]:
# Ce que l'on pense de soi

x = ["attr3_1", "sinc3_1", "intel3_1", "fun3_1", "amb3_1"]

# Définir les nouveaux labels pour l'axe des x

nouveaux_labels_o = ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition "]

fig = px.box(df, x,
             color = "gender",
            title= "Critères d'attraction : <b>ce que l'on pense de soi 🤩...</b> ",
            labels=nouveaux_labels_o, width=WIDTH, height=HEIGHT, color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})


# Mettre à jour les labels de l'axe des x
fig.update_layout(
    yaxis=dict(
        tickmode='array',  # Utiliser un tableau personnalisé pour les ticks
        tickvals=x,       # Les valeurs actuelles de l'axe des x
        ticktext=nouveaux_labels_o, # Les nouveaux labels correspondants
        title_text="Critères d'attraction"  # Titre de l'axe X 
    ),
     xaxis=dict(
        title_text="Points"  # Titre de l'axe Y
)
)
fig.show()

#ici on bascule à des notations sur de 1 à 10. L'échelle change mais il manque des données 

In [58]:
# Ce que l'on pense de soi

value_soi= ["attr3_1", "sinc3_1", "intel3_1", "fun3_1", "amb3_1"]

# Définir les nouveaux labels pour l'axe des x

labels_soi= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition "]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_soi,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_soi, labels_soi))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Ce que l'on pense de soi ", width=WIDTH, height=HEIGHT
)

fig.show()

In [59]:
# Ce que les autres pensent nous 

value_autres= ["attr5_1", "sinc5_1", "intel5_1", "fun5_1", "amb5_1"]

# Définir les nouveaux labels pour l'axe des x

labels_autres= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition "]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_autres,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_autres, labels_autres))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Ce que les autres pensent de nous", width=WIDTH, height=HEIGHT
)

fig.show()

In [60]:
# A la moitié de l'expérience

value_autres_half= ["attr1_s", "sinc1_s", "intel1_s", "fun1_s", "amb1_s"]

# Définir les nouveaux labels pour l'axe des x

labels_autres= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition "]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_autres_half,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_autres_half, labels_autres))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Attentes à la moitié de l'expérience ", width=WIDTH, height=HEIGHT
)

fig.show()

In [61]:
# Ce qui est important dans la décision

value_YesNo= ["attr7_2", "sinc7_2", "intel7_2", "fun7_2", "amb7_2", 'shar7_2']

# Définir les nouveaux labels pour l'axe des x

labels_YesNo= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition ", "Centres d'intérêt communs "]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_YesNo,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_YesNo, labels_YesNo))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Ce qui déclenche le Yes / No", width=WIDTH, height=HEIGHT
)

fig.show()

In [62]:
# A la moitié de l'expérience

value_soi_half= ["attr3_s", "sinc3_s", "intel3_s", "fun3_s", "amb3_s"]

# Définir les nouveaux labels pour l'axe des x

labels_soi= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition "]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_soi_half,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_soi_half, labels_soi))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Ce que l'on pense de soi à la moitié de l'expérience", width=WIDTH, height=HEIGHT
)

fig.show()

In [63]:
# Perception de soi le jour d'après le dating

value_soi_dayafter= ["attr3_2", "sinc3_2", "intel3_2", "fun3_2", "amb3_2"]

# Définir les nouveaux labels pour l'axe des x

labels_soi= ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition "]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_soi_dayafter,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_soi_dayafter, labels_soi))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Ce que l'on pense de soi le jour d'après", width=WIDTH, height=HEIGHT
)

fig.show()

In [64]:
# filtre Yes
yes_filter = df[df['match'] == 1].copy()


In [65]:
yes_filter['order'] = yes_filter['order'].astype(str)

In [66]:
df_order_yes = yes_filter['order'].value_counts().to_frame().reset_index()

In [67]:
px.bar(df_order_yes, x="order", y="count", color="count", text="count", width=WIDTH, height=HEIGHT, title = "Ordre de passage vs Matching")

In [68]:
# Ce que les autres pensent de vous

x = ["attr5_1", "sinc5_1", "intel5_1", "fun5_1", "amb5_1"]

# Définir les nouveaux labels pour l'axe des x

nouveaux_labels_o = ["Attractivité ", "Sincérité ", "Intelligence ", "Fun ", "Ambition "]

fig = px.box(df, x,
             color = "gender",
            title= "Critères d'attraction : <b>ce que les autres pensent de vous 🤩...</b> ",
            labels=nouveaux_labels_o, width=WIDTH, height=HEIGHT, color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE})


# Mettre à jour les labels de l'axe des x
fig.update_layout(
    yaxis=dict(
        tickmode='array',  # Utiliser un tableau personnalisé pour les ticks
        tickvals=x,       # Les valeurs actuelles de l'axe des x
        ticktext=nouveaux_labels_o, # Les nouveaux labels correspondants
        title_text="Critères d'attraction"  # Titre de l'axe X 
    ),
     xaxis=dict(
        title_text="Points"  # Titre de l'axe Y
)
)
fig.show()

In [69]:
import plotly.graph_objects as go

value_vars = ["attr1_1", "sinc1_1", "intel1_1", "fun1_1", "amb1_1", "shar1_1"]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_vars,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_vars, nouveaux_labels_o))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Souhaits des Utilisateurs avant le Dating", width=WIDTH, height=HEIGHT
)

fig.show()

In [70]:
import plotly.graph_objects as go

# After date want to match
value_vars_bfm = ["attr", "sinc", "intel", "fun", "amb", "shar"]

after_match = df[df['dec'] == 1]
df_melted = after_match.melt(id_vars=["gender"], 
                    value_vars=value_vars_bfm,
                    var_name="Critère", 
                    value_name="Points")


# Créer un dictionnaire de mapping
label_map = dict(zip(value_vars_bfm, nouveaux_labels_o))

# Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="L'Utilisateur souhaite revoir la personne et juge ses critères", width=WIDTH, height=HEIGHT
)

fig.show()

In [71]:
import plotly.graph_objects as go

value_vars = ["attr1_1", "sinc1_1", "intel1_1", "fun1_1", "amb1_1", "shar1_1"]

# Supposons que df est votre DataFrame
df_melted = df.melt(id_vars=["gender"], 
                    value_vars=value_vars,
                    var_name="Critère", 
                    value_name="Points")


# 2. Créer un dictionnaire de mapping
label_map = dict(zip(value_vars, nouveaux_labels_o))

# 3. Remplacer les anciens noms par les nouveaux labels dans la colonne "Critère"
df_melted["Critère"] = df_melted["Critère"].map(label_map)

# Agréger les données par genre
df_radar = df_melted.groupby(["gender", "Critère"], as_index=False)["Points"].mean()

# Créer le radar chart
fig = go.Figure()

for gender in df_radar["gender"].unique():
    df_gender = df_radar[df_radar["gender"] == gender]
    if gender == "FEMALE":
        color = FEMALE  
    elif gender == "MALE":
        color = MALE 
    else:
        color = "grey"  

    fig.add_trace(go.Scatterpolar(
        r=df_gender["Points"],
        theta=df_gender["Critère"],
        fill='toself',
        name=f"Genre {gender}",
        line_color=color
    ))

fig.update_layout(
    polar=dict(radialaxis=dict(visible=True, range=[0, df_radar["Points"].max()])),
    title="Souhaits des Utilisateurs avant le Dating", width=WIDTH, height=HEIGHT
)

fig.show()

In [73]:

# Vérifier que les colonnes existent
if 'match' in df.columns and 'match_es' in df.columns:

    # Calculer les moyennes globales
    mean_real = df['match'].mean()
    mean_estimated = df['match_es'].mean()

    # Créer un DataFrame pour Plotly
    comparison_df = pd.DataFrame({
        'Type': ['Match Réel', 'Match Estimé'],
        'Moyenne': [mean_real, mean_estimated]
    })

    # Afficher le graphique à barres
    fig = px.bar(
        comparison_df,
        x='Type',
        y='Moyenne',
        title="Comparaison : Match Réel vs Match Estimé",
        labels={'Moyenne': 'Moyenne (sur échelle)', 'Type': 'Type de match'},
        color='Type',
        color_discrete_map={'Match Réel': '#1E90FF', 'Match Estimé': '#FF69B4'},
        width=700,
        height=500, 
    )

    fig.update_layout(showlegend=False)
    fig.show()

else:
    print("Les colonnes 'match' et/ou 'match_es' ne sont pas présentes dans le dataset.")

In [75]:
import pandas as pd
import plotly.express as px

# Exemple de DataFrame pour tester le code
# df = pd.DataFrame({
#     'match': [1, 2, 3, 4, 5],
#     'match_es': [2, 3, 4, 5, 6],
#     'gender': ['FEMALE', 'MALE', 'FEMALE', 'MALE', 'FEMALE']
# })

# Vérifier si les colonnes existent
if 'match' in df.columns and 'match_es' in df.columns and 'gender' in df.columns:
    # Calculer les moyennes par genre
    mean_real_female = df[df['gender'] == 'FEMALE']['match'].mean()
    mean_estimated_female = df[df['gender'] == 'FEMALE']['match_es'].mean()
    mean_real_male = df[df['gender'] == 'MALE']['match'].mean()
    mean_estimated_male = df[df['gender'] == 'MALE']['match_es'].mean()

    print(f"Moyennes calculées : FEMALE (Match Réel: {mean_real_female}, Match Estimé: {mean_estimated_female}), MALE (Match Réel: {mean_real_male}, Match Estimé: {mean_estimated_male})")

    # Créer un DataFrame pour Plotly
    comparison_df = pd.DataFrame({
        'Type': ['Match Réel', 'Match Estimé', 'Match Réel', 'Match Estimé'],
        'Moyenne': [
            mean_real_female,
            mean_estimated_female,
            mean_real_male,
            mean_estimated_male
        ],
        'Genre': ['FEMALE', 'FEMALE', 'MALE', 'MALE']
    })

    print("DataFrame pour Plotly :")
    print(comparison_df)

    # Afficher le graphique à barres groupées
    fig = px.bar(
        comparison_df,
        x='Type',
        y='Moyenne',
        color='Genre',
        barmode='group',
        title="Comparaison : Match Réel vs Match Estimé (Ventilation par genre)",
        labels={'Moyenne': 'Moyenne (sur échelle)', 'Type': 'Type de match'},
        color_discrete_map={'FEMALE': FEMALE, 'MALE': MALE}, 
        width=800,
        height=500, 
    )
    fig.update_layout(
        legend_title_text='Genre',
        showlegend=True
    )
    fig.show()
else:
    print("Les colonnes 'match', 'match_es' ou 'gender' ne sont pas présentes dans le dataset.")


Moyennes calculées : FEMALE (Match Réel: 0.16923956546598057, Match Estimé: 2.8887020847343643), MALE (Match Réel: 0.1726689689195856, Match Estimé: 3.4979375368296997)
DataFrame pour Plotly :
           Type   Moyenne   Genre
0    Match Réel  0.169240  FEMALE
1  Match Estimé  2.888702  FEMALE
2    Match Réel  0.172669    MALE
3  Match Estimé  3.497938    MALE


In [77]:
import plotly.express as px

# Filtrer les données pour un genre spécifique (par exemple, gender = 'MALE')
df_gender_0 = df[df["gender"] == 'MALE']

# Nouveaux labels pour les colonnes
nouveaux_labels = {
    "attr1_1": "Attractivité",
    "sinc1_1": "Sincérité",
    "intel1_1": "Intelligence",
    "fun1_1": "Fun",
    "amb1_1": "Ambition",
    "shar1_1": "Centres d'intérêt communs"
}

# Créer le pie plot avec des morceaux séparés
fig = px.pie(
    df_gender_0,
    values=df_gender_0[nouveaux_labels.keys()].sum(),  # Somme des points pour chaque critère
    names=nouveaux_labels.values(),  # Utiliser les nouveaux labels pour les noms
    title="Répartition des points pour Genre = MALE",
)

# Séparer un morceau du camembert
fig.update_traces(pull=[0, 0.1, 0, 0, 0, 0])  # Le deuxième morceau (Sincérité) est séparé

fig.show()


In [80]:
import plotly.express as px

# Filtrer les données pour un genre spécifique (par exemple, gender = 'MALE')
df_gender_0 = df[df["gender"] == 'MALE']

# Nouveaux labels pour les colonnes
nouveaux_labels = {
    "attr1_1": "Attractivité",
    "sinc1_1": "Sincérité",
    "intel1_1": "Intelligence",
    "fun1_1": "Fun",
    "amb1_1": "Ambition",
    "shar1_1": "Centres d'intérêt communs"
}

# Calculer la somme des valeurs pour chaque critère
sum_values = df_gender_0[nouveaux_labels.keys()].sum()

# Identifier le nom du critère avec la plus grande valeur
max_criterion = sum_values.idxmax()

# Créer une liste pour le paramètre pull
pull_list = [0.1 if col == max_criterion else 0 for col in nouveaux_labels.keys()]

# Créer le pie plot avec le morceau ayant la plus grosse valeur séparé
fig = px.pie(
    df_gender_0,
    values=sum_values,  # Somme des points pour chaque critère
    names=nouveaux_labels.values(),  # Utiliser les nouveaux labels pour les noms
    title="Répartition des points pour Genre = MALE",
)

# Appliquer le paramètre pull
fig.update_traces(pull=pull_list)

fig.show()


In [None]:

# Filtrer les données pour un genre spécifique (par exemple, gender = 'MALE')
df_gender_0 = df[df["gender"] == 'MALE']

# Nouveaux labels pour les colonnes
nouveaux_labels = {
    "attr1_1": "Attractivité",
    "sinc1_1": "Sincérité",
    "intel1_1": "Intelligence",
    "fun1_1": "Fun",
    "amb1_1": "Ambition",
    "shar1_1": "Centres d'intérêt communs"
}

# Calculer la somme des valeurs pour chaque critère
sum_values = df_gender_0[nouveaux_labels.keys()].sum()

# Créer le pie plot
fig = px.pie(
    df_gender_0,
    values=sum_values,  # Somme des points pour chaque critère
    names=nouveaux_labels.values(),  # Utiliser les nouveaux labels pour les noms
    title="Répartition des points pour Genre = MALE",
)

# Mettre à jour les traces pour afficher les labels et les pourcentages sur les tranches
fig.update_traces(textposition='inside', textinfo='label+percent')

fig.show()


In [84]:

# Filtrer les données pour un genre spécifique (par exemple, gender = 'MALE')
df_gender_0 = df[df["gender"] == 'FEMALE']

# Nouveaux labels pour les colonnes
nouveaux_labels = {
    "attr1_1": "Attractivité",
    "sinc1_1": "Sincérité",
    "intel1_1": "Intelligence",
    "fun1_1": "Fun",
    "amb1_1": "Ambition",
    "shar1_1": "Centres d'intérêt communs"
}

# Calculer la somme des valeurs pour chaque critère
sum_values = df_gender_0[nouveaux_labels.keys()].sum()

# Créer le pie plot
fig = px.pie(
    df_gender_0,
    values=sum_values,  # Somme des points pour chaque critère
    names=nouveaux_labels.values(),  # Utiliser les nouveaux labels pour les noms
    title="Répartition des points pour Genre = FEMALE",
)

# Mettre à jour les traces pour afficher les labels et les pourcentages sur les tranches
fig.update_traces(textposition='inside', textinfo='label+percent')

fig.show()