## Project 🚧

The marketing team needs help on a new project. They are experiencing a decrease in the number of matches, and they are trying to find a way to understand :

**what makes people interested into each other**. 

They decided to run a speed dating experiment with people who had to give Tinder lots of informations about themselves that could ultimately reflect on ther dating profile on the app.

Tinder then gathered the data from this experiment. Each row in the dataset represents one speed date between two people, and indicates wether each of them secretly agreed to go on a second date with the other person.

## Goals 🎯

Use the dataset to understand what makes people interested into each other to go on a second date together:
* You may use descriptive statistics
* You may use visualisations

## Scope of this project 🖼️

Data was gathered from participants in experimental speed dating events from 2002-2004. During the events, the attendees would have a four minute "first date" with every other participant of the opposite sex. At the end of their four minutes, participants were asked if they would like to see their date again. They were also asked to rate their date on six attributes: Attractiveness, Sincerity, Intelligence, Fun, Ambition, and Shared Interests.

The dataset also includes questionnaire data gathered from participants at different points in the process. These fields include: demographics, dating habits, self-perception across key attributes, beliefs on what others find valuable in a mate, and lifestyle information. See the Speed Dating Data Key document below for details.

[Dataset](https://full-stack-assets.s3.eu-west-3.amazonaws.com/M03-EDA/Speed+Dating+Data.csv)

[Dataset Description](https://full-stack-assets.s3.eu-west-3.amazonaws.com/M03-EDA/Speed+Dating+Data+Key.doc)

## Helpers 🦮

To help you achieve this project, here are a few tips that should help youbest destinations on a map

Data Exploration Ideas :
* What are the least desirable attributes in a male partner? Does this differ for female partners?
* How important do people think attractiveness is in potential mate selection vs. its real impact?
* Are shared interests more important than a shared racial background?
* Can people accurately predict their own perceived value in the dating market?
* In terms of getting a second date, is it better to be someone's first speed date of the night or their last?

## Deliverable 📬

To complete this project, your team should deliver:

A notebook with:
* descriptive statistics
* visualisations
* captions and interpretations on how the stats and visualisations are relevant to why people agree to a second date


-----------------------------------------------------------------------------------------------------------------------------------------------------



## COMPREHENSION DE LA DEMANDE / QUESTIONS / PROBLEMATIQUES

Afin de faire face à un déclin du nombre de "match", l'équipe Marketing de Tinder souhaite comprendre ce qui fait que les gens s'intéressent les uns aux autres.

Pour ce faire :

- ils ont organisé 20 vagues de rencontres

- ils ont demandé à chacun de répondre à 5 questions en donnant des notes :
    * avant le date (x-1), 
        * 1-1 Savoir ce que vous recherchez chez le sexe opposé.
        * 2-1 Ce que recherche le sexe opposé lors d’un rendez-vous ?
        * 3-1 Comment pensez-vous vous situer (concernant les critères) ?
        * 4-1 Selon vous, ce que la PLUPART de vos semblables recherchent chez le sexe opposé.
        * 5-1 Comment pensez-vous que les autres vous perçoivent ?
    * pendant(x-S), 
        * 1-S Veuillez évaluer l'importance des attributs dans une date potentielle
        * 3-S Veuillez évaluer votre opinion sur vos propres attributs
    * le lendemain(x-2),
        * 1-2 Nous voulons savoir ce que vous recherchez chez le sexe opposé. Donnez plus de points aux attributs qui sont les plus importants dans un date potentiel
        * 2-2 À votre avis, que recherche le sexe opposé lors d'un rendez-vous ?
        * 3-2 Comment pensez-vous vous situer ?
        * 4-2 Nous voulons maintenant savoir ce que, selon vous, la plupart de vos semblables recherchent chez le sexe opposé.
        * 5-2 Comment pensez-vous que les autres vous perçoivent ?
        * 7-2 Repensez à vos décisions oui/non lors de l'événement Speed ​​Dating. Donnez plus de points aux attributs qui étaient les plus importants dans vos décisions. Moins aux autres---
    * 3/4 semaines après le rdv (x-3)
        * 1-3 Veuillez évaluer l'importance des attributs suivants dans un date potentiel--
        * 2_3 À votre avis, que recherche le sexe opposé lors d'un rendez-vous ---
        * 3_3 Veuillez évaluer votre opinion sur vos propres attributs--
        * 4_3 Selon vous, la plupart de vos semblables recherchent chez le sexe opposé.---
        * 5_3 Et enfin, comment pensez-vous que les autres vous perçoivent---
        * 7-3 Repensez à vos décisions oui/non pendant la nuit de l'événement Speed ​​Dating.  Essayez de distribuer les 100 points---


## QUESTIONS / PROBLEMATIQUES

Après avoir discuté avec l'équipe commerciale afin d'affiner leurs demandes...et consulté le dataset pour le comprendre (8378 lignes, 195 colonnes), nous décidons de nous concentrer sur quelques questions :
 
- Y-a-t-il une différence hommes/Femmes dans les critères recherchés ?
- Lors d'un match, que recherche le plus une femme ? Un homme ?
- Lors d'un speedating qui match le physique est-il vraiment important ? Et l'intelligence ?
- Et concernant le statut social ?
- La diffarence d'âge impact-elle un match ?
- Les critères de date, sont-ils identiques avant et après le speedating ? Est-ce que cela diffère beaucoup ?

Ce qui nous amène à exclures certains éléments de l'enquête, qui nous paraissent peu ou moins pertinents, ainsi que ceux difficilements exploitables.
Ainsi :
- Certaines vagues n'ont pas répondu à certaines questions. Et certaines vagues avaient une notation différentes. Nous gardons les vagues 1 à 5 et 10 à 21.
- Tinder oblige, l'aspect géographique n'aura pas d'impact dans les matchs de notre application. Nous excluons les données
- En France, nous excluons également les données concernant les races !
- Les personnes n'ont que très peu répondu aux questions après 3/4 semaines (voir tableau ci-dessous avec les "vides"). Nous privilégirons les réponses avant et à j+1 après l'enquête
- Les questions sur "comment je me percois" ou "comment les gens me percoivent" nous semblent également peu opportunes. Nous gardons les questions 1-1 / 2-1 et 4-1 et 1-2 / 2-2 et 3-2


## CLEANING / CHECKING

* Colonnes à garder :
iid	id	gender wave


## ANALYSE

* 


In [2]:
## Importing libraries

import pandas as pd
import numpy as np # Not always necessary
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio

#import matplotlib.pyplot as plt  - A voir
#import seaborn as sns  - A voir

In [3]:
## Importing data

# Import & visualize dataset
df = pd.read_csv("speed_dating_data.csv",encoding="ISO-8859-1") # car pb de format du csv...
df.head()


Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3
0,1,1.0,0,1,1,1,10,7,,4,...,5.0,7.0,7.0,7.0,7.0,,,,,
1,1,1.0,0,1,1,1,10,7,,3,...,5.0,7.0,7.0,7.0,7.0,,,,,
2,1,1.0,0,1,1,1,10,7,,10,...,5.0,7.0,7.0,7.0,7.0,,,,,
3,1,1.0,0,1,1,1,10,7,,5,...,5.0,7.0,7.0,7.0,7.0,,,,,
4,1,1.0,0,1,1,1,10,7,,7,...,5.0,7.0,7.0,7.0,7.0,,,,,


In [4]:
# Check the shape of the dataset (rows, columns)
df.shape

(8378, 195)

In [5]:
# Check global (data types,...)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8378 entries, 0 to 8377
Columns: 195 entries, iid to amb5_3
dtypes: float64(174), int64(13), object(8)
memory usage: 12.5+ MB


In [6]:
# Check missing values
print(df.isnull().sum().to_string()) # permet de voir l'ensemnble des colonnes

iid            0
id             1
gender         0
idg            0
condtn         0
wave           0
round          0
position       0
positin1    1846
order          0
partner        0
pid           10
match          0
int_corr     158
samerace       0
age_o        104
race_o        73
pf_o_att      89
pf_o_sin      89
pf_o_int      89
pf_o_fun      98
pf_o_amb     107
pf_o_sha     129
dec_o          0
attr_o       212
sinc_o       287
intel_o      306
fun_o        360
amb_o        722
shar_o      1076
like_o       250
prob_o       318
met_o        385
age           95
field         63
field_cd      82
undergra    3464
mn_sat      5245
tuition     4795
race          63
imprace       79
imprelig      79
from          79
zipcode     1064
income      4099
goal          79
date          97
go_out        79
career        89
career_c     138
sports        79
tvsports      79
exercise      79
dining        79
museums       79
art           79
hiking        79
gaming        79
clubbing      

In [7]:
# Graph pour cvoir les valeurs manquantes par colonnes (permet d'avoir les noms des colonnes pour suppression)

# Calculer le nombre de valeurs manquantes par colonne
missing_values = df.isnull().sum()

# Convertir les valeurs manquantes en DataFrame pour Plotly
missing_df = missing_values.reset_index()
missing_df.columns = ['Column', 'Missing Values']

# Créer un graphique à barres avec Plotly
fig = px.bar(missing_df, x='Column', y='Missing Values', text='Missing Values',
             title='Nombre de valeurs manquantes par colonne')

# Ajuster l'apparence
fig.update_layout(xaxis_title='Colonnes',
                  yaxis_title='Nombre de valeurs manquantes',
                  xaxis={'categoryorder':'total descending'},
                  plot_bgcolor='white',
                  font=dict(size=12),
                  width=3000,  # Largeur en pixels
                  height=600)  # Hauteur en pixels

# Ajuster les étiquettes pour qu'elles soient toujours lisibles
fig.update_traces(texttemplate='%{text}', textposition='outside')
fig.update_xaxes(tickangle=45, tickfont=dict(size=12))

# Afficher le graphique
fig.show()

In [14]:
# nombre de participants uniques
data_unique = df.drop_duplicates(subset=["iid"], keep="first").copy()
data_unique.head()

Unnamed: 0,iid,id,gender,idg,condtn,wave,round,position,positin1,order,...,attr3_3,sinc3_3,intel3_3,fun3_3,amb3_3,attr5_3,sinc5_3,intel5_3,fun5_3,amb5_3
0,1,1.0,0,1,1,1,10,7,,4,...,5.0,7.0,7.0,7.0,7.0,,,,,
10,2,2.0,0,3,1,1,10,3,,10,...,7.0,6.0,9.0,9.0,4.0,,,,,
20,3,3.0,0,5,1,1,10,9,,6,...,,,,,,,,,,
30,4,4.0,0,7,1,1,10,6,,3,...,6.0,5.0,6.0,8.0,5.0,,,,,
40,5,5.0,0,9,1,1,10,4,,1,...,4.0,5.0,10.0,6.0,10.0,,,,,


In [15]:
data_unique.info()

<class 'pandas.core.frame.DataFrame'>
Index: 551 entries, 0 to 8356
Columns: 195 entries, iid to amb5_3
dtypes: float64(174), int64(13), object(8)
memory usage: 843.7+ KB


In [16]:
df['wave'].value_counts()

wave
21    968
11    882
9     800
14    720
15    684
4     648
2     608
7     512
19    450
12    392
17    280
3     200
8     200
1     200
5     190
13    180
10    162
16     96
20     84
18     72
6      50
Name: count, dtype: int64