In [None]:
'''CRM_data.csv est un fichier csv qui contient de vraies données CRM d'une entreprise.
L'idée de ce sujet est de vérifier si les données sont clean et de produire dans un second temps une analyse des
données présents dans le dataset.

Contexte:
Il s'agit d'un extrait des leads gagnés et perdus sur une période de 3 mois environ.

Définitions:
- Lead: Un utilisateur qui s'inscrit sur le site de l'entreprise
- Taux de conversion: Nombre de Leads gagnés sur nombre de leads inscrits

Description des données:
- Subscribe date: date d'inscription du lead sur notre site
- Stagename: Etape actuelle du dossier client dans la base (Ici on ne garde uniquement les dossiers gagnés ou perdus)
- Project type: type de projet d'achat: achat d'une résidence principale, d'une résidence secondaire
		    ou bien d'un investissement locatif
- Property kind: Type de bien: ancien, nouveau, VEFA, terrain
- Source of lead: Canal Marketing source du lead (par exemple pub Google, pub Facebook, partenariat ...)
- Amount: Montant du projet (gain si le projet est gagné)
- Lost reason: Raison pour laquelle le dossier a été perdu (si perdu)
- Lost date: Date de perte du dossier (si perdu)
- Won (indicateurs des dossiers gagnés)
- Coût du lead: Coût du lead. (si pas de coût, il s'agit d'un lead gratuit: une personne qui vient directement sur le site)


Questions Préliminaires:
1. Décrire les colonnes du dataset


2. Donner la proportions de valeurs manquantes pour chaque colonne
3. Compter le nombre de valeurs uniques pour chaque colonne
4. Donner ces valeurs
5. Convertir les 2 colonnes associées à une date au format date de Python
6. Créer une nouvelle colonne 'Stagename_bin' qui sera formée de valeurs égales à 0 si Perdu, 1 si gagné
6bis. Créer une 3ème colonne en appliquant la méthode 'get_dummies()' 
7. Combien y-a-t-il de leads gagnés dans ce dataset ?
8. Faire la même chose que les 2 colonnes précédentes pour la colonne Project type
9. Renommer les colonnes 'Lost reason' et 'Source of lead' en 'Lost_reason' et 'Source_of_lead'
10. Grouper toutes les lignes en fonction 'Source_of_lead'. Lors du groupement, ne conserver que la somme de amount
11. Créer une colonne intitulée 'total' qui correspond à la somme de 'Gagné' et 'Perdu'. A quoi est égale cette colonne
12. Supprimer la dernière colonne créée vu qu'elle est inutile
13. Pour la colonne 'Lost_reason', lorsque c'est le cas, remplacer '/' par '-'
14. Remplacer les élément NaN de la colonne 'Property kind' par 'other'


Questions:
1. Quel est le montant moyen des inscriptions par mois ?
2. Calculer l'évolution du taux de conversion par jour. On s'attend à avoir un groupement par mois et par jour et un taux de conversion
2bis. Tracer la courbe du taux de conversion en fonction du temps 
3. Quelles sont les principales raisons de pertes des dossiers (Colonne: "Lost Reason"). A vous de définir comment faire... (Il y a plusieurs façons d'y parvenir)
4. Le directeur marketing souhaite retravailler la répartition de sonbudget par canal. Quelles recommandations feriez-vous
sur les canaux à prioriser
5. Pensez-vous à des indicateurs ou graphes non réalisés plus hauts qui seraient utiles à réaliser pour mieux
comprendre le sujet ? (les réaliser)
6. Au vu des questions posées dans la rubrique question, aurait-il été intéressant de supprimer les lignes pour lesquelles 'Cout du lead' = np.nan ?
7. Est-il pertinent de remplacer les éléments NaN de la colonne 'Won' par 0 ? Si oui, le faire sinon laisser tel quel'''

In [10]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('CRM_data.csv')

In [4]:
df

Unnamed: 0,Subscribe date,Stagename,Project type,Property kind,Source of lead,Amount,Lost reason,Lost date,Won,Cout du lead
0,2019-02-25,Gagné,primary_residence,old,partner1,118,,,1.0,
1,2019-02-26,Perdu,primary_residence,new,partner1,184,N'a jamais répondu (+5 appels),2019-03-13,,
2,2019-01-09,Perdu,primary_residence,,partner1,243,N'a jamais répondu (+5 appels),,,
3,2019-03-22,Perdu,primary_residence,new,partner1,215,Projet en recherche / Projet lointain,2019-03-28,,
4,2019-03-03,Gagné,rental_investment,old,partner1,142,,,1.0,
...,...,...,...,...,...,...,...,...,...,...
3601,2019-01-26,Perdu,rental_investment,,,196,Perdu contre autre banque,,,
3602,2019-01-03,Gagné,primary_residence,old,,59,,,1.0,
3603,2019-03-06,Perdu,rental_investment,old,,242,Projet en recherche / Projet lointain,2019-03-15,,
3604,2019-02-14,Perdu,primary_residence,old,,112,Ne souhaite pas faire ce dossier,2019-04-01,,


In [5]:
dict_descript = {}

In [6]:
dict_descript

{}

In [7]:
list_col_names = list(df.columns)

In [8]:
list_col_names

['Subscribe date',
 'Stagename',
 'Project type',
 'Property kind',
 'Source of lead',
 'Amount',
 'Lost reason',
 'Lost date',
 'Won',
 'Cout du lead']

In [11]:
for i in list_col_names:
    dict_descript[i] = list(pd.unique(df[i]))

In [12]:
for i in dict_descript:
    print(i, dict_descript[i])

Subscribe date ['2019-02-25', '2019-02-26', '2019-01-09', '2019-03-22', '2019-03-03', '2019-03-09', '2019-03-21', '2019-03-27', '2019-02-07', '2019-01-05', '2019-01-17', '2019-02-11', '2019-01-08', '2019-01-12', '2019-01-20', '2019-01-02', '2019-01-04', '2019-02-16', '2019-01-19', '2019-02-22', '2019-02-09', '2019-02-21', '2019-02-28', '2019-03-28', '2019-03-23', '2019-02-27', '2019-01-16', '2019-02-08', '2019-02-20', '2019-02-13', '2019-02-17', '2019-02-03', '2019-02-01', '2019-01-06', '2019-01-27', '2019-01-26', '2019-01-07', '2019-01-23', '2019-01-14', '2019-02-10', '2019-03-26', '2019-03-05', '2019-01-03', '2019-01-13', '2019-02-18', '2019-01-01', '2019-03-25', '2019-03-14', '2019-03-07', '2019-03-01', '2019-03-04', '2019-03-13', '2019-03-20', '2019-03-19', '2019-03-29', '2019-01-30', '2019-01-15', '2019-03-18', '2019-01-11', '2019-01-29', '2019-03-06', '2019-01-10', '2019-02-06', '2019-02-15', '2019-02-02', '2019-03-11', '2019-03-08', '2019-03-15', '2019-03-02', '2019-03-16', '201

In [13]:
df.describe()

Unnamed: 0,Amount,Won,Cout du lead
count,3606.0,368.0,834.0
mean,155.906267,1.0,15.828537
std,57.456713,0.0,18.575904
min,50.0,1.0,5.0
25%,108.0,1.0,5.0
50%,157.0,1.0,5.0
75%,205.0,1.0,26.0
max,285.0,1.0,100.0


In [14]:
df.drop_duplicates(subset=None, keep='first', inplace=True, ignore_index=True)

In [None]:
df

In [15]:
(df.count()/df.shape[0] * 100) 

Subscribe date    100.000000
Stagename         100.000000
Project type       99.833380
Property kind      51.291308
Source of lead     43.349070
Amount            100.000000
Lost reason        88.864204
Lost date          51.124688
Won                10.219384
Cout du lead       23.132463
dtype: float64

In [16]:
df['Lost date'] = pd.to_datetime(df['Lost date'])

In [17]:
type(df['Lost date'].iloc[102])

pandas._libs.tslibs.timestamps.Timestamp

In [18]:
df['Subscribe date'] = pd.to_datetime(df['Subscribe date'])

In [None]:
df

In [19]:
df['Lost date']

0             NaT
1      2019-03-13
2             NaT
3      2019-03-28
4             NaT
          ...    
3596          NaT
3597          NaT
3598   2019-03-15
3599   2019-04-01
3600          NaT
Name: Lost date, Length: 3601, dtype: datetime64[ns]

In [None]:
df

In [20]:
Stagename_bin = df['Stagename'].apply(lambda x: 1 if x == 'Gagné' else 0)

In [21]:
df['Stagename_bin'] = Stagename_bin

In [None]:
df

In [22]:
df['Stagename_bin']

0       1
1       0
2       0
3       0
4       1
       ..
3596    0
3597    1
3598    0
3599    0
3600    0
Name: Stagename_bin, Length: 3601, dtype: int64

In [23]:
df['Stagename_bin_dum'] = pd.get_dummies(df['Stagename'])['Gagné']

In [24]:
sum(df['Stagename_bin'])

368

In [25]:
def funct(x):
    if x == 'primary_residence':
        return 1
    if x == 'rental_investment':
        return 2
    if x == 'secondary_residence':
        return 3
    if x == 'nan':
        return np.nan

In [26]:
df['Project_type_bin'] = df['Project type'].apply(lambda x: funct(x))

In [27]:
df.columns = ['Subscribe_date', 'Stagename', 'Project_type', 'Property_kind',
       'Source_of_lead', 'Amount', 'Lost_reason', 'Lost_date', 'Won',
       'Cout_du_lead', 'Stagename_bin', 'Stagename_bin_dum',
       'Project_type_bin']

In [28]:
df_g1 = df.grouby('Source_of_lead', )

AttributeError: 'DataFrame' object has no attribute 'grouby'

In [29]:
df.groupby('Source_of_lead').sum()['Amount']

Source_of_lead
partner1     13996
partner10     4153
partner2     34871
partner3      7301
partner4     65485
partner5      3940
partner6     23800
partner7       690
partner8      1935
partner9     98810
Name: Amount, dtype: int64

In [None]:
df['total'] = df['Amount'] - df['Cout_du_lead']

In [None]:
df.drop('total', inplace=True, axis=1)

In [20]:
type(df['Lost_reason'][12]) == type('')

True

In [21]:
df['Lost_reason'] = df['Lost_reason'].apply(lambda x: x.replace('/','-') if type(x) == type('') else x)

In [29]:
type(1.23)

float

In [34]:
df['Property_kind'] = df['Property_kind'].apply(lambda x: 'other' if type(x) == type(1.23) else x)

In [41]:
df['Subscribe_month'] = df['Subscribe_date'].dt.month

In [42]:
df.groupby('Subscribe_month').count() 

Unnamed: 0_level_0,Subscribe_date,Stagename,Project_type,Property_kind,Source_of_lead,Amount,Lost_reason,Lost_date,Won,Cout_du_lead,Stagename_bin,Stagename_bin_dum,Project_type_bin
Subscribe_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
1,1241,1241,1236,1241,492,1241,1121,345,116,220,1241,1241,1236
2,1236,1236,1235,1236,476,1236,1097,548,122,217,1236,1236,1235
3,1124,1124,1124,1124,593,1124,982,948,130,396,1124,1124,1124


In [60]:
df

Unnamed: 0,Subscribe_date,Stagename,Project_type,Property_kind,Source_of_lead,Amount,Lost_reason,Lost_date,Won,Cout_du_lead,Stagename_bin,Stagename_bin_dum,Project_type_bin,Subscribe_month,Subscribe_day
86,2019-01-01,Perdu,rental_investment,other,partner1,120,Ne souhaite pas faire ce dossier,NaT,,,0,0,2.0,1,1
136,2019-01-01,Perdu,primary_residence,other,partner3,221,Perdu contre autre courtier,NaT,,,0,0,1.0,1,1
374,2019-01-01,Perdu,primary_residence,other,partner5,219,A répondu mais ne répond plus (+5 appels),NaT,,20.0,0,0,1.0,1,1
469,2019-01-01,Perdu,primary_residence,other,partner2,115,A répondu mais ne répond plus (+5 appels),NaT,,,0,0,1.0,1,1
485,2019-01-01,Perdu,primary_residence,other,partner2,123,N'a jamais répondu (+5 appels),NaT,,,0,0,1.0,1,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3100,2019-03-29,Perdu,primary_residence,old,,199,N'a jamais répondu (+5 appels),2019-06-06,,,0,0,1.0,3,29
3201,2019-03-29,Perdu,primary_residence,old,partner4,196,N'a jamais répondu (+5 appels),2019-06-05,,,0,0,1.0,3,29
3331,2019-03-29,Gagné,primary_residence,old,,94,,NaT,1.0,,1,1,1.0,3,29
3563,2019-03-29,Perdu,primary_residence,old,partner6,78,Test,2019-04-02,,,0,0,1.0,3,29


In [43]:
df['Subscribe_day'] = df['Subscribe_date'].dt.day

In [44]:
df_day = df.groupby('Subscribe_day').count() 

In [54]:
df = df.sort_values(['Subscribe_month', 'Subscribe_day'],
              ascending = [True, True])

In [68]:
df_day = df.groupby(['Subscribe_month', 'Subscribe_day']).count() 

In [30]:
df_day

NameError: name 'df_day' is not defined

In [70]:
df_day['Taux_conversion'] = df_day['Won'] /  df_day['Subscribe_date'] 

In [71]:
df_day

Unnamed: 0_level_0,Unnamed: 1_level_0,Subscribe_date,Stagename,Project_type,Property_kind,Source_of_lead,Amount,Lost_reason,Lost_date,Won,Cout_du_lead,Stagename_bin,Stagename_bin_dum,Project_type_bin,Taux_conversion
Subscribe_month,Subscribe_day,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,1,20,20,20,20,12,20,19,3,1,3,20,20,20,0.050000
1,2,53,53,52,53,18,53,48,8,5,9,53,53,52,0.094340
1,3,53,53,53,53,18,53,50,9,3,9,53,53,53,0.056604
1,4,47,47,46,47,20,47,43,7,3,6,47,47,46,0.063830
1,5,50,50,49,50,22,50,45,11,4,9,50,50,49,0.080000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3,25,60,60,60,60,31,60,52,49,8,22,60,60,60,0.133333
3,26,37,37,37,37,13,37,33,31,4,6,37,37,37,0.108108
3,27,32,32,32,32,21,32,28,27,5,15,32,32,32,0.156250
3,28,40,40,40,40,22,40,37,35,3,14,40,40,40,0.075000
