# Installation des dépendances

In [2]:
#!pip install pandas, numpy, plotly
import bokeh

# Data cleaning

## Première étape : Importer et Visualiser l'entête des données

L'importance de comprendre le dataset avec un visuel succint permet de deviner quelles seront les modification à apporter à notre dataset pour le nettoyer.

Dans notre première étape nous allons importer pandas, qui est un framework python permettant d'importer des datasets sous forme de Dataframe.
Numpy est une bibliothèque utilisée par pandas qui gère des tableaux/matrices, il me servira à modifier des tableaux si nécessaires.

In [3]:
import pandas as pd
import numpy as np
from pprint import pprint
import matplotlib as mtp
pd.options.display.float_format = '{:,.2f}'.format


## Remarque 

Le dataset contient ici  des json pour dataset. Il nous faudra trouver un moyen de convertir ces json en colonnes qui seront plus facile à traiter.

Les colonnes à multiplier sont :

device ; geoNetwork ; totals ; traficSource

In [4]:
import os
import json
from pandas.io.json import json_normalize

def load_df(csv_path='./Dataset/train.csv', nrows=None):
    JSON_COLUMNS = ['device', 'geoNetwork', 'totals', 'trafficSource']
    
    df = pd.read_csv(csv_path, 
                     converters={column: json.loads for column in JSON_COLUMNS}, 
                     dtype={'fullVisitorId': 'str'}, # Important!!
                     nrows=nrows)
    for column in JSON_COLUMNS:
        column_as_df = json_normalize(df[column])
        column_as_df.columns = [f"{column}.{subcolumn}" for subcolumn in column_as_df.columns]
        df = df.drop(column, axis=1).merge(column_as_df, right_index=True, left_index=True)
    print(f"Loaded {os.path.basename(csv_path)}. Shape: {df.shape}")
    return df


In [5]:
#data = load_df()
#data = data[pd.notnull(data['totals.transactionRevenue'])]
#data.to_csv("./Dataset/ProcessedTrain.csv")
data = pd.read_csv("./Dataset/ProcessedTrain.csv")
data.head()


Unnamed: 0.1,Unnamed: 0,channelGrouping,date,fullVisitorId,sessionId,socialEngagementType,visitId,visitNumber,visitStartTime,device.browser,...,trafficSource.adwordsClickInfo.isVideoAd,trafficSource.adwordsClickInfo.page,trafficSource.adwordsClickInfo.slot,trafficSource.campaign,trafficSource.campaignCode,trafficSource.isTrueDirect,trafficSource.keyword,trafficSource.medium,trafficSource.referralPath,trafficSource.source
0,752,Direct,20160902,6194193421514403509,6194193421514403509_1472843572,Not Socially Engaged,1472843572,1,1472843572,Chrome,...,,,,(not set),,True,,(none),,(direct)
1,753,Organic Search,20160902,5327166854580374902,5327166854580374902_1472844906,Not Socially Engaged,1472844906,3,1472844906,Chrome,...,,,,(not set),,True,(not provided),organic,,google
2,799,Referral,20160902,8885051388942907862,8885051388942907862_1472827393,Not Socially Engaged,1472827393,7,1472827393,Chrome,...,,,,(not set),,True,,referral,/,mall.googleplex.com
3,802,Referral,20160902,185467632009737931,0185467632009737931_1472846398,Not Socially Engaged,1472846398,6,1472846398,Chrome,...,,,,(not set),,True,,referral,/,mall.googleplex.com
4,859,Referral,20160902,3244885836845029978,3244885836845029978_1472824817,Not Socially Engaged,1472824817,4,1472824817,Chrome,...,,,,(not set),,True,,referral,/,mall.googleplex.com


## Nettoyage

Il semble y avoir beaucoup de NaN dans ces colonnes nouvellement créées. Pour ce, nous devons afficher les ratios de NaN présents dans chaques colonnes. Si le taux de NaN est supérieur à 80% ou supérieur à 0 on étudiera plus longuement cette question.

In [6]:
listnan80 = []
listnan = []
for i in data:
    if data[i].isna().sum() > len(data[i])*0.8:
        listnan80.append((i,data[i].isna().sum(),len(data[i])))
    elif data[i].isna().sum() > 0 :
        listnan.append((i,data[i].isna().sum(),len(data[i])))
pprint(listnan80)
pprint(listnan)

[('totals.bounces', 11515, 11515),
 ('trafficSource.adContent', 11372, 11515),
 ('trafficSource.adwordsClickInfo.adNetworkType', 11061, 11515),
 ('trafficSource.adwordsClickInfo.gclId', 11059, 11515),
 ('trafficSource.adwordsClickInfo.isVideoAd', 11061, 11515),
 ('trafficSource.adwordsClickInfo.page', 11061, 11515),
 ('trafficSource.adwordsClickInfo.slot', 11061, 11515),
 ('trafficSource.campaignCode', 11515, 11515)]
[('totals.newVisits', 7050, 11515),
 ('trafficSource.isTrueDirect', 4511, 11515),
 ('trafficSource.keyword', 7644, 11515),
 ('trafficSource.referralPath', 6100, 11515)]


#### Analyse

Apparament les colonnes adContent, adNetworkType, isVideoAd, page, slot et transactionRevenue posent problème dans la quantité de data qu'elles présentent.

Mon humble avis me dit qu'un NaN peut correspondre à un True, un False ou un donnée non récupérée.
Comment savoir ?
Il n'y a malheureusement aucune manière de le savoir à moins d'avoir un contact direct avec la personne qui a généré ce data.

On peut néanmoins analyser ces colonnes vides pour voir le nombre de valeurs différentes présentes dans ces colonnes.

In [7]:
tmpd = []
for a in listnan80:
    tmpd.append((a[0],data[a[0]].nunique()))
print("Les >80% : \n")
for i in tmpd:
    print(i)

print("\n\n les >0 : \n")
tmpd2 = []
for a in listnan:
    tmpd2.append((a[0],data[a[0]].nunique()))
for i in tmpd2:
    print(i)

Les >80% : 

('totals.bounces', 0)
('trafficSource.adContent', 12)
('trafficSource.adwordsClickInfo.adNetworkType', 1)
('trafficSource.adwordsClickInfo.gclId', 440)
('trafficSource.adwordsClickInfo.isVideoAd', 1)
('trafficSource.adwordsClickInfo.page', 1)
('trafficSource.adwordsClickInfo.slot', 2)
('trafficSource.campaignCode', 0)


 les >0 : 

('totals.newVisits', 1)
('trafficSource.isTrueDirect', 1)
('trafficSource.keyword', 35)
('trafficSource.referralPath', 51)


On peut clairement deviner que adnetworkType et isVideoAd peuvent avoir une confusion entre le NaN et le False/True
le reste des colonnes peut être supprimé.
Quand aux colonnes contenant quelques NaN certaines peuvent être traitées pour compenser ces valeurs. L'étape suivante est de lire le data et comprendre comment remplir ces cases vides.

In [8]:
data["trafficSource.adwordsClickInfo.adNetworkType"].any() # Comme la valeur est textuelle on ne peut pas la remplir

'Google Search'

In [9]:
data["trafficSource.adwordsClickInfo.isVideoAd"].any()  #Comme la valeur est booléenne on pourrait remplir le reste en tant que true

False

In [10]:
# Pour ces exemples, le reste est complété par les valeurs opposées
data["totals.newVisits"].fillna(0)
data["totals.bounces"].fillna(0)
data["trafficSource.isTrueDirect"].fillna(False)

# Pour les dernières colonnes, une catégorie déjà existante sera utilisée du fait de leur 

data["totals.pageviews"].fillna(0)
data["trafficSource.keyword"].fillna("(not provided)")
data["trafficSource.referralPath"].fillna("/")
data['trafficSource.adwordsClickInfo.isVideoAd'].fillna(True)

data['trafficSource.adwordsClickInfo.isVideoAd'].replace(np.nan,True)

data['trafficSource.adwordsClickInfo.isVideoAd'].unique()

array([nan, False], dtype=object)

Le nettoyage est donc terminé !

Nous allons donc procéder à étudier le data dans son ensemble et chercher une question!

# Problématisation et analyse du data


## La problématique

D'après google la composante à prédire est le logarithme népérien de la somme dépensée pour chaque utilisateurs.
Autrement dit, prédire une somme dépensée totale en fonction des divers paramètres donnés.

## La visualisation

La première étape de mon travail est de trouver une corrélation possible entre 2 ou 3 colonnes visuellement. Elle servira à développer une première intuition sur la modélisation.


Je présente l'explication des différentes colonnes ici pour un meilleur visuel :

* fullVisitorId : Un identifiant unique pour le Google Merchandising Store
* channelGrouping : Le channel via lequel l'utilisateur a rejoint le Google Store
* date : La date de visite du store par l'utilisateur
* device : Spécification du système utilisé par l'utilisateur
* geoNetwork : Information sur la géographie de l'utilisateur
* socialEngagementType : Engagement social de l'utilisateur
* totals : Cette colonne contient des valeurs aggrégés sur différentes conditions
* trafficSource : Cette section contient des information sur la source du traffic dont vient l'utilisateur
* visitId : Un identifiant de cookie correspondant à un utilisateur physique
* visitNumber : Le numéro de session de l'utilisateur, la première visite compte pour 1
* visitStartTime : La date du début de la visite
* hits : Les types de clics exécutés par l'utilisateur
* customDimensions : This section contains any user-level or session-level custom dimensions that are set for a session. This is a repeated field and has an entry for each dimension that is set.
* totals : Totaux sur des informations plus fonctionnelles

### Première limite du dataset

La valeur à deviner est contenu dans totals.transactionRevenue. Le problème est qu'elle est présente seulement dans moins de 2% du train.csv, on n'obtiendra surement pas les résultats digne d'un concours kaggle mais l'étude reste néanmoins intéressante.

L'avantage d'avoir un dataset plus petit est qu'il prend moins de mémoire en RAM quand il est lu entièrement.

### Intuition 1

Une première intuition est de corréler l'information geographique et la somme dépensée

In [58]:
import matplotlib
continents = data["geoNetwork.continent"].unique().tolist()
sums = data.groupby("geoNetwork.continent")["totals.transactionRevenue"].sum()
count = data.groupby("geoNetwork.continent")["totals.transactionRevenue"].count()
median = data.groupby("geoNetwork.continent")["totals.transactionRevenue"].median()
continents.sort()

perc = sums.tolist()
tot = 0
per = []
for x in perc:
    tot+=x
for x in perc:    
    per.append(round(x*100/tot,2))
    

a = pd.DataFrame(np.array([count.tolist(),median.tolist(),sums.tolist(),per]))
a.columns = continents
a.rename(index={0:'population',1:'median',2:'total',3:'%'}, inplace=True)
a

Unnamed: 0,(not set),Africa,Americas,Asia,Europe,Oceania
population,6.0,8.0,11283.0,125.0,79.0,14.0
median,130470000.0,1548700000.0,49410000.0,55970000.0,38790000.0,67155000.0
total,769780000.0,8687760000.0,1504671600000.0,17401840000.0,6747030000.0,1793230000.0
%,0.05,0.56,97.7,1.13,0.44,0.12


On distingue clairement que la zone géographique semble avoir un impact conséquent quand à la somme dépensé. Il semble que les amériques sont plus à même de dépenser que les autres continents ( population ), qu'en afrique les personnes dépensent plus individuellement mais le nombres de personnes dépensant aux amériques gardes le continent américain comme le plus dépensier dans les totaux.

### Intuition 2

