Lan√ßons-nous d√®s √† pr√©sent dans le vif du sujet ! Comme tout bon Data Scientist, il faut bien √©videmment au pr√©alable manipuler les donn√©es pour mieux les comprendre. En plus d'avoir en t√™te des informations descriptives sur nos donn√©es, nous allons pouvoir √©tudier quelles sont les caract√©ristiques qui seront pertinentes lorsque nous aborderons la phase de mod√©lisation.

<blockquote><p>üôã <b>Ce que nous allons faire</b></p>
<ul>
    <li>R√©colter un √©chantillon du jeu de donn√©es et l'√©tudier.</li>
    <li>Comprendre les diff√©rentes caract√©ristiques pr√©sentes.</li>
    <li>Identifier les variables pertinentes pour l'objectif.</li>
</ul>
</blockquote>

<img src="https://media.giphy.com/media/lOfpvYQoiJW03vpJhP/giphy.gif" width="300" />

## R√©cup√©ration des donn√©es

Le jeu de donn√©es que nous allons manipuler contient des √©v√©nements utilisateurs sur une plateforme E-Commerce. Pour cela, nous disposons de pr√®s de 7 mois d'enregistrements o√π, pour chaque √©v√©nement (produit visit√©, ajout au panier, achat, ...), nous disposons des informations suivante.

- `event_time` : le timestamp de l'√©v√©nement (format UTC).
- `event_type` : le type d'√©v√©nement.
- `product_id` : un identifiant unique associ√© au produit.
- `category_id` : un identifiant unique associ√© √† la cat√©gorie du produit.
- `category_code` : un code associ√© √† la cat√©gorie du produit.
- `brand` : la marque du produit.
- `price` : le prix du produit.
- `user_id` : un identifiant unique associ√© √† l'utilisateur.
- `user_session` : un identifiant temporaire pour une session utilisateur.

<div class="alert alert-block alert-warning">
    L'int√©gralit√© du jeu de donn√©es totalise pr√®s de 50 Go de fichiers. Pour cela, nous allons dans un premier temps √©tudier un √©chantillon.
</div>

L'objectif pour cette plateforme est **d'optimiser les offres cibl√©es d'op√©rations marketing** en proposant des r√©ductions pour les utilisateurs **pendant leur parcours d'achat**. Pour cela, on s'int√©resse √† savoir si, au cours d'une session, un utilisateur va acheter un produit ou non, en fonction de son parcours connu jusqu'ici.

Nous devons mieux conna√Ætre quelles sont les informations dont nous avons √† disposition pour construire, par la suite, des variables qui apporteront le maximum d'information √† notre mod√®le pr√©dictif.

Commen√ßons par <a href="https://blent-learning-user-ressources.s3.eu-west-3.amazonaws.com/training/ml_engineer_facebook/data/sample.csv" target="_blank">r√©cup√©rer les donn√©es</a>.

Chargeons avec la librairie `pandas` l'√©chantillon t√©l√©charg√©.

In [None]:
import os
import numpy as np
import pandas as pd

# La fonction expanduser permet de convertir le r√©pertoire ~ en chemin absolu
data = pd.read_csv(os.path.expanduser("~/data/sample.csv"))
print("Taille de l'√©chantillon :", data.shape[0])
print("Taille m√©moire : {:2.2f} Mb".format(data.memory_usage().sum() / 1e6))
data.head()

Cet √©chantillon des donn√©es brutes contient 1,24 million de lignes. Regardons en d√©tails quelles sont les informations pr√©sentes dans ces donn√©es brutes. Comme √©voqu√© pr√©c√©demment, nous retrouvons les colonnes mentionn√©es.

- Tout d'abord, deux colonnes indiquent la temporalit√© et le type d'√©v√©nement : c'est le cas des colonnes `event_time`, indiquant la date et le temps o√π l'√©v√©nement a eu lieu au format UTC (norme <a href="https://fr.wikipedia.org/wiki/ISO_8601" taret="_blank">ISO 8601</a>), et `event_type` pour le type d'√©v√©nement.
- Ensuite, certains variables concernent l'utilisateur, notamment `user_id` et `user_session`.
- Enfin, les autres informations sont relatives au produit concern√© par l'√©v√©nement : ce sont les colonnes `product_id`, `category_id`, `category_code`, `brand` et `price`.

## Statistiques sur les √©v√©nements

√âtudions chaque variable, ind√©pendamment des autres avec des **analyses univari√©es**.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Permet d'appliquer le style graphique de Seaborn par d√©faut sur matplotlib
sns.set()

Pour pouvoir mieux comprendre la temporalit√© des √©v√©nements, nous allons extraire les informations depuis la colonne `event_time`.

In [None]:
# Conversion de la colonne event_time en type datetime
data["event_time"] = pd.to_datetime(data["event_time"])

data["event_day"] = data["event_time"].dt.day
data["event_hour"] = data["event_time"].dt.hour
data["event_minute"] = data["event_time"].dt.minute

Regardons la distribution des temporalit√©s.

In [None]:
import matplotlib.units as munits
import matplotlib.dates as mdates
import datetime

# Permet d'afficher l'axe des abscisses plus joliment
converter = mdates.ConciseDateConverter()
munits.registry[np.datetime64] = converter
munits.registry[datetime.date] = converter
munits.registry[datetime.datetime] = converter

print("Date min :", data["event_time"].min())
print("Date max :", data["event_time"].max())

plt.figure(figsize=(14, 9))
sns.histplot(data["event_time"])
plt.xlabel("Heure")
plt.ylabel("Nombre d'√©v√©nements")
plt.title("R√©partition du nombre d'√©v√©nements le 01-10-2019", fontsize=17)
plt.show()

Notre √©chantillon contient tous les √©v√©nements survenus le 01/01/2020.

**On s'attend √† avoir une ordre de grandeur de 40 √† 50 millions d'√©v√©nements dans le mois**.

Int√©ressons-nous maintenant aux types d'√©v√©nement.

In [None]:
data["event_type"].unique()

Dans l'√©chantillon, trois √©v√©nements sont observ√©s.

- `view` lorsqu'un utilisateur a vu la page d'un produit.
- `cart` lorsqu'un utilisateur a ajout√© un produit dans le panier.
- `purchase` lorsqu'un utilisateur a achet√© un produit.

Bien √©videmment, s'agissant d'un site E-Commerce, on s'attend √† avoir une **sur-repr√©sentation** des √©v√©nements de type `view` par rapport aux √©v√©nements de type `purchase`.

In [None]:
events_type_counts = data["event_type"].value_counts() / data.shape[0]

fig, ax = plt.subplots(figsize=(12, 8), subplot_kw=dict(aspect="equal"))

wedges, texts = ax.pie(
    events_type_counts,
    wedgeprops=dict(width=0.4)
)

for i, p in enumerate(wedges):
    ang = (p.theta2 - p.theta1)/2. + p.theta1
    y = np.sin(np.deg2rad(ang))
    x = np.cos(np.deg2rad(ang))
    horizontalalignment = {-1: "right", 1: "left"}[int(np.sign(x))]
    ax.annotate(
        "{} : {:2.2f}%".format(events_type_counts.index[i], events_type_counts[i] * 100),
        xy=(x, y), xytext=(1.1*np.sign(x), 1.4*y),
        fontsize=16,
        horizontalalignment=horizontalalignment)

ax.set_title("Proportion des types d'√©v√©nements de l'√©chantillon", fontsize=18)
plt.show()

> ‚ùì Pourquoi ce graphique est important ?

Si l'on souhaite se diriger vers une classification binaire qui va calculer la probabilit√© de finalisation d'achat d'un utilisateur, c'est tr√®s important de savoir √† l'avance si le jeu de donn√©es sera *imbalanced*, c'est-√†-dire qu'une des deux classes sera tr√®s majoritairement pr√©sente (99% vs 1%).

## Statistiques sur les utilisateurs

Il y a deux identifiants importants concernant les utilisateurs dans le jeu de donn√©es.

- La colonne `user_id`, donne un identifiant **unique** pour un utilisateur.
- La colonne `session_id`, au format UUID, donne l'identifiant **unique** d'une session utilisateur.

<div class="alert alert-info">
    <p>Un <a href="https://fr.wikipedia.org/wiki/Universally_unique_identifier" target="_blank">UUID</a> est un identifiant qui utilise le temps pour s'assurer de l'unicit√© (au sens o√π il est tr√®s probable d'avoir exactement deux sessions qui d√©butent √† la m√™me milliseconde voire microseconde).</p>
</div>

La session utilisateur est un concept important √† ma√Ætriser ici : lorsqu'un utilisateur visite le site, une session est cr√©√©e. Cette session est conserv√© tout le long du parcours utilisateur sur le site. D√®s lors que l'utilisateur quitte la plateforme, au bout d'un certain temps, la session **est stopp√©e**.

Par exemple, si l'utilisateur visite le site 3 fois en une seule journ√©e, par exemple 10 minutes le matin, 5 minutes l'apr√®s-midi et 20 minutes le soir, alors trois sessions seront cr√©√©es dans la journ√©e.

In [None]:
print("Nombre unique d'utilisateurs :", len(data["user_id"].unique()))
print("Nombre de sessions :", len(data["user_session"].unique()))

Nous avons $268 737$ sessions pour $190188$ utilisateurs : cela signifie qu'il y a une grande part d'utilisateurs qui n'ont qu'une seule session.

Voyons quelle proportion d'utilisateurs n'ont qu'une seule session dans l'√©chantillon.

In [None]:
import matplotlib.ticker as mtick

num_sessions_per_user = data[["user_id", "user_session"]] \
    .groupby("user_id").count()["user_session"] \
    .value_counts().sort_values(ascending=False)
num_sessions_per_user /= num_sessions_per_user.sum()

plt.figure(figsize=(14,9))

n_bars = 12

rects = plt.bar(num_sessions_per_user[:n_bars].index, height=num_sessions_per_user[:n_bars])
for rect in rects:
    height = rect.get_height()
    plt.gca().annotate(
        '{:2.2f}%'.format(height * 100),
        xy=(rect.get_x() + rect.get_width() / 2, height),
        xytext=(0, 3),
        textcoords="offset points",
        fontsize=16 * 10 / n_bars,
        ha='center', va='bottom'
    )

plt.ylabel("Proportion d'utilisateurs")
plt.gca().yaxis.set_major_formatter(mtick.PercentFormatter(1, 0))
plt.xticks(range(1, n_bars + 1))
plt.xlabel("Nombre de sessions")
plt.title("Proportion d'utilisateurs par nombre de sessions", fontsize=16)
plt.show()

Nous remarquons que plus de $70\%$ des utilisateurs ont au moins deux sessions dans l'√©chantillon : cela pourrait donc √™tre int√©ressant **d'utiliser cette information** comme variable explicative par la suite.

Combien de sessions ont-elles d√©bouch√©es sur un achat d'un des produits visit√©s ?

In [None]:
data_purchase = data.copy()
data_purchase['purchased'] = np.where(data_purchase['event_type'] == "purchase", 1, 0)
data_purchase['purchased'] = data_purchase \
    .groupby(["user_session"])['purchased'] \
    .transform("max")

data_purchase["purchased"].value_counts() / data_purchase["purchased"].shape[0]

C'est donc environ $10\%$ des sessions qui se terminent par au moins un achat d'un des produits visit√©s. Cette statistique nous informe donc que le jeu de donn√©es **n'est pas d√©s√©quilibr√©** entre les deux classes.

## Statistiques sur les produits

Int√©ressons-nous maintenant aux produits. Dans un DataFrame `data_categories`, nous allons calculer le nombre d'√©v√©nements (vues, ajouts au panier et achats) par cat√©gorie.

In [None]:
data_categories = data.copy()
data_categories["category"] = data_categories["category_code"].str.split(".", expand=True)[0]

for event_type in ["view", "cart", "purchase"]:
    data_categories["event_{}".format(event_type)] = np.where(data_categories["event_type"] == event_type, 1, 0)
    
data_categories = data_categories[["event_view", "event_cart", "event_purchase", "category"]] \
    .groupby("category").sum()
data_categories.head()

Pour savoir quelle sont les cat√©gories les plus visit√©es, affichons les valeurs sur un diagramme en b√¢tons.

In [None]:
plt.figure(figsize=(14,9))

rects = plt.barh(data_categories.index, width=data_categories["event_view"])
for rect in rects:
    width = rect.get_width()
    plt.gca().annotate(
        '{}'.format(int(width)),
        xy=(width, rect.get_y()),
        xytext=(30, 5),
        textcoords="offset points",
        fontsize=16 * 10 / n_bars,
        ha='center', va='bottom'
    )

plt.ylabel("Cat√©gorie")
plt.xlabel("Nombre de vues")
plt.title("Nombre de vues par cat√©gorie de produit", fontsize=16)
plt.show()

Ce que nous observons, c'est que la cat√©gorie `electronics` est tr√®s majoritairement celle qui est la plus visit√©e, avec plus de 450 000 vues. En revanche, d'autres sont tr√®s peu visit√©s comme `stationery` ou `medicine` avec moins de 500 vues sur toute la journ√©e.

Faisons la m√™me chose pour les achats.

In [None]:
plt.figure(figsize=(14,9))

rects = plt.barh(data_categories.index, width=data_categories["event_purchase"])
for rect in rects:
    width = rect.get_width()
    plt.gca().annotate(
        '{}'.format(int(width)),
        xy=(width, rect.get_y()),
        xytext=(30, 5),
        textcoords="offset points",
        fontsize=16 * 10 / n_bars,
        ha='center', va='bottom'
    )

plt.ylabel("Cat√©gorie")
plt.xlabel("Nombre d'achats")
plt.title("Nombre d'achats par cat√©gorie de produit", fontsize=16)
plt.show()

Sans surprises, les cat√©gories ayant le plus de vues sont √©galement celles o√π il y a le plus d'achats. Mais regardons les proportions achats / vues pour chaque cat√©gorie.

In [None]:
plt.figure(figsize=(14,9))

rects = plt.barh(data_categories.index, width=data_categories["event_purchase"] / data_categories["event_view"])
for rect in rects:
    width = rect.get_width()
    plt.gca().annotate(
        '{:2.2f}%'.format(width * 100),
        xy=(width, rect.get_y()),
        xytext=(30, 5),
        textcoords="offset points",
        fontsize=16 * 10 / n_bars,
        ha='center', va='bottom'
    )

plt.ylabel("Cat√©gorie")
plt.xlabel("Ratio")
plt.gca().xaxis.set_major_formatter(mtick.PercentFormatter(xmax=1, decimals=1))
plt.title("Ratio du nombre d'achats par nombre de vues", fontsize=16)
plt.show()

√âtonnamment, alors qu'il y a beaucoup moins de visites pour les produits de cat√©gorie `medicine` que ceux de cat√©gorie `electronics` (ordre $\times 10000$), cette premi√®re enregistre la m√™me proportion d'achats / vues que la deuxi√®me.

## ‚úîÔ∏è Conclusion

Dor√©navant, nous avons une id√©e plus claire sur les donn√©es que nous manipulons.

- Le comportement des utilisateurs ne peut pas se r√©sumer qu'√† un seul √©v√©nement.
- Les interactions entre les variables semblent √™tre √©lev√©es.

> ‚û°Ô∏è √Ä partir de cette connaissance, nous allons pouvoir mettre en place un premier algorithme avec <b>LightGBM</b>.