# Exploratory Data Analysis

## Decouverte des données

In [None]:
import pandas as pd

In [None]:
DATA_PATH = r"..\data\news-portal-user-interactions-by-globocom\clicks_sample.csv"

df = pd.read_csv(DATA_PATH, sep=',')

In [None]:
df.head()

Unnamed: 0,user_id,session_id,session_start,session_size,click_article_id,click_timestamp,click_environment,click_deviceGroup,click_os,click_country,click_region,click_referrer_type
0,0,1506825423271737,1506825423000,2,157541,1506826828020,4,3,20,1,20,2
1,0,1506825423271737,1506825423000,2,68866,1506826858020,4,3,20,1,20,2
2,1,1506825426267738,1506825426000,2,235840,1506827017951,4,1,17,1,16,2
3,1,1506825426267738,1506825426000,2,96663,1506827047951,4,1,17,1,16,2
4,2,1506825435299739,1506825435000,2,119592,1506827090575,4,1,17,1,24,2


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1883 entries, 0 to 1882
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype
---  ------               --------------  -----
 0   user_id              1883 non-null   int64
 1   session_id           1883 non-null   int64
 2   session_start        1883 non-null   int64
 3   session_size         1883 non-null   int64
 4   click_article_id     1883 non-null   int64
 5   click_timestamp      1883 non-null   int64
 6   click_environment    1883 non-null   int64
 7   click_deviceGroup    1883 non-null   int64
 8   click_os             1883 non-null   int64
 9   click_country        1883 non-null   int64
 10  click_region         1883 non-null   int64
 11  click_referrer_type  1883 non-null   int64
dtypes: int64(12)
memory usage: 176.7 KB


In [8]:
df.describe()

Unnamed: 0,user_id,session_id,session_start,session_size,click_article_id,click_timestamp,click_environment,click_deviceGroup,click_os,click_country,click_region,click_referrer_type
count,1883.0,1883.0,1883.0,1883.0,1883.0,1883.0,1883.0,1883.0,1883.0,1883.0,1883.0,1883.0
mean,355.893787,1506828000000000.0,1506828000000.0,3.459904,176717.848646,1506830000000.0,3.917153,2.305895,12.113648,1.491768,18.774827,1.764206
std,206.162865,867962800.0,867946.8,3.037467,82324.177259,10649380.0,0.410461,1.062301,7.825735,2.007772,7.0834,1.225679
min,0.0,1506825000000000.0,1506825000000.0,2.0,2137.0,1506827000000.0,1.0,1.0,2.0,1.0,1.0,1.0
25%,181.5,1506827000000000.0,1506827000000.0,2.0,108854.0,1506828000000.0,4.0,1.0,2.0,1.0,13.0,1.0
50%,353.0,1506828000000000.0,1506828000000.0,3.0,157541.0,1506828000000.0,4.0,3.0,17.0,1.0,21.0,1.0
75%,537.0,1506828000000000.0,1506828000000.0,4.0,236697.5,1506829000000.0,4.0,3.0,19.0,1.0,25.0,2.0
max,706.0,1506829000000000.0,1506829000000.0,24.0,363291.0,1506998000000.0,4.0,4.0,20.0,11.0,28.0,7.0


In [6]:
df.columns

Index(['user_id', 'session_id', 'session_start', 'session_size',
       'click_article_id', 'click_timestamp', 'click_environment',
       'click_deviceGroup', 'click_os', 'click_country', 'click_region',
       'click_referrer_type'],
      dtype='object')

In [23]:
df.isna().sum()

user_id                0
session_id             0
session_start          0
session_size           0
click_article_id       0
click_timestamp        0
click_environment      0
click_deviceGroup      0
click_os               0
click_country          0
click_region           0
click_referrer_type    0
click_datetime         0
hour                   0
date                   0
day_of_week            0
date_only              0
dtype: int64

## Visualisation des données

In [17]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import os
import glob
from datetime import datetime
import numpy as np

# --- 1. Chargement des données (exemple pour charger les données horaires) ---
def load_click_data(data_path):
    """
    Charge les fichiers CSV contenant les clics depuis le dossier data_path.
    Adapté au format où chaque fichier représente une heure.
    """
    # Trouver tous les fichiers CSV dans le dossier data_path
    csv_files = glob.glob(os.path.join(data_path, "*.csv"))
    print(f"Chargement de {len(csv_files)} fichiers CSV...")

    df_list = []
    for file in csv_files:
        df_hour = pd.read_csv(file)
        df_list.append(df_hour)
    df = pd.concat(df_list, ignore_index=True)
    print(f"Total de lignes chargées: {len(df)}")
    return df

# Charger les données (remplacez DATA_PATH par le chemin réel vers votre dossier 'clicks')
DATA_PATH = r"..\data\news-portal-user-interactions-by-globocom\clicks\clicks"  # Utilisez le bon chemin
df = load_click_data(DATA_PATH)

# --- Correction de la conversion du timestamp ---
# Convertir la colonne de timestamp en datetime en supposant qu'elle est en millisecondes
print("Conversion du timestamp...")
df['click_timestamp'] = pd.to_datetime(df['click_timestamp'], unit='ms') # <-- Changement ici : unit='ms'
print("Conversion terminée.")

# Ajouter des colonnes utiles pour l'analyse temporelle
df['date'] = df['click_timestamp'].dt.date
df['hour'] = df['click_timestamp'].dt.hour
df['day_of_week'] = df['click_timestamp'].dt.day_name()
df['day_of_week_num'] = df['click_timestamp'].dt.dayofweek # Lundi=0, Dimanche=6

# --- 2. Visualisations (Même code que précédemment, mais avec le bon timestamp) ---

# --- 2.1. Répartition temporelle des clics : Clics par heure (sur les 16 jours) ---
clicks_by_hour = df.groupby('hour').size().reset_index(name='click_count')
fig1 = px.line(clicks_by_hour, x='hour', y='click_count', title='Nombre de clics par heure du jour')
fig1.update_xaxes(title_text='Heure de la journée')
fig1.update_yaxes(title_text='Nombre de clics')
fig1.show()

# --- 2.2. Répartition temporelle des clics : Clics par jour ---
clicks_by_date = df.groupby('date').size().reset_index(name='click_count')
fig2 = px.line(clicks_by_date, x='date', y='click_count', title='Nombre de clics par jour (1er Oct. - 16 Oct. 2017)')
fig2.update_xaxes(title_text='Date')
fig2.update_yaxes(title_text='Nombre de clics')
fig2.show()

# --- 2.3. Heatmap (Jour x Heure) ---
heatmap_data = df.groupby(['date', 'hour']).size().reset_index(name='click_count')
pivot_heatmap = heatmap_data.pivot(index='date', columns='hour', values='click_count').fillna(0)
pivot_heatmap.index = pivot_heatmap.index.astype(str)
pivot_heatmap.columns = pivot_heatmap.columns.astype(str)

fig3 = px.imshow(pivot_heatmap.values,
                 x=list(pivot_heatmap.columns),
                 y=list(pivot_heatmap.index),
                 title='Heatmap des clics : Jour vs Heure',
                 labels=dict(x="Heure", y="Date", color="Nombre de clics"),
                 color_continuous_scale='Viridis')
fig3.update_xaxes(title_text='Heure de la journée')
fig3.update_yaxes(title_text='Date')
fig3.show()

# --- 2.4. Distribution du nombre de sessions par utilisateur ---
sessions_per_user = df.groupby('user_id')['session_id'].nunique().reset_index()
sessions_per_user.columns = ['user_id', 'num_sessions']
max_sessions_to_show = 20
sessions_per_user_limited = sessions_per_user[sessions_per_user['num_sessions'] <= max_sessions_to_show]
fig4 = px.histogram(sessions_per_user_limited, x='num_sessions', nbins=max_sessions_to_show,
                   title='Distribution du nombre de sessions par utilisateur (limité à 20)',
                   labels={'num_sessions': 'Nombre de sessions', 'count': 'Nombre d\'utilisateurs'})
fig4.update_xaxes(title_text='Nombre de sessions')
fig4.update_yaxes(title_text='Nombre d\'utilisateurs')
fig4.show()

# --- 2.5. Distribution du nombre de clics par session ---
clicks_per_session = df.groupby('session_id').size().reset_index(name='click_count')
max_clicks_to_show = 50
clicks_per_session_limited = clicks_per_session[clicks_per_session['click_count'] <= max_clicks_to_show]
fig5 = px.histogram(clicks_per_session_limited, x='click_count', nbins=min(max_clicks_to_show, 50),
                   title='Distribution du nombre de clics par session (limité à 50)',
                   labels={'click_count': 'Nombre de clics', 'count': 'Nombre de sessions'})
fig5.update_xaxes(title_text='Nombre de clics dans la session')
fig5.update_yaxes(title_text='Nombre de sessions')
fig5.show()

# --- 2.6. Répartition des clics par catégorie d'appareil (click_deviceGroup) ---
clicks_by_device = df['click_deviceGroup'].value_counts().reset_index()
clicks_by_device.columns = ['click_deviceGroup', 'count']
fig6 = px.pie(clicks_by_device, values='count', names='click_deviceGroup',
              title='Répartition des clics par type d\'appareil')
fig6.show()

# --- 2.7. Répartition des clics par système d'exploitation (click_os) ---
clicks_by_os = df['click_os'].value_counts().head(10) # Garder les 10 premiers pour lisibilité
fig7 = px.bar(clicks_by_os, x=clicks_by_os.index, y=clicks_by_os.values,
              title='Top 10 des systèmes d\'exploitation pour les clics',
              labels={'index': 'Système d\'exploitation', 'y': 'Nombre de clics'})
fig7.update_xaxes(title_text='Système d\'exploitation')
fig7.update_yaxes(title_text='Nombre de clics')
fig7.show()

# --- 2.8. Répartition des clics par type de referrer (click_referrer_type) ---
clicks_by_referrer = df['click_referrer_type'].value_counts().reset_index()
clicks_by_referrer.columns = ['click_referrer_type', 'count']
fig8 = px.bar(clicks_by_referrer, x='click_referrer_type', y='count',
              title='Répartition des clics par type de referrer',
              labels={'click_referrer_type': 'Type de referrer', 'count': 'Nombre de clics'})
fig8.update_xaxes(title_text='Type de referrer')
fig8.update_yaxes(title_text='Nombre de clics')
fig8.show()

# --- 2.9. Exemple de séquence de clics pour une session ---
session_example = clicks_per_session.nlargest(1, 'click_count')['session_id'].iloc[0]
session_data = df[df['session_id'] == session_example].sort_values('click_timestamp')

fig9 = go.Figure(data=go.Scatter(
    x=session_data['click_timestamp'],
    y=session_data.index, # Utiliser l'index pour montrer l'ordre des clics
    mode='lines+markers',
    hovertext=[f"Article: {aid}<br>Heure: {ts}<br>OS: {os}<br>Device: {dev}"
               for aid, ts, os, dev in zip(session_data['click_article_id'],
                                          session_data['click_timestamp'],
                                          session_data['click_os'],
                                          session_data['click_deviceGroup'])],
    hoverinfo='text'
))
fig9.update_layout(
    title=f'Séquence de clics pour la session exemple: {session_example}',
    xaxis_title='Horodatage',
    yaxis_title='Ordre du clic dans la session',
    showlegend=False
)
fig9.show()

print("Les visualisations ont été générées.")

Chargement de 385 fichiers CSV...
Total de lignes chargées: 2988181
Conversion du timestamp...
Conversion terminée.


Les visualisations ont été générées.
