# Quelle est la page pr√©c√©dente des visiteurs des pages info licenciement

**D√©finition** : Ce que je veux faire

**Formule** : 

## On commence par le chargement des donn√©es
on d√©commente ce dont on a besoin

In [None]:
import pandas as pd
import time
import json
import math
from tqdm.notebook import tqdm
import plotly.express as px
import plotly.graph_objects as go
from datetime import datetime
from src.elasticsearch_connector import ElasticsearchConnector
#from typing import List, Dict
tqdm.pandas()


pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

## Si on veut lire en requ√™tant Elastic Search

In [None]:
es_connector = ElasticsearchConnector(env='monolog')

QUERY = {
  "query": {
    "bool": { 
      "must": [
        {
          "range": {
            "logfile": {
              "gte": "2023-02-01",
              "lt": "2023-04-01"
            }
          }
        }
      ]
    }
  }
}

In [None]:
logs = es_connector.execute_query(QUERY, "logs-new")

In [None]:
#pour avoir √† √©viter de charger les donn√©es
#logs.to_csv('../../save_fev_marc_data.csv', index=False)

# puis au chargement
#logs = pd.read_csv('../../save_fev_marc_data.csv')


In [None]:
logs.shape

In [None]:
logs.head()

In [None]:
logs.type.value_counts()

In [None]:
def format_url_and_get_month_and_datetime_columns(df: pd.DataFrame):
    df['url'] = df['url'].str.split('#').str[0].str.split('?').str[0]
    df['month'] = pd.DatetimeIndex(df['logfile']).month
    df['datetime'] = df['timestamp'].apply(datetime.fromtimestamp)
    return df

In [None]:
def clean_dataset_from_useless_rows(df):
    df_shortened = df[df['type'].isin(['visit_content', 'outil', 'themes', 'page_information',
                                       'search', 'home', 'modeles_courriers', 'outlink'])]
    return df_shortened.loc[
        (df_shortened['idVisit'].shift() != df_shortened['idVisit']) |
        (df_shortened['url'].shift() != df_shortened['url']) |
        #(df_shortened['type'].shift() != df_shortened['type']) |
        (df_shortened['referrerTypeName'].shift() != df_shortened['referrerTypeName'])
    ]

In [None]:
logs_formated = format_url_and_get_month_and_datetime_columns(logs.copy())
logs_cleaned = clean_dataset_from_useless_rows(logs_formated.copy())

In [None]:
logs_cleaned.shape[0]

# D√©but de l'explo

On va s'y prendre en plusieurs √©tapes. 
- Supprimons des donn√©es tous les visiteurs qui NE sont PAS all√©s sur les pages info licenciement
- Ordonnons par IdVisit et timestamp nos donn√©es
- D√©barasser des logs inutiles, nous allons dupliquer la colonne url en une colonne url_pr√©c√©dent en la d√©calant de 1 ligne (en gros l'url pr√©c√©dent est √©gal √† l'url actuel de la ligne pr√©c√©dente)
    - cela va cr√©er un souci car le premier url de visite d'un utilisateur sera le dernier url de l'utilisateur pr√©c√©dent. On pourra facilement corriger √ßa en modifiant le premier url_pr√©c√©dent de chaque utilisateur par le referrer_name de la ligne actuelle. De telle sorte √† ce que la premi√®re ligne contienne le point d'entr√©e de l'utilisateur et les lignes suivantes soient compos√© de l'url de la ligne pr√©c√©dente. Est-ce que c'est clair ? üòÖ 
- Ensuite on voit ce qu'on fait mais on pourrait faire un groupby url et url pr√©c√©dent et count occurences 

### 1. Suppressions des visiteurs qui NE sont PAS all√©s sur les pages info licenciement

In [None]:
# On priviligie tous les logs pour ne manquer un utilisateur
visitors_having_visited_info_licenc = set(logs[
    (logs['url'].notna()) & 
    (logs['url'].str.contains('information/')) &
    (logs['url'].str.contains('licenciement'))
].idVisit.unique())

len(visitors_having_visited_info_licenc)

In [None]:
logs_visitors_having_visited_info_licenc = logs_cleaned[
    logs_cleaned['idVisit'].isin(visitors_having_visited_info_licenc)
]

### 2. Ordonnons par IdVisit et timestamp nos donn√©es

In [None]:
logs_sorted = logs_visitors_having_visited_info_licenc.sort_values(by=['idVisit', 'timestamp'])

### 3. On ajoute une colonne url_pr√©c√©dent

In [None]:
logs_sorted['url_pr√©c√©dent'] = logs_sorted['url'].shift()

In [None]:
logs_sorted.head(5)

In [None]:
def update_first_url_precedent_with_refererrName(df):
    df.iloc[0, df.columns.get_loc('url_pr√©c√©dent')] = df.iloc[0].referrerName
    return df

In [None]:
logs_with_previous_url = logs_sorted\
    .groupby(by='idVisit', group_keys=False)\
    .progress_apply(update_first_url_precedent_with_refererrName)

In [None]:
logs_with_previous_url

### 4. Ensuite on voit ce qu'on fait mais on pourrait faire un groupby url et url pr√©c√©dent et count occurences 