# Parmi les visiteurs de pages CC combien utilisent la partie « articles de la convention collective »

**Objectif** : Parmi les visiteurs des pages CC (page qui contiennent «  /convention-collective/ » dans l’url) : 
- combien cliquent sur les accordéons qui sont dans la partie « Articles de la convention collective » : 
- combien cliquent sur les « tuiles articles » qui amènent sur légifrance : 


## On commence par le chargement des données

In [None]:
import pandas as pd
import numpy as np
import time
import json
import math
from tqdm.notebook import tqdm
import plotly.express as px
import plotly.graph_objects as go
from datetime import datetime
from src.elasticsearch_connector import ElasticsearchConnector
#from typing import List, Dict

tqdm.pandas()


pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', 200)

## Si on veut lire en requêtant Elastic Search

In [None]:
es_connector = ElasticsearchConnector(env='monolog')

   
QUERY = {
  "query": {
    "bool": {
      "must": [
        {
          "bool": {
            "should": [
              {
                "prefix": {
                  "url": "https://code.travail.gouv.fr/convention-collective/"
                }
              },
              {
                "term": {
                  "type": "outlink"
                }
              }
            ]
          }
        },
        {
          "range": {
            "logfile": {
              "gte": "2022-07-01",
              "lt": "2022-11-01"
            }
          }
        }
      ]
    }
  }
}

In [None]:
logs = es_connector.execute_query(QUERY, "logs-new")

# Début de l'exploration

## 1. Nombre de visites sur les pages convention collective

### Comptage du nombre de visiteurs uniques sur ces pages

In [None]:
unique_visits = logs[logs['url'].str.startswith('https://code.travail.gouv.fr/convention-collective/')].idVisit.nunique()
unique_visits

## 2. Nombre de click sur un menu déroulant article de convention collective 

On va compter le nombre de click sur `pagecc_clicktheme`

In [None]:
nb_clicks_pagecc_clicktheme = logs[
    (logs['type']=='pagecc_clicktheme')
].idVisit.nunique()
nb_clicks_pagecc_clicktheme

## 3. Events de sortie

Le problème c'est qu'on a pas les évents de sorties

In [None]:
visits_with_clicktheme = logs.groupby(by='idVisit').apply(lambda g: 'pagecc_clicktheme' in set(g.type))
visits_with_clicktheme.name = 'clicktheme'

In [None]:
visits_with_outlink = logs[logs['url'].str.startswith('https://legifrance.gouv.fr')]\
  .groupby(by='idVisit')\
  .apply(lambda g: 'outlink' in set(g.type))
visits_with_outlink.name = 'outlink'
visits_with_outlink

In [None]:
visits_with_clicktheme_and_outlink = visits_with_clicktheme\
  .to_frame()\
  .merge(visits_with_outlink, left_index=True, right_index=True)\
  .apply(lambda x: x.outlink and x.clicktheme, axis = 1)\
  .value_counts().iloc[1]
visits_with_clicktheme_and_outlink

### Présentation Graphique du résultat

In [None]:
data = dict(
    number=[unique_visits, nb_clicks_pagecc_clicktheme, visits_with_clicktheme_and_outlink],
    stage=["Total de visites avec au moins une CC visitée", "Au moins un click sur un accordéon", "Au moins un départ du site sur legifrance"]
)
fig = px.funnel(data, x='number', y='stage')
fig.show()