In [1]:
import pandas as pd
import sys

# Gedeelte PageSpeed
### Data importeren

In [2]:
data = pd.read_csv("lg_export.csv")

### Ruwe data excerpt

In [3]:
data.head(20)

Unnamed: 0,search_query,query_category,position,url,mobile,desktop
0,vervaltermijn arbeidsrecht,recht,1,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,69,97
1,vervaltermijn arbeidsrecht,recht,2,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,69,97
2,vervaltermijn arbeidsrecht,recht,3,https://www.dvdk.nl/wp-content/uploads/2019/11...,0,0
3,vervaltermijn arbeidsrecht,recht,4,https://www.vanderhoevenadvocatuur.nl/termijne...,59,91
4,vervaltermijn arbeidsrecht,recht,5,https://ontslagvergoeding.nl/vervaltermijnen/,34,68
5,vervaltermijn arbeidsrecht,recht,6,https://danielshuisman.nl/blog/vervaltermijnen...,60,90
6,vervaltermijn arbeidsrecht,recht,7,https://www.arbeidsrechter.nl/verjaring-vorder...,67,95
7,vervaltermijn arbeidsrecht,recht,8,https://www.recht.nl/nieuws/arbeidsrecht/17251...,65,89
8,vervaltermijn arbeidsrecht,recht,9,https://www.amsadvocaten.nl/blog/arbeidsrecht/...,54,81
9,vervaltermijn arbeidsrecht,recht,10,https://www.huveradvocaten.nl/nieuws-en-uitleg...,33,59


### Data opschonen
Waardes van 0 of "?" geven een error aan bij de pagespeed test en moeten worden opgeschoond. Van posities boven de 20 is te weinig data aanwezig om van belang te zijn en worden eruit gefilterd

In [4]:
# Remove non numeric results
a = pd.to_numeric(data.mobile, errors="coerce")
indx_a = a.notnull() & (a > 0)
b = pd.to_numeric(data.desktop, errors="coerce")
indx_b = b.notnull() & (b > 0)
# verwijder resultaten boven positie 20, daar zijn niet genoeg van gescraped
indx_c = data.position < 21
cl_data = data[indx_a&indx_b&indx_c]

### Voorbeeld opgeschoonde data

In [5]:
cl_data.head(20)

Unnamed: 0,search_query,query_category,position,url,mobile,desktop
0,vervaltermijn arbeidsrecht,recht,1,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,69,97
1,vervaltermijn arbeidsrecht,recht,2,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,69,97
3,vervaltermijn arbeidsrecht,recht,4,https://www.vanderhoevenadvocatuur.nl/termijne...,59,91
4,vervaltermijn arbeidsrecht,recht,5,https://ontslagvergoeding.nl/vervaltermijnen/,34,68
5,vervaltermijn arbeidsrecht,recht,6,https://danielshuisman.nl/blog/vervaltermijnen...,60,90
6,vervaltermijn arbeidsrecht,recht,7,https://www.arbeidsrechter.nl/verjaring-vorder...,67,95
7,vervaltermijn arbeidsrecht,recht,8,https://www.recht.nl/nieuws/arbeidsrecht/17251...,65,89
8,vervaltermijn arbeidsrecht,recht,9,https://www.amsadvocaten.nl/blog/arbeidsrecht/...,54,81
9,vervaltermijn arbeidsrecht,recht,10,https://www.huveradvocaten.nl/nieuws-en-uitleg...,33,59
10,vervaltermijn arbeidsrecht,recht,11,https://www.my.stibbe.com/mystibbe/attachment_...,56,82


### Url count
Aantal urls in de test

In [6]:
cl_data["url"].count()

13574

# Opzet zoekopdrachten
De zoektermen zijn over 7 categorieen verdeeld.

In [7]:
for cat in cl_data.query_category.unique():
    cat_filter = cl_data.query_category.str.contains(cat)
    queries = cl_data[cat_filter].search_query.unique()
    nr_queries = len(queries)
    urls = cl_data[cat_filter]
    nr_urls = len(urls)
    print(f"Categorie: {cat.capitalize()}")
    print(f"Aantal queries: {nr_queries}")
    print(f"Aantal geteste urls: {nr_urls}\n")

alle_queries = data.search_query.unique()
print(f"Aantal queries in totaal: {len(alle_queries)}")

Categorie: Recht
Aantal queries: 42
Aantal geteste urls: 726

Categorie: Lokaal
Aantal queries: 350
Aantal geteste urls: 6834

Categorie: It
Aantal queries: 50
Aantal geteste urls: 1122

Categorie: Ecommerce
Aantal queries: 100
Aantal geteste urls: 2069

Categorie: Ondern
Aantal queries: 50
Aantal geteste urls: 995

Categorie: Financieel
Aantal queries: 50
Aantal geteste urls: 936

Categorie: Medisch
Aantal queries: 50
Aantal geteste urls: 892

Aantal queries in totaal: 692


### Uitkomst PageSpeed snelheid in Mobile en Desktop
We bereken hier het aantal resultaten, de Mediaan, gemiddelde, standaard deviatie, min en max.

In [8]:
cl_data.astype({
        "mobile": int,
        "desktop": int}
    ).groupby(
        ["position"]
    ).agg(
        ["count", "median", "mean", "std", "min", "max"]
    )

Unnamed: 0_level_0,mobile,mobile,mobile,mobile,mobile,mobile,desktop,desktop,desktop,desktop,desktop,desktop
Unnamed: 0_level_1,count,median,mean,std,min,max,count,median,mean,std,min,max
position,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
1,673,38.0,40.943536,23.103025,1,97,673,77,72.915305,19.295639,7,100
2,716,38.0,41.955307,24.067695,3,98,716,79,74.403631,18.740866,9,100
3,714,36.0,39.443978,23.233139,2,98,714,74,70.882353,18.651981,13,100
4,705,38.0,41.679433,23.533328,1,100,705,75,72.380142,18.914735,13,100
5,704,36.5,40.151989,24.022001,2,98,704,76,71.62358,19.551633,6,100
6,707,37.0,40.855728,23.747947,1,97,707,76,71.497878,19.777829,14,100
7,713,38.0,42.012623,24.523632,1,100,713,78,73.085554,18.618652,14,100
8,710,38.0,42.105634,25.633389,2,100,710,77,72.057746,20.430509,12,100
9,702,37.0,41.55698,24.580278,2,100,702,76,72.249288,19.12178,15,100
10,681,39.0,43.030837,24.649435,1,100,681,78,73.587372,18.31911,19,100


### Uitkomst per categorie

In [9]:
pd.set_option('display.max_rows', 500)

In [10]:
cl_data.astype({
        "mobile": int, "desktop": int
    }).groupby(
        ["query_category", "position"]
    ).agg(
        ["count", "median", "mean", "std", "min", "max"]
    )

Unnamed: 0_level_0,Unnamed: 1_level_0,mobile,mobile,mobile,mobile,mobile,mobile,desktop,desktop,desktop,desktop,desktop,desktop
Unnamed: 0_level_1,Unnamed: 1_level_1,count,median,mean,std,min,max,count,median,mean,std,min,max
query_category,position,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2
ecommerce,1,111,37.0,42.081081,21.145012,1,88,111,81.0,76.567568,19.46074,17,97
ecommerce,2,111,33.0,38.63964,20.509329,7,91,111,79.0,74.72973,18.0494,26,98
ecommerce,3,109,33.0,35.87156,21.030886,3,94,109,73.0,70.816514,18.064271,24,97
ecommerce,4,108,30.5,36.12037,21.819445,1,94,108,74.0,70.231481,19.513526,25,99
ecommerce,5,110,31.0,34.654545,21.052767,3,96,110,75.0,69.572727,20.171039,6,99
ecommerce,6,112,29.5,34.776786,19.987703,4,84,112,74.0,69.107143,19.236956,17,98
ecommerce,7,109,31.0,36.46789,21.497876,1,98,109,73.0,70.385321,19.093778,19,96
ecommerce,8,110,30.0,34.090909,21.04279,3,98,110,72.5,68.463636,20.124237,12,100
ecommerce,9,103,30.0,33.990291,18.813061,6,88,103,72.0,67.864078,19.315771,16,98
ecommerce,10,104,31.5,35.269231,20.106624,8,98,104,73.0,70.076923,18.878092,27,99


# Speedtest

In [11]:
speed_data = pd.read_csv("speed_export.csv")

In [12]:
speed_data.head(20)

Unnamed: 0,search_query,query_category,position,url,test_1,test_2,test_3
0,vervaltermijn arbeidsrecht,recht,1,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,593.0,274.0,351.0
1,vervaltermijn arbeidsrecht,recht,2,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,593.0,274.0,351.0
2,vervaltermijn arbeidsrecht,recht,3,https://www.dvdk.nl/wp-content/uploads/2019/11...,,,
3,vervaltermijn arbeidsrecht,recht,4,https://www.vanderhoevenadvocatuur.nl/termijne...,967.0,787.0,849.0
4,vervaltermijn arbeidsrecht,recht,5,https://ontslagvergoeding.nl/vervaltermijnen/,3905.0,2181.0,2295.0
5,vervaltermijn arbeidsrecht,recht,6,https://danielshuisman.nl/blog/vervaltermijnen...,1297.0,437.0,434.0
6,vervaltermijn arbeidsrecht,recht,7,https://www.arbeidsrechter.nl/verjaring-vorder...,1597.0,592.0,759.0
7,vervaltermijn arbeidsrecht,recht,8,https://www.recht.nl/nieuws/arbeidsrecht/17251...,1479.0,680.0,928.0
8,vervaltermijn arbeidsrecht,recht,9,https://www.amsadvocaten.nl/blog/arbeidsrecht/...,1636.0,1979.0,613.0
9,vervaltermijn arbeidsrecht,recht,10,https://www.huveradvocaten.nl/nieuws-en-uitleg...,5072.0,1688.0,2234.0


### Opschonen

In [33]:
# Remove NaN data
filter_test_1 = speed_data.test_1.notnull() & (speed_data.test_1 > 0)
filter_test_2 = speed_data.test_2.notnull() & (speed_data.test_2 > 0)
filter_test_3 = speed_data.test_2.notnull() & (speed_data.test_2 > 0)
# verwijder resultaten boven positie 20, daar zijn niet genoeg van gescraped
indx_c = speed_data.position < 21
cl_speed_data = speed_data[filter_test_1&filter_test_2&filter_test_3&indx_c].copy()
cl_speed_data.head(20)

Unnamed: 0,search_query,query_category,position,url,test_1,test_2,test_3,gem_snelheid
0,vervaltermijn arbeidsrecht,recht,1,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,593.0,274.0,351.0,406.0
1,vervaltermijn arbeidsrecht,recht,2,https://smartadvocaten.nl/nl/arbeidsrecht/onts...,593.0,274.0,351.0,406.0
3,vervaltermijn arbeidsrecht,recht,4,https://www.vanderhoevenadvocatuur.nl/termijne...,967.0,787.0,849.0,867.666667
4,vervaltermijn arbeidsrecht,recht,5,https://ontslagvergoeding.nl/vervaltermijnen/,3905.0,2181.0,2295.0,2793.666667
5,vervaltermijn arbeidsrecht,recht,6,https://danielshuisman.nl/blog/vervaltermijnen...,1297.0,437.0,434.0,722.666667
6,vervaltermijn arbeidsrecht,recht,7,https://www.arbeidsrechter.nl/verjaring-vorder...,1597.0,592.0,759.0,982.666667
7,vervaltermijn arbeidsrecht,recht,8,https://www.recht.nl/nieuws/arbeidsrecht/17251...,1479.0,680.0,928.0,1029.0
8,vervaltermijn arbeidsrecht,recht,9,https://www.amsadvocaten.nl/blog/arbeidsrecht/...,1636.0,1979.0,613.0,1409.333333
9,vervaltermijn arbeidsrecht,recht,10,https://www.huveradvocaten.nl/nieuws-en-uitleg...,5072.0,1688.0,2234.0,2998.0
11,vervaltermijn arbeidsrecht,recht,12,https://www.boersadvocaten.nl/blog/arbeidsrech...,1315.0,1373.0,2839.0,1842.333333


In [19]:
cl_speed_data.url.count()

12845

In [53]:
cl_speed_data["gem_snelheid"] = cl_speed_data.loc[:, "test_1":"test_3"].median(axis=1)

cl_speed_data

In [54]:
cl_speed_data.groupby(
        ["position"]
    ).gem_snelheid.agg(
        ["count", "median", "mean", "std", "min", "max"]
    )

Unnamed: 0_level_0,count,median,mean,std,min,max
position,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,620,1850.0,2201.678226,1633.435026,36.0,20638.0
2,669,1799.0,2174.275037,1682.900792,91.0,16167.0
3,664,1990.5,2509.761295,2349.80525,55.0,26719.0
4,671,1893.0,2445.710134,2425.72343,78.0,26719.0
5,668,1871.0,2310.085329,1953.023647,22.0,26719.0
6,658,1885.5,2330.703647,1926.094133,58.0,19613.0
7,662,1962.0,2416.21148,1964.968944,69.0,16290.0
8,655,1829.0,2247.889313,1782.237311,17.0,14363.0
9,659,1896.0,2340.287557,1838.771058,45.0,14737.0
10,656,1888.0,2397.469512,2228.125028,18.0,24500.0


# Gedeelte Lighthouse

In [None]:
lighthouse_data = pd.read_csv("lighthouse.csv")

### Ruwe data excerpt

In [None]:
lighthouse_data.head(20)

In [None]:
# Remove non numeric results
a = pd.to_numeric(lighthouse_data.lighthouse_accessebility, errors="coerce")
indx = a.notnull()
b = pd.to_numeric(lighthouse_data.lighthouse_best_practices, errors="coerce")
indx_b = b.notnull()
c = pd.to_numeric(lighthouse_data.lighthouse_seo_score, errors="coerce")
indx_c = c.notnull()
indx_d = lighthouse_data.position < 21
cl_lighthouse_data = lighthouse_data[indx&indx_b&indx_c&indx_d]

### Voorbeeld opgeschoonde data

In [None]:
cl_lighthouse_data.head(20)

In [None]:
cl_lighthouse_data.url.count()

### Uitkomst Lighthouse testen
We bereken hier het aantal resultaten, de Mediaan, gemiddelde, standaard deviatie, min en max.

In [None]:
cl_lighthouse_data.astype({
        "lighthouse_accessebility": int,
        "lighthouse_best_practices": int, 
        "lighthouse_seo_score": int
    }).groupby(
        ["position"]
    ).agg(
        ["count", "median", "mean", "std", "min", "max"]
    )

### Lighthouse testen opgesplitst per categorie

In [None]:
cl_lighthouse_data.astype({
    "lighthouse_accessebility": int, 
    "lighthouse_best_practices": int, 
    "lighthouse_seo_score": int
    }).groupby(
    ["query_category", "position"]
    ).agg(
        ["count", "median", "mean", "std", "min", "max"]
    ).head(500)