# Webscraper en -crawler



Aan de hand van het vorige onderzoek, waarbij gekeken werd naar de beste methodes om een gegeven website te scrapen, werdt er aangegeven dat de vervolgstap zou zijn om het systeem te koppelen met een webcrawler om zo te kunnen zoeken naar websites aan de hand van een gegeven query. In dit document wordt er gekeken naar het maken van de crawler, waarbij gekeken wordt naar de beste methodes en hoe deze toegepast kunnen worden.

## Scraper

Zoals in het vorige onderzoek is aangegeven is er uiteindelijk gekozen voor een combinatie van Beautiful Soup en mechanize om data van webpagina's te scrapen. In dit onderzoek is dezelfde code hiervoor gebruikt, met een paar aanpassingen om het goed samen te laten werken met de rest van de systemen die ontwikkeld zijn.

## Search engine

Om te kunnen webcrawlen moet er een manier zijn om te kunnen zoeken naar websites om te scrapen. Een Search engine zoals google gebruiken is hiervoor een goede oplossing, aangezien dit de mogelijkheid geeft om aan de hand van een enkele zoek-query een lijst aan mogelijk nuttige links kan geven om te scrapen. Een probleem hiermee is echter dat er in de gebruiksvoorwaarden van google is aangegeven dat het niet is toegestaan om google te scrapen, **en het wordt daarom ook heel moeilijk gemaakt door Google om dit wel te doen**. **Een manier om toch gebruik te kunnen maken van de Google search engine is door gebruik te maken van de Google JSON Search API.**

### API

De Google JSON Search API is een API gecreeërd door Google die gebruikers de mogelijkheid geeft om data op te halen uit de google search engine, zonder dat de daatwerkelijke search engine gescrapet hoeft te worden. Dit geeft een gemakkelijke en legale manier om links op te kunnen halen voor webscraping. Als gekeken wordt naar de top 10 resultaten wanneer zelf wordt gezocht tegenover de Google API, produceert het resultaten die 20% verschillen[1], maar aangezien het scrapen van data op search engines beperkt is en niet toegestaan is binnen hun gebruiksovereenkomst is het gebruiken van API's de optimale manier om data te verzamelen.[2]

## Crawler

De webcrawler, ook wel Spider genoemt, is een uiteindelijke combinatie van de search engine en de scraper. Hierbij haalt de crawler aan de hand van de gegeven query 50 links op, waarna hij deze een voor een scrapet en de uiteindelijke data returnt in een lijst. Bij het scrapen wordt er deze keer gebruik gemaakt van de robot.txt op de websites, aangezien hierin wordt aangegeven door de ontwikkelaars van de website wat wel of niet mag, scrapen daaronder vallende.[3]


## Code

In [2]:
from bs4 import BeautifulSoup
import mechanize
from googleapiclient.discovery import build
import concurrent.futures
from os import environ
from urllib.error import HTTPError
import csv

## Scraper

Zoals eerder gezegt is het grootste deel van de scraper hergebruikt uit het vorige onderzoek, met als enige grootste verschillen dat het in een try-except is gezet vanwege het feit dat er een exception wordt aangeroepen als een webpagina niet gescrapet kan worden, en dat er alleen gescrapet wordt op de paragraph elementen op een webpagina, aangezien uit eigen onderzoek hier meestal de tekstdata wordt neergezet op webpagina's.

In [3]:
def Scraper(webpage, br):
    # Roep een try aan, omdat volgends robots.txt sommige websites niet gescrapet mogen worden, die een exception aanroepen wanneer ze gescrapet worden door de functie.
    try:
        # Haal de webdata op van de gegeven webpagina met de bijgeleverde browser.
        data = br.open(webpage).get_data()
        soup = BeautifulSoup(data)

        # Haal de paragraph onderdelen op van de webpagina, aangezien meeste websites hierin textvelden hebben staan.
        paragraphs = soup.find_all('p')

        # Velden met tekst worden leeggehaald als de tekstvelden er zijn, en als laatste worden ze samengevoegt en uitgeprint
        if paragraphs:
            article_text = ' '.join([p.get_text(strip=True) for p in paragraphs])
            return article_text
        else:
            return None
    except:
        return "Blocked by robots.txt"

## Search engine

Voordat er gebruik gemaakt kan worden van de Search engine API van Google moet er een api_key en een cse_id aangemaakt worden op de cloud development panel. Voor ons project is er gekozen voor de gratis variant, die de mogelijkheid geeft om 100 queries per dag uit te voeren, wat vertaald naar ongeveer 1000 links per dag die opgehaald kunnen worden. Om ervoor te zorgen dat er genoeg data opgehaald wordt van de webpagina's worden er 5 queries uitgevoerd om links op te halen, wat in totaal een maximum van 50 links is die opgehaald worden. Hiervoor is gekozen vanwege het feit dat tijdens het onderzoeken van de queries het limiet vrij snel aangetikt werd, waardoor er een limiet werd gezet op 50 links.

In [4]:
def google_search(query):
    # API key en Search engine keys voor het gebruik van de Google API
    api_key = "AIzaSyBI5TGhJH0WAvYIzuuNrttMbC4lxUBy0Mw"
    cse_id = "5141af20165024a52"

    print(api_key)
    print(cse_id)

    # Roep de Search Engine aan, en haal indien mogelijk de eerste 50 results op voor de gegeven query
    service = build("customsearch", "v1", developerKey=api_key)
    try:
        res = service.cse().list(q=query, cx=cse_id).execute()
        res2 = service.cse().list(q=query, cx=cse_id, start=11).execute()
        res3 = service.cse().list(q=query, cx=cse_id, start=21).execute()
        res4 = service.cse().list(q=query, cx=cse_id, start=31).execute()
        res5 = service.cse().list(q=query, cx=cse_id, start=41).execute()
    except HTTPError as e:
        if e.resp.status == 429:
            print("Quota exceeded. Please try again later.")
            return None
        else:
            raise e
    print("Links get!")

    # Plaats alle res elementen in een array
    res_list = [res, res2, res3, res4, res5]

    # Loop door de res_list en voeg de items samen als ze bestaan
    items = []
    for r in res_list:
        if 'items' in r:
            items.extend(r['items'])

    return items if items else None


## Crawler

De Crawler gebruikt de hierboven gemaakte functies om met behulp van google 50 links op te halen en te scrapen. Hiervoor wordt er eerst een lijst met websites toegevoegd die niet gescrapet moeten worden, zoals social media websites, omdat dit in theorie blogs zijn waar iedereen informatie op kan zetten, al is het waar of niet. **Dit is gedaan aan de hand van een interview met een indirecte stakeholder, die aangaf dat hij dit zelf vaak ook doet, omdat er op meeste van deze sites geen nuttige inhoudelijke informatie bevatten rondt de bedrijven, en soms zelfs fake news zijn.** Daarnaast zit er een ThreadPoolExecutor in, waarmee er een timout exception aangeroepen kan worden als het langer duurt dan 10 seconden aangezien sommige webpagina's kunnen blijven hangen tijdens het webscrapen. Tot slot worden de opgehaalde texten gecheckt of het wel daadwerkelijk de texten zijn, waarna ze worden teruggegeven in een lijst.

In [5]:
def Spider(query):
    # Creeër een browser die handhaaft op robots.txt, zodat alleen websites die gescrapet mogen worden gescrapet worden
    br = mechanize.Browser()
    br.set_handle_robots(True)
    # Voeg een lijst met exclude websites toe aan de query, zodat hier geen resultaten voor worden weergegeven
    query_extra = ' -youtube.com -facebook.com -x.com -twitter.com -instagram.com -reddit.com -tiktok.com -threads.com -tripadvisor.com -pinterest.com'
    query += query_extra
    print("Getting links...")

    # Roep functie aan die google results ophaalt aan de hand van de gegeven query
    results = google_search(query)
    if not results:
        return []
    print(f"Total results: {len(results)}")

    returns = []
    count = 0

    # Scrape alle links die opgehaald zijn uit de query
    for result in results:
        count +=1
        title = result['title']
        link = result['link']
        # Voer de scraper uit met een threadpool, zodat een timeout aangeroepen kan worden als het scrapen van een link te lang duurt
        with concurrent.futures.ThreadPoolExecutor() as executor:
            try:
                future = executor.submit(Scraper, result['link'], br)
                text = future.result(timeout=10)
            except TimeoutError:
                text = "Timeout"

        # Voeg de gescrapede text toe aan de geldige results list als deze niet leeg zijn of een exception aanriepen.
        with open("results.csv", "a", encoding='utf-8', newline='') as csvfile:
            if text not in ['Blocked', 'Timeout', None, '', ' ', '  ', 'Blocked by robots.txt']:
                csvfile.write(text + "\n")

    return returns

In [6]:
if __name__ == "__main__":
    # De naam van een persoon als test om de scraper te testen
    Spider("Freddy Mercury")


Getting links...
AIzaSyBI5TGhJH0WAvYIzuuNrttMbC4lxUBy0Mw
5141af20165024a52
Links get!
Total results: 50


## Conclusie

In conclusie is er met behulp van de gemaakte scraper en crawler een mogelijkheid gecreeërd om aan de hand van een gegeven query webpagina's op te halen, waar uiteindelijk een sentimentanalyse op uitgevoerd zou kunnen worden. Voor het testen van de scraper en de rest van de systemen zijn 20 queries per dag voldoende, maar als er uiteindelijk in de praktijk gebruik gemaakt gaat worden van dit product moet er gekeken worden naar de betaalde versie van de Google API, om zo indien nodig meer dan 20 queries uit te voeren.

**Daarnaast moet er nog gekeken worden naar het aanroepen van een timeout binnen de functie, aangezien dit nog niet goed loopt**

## Bronnen

[1] J. A. Chisty, “Innovation in co-creation practices: an exploratory study,” 2011, Accessed: Jan. 21, 2025. [Online]. Available: https://repository.library.carleton.ca/downloads/xs55mc780

[2] F. McCown and M. L. Nelson, “Agreeing to disagree: Search engines and their public interfaces,” Proceedings of the ACM International Conference on Digital Libraries, pp. 309–318, 2007, doi: 10.1145/1255175.1255237.

[3] P. Vyas, A. Chauhan, T. Mandge, and S. Hardikar, “Web crawler strategies for web pages under robot.txt restriction,” Aug. 2023, Accessed: Jan. 21, 2025. [Online]. Available: https://arxiv.org/abs/2308.04689v2
  
  