# Eerste Test Webscraping Schandaal Scanner

Om de data die van een bedrijf is gevonden op het internet te kunnen voeren aan het Large Language Model (LLM) moet het van het internet af gehaald worden. Dit kan gedaan worden met behulp van Web Scraping, wat een techniek is om ongestructureerde webdata om te zetten in gestructureerde data die opgeslagen en geanalyseerd kan worden in een centrale database of spreadsheet.[1] Er zijn verschillende manieren om dit te doen, en in dit document wordt er gekeken naar de verschillende manieren hoe je kan webscrapen, met daarbij de voordelen en nadelen.

## Soorten webscraping

Zoals eerder gezegt zijn er verschillende soorten webscraping die toegepast kunnen worden. Uit onderzoek van Moaiad Ahmad Khder[2] zijn er hier 7 verschillende soorten:

- Traditional Copy-and-Paste: Deze methode omvat het handmatig kopiëren van gegevens van webpagina's en het plakken ervan in een document of spreadsheet.[1] Hoewel eenvoudig, is het onpraktisch voor grote datasets.[2]
- Grabbing Text with Regular Expressions: Deze techniek gebruikt reguliere expressies om specifieke tekstpatronen uit HTML-inhoud te zoeken en te extraheren.[1] Het is een eenvoudige methode, maar kan complex zijn om te implementeren voor ingewikkelde gegevensstructuren.[2]
- Programming with HTTP Requests: Deze methode omvat het verzenden van HTTP-verzoeken naar webservers om webpagina's op te halen.[1] Bibliotheken zoals `curl` en `wget` kunnen worden gebruikt om dit proces te automatiseren, waardoor zowel statische als dynamische inhoud kan worden geëxtraheerd.[2]
- HTML-parsing: Deze techniek gebruikt bibliotheken om HTML-documenten te parsen en gegevens te extraheren. Veelvoorkomende bibliotheken zijn Beautiful Soup en lxml, die eenvoudige navigatie en extractie van gegevens uit de HTML-structuur mogelijk maken.[2]
- DOM-parsing: Deze methode omvat het gebruik van een volledig uitgeruste webbrowser of browserbesturing om toegang te krijgen tot dynamische inhoud die wordt gegenereerd door client-side scripts. Het parseert de webpagina in een Document Object Model (DOM)-boom, waaruit gegevens kunnen worden geëxtraheerd.[3]
- Web Scraping Software: Er zijn verschillende tools beschikbaar die het web scrapingproces kunnen automatiseren. Deze tools kunnen paginadatastructuren automatisch identificeren of een gebruiksvriendelijke interface bieden voor het vastleggen van scrapingacties.[3]
- Computer Vision-Based Analyzers: Deze geavanceerde methode maakt gebruik van computer vision- en machine learning-technieken om webpagina's visueel te scannen en relevante informatie te extraheren, waarbij menselijk surfgedrag wordt nagebootst.[3]

In het geval van ons project wordt er gekozen voor een combinatie van HTML-parsing en DOM-parsing, vanwege het feit dat hiermee de hele structuur van de pagina meegenomen kan worden en daarmee ook alle stukken tekst meegenomen worden, al zitten ze in een dynamische container. Daarnaast is er voor een eerste onderzoek naar webscraping alleen naar HTML-parsing gekeken, omdat meeste webpagina's niet zwaar op JavaScript hangen om hun informatie weer te geven.

## HTML-parsing binnen Python

Een van de redenen waarom Python een goede keuze is voor web scraping is dat Python een van de meest populaire codeertalen is, en dat hierdoor een grote community is die kan helpen met het oplossen van problemen of je code kan vinden die jouw probleem kan verhelpen.[4] Binnen python zijn hierdoor ook veel mogelijke libraries om mee te gaan web scrapen. Een paar voorbeelden hiervan zijn Beautiful Soup, Mechanize, Selenium en Playwright. Dit zijn libraries die specifiek zijn ontworpen voor het scrapen van webpagina's, waarbij Selenium en Playwright zelfs een webbrowser kunnen simuleren. Dit laatste komt wel met zijn eigen tegenslag, namelijk dat Selenium slomer, meer resource intensief en complex is[5] en dat Playwright zelfs nog complexer is dan Selenium.[6]

Maar dan blijft nog de vraag: Moet er dan voor Beautiful Soup of voor Mechanize gekozen worden? Het antwoord op deze vraag is... beiden. Dit is vanwege de rede dat Mechanize meer gespecialiseert is in het ophalen van data waarbij formulieren gebruikt worden voor menselijke handelingen (o.a., login, search, filtering), en Beautiful Soup meer gespecialiseert is in het opzoeken van data binnen gescrapete data.

Om deze combinatie te testen scrapen we een artikel van cnn, aangezien deze een basis html structuur hebben zonder popups.


In [None]:
from bs4 import BeautifulSoup
import mechanize

webpage = 'https://edition.cnn.com/2024/12/18/politics/trump-cananda-trudeau-analysis/index.html'

# Scraper wordt klaargezet
br = mechanize.Browser()
br.set_handle_robots(False)

# Data wordt opgehaald van website
data = br.open(webpage).get_data()

# Data wordt omgezet door Beautiful Soup
soup = BeautifulSoup(data)

# Nuttige tekstvelden worden uit de html opgehaald
article_div = soup.find('div', class_='article__content')

# Velden met tekst worden leeggehaald als de tekstvelden er zijn, en als laatste worden ze samengevoegt en uitgeprint
if article_div:
    paragraphs = article_div.find_all('p')
    article_text = ' '.join([p.get_text(strip=True) for p in paragraphs])
    print(article_text)
else:
    print("Article content not found.")



Zoals te zien is wordt de tekst goed opgehaald uit het artikel, wat betekend dat de huidige scraper werkt voor het scrapen van nieuws van cnn. Dit betekend ook dat deze scraper als basis gebruikt kan worden om een volgende versie op te bouwen.

## Vervolgstappen

Er zijn een aantal vervolgstappen die genomen moeten worden wanneer er een tweede versie ontwikkeld wordt, aangezien hier nu geen rekening mee is gehouden. 

Een van de eerste is het kijken naar bij welke websites er wel en bij welke websites er niet gescrapet mag worden. Dit is vanwege het feit dat volgens het AVG en het Autoriteit Persoonsgegevens (AP) data van websites scrapen nogal in een "grey area" hangen, vanwege het feit dat het in sommige instanties legaal is terwijl het in andere situaties illegaal is. Een van deze illegale situaties is wanneer de website aangeeft wat het verboden is, waarom er ook goed gekeken moet worden naar het of handmatig of automatisch laten checken welke webpagina's het wel en niet mag. Daarnaast moet er hiervoor ook een extra risico onderzoek gedaan worden, om te kijken tot hoe verre het project zich binnen deze "grey area" bevindt, en welke maatregelen genomen moeten worden om hierbinnen te blijven.

Een tweede is het kijken naar het omzeilen van blokkerende pop-ups, zoals bij nu.nl, waar de data niet gescrapet kan worden vanwege deze popup. Dit is vanwege het feit dat sommige pop-ups het onmogelijk maken om data te scrapen zonder een secundaire actie te ondernemen, zoals bij nu.nl, terwijl er bij deze website niets in de algemene voorwaarden staat over dat dit niet mag. Er moet dus gekeken worden naar een manier om deze pop-up te omzeilen, zodat wij deze data alsnog kunnen gebruiken.


## Bronnen

[1] S. de S. Sirisuriya, “A Comparative Study on Web Scraping,” 2015.

[2] M. Khder, “Web Scraping or Web Crawling: State of Art, Techniques, Approaches and Application,” International Journal of Advances in Soft Computing and its Applications, vol. 13, no. 3, pp. 145–168, Dec. 2021, doi: 10.15849/IJASCA.211128.11.

[3] A. V. Saurkar, K. G. Pathare, and S. A. Gode, “An Overview On Web Scraping Techniques And Tools,” 2018. Accessed: Dec. 19, 2024. [Online]. Available: https://www.semanticscholar.org/paper/An-Overview-On-Web-Scraping-Techniques-And-Tools-Saurkar-Pathare/132ce5f7831e05f73430dcda7e98777734e51577

[4] Acodemy, Learn Web Scraping With Python In A Day: The Ultimate Crash Course to Learning the Basics of Web Scraping With Python In No Time. North Charleston, SC, USA: CreateSpace Independent Publishing Platform, 2015.

[5] V. Morina and S. Sejdiu, “Evaluating and comparing web scraping tools and techniques for data collection,” Oct. 2022.

[6] N. Lekh and T. Vasilis, “Web scraping in 2024: challenges and breakthroughs,” Apify Blog. Accessed: Dec. 19, 2024. [Online]. Available: https://blog.apify.com/web-scraping-2024/



  
  