# Inleiding
## Wat is Scrapy Oversimplified
Scrapy is een webcrawl library die kijkt naar de HTML/CSS code van een website en haalt daar alle relevante data uit. 

*Sidenote: sommige websites hebben */robots.txt files geupload. Dit zijn regels vanuit het bedrijf dat je deze pagina's niet mag bezoeken met webcrawlers. Het is mogelijk om deze regels te negeren, maar dat is niet helemaal kosher.*

## Waarom is Scrapy interessant voor Tau Omega
Als Tau Omega zelf informatie of data uit websites wil halen, dan kunnen we deze toel gebruiken.

## Hoe moet je Scrapy gebruiken? (Programmeertaal/software)
### Installatie
Het is een library in Python. Gebruik `pip install scrapy` om het te installeren (schijnbaar wordt het aangeraden om in een virtueel env te installeren). [Kijk deze video voor hulp bij installeren.](https://www.youtube.com/watch?v=UoLu3PIkO2c&list=PLhTjy8cBISEqkN-5Ku_kXG4QW33sxQo0t&index=5)

Dit zijn de stappen om het te installeren:
1. Create virtual environment
2. `pip install scrapy`
3. In terminal/cmd: `cd <vul hier je working directory in>`
4. In terminal/cmd: `scrapy startproject <vul hier naam van project in>`

### Project folder
Als het project geïnstalleerd is zou je de volgende project folder moeten hebben:
Als voorbeeld gebruiken we de projectnaam `tutorial`
```
.
|Project folder (git folder)
├── tutorial
|   ├── scrapy.cfg
|   └── tutorial
|       ├── __init__.py
|       ├── items.py
|       ├── middlewares.py
|       ├── pipelines.py
|       ├── settings.py
|       └── spiders (deze is erg belangrijk)
|           └── __init__.py
├── Andere files
└── README.md          
```

## Doelen
- Hello World Scrappy maken
- Van 1 specifieke site data halen
- Van meerdere sites data halen
- Die data verkrijgbaar zetten met een API

# Doel uitwerking
## Hello World maken
Als hello world gebruiken we de website [quotes.toscrape.com](http://quotes.toscrape.com/). 

Begin met in de source code te kijken (Ctrl+U voor Chrome). Aan het begin van de source code staat dit stukje HTML:
```html
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css">
    <link rel="stylesheet" href="/static/main.css">
</head>
```

Tussen de `head` tags zie je op de tweede regel de tag `title`. Dit gaan we proberen te scrapen. 
### Code + stap voor stap uitleg
Aller eerst moet je in de `spiders` map een pythonscript aanmaken. Laten we deze `HelloWorld.py` noemen.

We maken een class aan die scrapy.Spider inherit. We geven deze class een naam en een lijst met url(s) mee. *Note: de variable en functie namen moeten precies overeenkomen. Scrapy verwacht de variabelen `name`, `start_urls` en de functie `parse`. Anders veroorzaakt dit misschien errors.*

```python
import scrapy

class QuoteSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com'
    ]
    
    def parse(self, response):
        title = response.css('title::text').extract()
        
        yield {'titletext': title}
```

In de functie `parse` krijgen we de response van de website. Daaruit halen we met de `css` attribute de titel uit de website. Dit door `response.css('title')` te gebruiken, zouden de hele HTML regel terug krijgen.
```html
<title>Quotes to Scrape</title>
```
Alleen zijn die tags niet interessant, dus gebruiken we `response.css('title::text')` om aan te geven dat we alleen de text willen. De text zetten we in een dictionary en returnen/yielden we.

Om het script uit te voeren gebruiken we de volgende code. Dit kan ook in de terminal.

In [2]:
!scrapy crawl quotes

2019-07-23 12:11:25 [scrapy.utils.log] INFO: Scrapy 1.7.1 started (bot: tutorial)
2019-07-23 12:11:25 [scrapy.utils.log] INFO: Versions: lxml 4.3.2.0, libxml2 2.9.9, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 19.2.1, Python 3.7.3 (default, Mar 27 2019, 22:11:17) - [GCC 7.3.0], pyOpenSSL 19.0.0 (OpenSSL 1.1.1b  26 Feb 2019), cryptography 2.6.1, Platform Linux-4.18.0-25-generic-x86_64-with-debian-buster-sid
2019-07-23 12:11:25 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders']}
2019-07-23 12:11:25 [scrapy.extensions.telnet] INFO: Telnet Password: 7a4888a359d73a59
2019-07-23 12:11:25 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2019-07-23 12:11:25 [scrapy.middleware] INFO: Enabled downloader mi

Dit werkt goed. Het is even zoeken in de terminal, maar het werkt. Het is ook mogelijk om via de scrapy shell te werken, maar dit is beter uit te leggen via video vorm. [Ik raad je aan om deze video te kijken voor de scrapy shell en de CSS Selector](https://www.youtube.com/watch?v=FQv-whbCfKs&list=PLhTjy8cBISEqkN-5Ku_kXG4QW33sxQo0t&index=9). Dit maakt het webscraping ietsjes makkelijker om direct te kijken of je de juiste HTML tags hebt. De volgende code zal ik in de shell uitvoeren aangezien het maar een paar regels veranderd.

Willen we de quotes lezen, dan gebruiken we de CSS Selector om de CSS attribute van de quotes op te halen. Hieruit lezen we af dat het gaat om de `.text` attribute.
![CSS Selector lezen](img/CSS_Selector.png)

Om dit op te halen in de shell voeren we eerst `scrapy shell "http://quotes.toscrape.com/"` uit. En vervolgens
```shell
IN: response.css(".text::text").extract()
OUT: ['“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
 '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
 '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
 '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
 "“Imperfection is beauty, madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
 '“Try not to become a man of success. Rather become a man of value.”',
 '“It is better to be hated for what you are than to be loved for what you are not.”',
 "“I have not failed. I've just found 10,000 ways that won't work.”",
 "“A woman is like a tea bag; you never know how strong it is until it's in hot water.”",
 '“A day without sunshine is like, you know, night.”']
```

Het is ook mogelijk om met Xpath te werken ipv CSS. Het enige wat veranderd is de syntax. In CSS deden we `response.css("title::text")` om de titel uit een website halen en in xpath gebruiken we `response.xpath(//title/text()")`. Willen we de quotes van de site, dan zouden we in CSS `response.css(".text::text")` gebruiken, maar in xpath is het `response.xpath(//span[@class = "text"]/text()).extract()`.

Dit is overduidelijk een wat lastigere manier om hetzelfde te gebruiken, dus waarom zouden we dit doen? Het is mogelijk om xpath te gebruiken om links naar andere pagina's te vinden. Helemaal onderaan de pagina zit de **Next** knop. Als we deze link willen gebruiken vinden we (met de CSS Selector) dat de attribute `.next a` is, maar we willen de waarde van `href` weten. Hierdoor krijgen we

```shell
IN: response.css(".next a").xpath("@href").extract()
OUT: ['/page/2/']
```

Willen we gewoon alle links op een website, dan laten we `.next` weg.
```shell
IN: response.css("a").xpath("@href").extract()
OUT: ['/',
 '/login',
 '/author/Albert-Einstein',
 '/tag/change/page/1/',
 '/tag/deep-thoughts/page/1/',
 '/tag/thinking/page/1/',
 '/tag/world/page/1/',
 '/author/J-K-Rowling',
 '/tag/abilities/page/1/',
 '/tag/choices/page/1/',
         .
         .
         .
 '/tag/reading/',
 '/tag/friendship/',
 '/tag/friends/',
 '/tag/truth/',
 '/tag/simile/',
 'https://www.goodreads.com/quotes',
 'https://scrapinghub.com']

```

### Voorbeeld voor binnen Tau Omega
Niets. Puur ennismaking met de tool.

### Eventuele aanschaffing van software/hardware
Niks. Pas wel op met het scrapen van bepaalde websites. Anders kunnen we een legal team aanschaffen.

### Bronnen

- [Youtube tutorial](https://www.youtube.com/watch?v=ve_0h4Y8nuI&list=PLhTjy8cBISEqkN-5Ku_kXG4QW33sxQo0t&index=1)

- [http://quotes.toscrape.com/](http://quotes.toscrape.com/)

- [Amazon books last 30 days](https://www.amazon.com/Books-Last-30-days/s?rh=n%3A283155%2Cp_n_publication_date%3A1250226011)

___

## Doel van een specifieke website halen
Wederom gebruiken we weer de website [http://quotes.toscrape.com/](http://quotes.toscrape.com/), maar omdat deze specifiek gemaakt is om webscraping te leren kies ik ook een uitdaging. Ik ga de opleidingen van fontys scrapen met de site [https://fontys.nl/Studeren/Opleidingen.htm](https://fontys.nl/Studeren/Opleidingen.htm)
### Code + stap voor stap uitleg

### Bronnen

### Voorbeeld voor binnen Tau Omega

### Eventuele aanschaffing van software/hardware


# Slot
## Is het bruikbaar/nuttig

## Nieuwe dingen de je bent tegengekomen die onderzocht moeten worden


# Maak een presentatie
- Workshop of Presentatie?
- Presenteren op: 

## Vergeet niet je document naar pdf te exporteren en in de dropbox map te zetten