# Inhoudsopgave
1. [Inleiding](#Inleiding)
2. [Doelen](#DoelenUitwerken)
    1. [Hello World](#HelloWorld)
    2. [Data Scrapyen van een Specifieke Site](#SpecifiekeSite)
    3. [Data Opslaan in JSON of CSV via Items Container](#DataOpslaan)
3. [Slot](#Slot)

# Inleiding
<a id='Inleiding'></a>
## Wat is Scrapy Oversimplified
Scrapy is een webcrawl library die kijkt naar de HTML/CSS code van een website en haalt daar alle relevante data uit. 

*Sidenote: sommige websites hebben */robots.txt files geupload. Dit zijn regels vanuit het bedrijf dat je deze pagina's niet mag bezoeken met webcrawlers. Het is mogelijk om deze regels te negeren, maar dat is niet helemaal kosher.*

## Waarom is Scrapy interessant voor Tau Omega
Als Tau Omega zelf informatie of data uit websites wil halen, dan kunnen we deze toel gebruiken.

## Hoe moet je Scrapy gebruiken? (Programmeertaal/software)
### Installatie
Het is een library in Python. Gebruik `pip install scrapy` om het te installeren (schijnbaar wordt het aangeraden om in een virtueel env te installeren). [Kijk deze video voor hulp bij installeren.](https://www.youtube.com/watch?v=UoLu3PIkO2c&list=PLhTjy8cBISEqkN-5Ku_kXG4QW33sxQo0t&index=5)

Dit zijn de stappen om het te installeren:
1. Create virtual environment
2. `pip install scrapy`
3. In terminal/cmd: `cd <vul hier je working directory in>`
4. In terminal/cmd: `scrapy startproject <vul hier naam van project in>`

### Project folder
Als het project geïnstalleerd is zou je de volgende project folder moeten hebben:
Als voorbeeld gebruiken we de projectnaam `tutorial`
```
.
|Project folder (git folder)
+-- tutorial
|   +-- scrapy.cfg
|   +-- tutorial
|       +-- __init__.py
|       +-- items.py
|       +-- middlewares.py
|       +-- pipelines.py
|       +-- settings.py
|       +-- spiders (deze is erg belangrijk)
|           +-- __init__.py
+-- Andere files
+-- README.md          
```

## Doelen
- Hello World Scrappy maken
- Van 1 specifieke site data halen
- Data van een site opslaan
- Van meerdere sites data halen
- Die data verkrijgbaar zetten met een API

# Doel uitwerking
<a id='DoelenUitwerken'></a>
## Hello World maken
<a id='HelloWorld'></a>
Als hello world gebruiken we de website [quotes.toscrape.com](http://quotes.toscrape.com/). 

Begin met in de source code te kijken (Ctrl+U voor Chrome). Aan het begin van de source code staat dit stukje HTML:
```html
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Quotes to Scrape</title>
    <link rel="stylesheet" href="/static/bootstrap.min.css">
    <link rel="stylesheet" href="/static/main.css">
</head>
```

Tussen de `head` tags zie je op de tweede regel de tag `title`. Dit gaan we proberen te scrapen. 
### Code + stap voor stap uitleg
Aller eerst moet je in de `spiders` map een pythonscript aanmaken. Laten we deze `HelloWorld.py` noemen.

We maken een class aan die scrapy.Spider inherit. We geven deze class een naam en een lijst met url(s) mee. *Note: de variable en functie namen moeten precies overeenkomen. Scrapy verwacht de variabelen `name`, `start_urls` en de functie `parse`. Anders veroorzaakt dit misschien errors.*

```python
import scrapy

class QuoteSpider(scrapy.Spider):
    name = 'hello'
    start_urls = [
        'http://quotes.toscrape.com'
    ]
    
    def parse(self, response):
        title = response.css('title::text').extract()
        
        yield {'titletext': title}
```

In de functie `parse` krijgen we de response van de website. Daaruit halen we met de `css` attribute de titel uit de website. Dit door `response.css('title')` te gebruiken, zouden de hele HTML regel terug krijgen.
```html
<title>Quotes to Scrape</title>
```
Alleen zijn die tags niet interessant, dus gebruiken we `response.css('title::text')` om aan te geven dat we alleen de text willen. De text zetten we in een dictionary en returnen/yielden we.

Om het script uit te voeren gebruiken we de volgende code. Dit kan ook in de terminal.

```shell
~/Scrapy_tutorial/tutorial$ scrapy crawl hello
OUT:
2019-07-23 16:03:59 [scrapy.utils.log] INFO: Scrapy 1.7.1 started (bot: tutorial)
2019-07-23 16:04:00 [scrapy.utils.log] INFO: Versions: lxml 4.3.2.0, libxml2 2.9.9, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 19.2.1, Python 3.7.3 (default, Mar 27 2019, 22:11:17) - [GCC 7.3.0], pyOpenSSL 19.0.0 (OpenSSL 1.1.1b  26 Feb 2019), cryptography 2.6.1, Platform Linux-4.18.0-25-generic-x86_64-with-debian-buster-sid
2019-07-23 16:04:00 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'tutorial', 'NEWSPIDER_MODULE': 'tutorial.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['tutorial.spiders']}
        .
        .
        .
2019-07-23 16:04:01 [scrapy.core.scraper] DEBUG: Scraped from <200 http://quotes.toscrape.com/>
{'titletext': ['Quotes to Scrape']}
2019-07-23 16:04:01 [scrapy.core.engine] INFO: Closing spider (finished)
        .
        .
        .
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2019, 7, 23, 14, 4, 1, 229999)}
2019-07-23 16:04:01 [scrapy.core.engine] INFO: Spider closed (finished)
```

Dit werkt goed. Het is even zoeken in de terminal, maar het werkt. Het is ook mogelijk om via de scrapy shell te werken, maar dit is beter uit te leggen via video vorm. [Ik raad je aan om deze video te kijken voor de scrapy shell en de CSS Selector](https://www.youtube.com/watch?v=FQv-whbCfKs&list=PLhTjy8cBISEqkN-5Ku_kXG4QW33sxQo0t&index=9). Dit maakt het webscraping ietsjes makkelijker om direct te kijken of je de juiste HTML tags hebt. De volgende code zal ik in de shell uitvoeren aangezien het maar een paar regels veranderd.

Willen we de quotes lezen, dan gebruiken we de CSS Selector om de CSS attribute van de quotes op te halen. Hieruit lezen we af dat het gaat om de `.text` attribute.

![CSS Selector lezen](img/CSS_Selector.png)

Om dit op te halen in de shell voeren we eerst `scrapy shell "http://quotes.toscrape.com/"` uit. En vervolgens
```shell
IN: response.css(".text::text").extract()
OUT: [
'“The world as we have created it is a process of our thinking.
  It cannot be changed without changing our thinking.”',
 '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
 '“There are only two ways to live your life. One is as though nothing is a miracle. 
   The other is as though everything is a miracle.”',
 '“The person, be it gentleman or lady, 
 who has not pleasure in a good novel, must be intolerably stupid.”',
 "“Imperfection is beauty, 
 madness is genius and it's better to be absolutely ridiculous than absolutely boring.”",
 '“Try not to become a man of success. Rather become a man of value.”',
 '“It is better to be hated for what you are than to be loved for what you are not.”',
 "“I have not failed. I've just found 10,000 ways that won't work.”",
 "“A woman is like a tea bag; you never know how strong it is until it's in hot water.”",
 '“A day without sunshine is like, you know, night.”'
 ]
```

Het is ook mogelijk om met Xpath te werken ipv CSS. Het enige wat veranderd is de syntax. In CSS deden we `response.css("title::text")` om de titel uit een website halen en in xpath gebruiken we `response.xpath(//title/text()")`. Willen we de quotes van de site, dan zouden we in CSS `response.css(".text::text")` gebruiken, maar in xpath is het `response.xpath(//span[@class = "text"]/text()).extract()`.

Dit is overduidelijk een wat lastigere manier om hetzelfde te gebruiken, dus waarom zouden we dit doen? Het is mogelijk om xpath te gebruiken om links naar andere pagina's te vinden. Helemaal onderaan de pagina zit de **Next** knop. Als we deze link willen gebruiken vinden we (met de CSS Selector) dat de attribute `.next a` is, maar we willen de waarde van `href` weten. Hierdoor krijgen we

```shell
IN: response.css(".next a").xpath("@href").extract()
OUT: ['/page/2/']
```

Willen we gewoon alle links op een website, dan laten we `.next` weg.
```shell
IN: response.css("a").xpath("@href").extract()
OUT: ['/',
 '/login',
 '/author/Albert-Einstein',
 '/tag/change/page/1/',
 '/tag/deep-thoughts/page/1/',
 '/tag/thinking/page/1/',
 '/tag/world/page/1/',
 '/author/J-K-Rowling',
 '/tag/abilities/page/1/',
 '/tag/choices/page/1/',
         .
         .
         .
 '/tag/reading/',
 '/tag/friendship/',
 '/tag/friends/',
 '/tag/truth/',
 '/tag/simile/',
 'https://www.goodreads.com/quotes',
 'https://scrapinghub.com']

```

### Voorbeeld voor binnen Tau Omega
Niets. Puur ennismaking met de tool.

### Eventuele aanschaffing van software/hardware
Niks. Pas wel op met het scrapen van bepaalde websites. Anders kunnen we een legal team aanschaffen.

### Bronnen

- [Youtube tutorial](https://www.youtube.com/watch?v=ve_0h4Y8nuI&list=PLhTjy8cBISEqkN-5Ku_kXG4QW33sxQo0t&index=1)

- [http://quotes.toscrape.com/](http://quotes.toscrape.com/)

- [Amazon books last 30 days](https://www.amazon.com/Books-Last-30-days/s?rh=n%3A283155%2Cp_n_publication_date%3A1250226011)

___

## Doel van een specifieke website halen
<a id='SpecifiekeSite'></a>
Wederom gebruiken we weer de website [http://quotes.toscrape.com/](http://quotes.toscrape.com/), maar omdat deze specifiek gemaakt is om webscraping te leren kies ik ook een uitdaging. Ik ga proberen de synoniemen van desalniettemin te vinden op [https://synoniemen.net/index.php?zoekterm=desalniettemin](https://synoniemen.net/index.php?zoekterm=desalniettemin).
### Code + stap voor stap uitleg
We maken een nieuw pythonscript aan genaamd `quotes_tutorial.py`. 

```python
import scrapy

class QuoteSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com/'
    ]
``` 
We geven een andere naam en zeggen welke url's er gescraped moeten worden. In deze class zetten we de functie `parse`. 

![inspector van website](img/quotes_div.png)

Zoals je in de afbeelding ziet, zijn alle quotes, auteurs en tags per `div` op de site gezet. We kunnen de website doorlezen per `div.quote`.

```python
    def parse(self, response):
        all_div_quotes = response.css("div.quote")
        
        for quotes in all_div_quotes:
            quote_text = quotes.css("span.text::text").extract()
            author = quotes.css(".author::text").extract()
            tag = quotes.css(".tag::text").extract()

            yield {
                "quote": quote_text,
                "authors": author,
                "tags": tag
            }
```
Per quote blok wordt de tekst, auteur en tag gelezen, en vervolgens in een dictionary gezet. Dit betekent dat je veel dictionaries krijgt. Het is ook mogelijk om alles in 1 dictionary te doen met de volgende code:

```python
    def parse(self, response):
        all_div_quotes = response.css("div.quote")
        

        quote_text = all_div_quotes.css("span.text::text").extract()
        author = all_div_quotes.css(".author::text").extract()
        tag = all_div_quotes.css(".tag::text").extract()

        yield {
            "quote": quote_text,
            "authors": author,
            "tags": tag
        }
```

### Synoniemen
Als we alles de synoniemen website pakken, dan maken we eerst een nieuw projectje aan met `scrapy startproject synonym` met de spider `desalniettemin_synoniem.py` (excuus voor het wisselen tussen Engels en Nederlands). Laten we beginnen met de site te onderzoeken.

![Synoniemen in de website met CSS Selector](img/synoniem_CSS_SELECTOR.png) 

Zoals je kan zien staan de synoniemen in een blok van `.alssynoniemtabel` met daarin nog een blok van `.nowrap`.

![Synoniemen van synoniemen](img/synoniemen_van_synoniemen.png)

De synoniemen van de synoniemen staan ook in `.alssynoniemtabel`, maar dan in een ander blok genaamd `dd`. Overigens wordt **Desalniettemin** niet meegenomen omdat die dikgedrukt is. 

Dan krijgen we de volgende code:

```python
import scrapy

class QuoteSpider(scrapy.Spider):
    name = 'synoniem'
    start_urls = [
        'https://synoniemen.net/index.php?zoekterm=desalniettemin'
    ]
    
    def parse(self, response):
                
        all_synonym = response.css(".alssynoniemtabel .nowrap")
        syno_desc = response.css(".alssynoniemtabel dd")
        
        for synonym, desc in zip(all_synonym, syno_desc):
            syno = synonym.css("a::text").extract()
            descList = desc.css("a::text").extract()
            
            yield {
                "Synonym": syno,
                "Description": descList
            }
```
Dit uitvoeren in de Terminal geeft:

```shell
~/Scrapy_tutorial/synonym$ scrapy crawl synoniem
2019-07-24 11:01:46 [scrapy.utils.log] INFO: Scrapy 1.7.1 started (bot: synonym)
            .
            .
            .
2019-07-24 11:01:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://synoniemen.net/index.php?zoekterm=desalniettemin>
{'Synonym': ['desondanks'], 'Description': ['afgezien daarvan', 'dat daargelaten', 'evenwel', 'hoe dan ook', 'niettemin', 'nochtans', 'ondanks alles', 'ondanks dat', 'toch']}
2019-07-24 11:01:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://synoniemen.net/index.php?zoekterm=desalniettemin>
{'Synonym': ['niettemin'], 'Description': ['desniettegenstaande', 'desondanks', 'echter', 'evengoed', 'evenwel', 'intussen', 'nochtans', 'ondertussen', 'toch']}
2019-07-24 11:01:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://synoniemen.net/index.php?zoekterm=desalniettemin>
{'Synonym': ['toch'], 'Description': ['alleen', 'desondanks', 'echter', 'evenwel', 'niettemin', 'nochtans', 'ondanks alles']}
2019-07-24 11:01:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://synoniemen.net/index.php?zoekterm=desalniettemin>
{'Synonym': ['evenwel'], 'Description': ['desniettegenstaande', 'echter', 'maar', 'niettemin', 'nochtans', 'toch']}
2019-07-24 11:01:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://synoniemen.net/index.php?zoekterm=desalniettemin>
{'Synonym': ['nochtans'], 'Description': ['desondanks', 'echter']}
2019-07-24 11:01:46 [scrapy.core.engine] INFO: Closing spider (finished)
            .
            .
            .
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2019, 7, 24, 9, 1, 46, 462213)}
2019-07-24 11:01:46 [scrapy.core.engine] INFO: Spider closed (finished)
```

### Voorbeeld voor binnen Tau Omega
Het is mogelijk om ook bijvoorbeeld beursdata in te lezen hiermee. Voor een demo zou het ook heel leuk zijn om bijvoorbeeld [r/watches](https://www.reddit.com/r/watches) demo te maken.

### Eventuele aanschaffing van software/hardware
[-]

### Bronnen

- [http://quotes.toscrape.com/](http://quotes.toscrape.com/)

- [https://synoniemen.net/index.php?zoekterm=desalniettemin](https://synoniemen.net/index.php?zoekterm=desalniettemin)

___

## Data van een site opslaan
<a id='DataOpslaan'></a>
Dit lijkt misschien een erg triviaal stukje, maar er zit meer achter dan de dictionary in een dataframe zetten. We moeten dit namelijk doen via Scrapy Items containers. 

### Code + stap voor stap uitleg
We maken in `~git_repo_folder/tutorial/tutorial/spider` een nieuwe file aan genaamd `quotes_items.py` met de volgende code:
```python
import scrapy

class QuoteSpider(scrapy.Spider):
    name = 'quotes_items'
    start_urls = [
        'http://quotes.toscrape.com/'
    ]
    
    def parse(self, response):
        all_div_quotes = response.css("div.quote")
        
        for quotes in all_div_quotes:
            title = quotes.css("span.text::text").extract()
            author = quotes.css(".author::text").extract()
            tag = quotes.css(".tag::text").extract()
```
Dit is bijna hetzelfde als `quote_tutorial.py`, maar is `name` anders en de yield is ook weg gehaald. We gaan een paar dingen toevoegen en veranderen.

Ten eerste gaan we in `items.py` werken. In het script van quotes halen we 3 variabelen eruit die we wilen opslaan. Dit zijn `title`, `author`, en `tag`. Deze variabelen moeten we opslaan in een `scrapy.Fields()` class. Dit wordt gedaan in `items.py`. Dit moet er als volgt uitzien:
```python
import scrapy

class TutorialItem(scrapy.Item):
    # Definieer de variabelen die je wil opslaan
    title = scrapy.Field()
    author = scrapy.Field()
    tag = scrapy.Field() 
```

Deze class moet je importeren in je spider bestand met de volgende code:

```python
from ..items import TutorialItem
```

Daarnaast moet een instance gemaakt worden waar de variabelen toegekent worden. Wanneer dit is gedaan moet je de items container yielden. Dit is de code:
```python
import scrapy
from ..items import TutorialItem
class QuoteSpider(scrapy.Spider):
    name = 'quotes_items'
    start_urls = [
        'http://quotes.toscrape.com/'
    ]
    
    def parse(self, response):
        # Create instance
        items = TutorialItem()
        
        all_div_quotes = response.css("div.quote")
        
        for quotes in all_div_quotes:
            title = quotes.css("span.text::text").extract()
            author = quotes.css(".author::text").extract()
            tag = quotes.css(".tag::text").extract()
            
            # add data to items container
            items["title"] = title
            items["author"] = author
            items["tag"] = tag
            
            # return items
            yield items
```

### Voorbeeld voor binnen Tau Omega
Het is natuurlijk handig om de data die je van een website haalt, ook op te slaan. 

### Eventuele aanschaffing van software/hardware
[-]

### Bronnen
[-]

## Data in SQLite 3 DB zetten
<a id= "SQLiteDB"></a>

In dit stukje gaan we te werk met SQLite3 database. Dit is makkelijk te gebruiken en je hoeft niks te installeren. 

### Code + Stap voor Stap uitleg
Als eerste moeten we graven in de `settings.py` file en opzoek gaan naar de voglende code:
```python
# ITEM_PIPELINES = {
#     'tutorial.pipelines.TutorialPipeline': 300,
# }
```
Deze mag je uncommenten. Dit zorgt er voor dat elke keer wanneer er een item *geyield* wordt, de `TutorialPipeline` class wordt aangeroepen. Deze staat in de `pipelines.py` file. Via deze file gaan we de items van de webpagina in een sqlite3 database zetten. 

Generieke code om een database aan te maken en iets toe te voegen is het volgende:
```python
import sqlite3

# Maak verbinding met database
# Als de db nog niet bestaat, dan wordt die aangemaakt
conn = sqlite3.connect("myquotes.db")
curr = conn.cursor()

# Comment this section after running!
# Maak de tabel aan met de cursor
# definieer de tabel namen en de soort datatype
curr.execute("""
CREATE TABLE quotes_tb(
title text,
author text,
tag text
)
""")

# Voeg wat waarde toe aan de tabel
curr.execute("""
INSERT INTO quotes_tb VALUES ("Python is awesome!", "BuildWithPython", "Python")
             """)

# Commit alle veranderingen en sluit de verbinding met de database
conn.commit()
conn.close()
```

Mocht je de inhoud willen zien van deze database, dan kan je makkelijk [sqlite online](https://sqliteonline.com/) gebruiken. Via `File->Open DB->quote_tb` kan je de tabel openen. 

We willen dit in de pipeline zetten. Daarom moeten we de volgende functies toevoegen aan de class.
```python
def create_connection(self):
    self.conn = sqlite3.connect("myquotes.db")
    self.curr = self.conn.cursor()
    
def create_table(self):
    # Verwijder de tabel als die al is gemaakt.
    self.curr.execute("""DROP TABLE IF EXISTS quotes_tb""")
    self.curr.execute("""
            CREATE TABLE quotes_tb(
            title text, 
            author text,
            tag text
            )
            """)
```
Deze functies moeten elke keer gemaakt worden wanneer de instance gemaakt wordt. Dus moeten we de volgende functie maken:
```python
def __init__(self):
    self.create_connection()
    self.create_table()
```

Dan kunnen we een functie maken, genaamd `store_db()` waarin we de waarde uit een item container toevoegen aan de database. Dit doen we met de volgende code:
```python
def store_db(self, item):
    self.curr.execute("""
            INSERT INTO quotes_tb values(?,?,?)
            """,(
                item["title"][0],
                item["author"][0],
                item["tag"][0]
                )
                     )
    self.conn.commit()
```

Nu alle ingredienten zijn gesneden, kunnen we nu gaan koken. Gelukkig zijn we een *one pot stew* aan het maken. In de functie `process_items()` moeten we de functie `store_db()` aanroepen. Met als resultaat:
```python
def process_item(self, item, spider):
    self.store_db(item)
    print("\n\nItem succesfully stored into database")
    return item
```

Als we dit uitvoeren krijgen we:
```shell
~/Scrapy_tutorial/tutorial> scrapy crawl quotes items

```

## Data van meerdere sites halen
<a id = "MeerdereSites"></a>

### Code + Stap voor Stap uitleg
sqlite3 example maken

sqlite online laten zien

### Voorbeeld binnen Tau Omega

### Eventuele aanschaffing van software/hardware

### Bronnen
- [https://sqliteonline.com/](https://sqliteonline.com/)

# Slot
<a id='Slot'></a>
## Is het bruikbaar/nuttig

## Nieuwe dingen de je bent tegengekomen die onderzocht moeten worden


# Maak een presentatie
- Workshop of Presentatie?
- Presenteren op: 

## Vergeet niet je document naar pdf te exporteren en in de dropbox map te zetten