# Scrape je web Object Oriented! 

## 1. Programming paradigma's

Object-oriented Programming (OOP). Het is een [Programming paradigm](https://en.wikipedia.org/wiki/Programming_paradigm). Een manier om je code en data te structureren. 

Vorige week hadden we het over [Procedural programmeren](https://en.wikipedia.org/wiki/Procedural_programming) en [Functional programmeren](https://en.wikipedia.org/wiki/Functional_programming). Twee paradigma's die wij tot nu toe hebben gebruikt en die hier nog even kort worden toegelicht.

### 1.1 Procedural programmeren

Dit paradigma heeft een lineair verloop, data en procedures zijn hier losgekoppeld. Het is ideeal om een vrij generiek probleem op te lossen zonder over een grotere structuur na te denken. 

Het gaat hier om de **Procedure**, zodat er een duidelijke input en verwachte output is. 

In [1]:
x = 2

def procedure(x):
    x = x + 1
    return x

if procedure(x) > 2: 
    print("procedure worked")

procedure worked


Eigelijk is een heel jupyter notebook bestand Procedural met hier en daar functionele definities. Alle instances en variabelen worden onthouden. Wij maken tot nu toe vooral gebruik van procedural programmeren, het paradigma waar veel beginnende coders mee starten. 

### 1.2 Functional programmeren
Dit paradigma is ondersteund door Python, data en procedures zijn hier losgekoppeld. Een werkbare vorm is met **lambda** maar het kan natuurlijk ook met definities. 

Een python programma maakt soms wel gebruik van functioneel programmeren. Vaak voor complexe wiskundige oplossingen, recursie processen en dergelijk, meestal behoort het tot hogere orde functie voor specifieke datamanipulatie of computatie. 

Functioneel programmeren is er vooral op gericht efficiente code te schrijven. Veel code die volgens procedural methods is geschreven kan sneller en efficienter door het functioneel te maken. 

Het gaat hier om de **Functie**, hier is de output afhankelijk van de input.

In [2]:
addition = lambda a, b: a + b

In [3]:
addition(3, 4)  # returns 7

7

Wat gebeurt hier? **Lambda** doet zich voor als functie met input _a en b_ die een functie uitvoert, namelijk _a + b_. 

**def** doet natuurlijk hetzelfde..

In [4]:
def addition_def(a, b):
    return a + b

addition_def(3,4)

7

 <h4 style="color:blue;">Wat maakt lambda dan bijzonder?</h4> 
 
Leuk dat je het vraagt. Lambda heeft vooral een meerwaarde als je het binnen een andere functie gebruikt. 

In [1]:
def myfunc(n):
    return lambda a : a * n

In [2]:
mydoubler = myfunc(2)
mydoubler

<function __main__.myfunc.<locals>.<lambda>(a)>

**mydoubler** is nu een functie die een waarde (a) kan ontvangen en die waarde vermendigvuldigd. Wat dit beter maakt, is dat je door myfunc(value) aan te roepen direct een definitie maakt die een andere vermenigvuldigingsformule voor je aanmaakt. Je hoeft geen nieuwe definitie aan te maken of nog een variabele mee te geven aan de functie. 

In [7]:
mydoubler(5)

10

Duidelijk? Laten we het eens zelf proberen.

# Actie!

Schrijf de volgende functie om tot een definitie met lambda functie. 

In [15]:
def age(birth_year, current_year):
    return current_year - birth_year

In [20]:
# Eigen Code 

def age(birthyear, current_year):
    return lambda birthyear, current_year : current_year - birthyear
leeftijd = age(1993,2020)

leeftijd(1993,2020)

In [23]:
print(age(1993, 2020))

# Eigen code (print je nieuwe functie hierbij)

leeftijd(1993,2020)


<function age.<locals>.<lambda> at 0x000001E1DAFA3438>


27

### 1.3 Objectgeorienteerd programmeren

https://realpython.com/python3-object-oriented-programming/

Hier een aantal voordelen

Het is vrij intuitief. Een object met attributen kan bijvoorbeeld zijn het object hond met attributen benen, leeftijd, naam, geluid (woef). Dit maakt het voor mensen ook erg begrijpbaar. 

Het is robuust. Je schrijft code met een structuur waar oop voor is gemaakt. Elk object die je aanmaakt heeft elementen die met elkaar kunnen refereren. 

Dit genereert het volgende voordeel, namelijk het gegeven 'inheritance' (erfenis). Objecten kunnen informatie doorspelen en opslaan. Je weet gelijk ook waar informatie is opgeslagen (tenminste in welk object). Veel projecten worden opgebouwd OO (object oriented) met de reden dat het proces een duidelijke opbouw en structuur heeft.

Een voordeel van informatie per object is het gegeven 'encapsulation'. Specifieke informatie is veilig geborgen in een eigen class. Nieuwe programmers kunnen hierdoor niet veel schade aanrichten mochten ze veel willen aanpassen. 

Een laatste voordeel dan? Dit is goed voor je CV. Mensen willen dit, geloof me. En als je er verder induikt, dan jij ook. 

### Even wat praktijk!

Stel we hebben een student, deze student heeft een aantal eigenschappen. Denk aan NAAM, LEEFTIJD, STUDIE_RICHTING etcetera. 

Deze student (met zij/haar attributen, <strong>lees:</strong> *instance attributes*) kunnen we perfect als een <em>object</em> in onze code opslaan.  
  
Laten we een student aanmaken. 

In [24]:
class Student: 
    
    def __init__(self):
        pass

# init & self

WOW what just happened? init? self? Laten we deze even ontleden. 

**init** betekend de initialisering van het object student.  
Init moet altijd een argument meekrijgen, namelijk **self**, die refereert naar het object zelf.  

We kunnen nu de class STUDENT aanroepen. 

In [25]:
student = Student()
student

<__main__.Student at 0x1e1dafa5c48>

**Main** is hier de referentie naar het object vanaf waar de attributen en methods aangeroepen kunnen worden. 

### 1.3.1 Attributes

Je kan de student ook nieuwe attributen geven zoals NAAM en LEEFTIJD. Dit wordt dan opgeslagen in het object STUDENT

In [26]:
class Student: 
    
    def __init__(self, name, age):
        self.name = name
        self.age = age

Nu kunnen we een student aanroepen met een NAAM en een LEEFTIJD. Deze worden dan opgeslagen als attribuut van het object. 

In [27]:
student = Student("Timo", 26)

We kunnen ook nieuwe attributen initialiseren en aanroepen. 

In [11]:
student.discipline = 'AI'

In [12]:
(student.name, student.discipline, student.age)

('Timo', 'AI', 26)

Stel we maken nu een nieuwe student aan

In [13]:
student = Student("Josse", 28)

In [14]:
student.name, student.discipline, student.age

AttributeError: 'Student' object has no attribute 'discipline'

### Actie!  
  
Waarom de Error?  
Probeer de Error in de cell hieronder op te lossen.  
Kijk goed naar wat er in bovenstaande code gebeurt.  

In [15]:
# Eigen code




# Methods  
  
Goed te doen niet? We kunnen attributen dus ook toewijzen aan instances van objecten, in plaats van slechts aan de class.  

Het is netter om het toewijzen van attributen naar een object binnen de class te doen in plaats van erbuiten. Hiervoor hebben we **methods** nodig ->

### 1.3.2 Methods

Een method is als een functie in procedural programming. Alleen deze wordt opgeroepen als methode *binnen* het object van dezelfde **class**.

### Prior  
Als we van tevoren iets weten over het object en we dit al bij de __init__ willen definieren, dan noemen we dit een **Prior**. Elke student die we aanroepen zit bijvoorbeeld sowieso op **Hockwards**.  

Een handige notatie is binnen de initialisering van de class. Hiermee maak je duidelijk welke attribuut vooraf aangenomen wordt. De school verandert immers niet.   

In [28]:
class Student: 
    
    def __init__(self, name, age, school="Hockwards"):
        self.name = name
        self.age = age
        self.school = school
        
    def print_name(self):
        return print("Name is : " + self.name)

In [29]:
student = Student("Harry", 14)
student.print_name()
print(student.school)

Name is : Harry
Hockwards


Je zou bijvoorbeeld ook de leeftijd kunnen aanpassen bij een verjaardag. 

In [30]:
class Student: 
    
    def __init__(self, name, age, school="Hockwards"):
        self.name = name
        self.age = age
        self.school = school
        
    def birthday(self):
        self.age += 1

In [31]:
student = Student("Kiddo", 17)

print(student.age)
student.birthday()
print(student.age)

17
18


### Actie!

Schrijf nu een methode die de discipline update. Denk erom dat je een attribuut binnen deze methode moet schrijven die moet *refereren* naar het object! Dit kan met **self**. 

1. Schrijf de functie *set_discipline* met als input *self* en *discipline*.

2. Schrijf vervolgens de functie *get_discipline* die de discipline returned ALS self.discipline niet None is. 

In [41]:
class Student: 
    
    def __init__(self, name, age, school="Hockwards"):
        self.name = name
        self.age = age
        self.school = school
        self.discipline = None

    def set_discipline(self, discipline):
        self.discipline = discipline        
        pass
        
    def get_discipline(self):
        if self.discipline:
            return print("Dicipline van " + self.name + " is : " + self.discipline)
        else: 
            return "Discipline is leeg"
        pass
    

In [42]:
student = Student("Bob", 24)
student.set_discipline("Professional sleeper") # Dit bestaat echt trouwens, zoek maar op. 

student.get_discipline()

# Output moet natuurlijk 'Professional sleeper' zijn. 
# Test of get_discipline werkt als je set_discipline NIET hebt aangeroepen.

Dicipline van Bob is : Professional sleeper


Mooi, we hebben de methodes en attributes gehad. Werk nu enige tijd aan de volgende opdracht en bouw hiermee een werkende class aan die data importeert, manipuleert en teruggeeft. 

### Actie!

Vul nu de volgende class aan die het volgende doet: 

- Input data
- Genereert de cijfers van de student volgens de formule generate_output()
- rekent het totale cijfer uit met de formule compute_grade
- pakt de cijfers uit de data zodat de naam en leeftijd niet meer in de weg zitten. 
- maakt de attribuut metrics aan om het cijfer mee te berekenen. 

In [85]:
class Student: 
    
    def __init__(self, data, school="Hockwards"):
        self.name = data['Name']
        self.age = data['Age']
        self.school = school
        self.data = data
        self.metrics = None
        self.grades = {}
            
    def generate_output(self): 
        grade = self.compute_grade()
        
        print("{} has the following grades: ".format(self.name))
        print("")
        if self.grades:
            for key, value in self.grades.items():
                print("Discipline: {}".format(key), " Grade : ".rjust(40-len(key), ' '), value)
            print("")
            print("With total score ", " ".rjust(50-len(key), ' '), round(grade))
        
    def compute_grade(self):
        grade = 0
        self.get_grades()
        
        for dicipline, score in self.grades.items():
            metriek = metrics[discipline]
            add_grade_value = score * metriek
            grade = grade + add_grade_value
            

    def get_grades(self):
        for key in self.metrics:
            self.grades[key] = self.data[key]

    
    def set_metrics(self, metrics):
        self.metrics = metrics
        
        pass
        

In [83]:
student = Student(data)
student.set_metrics(metrics)
student.get_grades()

#### Data

Hoeft niet aangepast te worden. 

In [79]:
metrics = {
    "Transfiguration":0.1,
    "Charms":0.1,
    "Potions":0.2,
    "History of Magic":0.1,
    "Defence Against the Dark Arts":0.2,
    "Astronomy and Herbology":0.1,
    "Flying lessons":0.2
}

data = {
    "Name":"Harry",
    "Age":14,
    "Transfiguration":7.5,
    "Charms":4.3,
    "Potions":8.9,
    "History of Magic":8.2,
    "Defence Against the Dark Arts":2.5,
    "Astronomy and Herbology":5.8,
    "Flying lessons":10
}

Als je de volgende code runt, zou je een gegenereerde output moeten krijgen met de juiste naam, alle disciplines met juiste cijfer en een totaal cijfer aan het einde. Het eindcijfer kan je afronden met de functie `round(grade)`.

In [86]:
student = Student(data) 
student.set_metrics(metrics)
student.generate_output()

NameError: name 'discipline' is not defined

Super! We hebben het Object geoorienteerde in de basis gehad. Het is vast nog veel informatie om in je op te nemen, maar laten we een poging doen. We zullen jullie zo goed mogelijk in het process begeleiden. 

# Scrape Object Oriented

Laten we het als volgt uitvoeren. We zullen 3 classes maken. Een voor het scrapen zelf, opzetten van de pagina en wachtijd per pagina. Een voor de pagina, waar we filteren op keys om data te verzamelen. En een voor het opslaan van de data zelf. 

Waarom zoveel classes? Als je eenmaal in Python gaat duiken kom je erachter dat het heel fijn is om je opdracht uit te voeren in meerdere compartimenten. Als je meerdere classes reactief maakt met elkaar, heb je uiteindelijk veel meer vrijheid en speelruimte om uit te breiden en alles een beejte behapbaar te houden. 

### Scrape object

Dit is de main class. Deze zullen we aanroepen om de code uit te voeren. Voor het scrapen van alle hrefs moeten we een aantal taken uitvoeren: 

    Een aantal attributen initieren zoals:
    
        de driver
        de hrefs
        
    Vervolgens de methods:
    
        SetUp()
        
In SetUp hoef je niets aan te passen. Wat de self.driver.implicitly_wait(30) doet is wachten tot alle content van de pagina geladen is. Het zorgt ervoor dat je geen runtimeerrors krijgt als de pagina te langzaam laad als de parser al bezig is met het inlezen van de inhoud. 

self.driver.maximize_window opent de webpage met maximale grootte. 

        get()
        
Hier dien je iets aan toe te voegen. 
- De link is momenteel incompleet.. zorg ervoor dat je de juiste link meegeeft. Zoek desnoods op naar welke pagina je wilt gaan. 
- selenium werkt met een driver.get(link) functie. Je navigeert hiermee naar de webpagina met de url-link. 
- als je driver.get hebt opgeroepen, kan je deze meegeven aan het object Page. In Page ga je pas naar de elementen zoeken in de pagina. Roep eerst het object page. Roep daarna page.get_content waar je verder gaat werken met het vinden van de elementen.
- Er is een random tijdslimiet van 6 tot 10 seconden in de get functie om te voorkomen dat thuisbezorgd.nl ons blokkeerd. Verwijder deze niet anders riskeer je gebanned te worden! :)

In [28]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

import time
import random

class Scrape:

    def __init__(self, hrefs):
        
        self.driver = webdriver.Chrome()
        self.hrefs = hrefs
    
    def SetUp(self):
        
        self.driver.implicitly_wait(30)
        self.driver.maximize_window()            
        
    def get(self):
        
        for href in self.hrefs:
            
            # Eigen code
            
            
            
            time.sleep(random.randint(6, 10))
            

Run hieronder de class om te checken of alles voldoet. 

In [29]:
import pandas as pd

# Eigen code
# Haal de hrefs binnen uit het CSV bestand 'Data/thuisbezorgd' die we in de ochtend hebben gemaakt.
# Geef ze vervolgens mee aan het Scrape() object waar je ze initieerd. 



### Page object

Voor het scrapen van een pagina maken we ook een object. Sinds elke pagina dezelfde structuur heeft, kunnen we ook elke pagina als een nieuw object zien die we op eenzelfde manier kunnen scrapen.

Voor het scrapen van een enkele pagina moeten we een aantal taken uitvoeren: 

    Een aantal attributen initieren zoals: 
        
        de driver
    
    Vervolgens de methods:
        
        get_content()

Dit is de methode waarin je informatie gaat scrapen. We houden het voor nu vrij kort met slechts 5 attributen. Deze zijn geinitieerd in het object **Data** die onder **Page** staat. Je wilt dus de informatie die je van de webpagina haalt opslaan in het object **Data** (kijk in deze class welke informatie je wilt!). 

Selenium werkt vrij intuitief. Ook hier kan je elementen vinden per `class` `div` `h1` etcetera. Je kan ook xpath gebruiken mocht je willen. 

**Functies**

Om elementen te localiseren kun je de volgende site raadplegen:
https://selenium-python.readthedocs.io/locating-elements.html

De volgende functies zouden al voldoende moeten zijn om de opdracht uit te voeren. 

    self.driver.find_element_by_class_name("class_name")
    self.driver.find_elements_by_class_name("class_name")


In [30]:
class Page:

    def __init__(self, driver):
        
        self.driver = driver
        
    def get_content(self):
        
        data = Data()
        
        # Eigen code
        
        
        
        
        

        data.show_data()
        

### Data object

In dit object wordt alle data opgeslagen. We kunnen hier een groot aantal attributen aanmaken, voor alle informatie die je wilt verzamelen. 

Voor het opslaan van informatie uit een pagina moeten we een aantal taken uitvoeren: 

    Een aantal attributen initieren zoals:
    
        het restaurant
        de link
        de beschrijving van een gerecht (description)
        een populaire maaltijd (popular_meal)
        de prijs van een populaire maaltijd (popular_price)
        (en meer mocht je zin hebben)
       
    Vervolgens de methods:
    
        show_data()

In show_data wordt de code geprint. Als description, popular_meal en popular_price zijn gescraped en opgeslagen dan zal je de functie kunnen gebruiken. 

Voor de duidelijkheid: `if list` is een truth statement die waar is als de list NIET leeg is. 

        save_data()

Deze kan naar eigen inzicht ingevuld worden. Bedenk je hoe je de data wilt opslaan. In wat voor formaat etcetera. We zijn benieuwd naar jullie bevindingen. 


In [45]:
class Data:
    
    def __init__(self):
        
        self.restaurant = None
        self.link = None
        self.description = []        
        self.popular_meal = []
        self.popular_price = []

    def show_data(self):
        
        print("the restaurant {}".format(self.restaurant) + "has the following meals: ")
        print('')
        if self.description and self.popular_meal and self.popular_price:
            for i in range(3):
                print('')
                print(self.popular_meal[i] + "Price" + ' '.rjust(20-len(self.popular_meal[i])) + self.popular_price[i])
                print(self.description[i])
                print(self.link)
            print('')
        
    def save_data(self):
        # Eigen code
        
        
        pass
        