# headers

In een volgende stap maken we onze "headers" aan. 

Wanneer je met een browser (client) connecteert met een website (server), dan stuur je "Request Headers" naar deze server, om deze van meer informatie te voorzien.
Het bevat informatie over de browser en het operating system.

De server kan dan bepaalde informatie terug sturen. Dit zijn dan de "Response Headers".


Om een idee te krijgen wat de headers zijn, kan je naar de developer tools gaan. 

![](images/headers.png)

De headers wordt bij elke "request" meegegeven. Het overgrote deel gebruikt internet via een browser. 

Deze headers zullen dan door de browser automatisch worden meegegeven. 

Bij onze scrapers geven we deze handmatig mee.


Er bestaan heel veel headers. 

https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers


De "requests" library van python respecteert de volgorde van de headers niet, waardoor dat deze gemakkelijk herkent kan worden door servers.  (er is een alternatieve library: "httpx", die de volgorde wel respecteert)

Volgens de officiële richtlijnen doet de volgorde er in principe niet toe. 
https://www.rfc-editor.org/rfc/rfc9110.html#name-header-fields

Maar het lijkt er wel op dat de headers toch best met een A-Z volgorde worden meegegeven. Beste is te kijken naar je browser en dezelfde volgorde aan te nemen dan deze van de browser die je nabootst. 

Hiervan zijn er een aantal die je best kan invullen bij het scrapen.
Hiermee kan je de kans op succes vergroten. In ieder geval de kans om geblokt te worden verkleinen.

* Request Headers
    * User-Agent
    * Referer
    * Accept
    * Accept-Language
    * Cookie Header
    * Accept-Encoding


## Requests (Python) Headers 

We kunnen zoals al gezien, de headers te zien krijgen die als 'default' worden meegestuurd wanneer je de requests library gebruikt, door volgende code:

In [3]:
import requests

base_url = "https://www.syntra.be"

r = requests.get(base_url)
print(r.request.headers)

{'User-Agent': 'python-requests/2.28.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}


Je ziet dus direct dat als de server de 'User-Agent' zou checken, men onmiddelijk weet dat dit een geautomatiseerde gerbuiker is. 

Daarom kan het interessant zijn om de headers aan te passen.

## User-Agent Header

Eén van de headers die we als eerste zullen aanmaken is de user-agent. 

ZOEK MAAR EVEN OP VIA DEVELOPER TOOLS.  WAT ZOU DIT KUNNEN ZIJN ?


Dit is in feite informatie over de browser waarmee we op het internet gaan. 

Je kan deze uit je dev-tools kopiëren:
``Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 OPR/102.0.0.0``

Er zijn verschillende User-Agents die we zouden kunnen gebruiken:
https://explore.whatismybrowser.com/useragents/explore/




In [None]:
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 OPR/102.0.0.0'
}

Ter info:

> When scraping at scale, it isn't good enough just to use real browser headers you need to have hundreds or thousands of headers that you can rotate through as you are making requests.

> This is especially important for the User-Agent header, as it is probably the most important header for web scraping as it is the one that says which browser you are using.

> You should configure your scraper to rotate through a list of user-agents when scraping.

(https://scrapeops.io/web-scraping-playbook/web-scraping-guide-header-user-agents/#ensuring-proper-header-order)

## Referer Header

Dit duidt op het domain waar we vandaan komen. We kunnen hier bijvoorbeeld "google.com" invullen.

In [None]:
headers = {
    'Referer' : 'https://www.google.com'
}

## Accept Header

De accept header geeft weer welke type response we als client van de server verwachten te krijgen.

Deze type worden MIME types genoemd. (zoals .pdf, .txt, ....) 
https://developer.mozilla.org/en-US/docs/Web/HTTP/Basics_of_HTTP/MIME_types/Common_types

Deze kan verschillen per browser. 
* Firefox
    * text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
* Chrome
    * text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9


Als we naar onze browser kijken, dan vinden we:
`text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7`

In [None]:
headers = {
    'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7'
}

## Accept-Language Header

Deze header wordt gebruikt om de voorkeurs-taal van de de client weer te geven.
Op basis hiervan kan de server de juiste taal aanreiken. Maar deze hoeft dit niet te doen.
Dus de keuze blijft bij de server.

Je kan verschillende talen toevoegen. De volgorde bepaald welke taal je verkiest. De eerste in de lijst wordt eerst gecheckt enzovoort...

Daarnaast kan je ook nog een "q=<x>" toevoegen, waarbij <x> een getal tussen 0 en 1 is. Deze geeft een voorkeur aan de talen.

https://localizely.com/blog/accept-language-header/



Mogelijk talen zijn: 
https://www.w3.org/International/ms-lang.html

In [None]:
headers = {
    'Accept-Language' : 'nl-be, en;q=0.9, fr;q=0.8, en-US;q=0.7'
}

De header hierboven zegt dus dat we "Belgisch Nederlands" als eerste taal willen.

Daarna willen we "algemeen Engels" en "algemeen Frans".

En tenslotte willen we "Amerikaans Engels".

## Accept-Encoding Header

Deze geeft aan welk compressie formaat je wil (laten) hanteren wanneer je request wordt behandeld.

Hieronder zien we de formaten waarbij 'br' staat voor het nieuwste 'brotli' formaat. Omdat scrapers dit wel eens vergeten wordt dit gebruikt om scrapers te identificeren.

https://developer.mozilla.org/en-US/docs/Glossary/brotli_compression

In [None]:
headers = {
    'Accept-Encoding' : 'gzip, deflate, br'
}

## Sec-Fetch Headers

Deze headers voorzien informatie over de security details van een request.

Wanneer je deze niet meegeeft of foutief, kan dit op sommige websites leiden tot gebblockt worden.


* Sec-Fetch-Mode
    * deze geeft de 'navigatie' oorsprong van de request.
    * Best om deze op 'navigate' te zetten for directe requests (de eerste maal je scraper op de site komt)
    * En op 'same-origin' of 'cors' voor dynamische requests (van op de pagina zelf)
* Sec-Fetch-Site
    * geeft de oorsprong van de request
    * 'none' voor directe requests
    * 'same-site' voor dynamische data requests (bv. XHR-types)
* Sec-Fetch-Dest
    * geeft het gevraagde document type
    * 'document' voor directe
    * LEEG voor dynamische


Wanneer ik in de 'dev tools' de 'headers' check bij 'www.syntra.be' vind ik volgende setting:

In [None]:
headers = {
    'Sec-Fetch-Mode' : 'navigate',
    'Sec-Fetch-Site' : 'cross-site',
    'Sec-Fetch-Dest' : 'document'
}

## Upgrade-Insecure-Requests

Deze header vraagt de server om te antwoorden met een response te encrypteren.

Soms kan het helpen om deze af te zetten ('0').

In [None]:
headers = {
    'Upgrade-Insecure-Requests' : '1'
}

## Wrap-Up

In [None]:
headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 OPR/102.0.0.0',
    'Referer' : 'https://www.google.com',
    'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language' : 'nl-be, en;q=0.9, fr;q=0.8, en-US;q=0.7',
    'Accept-Encoding' : 'gzip, deflate, br',
    'Sec-Fetch-Mode' : 'navigate',
    'Sec-Fetch-Site' : 'cross-site',
    'Sec-Fetch-Dest' : 'document',
    'Upgrade-Insecure-Requests' : '1'
}

In [9]:
import requests

base_url = "https://www.syntra.be"

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 OPR/102.0.0.0',
    'Referer' : 'https://www.google.com',
    'Accept' : 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
    'Accept-Language' : 'nl-be, en;q=0.9, fr;q=0.8, en-US;q=0.7',
    'Accept-Encoding' : 'gzip, deflate, br',
    'Sec-Fetch-Mode' : 'navigate',
    'Sec-Fetch-Site' : 'cross-site',
    'Sec-Fetch-Dest' : 'document',
    'Upgrade-Insecure-Requests' : '1'
}

r = requests.get(base_url, headers=headers)

print(r.request.headers)

# for header, value in r.request.headers.items():
#     print(header, ' : ', value)

{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 OPR/102.0.0.0', 'Accept-Encoding': 'gzip, deflate, br', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7', 'Connection': 'keep-alive', 'Referer': 'https://www.google.com', 'Accept-Language': 'nl-be, en;q=0.9, fr;q=0.8, en-US;q=0.7', 'Sec-Fetch-Mode': 'navigate', 'Sec-Fetch-Site': 'cross-site', 'Sec-Fetch-Dest': 'document', 'Upgrade-Insecure-Requests': '1'}
User-Agent  :  Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 OPR/102.0.0.0
Accept-Encoding  :  gzip, deflate, br
Accept  :  text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
Connection  :  keep-alive
Referer  :  https://www.google.com
Accept-Language  :  nl-be, e

# Cookies

Ook cookies worden meegegeven met de headers.
Vele web-pagina's gebruiken cookies, om "session history" bij te houden. 
Daarom dat verschillende webscrapers, voordat ze beginnen, eerst verschillende algemene pagina's van de website bezoeken. Op deze manier verzamelen ze de benodigde cookies. 
Zo lijkt hun gedrag natuurlijk dan verwacht.


Het kan ook nodig zijn ol de cookie string aan te passen naar een formaat dat hetzelfde is als in de browser.


# Developer tools 

We hebben het al een aantal keer aangehaald, maar developer tools geven een supergoede houvast om de juiste headers mee te geven.

Gebruikt deze om al de headers mee te geven. Het kan zeker geen kwaad om meer headers dan degene die we hierboven hebben beschreven mee te geven.

Het is ook een goede manier om zeker te zijn dat je de juiste combinatie van headers hebt meegegeven. Want deze kan verschillen tussen een Chrome, Firefox of Opera.



# Rotatie van User-Agent

Wanneer je veel zou willen scrapen, is het waarschijnlijk nodig om met verschillende "user agents" te werken.



In [10]:
import requests
import itertools
user_agents = [
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36",
    "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"
]
ua_cycle = itertools.cycle(user_agents)

for i in range(10):
    headers = {"User-Agent": next(ua_cycle)}
    response = requests.get("https://httpbin.org/headers", headers=headers)
    print(response.json()["headers"]["User-Agent"])

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.

###

# Meer headers:

sec-ch-ua: "Chromium";v="112", "Google Chrome";v="112", "Not:A-Brand";v="99"
sec-ch-ua-arch: "x86"
sec-ch-ua-bitness: "64"
sec-ch-ua-full-version: "112.0.5615.165"
sec-ch-ua-full-version-list: "Chromium";v="112.0.5615.165", "Google Chrome";v="112.0.5615.165", "Not:A-Brand";v="99.0.0.0"
sec-ch-ua-mobile: ?0
sec-ch-ua-model: ""
sec-ch-ua-platform: "Linux"
sec-ch-ua-platform-version: "5.14.0"
sec-ch-ua-wow64: ?0
sec-fetch-dest: document
sec-fetch-mode: navigate
sec-fetch-site: none
sec-fetch-user: ?1
user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36
