# Web Scraping Python - éviter la détection

_Ce café python est la suite du précédent café python sur le web scraping et suppose donc que vous savez au moins utiliser requests / selenium et Beautifulsoup_

__Au programme : comment éviter la détection avec__
- les User-Agents et autres headers
- les Proxies

# User-Agents


## Qu'est-ce que c'est ?

Le `User-Agent` est un des nombreux `headers` du protocole HTTP, globalement un des paramètres qui est envoyé par votre navigateur lors qu'il demande (requête) une page Web.

On peut observer le détail en mode développeur (F12) sur un navigateur.


## Pourquoi c'est important ?

Le header `User-Agent` est souvent utilisé pour la détection de bots et donc bloquer le scraping.

Exemple ci-dessous de ce qu'on observe si l'on utilise le module `requests` de python : 


In [1]:
import requests # à installer avec 'pip install requests'
response = requests.get("https://httpbin.org/user-agent")
response.json()

{'user-agent': 'python-requests/2.28.1'}

## Comment le changer ?

In [2]:
headers = {"user-agent": "toto"}
response = requests.get("https://httpbin.org/user-agent", headers=headers)
response.json()

{'user-agent': 'toto'}

__Liens utiles__
- http://www.useragentstring.com/pages/useragentstring.php
- https://developer.chrome.com/docs/multidevice/user-agent/
- https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/User-Agent

## Autres headers

### Header du module requests

In [3]:
response = requests.get("https://httpbin.org/headers")
response.json()

{'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate, br',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.28.1',
  'X-Amzn-Trace-Id': 'Root=1-63d9223a-52ad60f571d2acc10587bb99'}}

### Headers de Firefox

In [5]:
import yaml

with open("../headers.yml") as f_headers:
    browser_headers = yaml.safe_load(f_headers)
browser_headers["Firefox"]

{'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
 'Accept-Encoding': 'gzip, deflate, br',
 'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
 'Connection': 'keep-alive',
 'DNT': '1',
 'Upgrade-Insecure-Requests': '1',
 'Sec-Fetch-Dest': 'document',
 'Sec-Fetch-Mode': 'navigate',
 'Sec-Fetch-Site': 'cross-site',
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0'}

In [6]:
response = requests.get("https://httpbin.org/headers", headers=browser_headers["Firefox"])
response.json()

{'headers': {'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8',
  'Accept-Encoding': 'gzip, deflate, br',
  'Accept-Language': 'fr,fr-FR;q=0.8,en-US;q=0.5,en;q=0.3',
  'Dnt': '1',
  'Host': 'httpbin.org',
  'Sec-Fetch-Dest': 'document',
  'Sec-Fetch-Mode': 'navigate',
  'Sec-Fetch-Site': 'cross-site',
  'Upgrade-Insecure-Requests': '1',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:94.0) Gecko/20100101 Firefox/94.0',
  'X-Amzn-Trace-Id': 'Root=1-63d9225c-787ece5e17528d8724e6475c'}}

# Proxies

## Pourquoi utiliser des proxies ?

Tout simplement parce que cela permet de changer l'adresse ip dont provient la requête et donc de faire croire au site que l'on est une personne différente.


## Comment utiliser un proxy ?


In [8]:
proxies = {
    "http": "http://77.86.31.251:8080",
    "https": "http://77.86.31.251:8080",
}
response = requests.get("https://httpbin.org/ip", proxies=proxies)
response.json()

ConnectTimeout: HTTPSConnectionPool(host='httpbin.org', port=443): Max retries exceeded with url: /ip (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7ffb59e0d060>, 'Connection to 77.86.31.251 timed out. (connect timeout=None)'))

## Comment changer automatiquement de proxy ?

https://free-proxy-list.net/

In [None]:
response = requests.get("https://free-proxy-list.net/")

In [None]:
import pandas as pd
proxy_list = pd.read_html(response.text)[0]
proxy_list["url"] = "http://" + proxy_list["IP Address"] + ":" + proxy_list["Port"].astype(str)
proxy_list.head()

In [None]:
# on copie ici avec pd.DataFrame pour pouvoir ajouter proprement une colonne ensuite
https_proxies = proxy_list[proxy_list["Https"] == "yes"]
https_proxies.count()

## Sélectionner les proxies valides

In [None]:
url = "https://httpbin.org/ip"
good_proxies = set()
headers = browser_headers["Chrome"]
for proxy_url in https_proxies["url"]:
    proxies = {
        "http": proxy_url,
        "https": proxy_url,
    }
    
    try:
        response = requests.get(url, headers=headers, proxies=proxies, timeout=2)
        good_proxies.add(proxy_url)
        print(f"Proxy {proxy_url} OK, added to good_proxy list")
    except Exception:
        pass
    
    if len(good_proxies) >= 3:
        break

# Application au scraping

1. Avec Selenium
2. Avec le module `requests` de Python

## Scraping avec Selenium

Si le site à scraper requiert l'utilisation de Javascript, vous n'aurez pas le choix et devrez utiliser Selenium comme montré dans le premier tuto. Vous pouvez faire une rotation de navigateurs mais le plus important est de faire une rotation de proxy.

In [None]:
from selenium import webdriver

for proxy_url in good_proxies:
    proxy = proxy_url.replace("http://", "")

    firefox_capabilities = webdriver.DesiredCapabilities.FIREFOX
    firefox_capabilities['marionette'] = True

    firefox_capabilities['proxy'] = {
        "proxyType": "MANUAL",
        "httpProxy": proxy,
        "sslProxy": proxy
    }

    driver = webdriver.Firefox(capabilities=firefox_capabilities)
    try:
        driver.get("https://httpbin.org/ip")
    except Exception:
        pass

## Scraping avec requests

Quand le site a scraper fonctionne sans Javascript, vous pouvez utiliser directement requests et faire une rotation de headers (dont `User-Agent`) et de proxies.

In [None]:
url = "https://httpbin.org/anything"
for browser, headers in browser_headers.items():
    print(f"\n\nUsing {browser} headers\n")
    for proxy_url in good_proxies:
        proxies = proxies = {
            "http": proxy_url,
            "https": proxy_url,
        }
        try:
            response = requests.get(url, headers=headers, proxies=proxies, timeout=2)
            print(response.json())
        except Exception:
            print(f"Proxy {proxy_url} failed, trying another one")

# Ouverture

Il existe des méthodes encore plus avancées de détection (et donc d'évasion de la détection) qui demandent des compétences plus avancées et donc difficilement accessibles à des débutants.

Si vous êtes intéressés et n'avez pas peur du challenge allez vous entrainer sur ce site : https://pixelscan.net/checkproxy?url=%2F