# Requests, regular expressions html, Markdown, svg

## HTTP

HTTP est un protocole de la couche application. Il peut fonctionner sur n'importe quelle connexion fiable, dans les faits on utilise le protocole TCP comme couche de transport. Un serveur HTTP utilise alors par défaut le port 80 (443 pour HTTPS).

Les clients HTTP les plus connus sont les navigateurs Web permettant à un utilisateur d'accéder à un serveur contenant les données. Il existe aussi des systèmes pour récupérer automatiquement le contenu d'un site tel que les aspirateurs de site Web ou les robots d'indexation.


[source : wiki](https://fr.wikipedia.org/wiki/Hypertext_Transfer_Protocol)

## URL

Une URL (sigle de l’anglais : Uniform Resource Locator, littéralement « localisateur uniforme de ressource »), couramment appelée adresse web, est une chaîne de caractères uniforme qui permet d'identifier une ressource du World Wide Web par son emplacement et de préciser le protocole internet pour la récupérer (par exemple http ou https). Elle peut localiser divers formats de données : document HTML, image, son....

Les URL constituent un sous-ensemble des identifiants uniformes de ressource (Uniform Resource Identifier, URI), identifiants uniques d'accès à une ressource. La syntaxe d'une URL est décrite dans la RFC 39863.


Exemple d'URL dans un navigateur web.
Une URL, outre les adresses web, concerne d'autres ressources, selon d'autres schémas, par exemple :

forum Usenet : news:fr.comp.infosystemes.www.auteurs ;
boîte aux lettres électronique : mailto:john.doe@mail.com ;
FTP : ftp://ftp.mozilla.org/pub/mozilla.org/firefox/releases/ ;
numéro de téléphone: tel:+33 1 234 567 890

[wiki](https://fr.wikipedia.org/wiki/Uniform_Resource_Locator

In [8]:
import requests

url = 'https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol'

In [9]:
r = requests.get(url)

In [10]:
r

<Response [200]>

## Status codes

All HTTP response status codes are separated into five classes or categories. The first digit of the status code defines the class of response, while the last two digits do not have any classifying or categorization role. There are five classes defined by the standard:

- 1xx informational response – the request was received, continuing process
- 2xx successful – the request was successfully received, understood, and accepted
- 3xx redirection – further action needs to be taken in order to complete the request
- 4xx client error – the request contains bad syntax or cannot be fulfilled
- 5xx server error – the server failed to fulfil an apparently valid request



[source](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes)

In [9]:
[ x for x in dir(r) if x[0] != "_"]

['apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

In [12]:
r.text[:100]

'<!DOCTYPE html>\n<html class="client-nojs" lang="en" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title'

In [12]:
data = r.text

## href

The HTML ```<a>``` element (or anchor element), with its href attribute, creates a hyperlink to web pages, files, email addresses, locations in the same page, or anything else a URL can address. 

Content within each ```<a>``` should indicate the link's destination.xample


### Example

```
<p>You can reach Michael at:</p>

<ul>
  <li><a href="https://example.com">Website</a></li>
  <li><a href="mailto:m.bluth@example.com">Email</a></li>
  <li><a href="tel:+123456789">Phone</a></li>
</ul>
```

[source](https://developer.mozilla.org/en-US/docs/Web/HTML/Element/a)

## Find all the ```<a> </a>``` in data

- method 1 : regular expressions
    
- method 2 : beautiful soup

### expression régulière

Une expression régulière est une chaîne de caractères, qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles. Les expressions régulières sont également appelées regex (un mot-valise formé depuis l'anglais regular expression). Les expressions rationnelles sont issues des théories mathématiques des langages formels des années 1940. Leur capacité à décrire avec concision des ensembles réguliers explique qu’elles se retrouvent dans plusieurs domaines scientifiques dans les années d’après-guerre et justifie leur adoption en informatique. Les expressions régulières sont aujourd’hui utilisées pour programmer des logiciels avec des fonctionnalités de lecture, de contrôle, de modification, et d'analyse de textes ainsi que dans la manipulation des langues formelles que sont les langages informatiques.

Ces expressions régulières ont la qualité de pouvoir être décrites par des formules ou motifs, (en anglais patterns) bien plus simples que les autres moyens2

[source](https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re)

---

Exemple :



```\se[^\s]*```

is a **pattern** that ***matches*** (finds)  a word that begins with ```e```

- \s = space
- e = e
- [^\s] is any character which is not space
-  [^\s]* is any sequence of characters which is not space


to find ```<a>  </a>``` we use 

```<a>.*?</a>```

- ```.``` = any character except ```\n```
- ```.*``` = any sequence of characters except ```\n```
- ```?</a>``` = stop when you find ```</a>```




[look here](https://www.w3schools.com/python/python_regex.asp)


---


Python utilise des expressions régulières basées sur les expressions régulières POSIX, avec quelques extensions ou différences.

Les éléments compatibles POSIX sont les suivants :

- opérateurs [ ], ., *, ?, +, |, ( )
- caractères \t, \n, \v, \f, \r


- ```[ ]``` = ensemble de caracteres
- . = n'importe quoi
- .* = sequence de n'importe quoi
- .*? = sequence de n'importe quoi mais on doit s'arreter quand on trouve la suite...
-  ```( )``` = groupe a capturer

[source](https://fr.wikipedia.org/wiki/Expression_r%C3%A9guli%C3%A8re#Python)




In [22]:
import re

In [24]:
ss = '''Une expression régulière est une chaîne de caractères, qui décrit, selon une syntaxe précise, un ensemble de chaînes de caractères possibles. Les expressions régulières sont également appelées regex (un mot-valise formé depuis l'anglais regular expression). Les expressions rationnelles sont issues des théories mathématiques des langages formels des années 1940. Leur capacité à décrire avec concision des ensembles réguliers explique qu’elles se retrouvent dans plusieurs domaines scientifiques dans les années d’après-guerre et justifie leur adoption en informatique. Les expressions régulières sont aujourd’hui utilisées pour programmer des logiciels avec des fonctionnalités de lecture, de contrôle, de modification, et d'analyse de textes ainsi que dans la manipulation des langues formelles que sont les langages informatiques.

Ces expressions régulières ont la qualité de pouvoir être décrites par des formules ou motifs, (en anglais patterns) bien plus simples que les autres moyens2'''

In [43]:
pp = re.compile('\se[^\s]*')
pp.findall(ss)

[' expression',
 ' est',
 ' ensemble',
 ' expressions',
 ' expression).',
 ' expressions',
 ' ensembles',
 ' explique',
 ' et',
 ' en',
 ' expressions',
 ' et',
 ' expressions']

## Attributes

```<a.*?>``` finds all the ```<a>``` tags whatever their atttibutes

In [57]:
pa = re.compile('<a.*?>', re.DOTALL)
pa.findall(data)[:10]

['<a id="top">',
 '<a href="/wiki/Wikipedia:Protection_policy#pending" title="All edits by unregistered and new users are subject to review prior to becoming visible to unregistered users">',
 '<a href="/wiki/Wikipedia:Pending_changes" title="Wikipedia:Pending changes">',
 '<a class="external text" href="https://en.wikipedia.org/w/index.php?title=Special:Log&amp;type=review&amp;page=Hypertext_Transfer_Protocol">',
 '<a class="mw-jump-link" href="#mw-head">',
 '<a class="mw-jump-link" href="#searchInput">',
 '<a href="/wiki/Wikipedia:External_links" title="Wikipedia:External links">',
 '<a class="external text" href="https://en.wikipedia.org/w/index.php?title=Hypertext_Transfer_Protocol&amp;action=edit">',
 '<a href="/wiki/Wikipedia:What_Wikipedia_is_not#Wikipedia_is_not_a_mirror_or_a_repository_of_links,_images,_or_media_files" title="Wikipedia:What Wikipedia is not">',
 '<a href="/wiki/Wikipedia:External_links" title="Wikipedia:External links">']

now we can filter them like this

In [58]:
[ x for x in pa.findall(data)[:10] if 'href' in x]

['<a href="/wiki/Wikipedia:Protection_policy#pending" title="All edits by unregistered and new users are subject to review prior to becoming visible to unregistered users">',
 '<a href="/wiki/Wikipedia:Pending_changes" title="Wikipedia:Pending changes">',
 '<a class="external text" href="https://en.wikipedia.org/w/index.php?title=Special:Log&amp;type=review&amp;page=Hypertext_Transfer_Protocol">',
 '<a class="mw-jump-link" href="#mw-head">',
 '<a class="mw-jump-link" href="#searchInput">',
 '<a href="/wiki/Wikipedia:External_links" title="Wikipedia:External links">',
 '<a class="external text" href="https://en.wikipedia.org/w/index.php?title=Hypertext_Transfer_Protocol&amp;action=edit">',
 '<a href="/wiki/Wikipedia:What_Wikipedia_is_not#Wikipedia_is_not_a_mirror_or_a_repository_of_links,_images,_or_media_files" title="Wikipedia:What Wikipedia is not">',
 '<a href="/wiki/Wikipedia:External_links" title="Wikipedia:External links">']

or change the pattern

In [62]:
pax = re.compile('<a href=".*?">', re.DOTALL)
pax.findall(data)[:10]

['<a href="/wiki/Wikipedia:Protection_policy#pending" title="All edits by unregistered and new users are subject to review prior to becoming visible to unregistered users">',
 '<a href="/wiki/Wikipedia:Pending_changes" title="Wikipedia:Pending changes">',
 '<a href="/wiki/Wikipedia:External_links" title="Wikipedia:External links">',
 '<a href="/wiki/Wikipedia:What_Wikipedia_is_not#Wikipedia_is_not_a_mirror_or_a_repository_of_links,_images,_or_media_files" title="Wikipedia:What Wikipedia is not">',
 '<a href="/wiki/Wikipedia:External_links" title="Wikipedia:External links">',
 '<a href="/wiki/Wikipedia:Citing_sources" title="Wikipedia:Citing sources">',
 '<a href="/wiki/Help:Maintenance_template_removal" title="Help:Maintenance template removal">',
 '<a href="/wiki/File:HTTP_logo.svg" class="image">',
 '<a href="/wiki/CERN" title="CERN">',
 '<a href="/wiki/IETF" class="mw-redirect" title="IETF">']

In [64]:
### Parenthesis capture a group

##We don't need the ```<a`` part so 

pax = re.compile('<a href="(.*?)">', re.DOTALL)
pax.findall(data)[:10]

['/wiki/Wikipedia:Protection_policy#pending" title="All edits by unregistered and new users are subject to review prior to becoming visible to unregistered users',
 '/wiki/Wikipedia:Pending_changes" title="Wikipedia:Pending changes',
 '/wiki/Wikipedia:External_links" title="Wikipedia:External links',
 '/wiki/Wikipedia:What_Wikipedia_is_not#Wikipedia_is_not_a_mirror_or_a_repository_of_links,_images,_or_media_files" title="Wikipedia:What Wikipedia is not',
 '/wiki/Wikipedia:External_links" title="Wikipedia:External links',
 '/wiki/Wikipedia:Citing_sources" title="Wikipedia:Citing sources',
 '/wiki/Help:Maintenance_template_removal" title="Help:Maintenance template removal',
 '/wiki/File:HTTP_logo.svg" class="image',
 '/wiki/CERN" title="CERN',
 '/wiki/IETF" class="mw-redirect" title="IETF']

## Method 2

[Beautiful soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Beautiful Soup is a Python package for parsing HTML and XML documents (including having malformed markup, i.e. non-closed tags, so named after tag soup). It creates a parse tree for parsed pages that can be used to extract data from HTML which is useful for web scraping.

In [45]:
data[:10]

'<!DOCTYPE '

In [5]:
import bs4
from bs4 import BeautifulSoup


In [26]:
soup = BeautifulSoup(data, 'lxml')

In [30]:
soup.find_all('a', href=True)[:10]

[<a href="/wiki/Wikipedia:Protection_policy#pending" title="All edits by unregistered and new users are subject to review prior to becoming visible to unregistered users"><img alt="Page protected with pending changes" data-file-height="512" data-file-width="512" decoding="async" height="20" src="//upload.wikimedia.org/wikipedia/en/thumb/b/b7/Pending-protection-shackle.svg/20px-Pending-protection-shackle.svg.png" srcset="//upload.wikimedia.org/wikipedia/en/thumb/b/b7/Pending-protection-shackle.svg/30px-Pending-protection-shackle.svg.png 1.5x, //upload.wikimedia.org/wikipedia/en/thumb/b/b7/Pending-protection-shackle.svg/40px-Pending-protection-shackle.svg.png 2x" width="20"/></a>,
 <a href="/wiki/Wikipedia:Pending_changes" title="Wikipedia:Pending changes">latest accepted revision</a>,
 <a class="external text" href="https://en.wikipedia.org/w/index.php?title=Special:Log&amp;type=review&amp;page=Hypertext_Transfer_Protocol">reviewed</a>,
 <a class="mw-jump-link" href="#mw-head">Jump to n

In [38]:
soup.findAll('a', attrs={'href': re.compile("https://")})[:10]

[<a class="external text" href="https://en.wikipedia.org/w/index.php?title=Special:Log&amp;type=review&amp;page=Hypertext_Transfer_Protocol">reviewed</a>,
 <a class="external text" href="https://en.wikipedia.org/w/index.php?title=Hypertext_Transfer_Protocol&amp;action=edit">improve this article</a>,
 <a class="external mw-magiclink-rfc" href="https://tools.ietf.org/html/rfc1945" rel="nofollow">RFC 1945</a>,
 <a class="external mw-magiclink-rfc" href="https://tools.ietf.org/html/rfc2616" rel="nofollow">RFC 2616</a>,
 <a class="external mw-magiclink-rfc" href="https://tools.ietf.org/html/rfc7540" rel="nofollow">RFC 7540</a>,
 <a class="external mw-magiclink-rfc" href="https://tools.ietf.org/html/rfc7541" rel="nofollow">RFC 7541</a>,
 <a class="external mw-magiclink-rfc" href="https://tools.ietf.org/html/rfc7230" rel="nofollow">RFC 7230</a>,
 <a class="external mw-magiclink-rfc" href="https://tools.ietf.org/html/rfc7231" rel="nofollow">RFC 7231</a>,
 <a class="external mw-magiclink-rfc" h

In [43]:
L = soup.findAll('a', attrs={'href': re.compile("https://")})
L[0]['href']

'https://en.wikipedia.org/w/index.php?title=Special:Log&type=review&page=Hypertext_Transfer_Protocol'

## Exo 

Verifier si [this](https://en.wikipedia.org/wiki/Wikipedia:Getting_to_Philosophy) est vrai ?

Write a [crawler](https://en.wikipedia.org/wiki/Web_crawler)
that follows the first link on the wiki page.