 <div name="author" style="text-align: right"> Thomas Pineau </div>
<h1>IVI - Parsing</h1>

# 1. Installation des modules
Depuis le terminal (UNIX) ou invite de commande (Windows).

In [1]:
pip install lxml cssselect

Note: you may need to restart the kernel to use updated packages.


* [**lxml**](https://lxml.de/lxmlhtml.html): HTML parseur.
* [**cssselect**](https://pypi.org/project/cssselect/): Permet d'utiliser les selecteurs CSS.


# 2. Démo

## 2.1. Importation du module

In [2]:
import lxml.html

In [3]:
texte = """
<html>
  <head>
    <a href="www.esc.ch"></a>
  </head>
  <body>
      <div id="content1">
          Contenu no 1
      </div>
      <div id="content2" class="class1" name="bob">
          Contenu no 2
          <span>test</span>
      </div>
      <div id="content3" class="sub-content class1 style1 etc etc" maVar="1">
          text
          <a href="http://www.unil.ch">Contenu no 3</a>
      </div>
  </body>
</html>
"""

In [4]:
html = lxml.html.document_fromstring(texte)

*Remarque*: Il est possible de créer l'objet html avec le contenu d'un fichier ou via une url en utilisant la fonction **lxml.html.parse("chemin__du_fichier").getroot()**

## 2.2. sélecteurs lxml

### 2.2.1. get_element_by_id

Sélectionner une balise à l'aide de son attribut **id**. La fonction retourne un seul élément (le premier trouvé).

In [5]:
element = html.get_element_by_id('content2')

#### Résultat

* **text**: contenu textuel contenu directement dans la balise.


In [6]:
print(element.text)


          Contenu no 2
          


* **text_content()**: contenu textuel de la balise et de tous ces sous éléments.


In [7]:
print(element.text_content())


          Contenu no 2
          test
      


* **attrib**: dictionnaire des attributs et des valeurs associées de la balise


In [8]:
print(element.attrib)

{'id': 'content2', 'class': 'class1', 'name': 'bob'}


* **lxml.html.tostring(balise)**: convertit l'objet en chaîne de caractères.


In [9]:
print(lxml.html.tostring(element))

b'<div id="content2" class="class1" name="bob">\n          Contenu no 2\n          <span>test</span>\n      </div>\n      '


### 2.2.2. find_class

Sélectionne des balises à l'aide de leurs attributs **class**. La fonction retourne <u>toujours</u> une liste (une liste vide si aucun élément correspond).

In [10]:
liste = html.find_class('class1')

In [11]:
for element in liste:
    print(element.attrib['id'], ': ', element.text_content())

content2 :  
          Contenu no 2
          test
      
content3 :  
          text
          Contenu no 3
      


## 2.3. sélecteurs CSS

La [liste](https://www.w3schools.com/cssref/css_selectors.asp) des sélecteurs CSS.

### 2.3.1. Sélection à l'aide du type de la balise

Sélectionne des balises à l'aide de leur type. La fonction retourne <u>toujours</u> une liste.

In [12]:
liste = html.cssselect('div')

In [13]:
for element in liste:
    print(lxml.html.tostring(element), '\n')

b'<div id="content1">\n          Contenu no 1\n      </div>\n      ' 

b'<div id="content2" class="class1" name="bob">\n          Contenu no 2\n          <span>test</span>\n      </div>\n      ' 

b'<div id="content3" class="sub-content class1 style1 etc etc" mavar="1">\n          text\n          <a href="http://www.unil.ch">Contenu no 3</a>\n      </div>\n  \n' 



### 2.3.2. Sélecteur: \#

Sélectionne des balises à l'aide de leurs attributs **id**. La fonction retourne <u>toujours</u> une liste.

In [14]:
liste = html.cssselect('#content2')

In [15]:
print(lxml.html.tostring(liste[0]))

b'<div id="content2" class="class1" name="bob">\n          Contenu no 2\n          <span>test</span>\n      </div>\n      '


### 2.3.3. Sélecteur: .

Sélectionne des balises à l'aide de leurs attributs **class**. La fonction retourne <u>toujours</u> une liste.

In [16]:
liste = html.cssselect('.class1')

In [17]:
for element in liste:
    print(lxml.html.tostring(element), '\n')

b'<div id="content2" class="class1" name="bob">\n          Contenu no 2\n          <span>test</span>\n      </div>\n      ' 

b'<div id="content3" class="sub-content class1 style1 etc etc" mavar="1">\n          text\n          <a href="http://www.unil.ch">Contenu no 3</a>\n      </div>\n  \n' 



### 2.3.4. Sélection à l'aide de la valeur d'un attribut

Sélectionne des balises à l'aide de la valeur associée à un attribut. La fonction retourne <u>toujours</u> une liste.

In [18]:
liste = html.cssselect('[maVar="1"]')

In [19]:
for element in liste:
    print(lxml.html.tostring(element), '\n')

b'<div id="content3" class="sub-content class1 style1 etc etc" mavar="1">\n          text\n          <a href="http://www.unil.ch">Contenu no 3</a>\n      </div>\n  \n' 



## 2.4. sélecteurs XPath

La [syntaxe XPath](https://www.w3schools.com/xml/xpath_syntax.asp).

### 2.4.1. Sélection à l'aide du type de la balise

Sélectionne des balises à l'aide de leur type. La fonction retourne <u>toujours</u> une liste.

In [20]:
liste = html.xpath('//div')

In [21]:
for element in liste:
    print(lxml.html.tostring(element), '\n')

b'<div id="content1">\n          Contenu no 1\n      </div>\n      ' 

b'<div id="content2" class="class1" name="bob">\n          Contenu no 2\n          <span>test</span>\n      </div>\n      ' 

b'<div id="content3" class="sub-content class1 style1 etc etc" mavar="1">\n          text\n          <a href="http://www.unil.ch">Contenu no 3</a>\n      </div>\n  \n' 



### 2.4.2. Sélection à l'aide de la valeur d'un attribut

Sélectionne des balises à l'aide de la valeur associée à un attribut. La fonction retourne <u>toujours</u> une liste.

In [22]:
liste = html.xpath('//*[@id="content2"]')

**xpath('//<span style="color:red;">type</span>[@<span style="color:green;">attribut</span>="<span style="color:green;">valeur</span>"]')**

**\*** permet de sélectionner n'importe quelles balises.

l'attribut prend le nom de l'attribut ciblé: id, class, maVar, etc.

In [23]:
for element in liste:
    print(lxml.html.tostring(element), '\n')

b'<div id="content2" class="class1" name="bob">\n          Contenu no 2\n          <span>test</span>\n      </div>\n      ' 



### 2.4.3. Sélection d'attribut

Sélectionne les valeurs associées à un attribut. La fonction retourne <u>toujours</u> une liste.

In [24]:
liste = html.xpath('//@href')

Par exemple: les attributs href contiennent les liens (URL, script, etc.) de la page

In [25]:
for href in liste:
    print(href, '\n')

www.esc.ch 

http://www.unil.ch 



### 2.4.4. Sélecteurs utiles

Avec XPath, il est possible d'utiliser des sélecteurs plus complexes comme: **and**, **or**, **contains**, **not contains**, etc.

In [26]:
liste = html.xpath('''
    //div[contains(@class, "sub-content") and contains(@class, "class1")]/a
''')

In [27]:
for element in liste:
    print(lxml.html.tostring(element), '\n')

b'<a href="http://www.unil.ch">Contenu no 3</a>\n      ' 

