 <div name="author" style="text-align: right"> Thomas Pineau </div>
<h1>IVI - RegEx</h1>

## 1. Importation du module

In [1]:
import re

* [**re**](https://docs.python.org/3/library/re.html): les expressions régulières.

[Tester](https://regex101.com/) les expressions régulières ou les [visualiser](http://www.cheminfo.org/Utility/RegExp_explorer/index.html).

## 2. Quelques fonctions

### 2.1. re.match et re.search

Permet de trouver la première occurrence correspondant à l'expression régulière.

* **re.match** <u>en début</u> de la chaîne de caractères.
* **re.search** dans <u>toute</u> la chaîne de caractères.

Les fonctions retournent None si aucun élément ne correspond.
#### Exemples

In [2]:
result = re.match('a', 'abc')  
print(result)

<re.Match object; span=(0, 1), match='a'>


In [3]:
result = re.match('b', 'abc')  
print(result)

None


In [4]:
result = re.search('b', 'abc')  
print(result)

<re.Match object; span=(1, 2), match='b'>


### 2.2. re.findall

Permet de trouver toutes les occurrences correspondant à l'expression régulière. La fonction retourne toujours une liste (vide si rien ne correspond).

#### Exemples

In [5]:
texte = """

    <html>
        <div id="content1">
            Contenu no1 John Watson 078 556 55 14
        </div>
        <div id="content2" class="class1">
           Contenu no2\n
           \tjohn.watson@gmail.com & martin.dawson@protonmail.com
            <div id="content3" class="sub-content class1">
                Contenu no3 0985554512
            </div>
        </div>
    </html>
"""

* Pour trouver tous les "Contenus noX" dans notre chaine de caractères.

In [6]:
liste = re.findall('Contenu no\d', texte)

In [7]:
for i in liste: print(i)

Contenu no1
Contenu no2
Contenu no3


* Récupérer tout le contenu jusqu'au caractère "&"

In [16]:
liste = re.findall('(contenu no2.*)&', texte, re.DOTALL|re.IGNORECASE)

In [17]:
for i in liste: print(i)

Contenu no2

           	john.watson@gmail.com 


* **re.DOTALL** permet d'inclure les retours à la ligne dans le métacaractère "**.**"
* **re.IGNORECASE** permet d'ignorer la casse (minuscule ou majuscule)

* Désigner des groupes avec des "( )"

In [18]:
liste = re.findall('Contenu (no\d?)', texte)

In [19]:
for i in liste: 
    print(i)

no1
no2
no3


### 2.3. re.sub

Remplace toutes les occurences de la sous chaîne de caractères correspondant à la regex par une autre chaîne de caractères.

#### Exemple
Remplace tous les espaces multiples (espaces et retour à la ligne "**\s**") par un simple espace.

In [20]:
liste = re.findall('(contenu no2.*)&', texte, re.DOTALL|re.IGNORECASE)
re.sub('\s+', ' ', liste[0])

'Contenu no2 john.watson@gmail.com '

### 2.4. re.split
Transforme une chaîne de caractères en liste à l'aide d'un séparateur.

#### Exemple

In [21]:
string = "produit;prix;nombre"
re.split(';', string)

['produit', 'prix', 'nombre']

## 3. Quelques RegEx utiles

In [22]:
def findMails(string):
    '''Récupère des adresses emails dans une chaine de caractères'''
    result = re.findall("\\b[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=?^_`{|}~-]+)*(?:[\s\[\(])*(?:@|at)(?:[\s\]\)])*(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?", string)
    return result

def findPhones(string):
    '''Récupère des numéros de téléphones suisses de type 079 945 55 11, 0799455511 ou +41 78 545 45 45 avec des espaces, /, - ou concatené'''
    result = re.findall("(\\b(?:\+?41[\s\-/]?)?0?\d{2}[\s\-/]?\d{3}[\s\-/]?\d{2}[\s\-/]?\d{2})", string)
    return result

def findURL(string):
    '''Récupère les url dans une page (utile lorsque les liens n'ont pas de balises <a href>). Attention, uniquement les liens "HTTP(S)"!'''
    result = re.findall("(\\b(?:HTTP[S]?://|www\.)[\w\d\-\+&@#/%=~_\|\$\?!:,\.]{2,}[\w\d\+&@#/%=~_\|\$]*)", string, re.IGNORECASE)
    return result

def findIPv4(string):
    '''Recherche les adresses IPv4'''
    result = re.findall("(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})", string)
    return result

def findIPv6(string):
    '''Recherche les adresses IPv6'''
    result = re.findall("((?:(?:[0-9A-Fa-f]{1,4}:){7}(?:[0-9A-Fa-f]{1,4}|:))|(?:(?:[0-9A-Fa-f]{1,4}:){6}(?::[0-9A-Fa-f]{1,4}|(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(?:\.(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3})|:))|(?:(?:[0-9A-Fa-f]{1,4}:){5}(?:(?:(?::[0-9A-Fa-f]{1,4}){1,2})|:(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(?:\.(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3})|:))|(?:(?:[0-9A-Fa-f]{1,4}:){4}(?:(?:(?::[0-9A-Fa-f]{1,4}){1,3})|(?:(?::[0-9A-Fa-f]{1,4})?:(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(?:\.(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(?:(?:[0-9A-Fa-f]{1,4}:){3}(?:(?:(?::[0-9A-Fa-f]{1,4}){1,4})|(?:(?::[0-9A-Fa-f]{1,4}){0,2}:(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(?:\.(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(?:(?:[0-9A-Fa-f]{1,4}:){2}(?:(?:(?::[0-9A-Fa-f]{1,4}){1,5})|(?:(?::[0-9A-Fa-f]{1,4}){0,3}:(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(?:\.(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(?:(?:[0-9A-Fa-f]{1,4}:){1}(?:(?:(?::[0-9A-Fa-f]{1,4}){1,6})|(?:(?::[0-9A-Fa-f]{1,4}){0,4}:(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(?:\.(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:))|(?::(?:(?:(?::[0-9A-Fa-f]{1,4}){1,7})|(?:(?::[0-9A-Fa-f]{1,4}){0,5}:(?:(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)(?:\.(?:25[0-5]|2[0-4]\d|1\d\d|[1-9]?\d)){3}))|:)))(?:%.+)?\s*", string)
    return result

def removeSpaces(string_or_list):
    '''Supprime des espaces trop nombreux dans une chaine de caractères ou dans une liste de chaine de caractères'''
    if type(string_or_list) == str:
        result = re.sub("\s+", " ", string_or_list).strip() # .strip() permet de supprimer les espaces au début et à la fin de la chaîne
    elif type(string_or_list) == list:
        result = [re.sub('\s+', ' ', string).strip() for string in string_or_list]
    else: result = string_or_list
    return result

def removeTags(string):
    '''Supprime les balises html et ce qu'elles contiennent, privilégier lxml (.text_content()) si de nombreuses balises'''
    result = re.sub("<.*?>", "", string)
    return result

def removeEmptyString(liste):
    '''Supprime des éléments vides dans une liste (passer une liste en argument)'''
    result = [element for element in liste if element] # "if element" est vrai si l'element contient quelque chose. Sinon il n'est pas retourné et est supprimé de la liste
    return result


In [23]:
texte =  '''
 <html>
    <div id="content1">Contenu fe80::200:5aee:feaa:20a2 no1 John Watson 078/556 55 14</div> https://www.google.ch/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwi4yqzRr5DXAhVCtBoKHQnnBjUQFggmMAA&url=http%3A%2F%2Fwww.unil.ch%2F&usg=AOvVaw12T7jtXwyBZj8UzETuYVEZ
    <div id="content2" class="class1">
        Contenu no2    \r\n
        \tjohn.watson@gmail.com & martin.4.dawson [at] protonmail.com www.google.ch +41 78 545 45 45 http://145.122.145.56/index.php
        <div id="content3" class="sub-content class1">
            2001:0db8:85a3:0000:0000:8a2e:0370:7334      Contenu no3 0795554512
        </div> 
        http://unil.ch
    </div>
 </html>
'''


In [24]:
liste = findMails(texte)
for i in liste: print(i)

john.watson@gmail.com
martin.4.dawson [at] protonmail.com


In [25]:
liste = findPhones(texte)
for i in liste: print(i)

078/556 55 14
41 78 545 45 45
0795554512


*Remarque*: Le module [phonenumbers](https://pypi.org/project/phonenumbers/) permet de détecter et gérer les numéros de téléphone sous forme de chaîne de caractères.

In [26]:
liste = findURL(texte)
for i in liste: print(i)

https://www.google.ch/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwi4yqzRr5DXAhVCtBoKHQnnBjUQFggmMAA&url=http%3A%2F%2Fwww.unil.ch%2F&usg=AOvVaw12T7jtXwyBZj8UzETuYVEZ
www.google.ch
http://145.122.145.56/index.php
http://unil.ch


In [27]:
liste = findIPv4(texte)
for i in liste: print(i)

145.122.145.56


In [28]:
liste = findIPv6(texte)
for i in liste: print(i)

fe80::200:5aee:feaa:20a2
2001:0db8:85a3:0000:0000:8a2e:0370:7334


In [29]:
liste = [' element1        ', '  element2', '    element3  ']
string = ' Hello,\n\tBienvenue au cours       IVI     !!'
print(removeSpaces(string))
print(removeSpaces(liste))

Hello, Bienvenue au cours IVI !!
['element1', 'element2', 'element3']


In [30]:
print(removeTags(texte))


 
    Contenu fe80::200:5aee:feaa:20a2 no1 John Watson 078/556 55 14 https://www.google.ch/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwi4yqzRr5DXAhVCtBoKHQnnBjUQFggmMAA&url=http%3A%2F%2Fwww.unil.ch%2F&usg=AOvVaw12T7jtXwyBZj8UzETuYVEZ
    
        Contenu no2    

        	john.watson@gmail.com & martin.4.dawson [at] protonmail.com www.google.ch +41 78 545 45 45 http://145.122.145.56/index.php
        
            2001:0db8:85a3:0000:0000:8a2e:0370:7334      Contenu no3 0795554512
         
        http://unil.ch
    
 



*Remarque*: Privilégier l'utilisation du module lxml et la fonction .text_content() pour récupérer le contenu textuel d'une balise.

In [31]:
liste = ['', 'element1', '', 'element2', 'element3', '', '', None]
print(removeEmptyString(liste))

['element1', 'element2', 'element3']
