# Utilisation des set ou classes de caractères

### Les set ou classes de caractères s'écrivent entre crochets. Par exemple [pm]ot permet de récupérer mot et pot.

In [52]:
texte <- "Je met des mots dans un pot."

In [53]:
regex <- "[mp]ot"

In [54]:
print(texte)

[1] "Je met des mots dans un pot."


In [55]:
print(regex)

[1] "[mp]ot"


In [56]:
regmatches(texte, gregexpr(regex, texte))

### 18[5-9][0-9] permet de récupérer des années comprises entre 1850 et 1899. Attention regex ne les considère pas comme des années mais comme des suites de chiffres. 18 c'est une expression régulière : commencer par : Je veux extraire 18.

In [57]:
texte <- "1856 1596 1459 1523 2012 1986 1812 1865 1569 1256 2001 1896 1916 18 1818 2018"

In [58]:
regex <- "18[0-9][0-9]"

In [59]:
print(texte)

[1] "1856 1596 1459 1523 2012 1986 1812 1865 1569 1256 2001 1896 1916 18 1818 2018"


In [60]:
print(regex)

[1] "18[0-9][0-9]"


In [61]:
regmatches(texte, gregexpr(regex, texte))

### Comme vu dans l'exemple précédent,  le tiret permet de spécifier une plage de caractères. ça marche aussi avec les lettres de l'alphabet [a-z] pour les lettres minuscules de a à z. Il est sensible à la casse (majuscule, minuscules).

In [62]:
texte <- "M. Jean Tartenpion 20 rue des Mimosas 29200 Brest."

In [63]:
regex <- "[a-z]"

In [64]:
print(texte)

[1] "M. Jean Tartenpion 20 rue des Mimosas 2900 Brest."


In [65]:
print(regex)

[1] "[a-zA-Z]"


In [66]:
regmatches(texte, gregexpr(regex, texte))

In [None]:
texte <- "M. Jean Tartenpion 20 rue des Mimosas 29200 Brest."

In [None]:
regex <- "[a-zA-Z]"

In [None]:
print(texte)

In [None]:
print(regex)

In [None]:
regmatches(texte, gregexpr(regex, texte))

### Attention, [a-zA-Z] ne signifie pas une lettre minuscule suivie d'une minuscule. L'ordre de ce qui est écrit entre les crochets n'est pas important, on aurait aussi pu écrire [A-Za-z]. Par contre, l'ordre de ce qui est entre crochet est important
### Autre exemple avec [a-zA-Z] suivi d'un espace : on récupère la dernière lettre de chaque mot.

### On peut utiliser la négation avec ^ : [^0-9]

In [67]:
texte <- "M. Jean Tartenpion 20 rue des Mimosas 29200 Brest."

In [68]:
regex <- "[^0-9]"

In [69]:
print(texte)

[1] "M. Jean Tartenpion 20 rue des Mimosas 2900 Brest."


In [70]:
print(regex)

[1] "[^0-9]"


In [71]:
regmatches(texte, gregexpr(regex, texte))

### Pour ne pas avoir les espaces : [^0-9 ]

# Les caractères "invisibles"

### Un fichier Word, par exemple, contient de nombreux caractères invisibles : les espaces, les tabulations, les retours à la ligne. Dans les langages de programmation comme le C, Python ces caractères s'écrivent de la façon suivante :

```
\t  tabulation
\s  espace
\n (line feed) ou \r (carriage return)  retour à la ligne
```

### Sans le \n

In [6]:
texte <- "20 rue des Mimosas
36 allée des Mimosas fleuris
56 avenue des Acacias"

In [7]:
regex <- "Mimosas"

In [8]:
print(texte)

[1] "20 rue des Mimosas\n36 allée des Mimosas fleuris\n56 avenue des Acacias"


In [9]:
print(regex)

[1] "Mimosas"


In [10]:
regmatches(texte, gregexpr(regex, texte))

### Avec le \n

In [77]:
texte <- "20 rue des Mimosas
36 allée des Mimosas fleuris
56 avenue des Acacias
15 rue des Mimosas
"

In [78]:
regex <- "Mimosas\\n"

In [79]:
print(texte)

[1] "20 rue des Mimosas\n36 allée des Mimosas fleuris\n56 avenue des Acacias\n15 rue des Mimosas\n"


In [80]:
print(regex)

[1] "Mimosas\\n"


In [81]:
regmatches(texte, gregexpr(regex, texte))

# Les classes de caractères prédéfinies

```
\d  [0-9]
\D  [^0-9]
\w  [a-zA-Z0-9_]
\W  [^a-zA-Z0-9_]
\t  Tabulation
\n  Saut de ligne
\r  Retour chariot
\s  Espace blanc (correspond à \t\n\r)
\S  N'est PAS un espace blanc (\t\n\r)
.   Tous les caractères sauf le retour à la ligne
```

# Les alternatives

### vanille|carotte

In [1]:
texte <- "Gâteau au chocolat
Glace à la vanille
Glace aux épinards
Glace au chocolat
Gâteau à la carotte
Glace à la carotte
Crême à la vanille
Crême aux épinards
Gâteau à la vanille"

In [2]:
regex <- "vanille|carotte"

In [3]:
print(texte)

[1] "Gâteau au chocolat\nGlace à la vanille\nGlace aux épinards\nGlace au chocolat\nGâteau à la carotte\nGlace à la carotte\nCrême à la vanille\nCrême aux épinards\nGâteau à la vanille"


In [4]:
print(regex)

[1] "vanille|carotte"


In [5]:
regmatches(texte, gregexpr(regex, texte))

### Gâteau à la vanille|carotte

In [11]:
texte <- "Gâteau au chocolat
Glace à la vanille
Glace aux épinards
Glace au chocolat
Gâteau à la carotte
Glace à la carotte
Crême à la vanille
Crême aux épinards
Gâteau à la vanille"

In [12]:
regex <- "Gâteau à la vanille|carotte"

In [13]:
print(texte)

[1] "Gâteau au chocolat\nGlace à la vanille\nGlace aux épinards\nGlace au chocolat\nGâteau à la carotte\nGlace à la carotte\nCrême à la vanille\nCrême aux épinards\nGâteau à la vanille"


In [14]:
print(regex)

[1] "Gâteau à la vanille|carotte"


In [15]:
regmatches(texte, gregexpr(regex, texte))

### Gâteau à la (vanille|carotte)

In [16]:
texte <- "Gâteau au chocolat
Glace à la vanille
Glace aux épinards
Glace au chocolat
Gâteau à la carotte
Glace à la carotte
Crême à la vanille
Crême aux épinards
Gâteau à la vanille"

In [17]:
regex <- "Gâteau à la (vanille|carotte)"

In [18]:
print(texte)

[1] "Gâteau au chocolat\nGlace à la vanille\nGlace aux épinards\nGlace au chocolat\nGâteau à la carotte\nGlace à la carotte\nCrême à la vanille\nCrême aux épinards\nGâteau à la vanille"


In [19]:
print(regex)

[1] "Gâteau à la (vanille|carotte)"


In [20]:
regmatches(texte, gregexpr(regex, texte))

# Les quantificateurs

```
? : le  caractère précédant le quantificateur ? est optionnel (caractère absent ou présent une seule fois)
* : le caractère précédant le quantificateur * est absent ou répété plusieurs fois
+ : le caractère précédant le quantificateur est présent une ou plusieurs fois
{5} : le caractère précédant le quantificateur est répété 5 fois
{2,6} : le caractère précédant le quantificateur est répété entre 2 et 6 fois
{,7} : le caractère précédant le quantificateur est absent ou répété entre une et 7 fois. {,1} est équivalent à ?
{3,} : le caractère précédant le quantificateur est absent ou répété entre 3 et un nombre infini de fois. {0,} est équivalent à *. {1,} est équivalent à +.
```

### Dans l'exemple sur les adresses, comment supprimer le point : on cherche le point plutôt que ce qui le précède.

### "Les chemins les plus courts sont souvent les moins longs."

### (vanille|carottes?)

In [22]:
texte <- "Gâteau au chocolat
Glace à la vanille
Glace aux épinards
Glace au chocolatRécupérer des numéros de téléphones :
Gâteau à la carotte
Glace à la carotte
Crême à la vanille
Crême aux épinards
Gâteau à la vanille
Gâteau aux carottes
Glace aux carottes"

In [23]:
regex <- "(vanille|carottes?)"

In [24]:
print(texte)

[1] "Gâteau au chocolat\nGlace à la vanille\nGlace aux épinards\nGlace au chocolat\nGâteau à la carotte\nGlace à la carotte\nCrême à la vanille\nCrême aux épinards\nGâteau à la vanille\nGâteau aux carottes\nGlace aux carottes"


In [25]:
print(regex)

[1] "(vanille|carottes?)"


In [26]:
regmatches(texte, gregexpr(regex, texte))

### Récupérer des numéros de téléphones

In [141]:
texte <- "Son téléphone était le 02 98 36 56 98 mais il mangeait des carottes.
'Appelle moi au 02 98 14 89 41', dit-elle en raccrochant.
Docteur Knock : 02-98-14-89-99
Le numéro 02-98-55-98-33 n'existe pas.
Jean Duchmoll, Paris, 0298236644, 25 ans, marié deux enfants"

In [142]:
regex <- "\\d{2}[-\\s]?\\d{2}[-\\s]?\\d{2}[-\\s]?\\d{2}[-\\s]?\\d{2}"

In [143]:
print(texte)

[1] "Son téléphone était le 02 98 36 56 98 mais il mangeait des carottes.\n'Appelle moi au 02 98 14 89 41', dit-elle en raccrochant.\nDocteur Knock : 02-98-14-89-99\nLe numéro 02-98-55-98-33 n'existe pas.\nJean Duchmoll, Paris, 0298236644, 25 ans, marié deux enfants"


In [144]:
print(regex)

[1] "\\d{2}[-\\s]?\\d{2}[-\\s]?\\d{2}[-\\s]?\\d{2}[-\\s]?\\d{2}"


In [145]:
regmatches(texte, gregexpr(regex, texte, perl = TRUE))

### Ici, on met à la fois " " et \\s qui correspond à un espace blanc.

# Quantificateurs gloutons (greedy) et non-gloutons (reluctant)

### Version gloutonne du quantificateur + pour récupérer du contenu entre parenthèses

In [52]:
texte <- "blagĩ v. (blag-) bavarder (français local ‘faire une partie de blague’)."

In [54]:
regex <- "\\(.+\\)"

In [55]:
print(texte)

[1] "blagĩ v. (blag-) bavarder (français local ‘faire une partie de blague’)."


In [56]:
print(regex)

[1] "\\(.+\\)"


In [57]:
regmatches(texte, gregexpr(regex, texte))

# Version non gloutonne du quantificateur +

In [58]:
texte <- "blagĩ v. (blag-) bavarder (français local ‘faire une partie de blague’)."

In [59]:
regex <- "\\(.+?\\)"

In [60]:
print(texte)

[1] "blagĩ v. (blag-) bavarder (français local ‘faire une partie de blague’)."


In [61]:
print(regex)

[1] "\\(.+?\\)"


In [62]:
regmatches(texte, gregexpr(regex, texte))

# Délimiteurs (boundary matchers)

```
^ (se dit caret en anglais, utilisé pour écrire les puissances en mathématiques, par exemple, 2^6) : Marque le début d'une ligne - Matches at the beginning of a line. ATTENTION, marque le début d'une ligne en dehors des crochets.
$ : Marque la fin d'une ligne - Matches at the end of a line
\b : Délimiteur de mots - Matches a word boundary
\B : Correspond à tout ce qui n'est pas un délimiteur de mot - Matches the opposite of \b. Anything that is not a word boundary
\A : Marque le début de l'entrée - Matches the beginning of the input
\Z : Marque la fin de l'entrée - Matches the end of the input
```

### On revient sur l'exemple de la rue Mimosas et on remplace le \n par \$

In [81]:
texte <- "20 rue des Mimosas
36 allée des Mimosas fleuris
56 avenue des Acacias
15 rue des Mimosas"

In [82]:
regex <- "Mimosas$"

In [83]:
print(texte)

[1] "20 rue des Mimosas\n36 allée des Mimosas fleuris\n56 avenue des Acacias\n15 rue des Mimosas"


In [84]:
print(regex)

[1] "Mimosas$"


In [85]:
regmatches(texte, gregexpr(regex, texte))

### Pour distinguer ^ et \A

In [187]:
texte <- "la voiture verte
la carotte rouge
la robe bleue"

In [188]:
regex <- "^la"

In [189]:
print(texte)

[1] "la voiture verte\nla carotte rouge\nla robe bleue"


In [190]:
print(regex)

[1] "^la"


In [191]:
regmatches(texte, gregexpr(regex, texte))

In [192]:
texte <- "la voiture verte
la carotte rouge
la robe bleue"

In [193]:
regex <- "\\Ala"

In [194]:
print(texte)

[1] "la voiture verte\nla carotte rouge\nla robe bleue"


In [195]:
print(regex)

[1] "\\Ala"


In [196]:
regmatches(texte, gregexpr(regex, texte, perl = TRUE))

### R ne fait pas la distinction entre les deux. C'est lié à la façon dont le programme gère les chaînes de caractères...

### Récupération de "arche" sans utilisation de \b

In [203]:
texte <- "L'archer Balthazar sortit son violon et son archet sur le pont de l'arche de Noé quand les animaux arrivèrent avec une démarche cadencée."

In [204]:
regex <- "arche"

In [205]:
print(texte)

[1] "L'archer Balthazar sortit son violon et son archet sur le pont de l'arche de Noé quand les animaux arrivèrent avec une démarche cadencée."


In [206]:
print(regex)

[1] "arche"


In [208]:
regmatches(texte, gregexpr(regex, texte))

### Avec \b (noter que cette solution est à préférer à l'utilisation de \s)

In [214]:
texte <- "L'archer Balthazar sortit son violon et son archet sur le pont de l'arche de Noé quand les animaux arrivèrent avec une démarche cadencée."

In [215]:
regex <- "\\barche\\b"

In [216]:
print(texte)

[1] "L'archer Balthazar sortit son violon et son archet sur le pont de l'arche de Noé quand les animaux arrivèrent avec une démarche cadencée."


In [217]:
print(regex)

[1] "\\barche\\b"


In [218]:
regmatches(texte, gregexpr(regex, texte))

### Exemple d'utilisation de \B pour récupérer des comptes Twitter dans des tweet :

In [219]:
texte <- "Merci trumuche@gmail.com Votre édito dans @Charlie_Hebdo_ est magnifique. Grave et juste, il est une réponse aux propos impardonnables de @edwyplenel."

In [220]:
regex <- "\\B@\\w+"

In [221]:
print(texte)

[1] "Merci trumuche@gmail.com Votre édito dans @Charlie_Hebdo_ est magnifique. Grave et juste, il est une réponse aux propos impardonnables de @edwyplenel."


In [222]:
print(regex)

[1] "\\B@\\w+"


In [223]:
regmatches(texte, gregexpr(regex, texte))

### $ et ^ seront utilisés dans les exemples suivants...

# Exemple d'utilisation des expressions régulières avec R

### Ebook de référence -> http://www.gastonsanchez.com/Handling_and_Processing_Strings_in_R.pdf

### On commence par importer la base (extrait de la base réelle) sur laquelle nous allons travailler, puis on affiche son contenu.

In [5]:
base.apogee <- read.csv("base.apogee.csv")

In [6]:
base.apogee

Individu,NationaliteOriginale
1,FRANCAIS(E)
2,FRANCAIS(E)
3,FRANCAIS(E)
4,SENEGALAIS(E)
5,FRANCAIS(E)
6,MAROCAIN(E)
7,FRANCAIS(E)
8,FRANCAIS(E)
9,FRANCAIS(E)
10,BENINOIS(E)


In [7]:
table(base.apogee$NationaliteOriginale)


  BENINOIS(E)   FRANCAIS(E)   MAROCAIN(E) SENEGALAIS(E) 
            1             7             1             1 

### Le script ci-dessous est extrait d'un script ayant permis de générer un fichier contenant des informations sur la population étudiante de l'Université de Bretagne Occidentale. Comme vous pouvez le voir, il a été produit à partir de la base Apogée de l'UBO, qui est la base de gestion des inscriptions et des dossiers des étudiant.e.s. Le problème à résoudre était le suivant : il fallait générer un fichier, une base de données plus simple que la base Apogée, avec des recodages par niveaux d'études allant de la première année jusqu'au doctorat (L1, ..., doctorat) par exemple, afin de calculer des pondérations. La base Apogée contient des données sur les niveaux d'études sous la forme affichée ci-dessus. Il fallait donc trouver un moyen de convertir une multitude de dénominations possibles en une seule. Les expressions régulières étaient la solution.

In [8]:
base.apogee$Nationalite <- gsub("^(?!FRANCAIS\\(E\\)).*$", "ETRANGER(E)", perl = TRUE, base.apogee$NationaliteOriginale)

### Ce script signifie que l'on va réaliser une opération vers la base "base.apogee", la base que nous devions traiter (je ne rentrerai pas dans les détails, je vais me concentrer ici sur l'usage des expressions régulières), en particulier sa variable "Nationalite". Avant de voir quelle opération nous avons réalisé vers cette variable, il faut préciser ce que l'on cherchait à faire...

### Chaque étudiant.e avait une nationalité précisée, française, sénégalaise, anglaise, etc. Il fallait recoder ces données en deux catégories : nationalité française et nationalité étrangère. Le <- signifie que l'on va réaliser vers cette variable l'opération située à droite. La fonction gsub permet de remplacer toutes les occurrences trouvées par l'expression régulière. Nous allons la décomposer.

### ^ marque le début de ligne. Nous cherchons donc toutes les valeurs de la variable "Nationalite" qui commence par ce qui est affiché après le ^.

### Les parenthèses signifient que l'on recherche un ensemble de caractères, d'expressions, etc...

### Il est évident que si l'on travaille des chaînes de caractères, on va un jour ou l'autre y trouver des parenthèses. Les expressions régulières peuvent les traiter, bien entendu. Il suffit de mettre un ou deux \ devant le caractère que l'on souhaite traiter en tant que tel, en tant que parenthèse, et non en tant qu'expression régulière signifiant, pour (, début d'un ensemble, et pour ), fin d'un ensemble. Sous Python par exemple, il suffit d'un \. Mais sous R, il en faut deux \\...

^(?!FRANCAIS\\(E\\)).*$ | ETRANGER(E)

### Revenons donc à notre expression.  L'expression ?! permet de trouver les occurrences qui ne correspondent pas à FRANCAIS(E), c'est-à-dire les nationalités étrangères en ce qui nous concerne. L'expression (?!XXX) signifie donc "tout ce qui n'est pas XXX". En anglais, cette opération s'appelle un "negative lookahead".

### Que signifient les trois caractères à la fin de l'expression ?

### Le point signifie "tout caractère, excepté une fin de ligne". L'étoile signifie "de zéro à un nombre infini de fois", et s'applique à l'expression précédente. Enfin, le dollar désigne une fin de chaîne de caractère. Cet ensemble signifie donc que l'on cherche des expressions qui se finissent par de zéro à un nombre infini de tout caractère, excepté une fin de ligne. Cet ensemble permet de prendre en compte les valeurs de la variables "Nationalite" qui n'auraient pas été nettoyées : des espaces ou des points qui suivraient la chaîne qui, dans notre cas, ne correspond pas à FRANCAIS(E). C'est simplement par sécurité que j'ai rajouté ces trois derniers caractères dans l'expression : sur 20000 valeurs, rien ne garantit qu'il n'y en ait pas qui ne soient pas nettoyées...  On remarquera que cette simple expression, peut être réutilisée dans d'autres cas...

In [None]:
base.apogee$Nationalite <- gsub("^(?!FRANCAIS\\(E\\)).*$", "ETRANGER(E)", perl = TRUE, base.apogee$NationaliteOriginale)

### Mais, vous l'avez peut-être remarqué, il reste des éléments après notre expression... Pour le moment nous n'avons demandé à R que de trouver une expression particulière. Ce qui suit la virgule, "ETRANGER(E)", est ce par quoi nous allons remplacer la chaîne de caractère si elle "matche" l'expression, si elle correspond à l'expression. En résumé, notre fonction gsub et notre expression régulière dit : "Dans la variable "Nationalite" de la base "base.apogee", remplacer tout ce qui n'est pas "FRANCAIS(E)" par "ETRANGER(E)". La suite de notre commande, perl = TRUE, signifie que nous utiliserons des expressions régulières tirées du langage de programmation Perl, spécialisé dans le traitement des données textuelles mais de moins en moins utilisée aujourd'hui, vu la complexité de sa syntaxe, qui ressemble en réalité aux expressions régulières sur lesquelles il est basé. Bref...

### Enfin, la variable située à droite est la variable source, les valeurs à partir desquelles on va pouvoir aboutir à notre variable "Nationalites" avec deux catégories.

### C'était donc un exemple de ce que permettent les expressions régulières, et de comment R permet de s'en servir. Vous avez sans doute, en me voyant décrypter l'expression utilisée, pensé aux usages que vous pourriez vous-même en faire... Les possibilités sont infinies.

In [10]:
base.apogee

Individu,NationaliteOriginale,Nationalite
1,FRANCAIS(E),FRANCAIS(E)
2,FRANCAIS(E),FRANCAIS(E)
3,FRANCAIS(E),FRANCAIS(E)
4,SENEGALAIS(E),ETRANGER(E)
5,FRANCAIS(E),FRANCAIS(E)
6,MAROCAIN(E),ETRANGER(E)
7,FRANCAIS(E),FRANCAIS(E)
8,FRANCAIS(E),FRANCAIS(E)
9,FRANCAIS(E),FRANCAIS(E)
10,BENINOIS(E),ETRANGER(E)
