# Analyse de texte avec Unix

## Filtrage

L’utilitaire `grep` (*file pattern searcher*) associé à l’option `-a` considère les fichiers en paramètres comme de l’ASCII. Il est utile pour rechercher un motif (*pattern*) en utilisant les expressions rationnelles. Il renvoie les lignes où le motif a été repéré :

In [None]:
# find, in all the databases, the lines containing words ending in -ly
! cat ./data/dbpedia.txt | grep -a "[a-zA-Z]*ly"

Il peut servir aussi pour simplement effectuer une recherche par mot-clé :

In [None]:
# find, in all the TXT files, the lines containing the word 'upon'
! cat ./data/*.txt | grep -a "upon"

## Remplacement

### *SED*

`sed` (*stream editor*) est un utilitaire très puissant qui permet d’éditer les lignes d’un flux en effectuant des remplacements (`s`), des suppressions (`d`) ou des insertions (`a`, `i`). Il repose sur l’utilisation des expressions rationnelles.

#### La commande de substitution

Pour remplacer la première occurrence d’un motif :

In [None]:
# substitutes first occurrence of 'id' by 'it'
! echo 'Le petit chat boid du laid.' | sed 's/id/it/'

Pour cette fois-ci effectuer les remplacements autant de fois que possible :

In [None]:
! echo 'Le petit chat boid du laid.' | sed 's/id/it/g'

Il est possible d’utiliser des expressions rationnelles :

In [None]:
# all the words ending by -t are now between asteriks
! echo 'Le petit chat boit du lait.' | sed 's/\([A-z]*t\)/*\1*/g'

Si l’utilitaire renvoie ordinairement le flux dans la sortie standard, l’option `-i` effectue le remplacement en place dans les fichiers en paramètres :

In [None]:
! sed -i '' 's/subscribe/unsubscribe/g' ./data/*.txt

Le caractère spécial `&` permet de se référer à la portion identifiée dans l’expression rationnelle :

In [None]:
! echo "Le petit chat boit du lait." | sed 's/./&\n/g'

#### La commande de suppression

La configuration `d` dans le paramétrage de l’outil permet de supprimer les lignes qui répondent au motif renseigné :

In [None]:
# remove lines starting with a whitespace character
# option 'p' to print only the first line
! sed -n '/^[[:space:]]/d;1p' ./data/pg2490.txt

In [None]:
# remove empty lines
! sed -n '/^$/d;1p' ./data/dbpedia.txt

À noter aussi l’opérateur `!` pour la négation :

In [None]:
# print the first ten lines of a document
! sed "1,10!d" ./data/dbpedia.txt

### *TR*

Un autre utilitaire pour manipuler le flux d’un texte est `tr` (*translate characters*). Il offre la capacité d’effectuer une concordance entre plusieurs caractères à remplacer :

In [None]:
# 'a' => 'e' ; 'e' => 'a' ; 't' => 'z'
! echo 'Le petit chat boit du lait.' | tr 'aet' 'eaz'

Les remplacements peuvent s’opérer depuis un fichier :

In [None]:
! tr '[:upper:]' '[:lower:]' < ./data/dbpedia.txt

L’option `-d` s’utilise pour supprimer des caractères :

In [None]:
# removes all occurrences of character 'e'
! tr -d 'e' < ./data/5200-0.txt

Avec l’option `-s`, les caractères répétés fusionnent :

In [None]:
# the three whitespace characters become one, while single ones still
! echo 'Le petit chat   boit du lait.' | tr -s '[:blank:]' ' '

Une autre option intéressante consiste à effectuer un remplacement sur tous les autres caractères sauf ceux indiqués (option `-c`) :

In [None]:
# keep all digits
! echo 'La révolution française a eu lieu en 1789.' | tr -cd '[:digit:]'

In [None]:
# every character that is neither a control char, a blank or a punctuation sign, nor an alphabetic one becomes an 'x'
! echo 'La révolution française a eu lieu en 1789.' | tr -c '[:alpha:][:blank:][:punct:][:cntrl:]' 'x'

## Tri

L’utilitaire `sort` permet de trier des lignes de textes. Avec l’option `-r`, le tri s’effectue de manière inversée et, avec `-f`, il ignore la casse des caractères :

In [None]:
! head ./data/dbpedia.txt | sort -rf

Et pour effectuer un tri sur des valeurs numériques plutôt qu’alphabétiques, il faut recourir à l’option `-n` :

In [None]:
! echo '1\n2\n3' | sort -rn

## Comptage

Il existe un utilitaire pour compter les lignes, mots et caractères dans un texte : `wc` (*word count*). Par défaut, il rend compte, dans l’ordre, du nombre de lignes, de mots et de *bytes* :

In [None]:
# 1 line, 6 words, 28 bytes
! echo 'Le petit chat boit du lait.' | wc

Pour limiter le comptage à l’une ou l’autre des unités, il faut utiliser les options `-l` (lignes), `-w` (mots), `-m` (caractères) et `-c` (*bytes*) :

In [None]:
! echo 'Le petit chat boit du lait.' | wc -m

L’option particulière `-L` renvoie le nombre de *bytes* de la ligne la plus longue :

In [None]:
! wc -L ./data/pg2490.txt

## Fréquence

Grâce à `uniq` et son option `-c`, il est possible d’obtenir un décompte des occurrences d’un mot dans un texte :

In [None]:
! sort -f < ./data/words.txt | uniq -c | sort -rn

À noter que l’option `-i` permet d’effectuer ce calcul en ignorant la casse :

In [None]:
! sort -f < ./data/words.txt | uniq -ci | sort -rn