# Analyse de texte avec Unix

## Filtrage

L’utilitaire `grep` (*file pattern searcher*) associé à l’option `-a` considère les fichiers en paramètres comme de l’ASCII. Il est utile pour rechercher un motif (*pattern*) en utilisant les expressions rationnelles.

```bash
# find, in all the TXT files, the lines that contain the word 'upon'
cat ./files/*.txt | grep -a upon
```

```bash
# words that end with suffix -ly
cat ./files/*.txt | grep -a "[a-zA-Z]*ly"
```

## Remplacement

### *SED*

`sed` (*stream editor*) est un utilitaire très puissant qui permet d’éditer les lignes d’un flux en effectuant des remplacements.

```bash
# substitutes first occurrence of 'id' by 'it'
echo "Le petit chat boid du laid." | sed 's/id/it/'
```

```bash
# substitutes all occurrences of 'id' by 'it'
echo "Le petit chat boid du laid." | sed 's/id/it/g'
```

Il est possible d’utiliser des expressions rationnelles :

```bash
echo "Le petit chat boid du laid." | sed 's/\w*d/t/g'
```

Si l’utilitaire renvoie ordinairement le flux dans la sortie standard, l’option `-i` effectue le remplacement en place dans les fichiers en paramètres :

```bash
sed -i '' 's/subscribe/unsubscribe/g' ./files/*.txt
```

La configuration `d` dans le paramétrage de l’outil permet de supprimer les lignes qui répondent au motif renseigné :

```bash
# remove lines starting with a whitespace character
sed '/^[[:space:]]/d' ./files/*.txt
```

```bash
# remove empty lines
sed '/^$/d' ./files/*.txt
```

### *TR*

Un autre utilitaire pour manipuler le flux d’un texte est `tr` (*translate characters*). Il offre la capacité d’effectuer une concordance entre plusieurs caractères à remplacer.

```bash
# 'a' => 'e' ; 'e' => 'a'
echo "Le petit chat boit du lait." | tr ae ea
```

Les remplacements peuvent s’opérer depuis un fichier :

```bash
tr ae ea < ./files/*.txt
```

L’option `-d` s’utilise pour supprimer des caractères :

```bash
# removes all occurrences of character 'e'
tr -d e < ./files/*.txt
```

Avec l’option `-s`, les caractères répétés fusionnent :
```bash
# the three whitespace characters become one, while single ones still
echo "Le petit chat   boit du lait." | tr -s '[:blank:]' ' '
```

Une autre option intéressante consiste à effectuer un remplacement sur tous les autres caractères sauf ceux indiqués :

```bash
# keep all digits
echo "La révolution française a eu lieu en 1789." | tr -cd '[:digit:]'
```

```bash
# every character but digits become an 'x'
echo "La révolution française a eu lieu en 1789." | tr -c '[:digit:]' 'x'
```

## Tri

L’utilitaire `sort` permet de trier des lignes de textes. Avec l’option `-r`, le tri s’effectue de manière inversée et, avec `-f`, il ignore la casse des caractères :

```bash
echo "Le
petit
chat
boit
du
lait
." | sort -rf
```

Et pour effectuer un tri sur des valeurs numériques plutôt qu’alphabétiques, il faut recourir à l’option `-n`.

## Comptage

Il existe un utilitaire pour compter les lignes, mots et caractères dans un texte : `wc` (*word count*).

```bash
# 1 line, 6 words, 28 characters
echo "Le petit chat boit du lait." | wc
```

Pour limiter le comptage à l’une ou l’autre des unités, il faut utiliser les options `-l` (lignes), `-w` (mots) et `-m` (caractères).

## Fréquence

Grâce à `uniq` et son option `-c`, il est possible d’obtenir un décompte des occurrences d’un mot dans un texte :

```bash
echo "Le
petit
chat
boit
du
lait
.
Le
petit
chien
boit
de
l’
eau
." | sort | uniq -c | sort -rn
```

À noter que l’option `-i` permet d’effectuer ce calcul en ignorant la casse.