## Tutoriel sur les concepts de base

Le site https://regexone.com/ permet de passer en revue tous les concepts de base. Finissez le tutoriel avant de continuer ces travaux pratiques.

## Nettoyeur d'espaces

Le fichier `cigaleFourmi.txt` contient le célèbre poème de Jean de la Fontaine. Malheureusement, la personne qui l'a recopié a parfois mis plusieurs espaces au lieu d'un seul entre les mots.<br>
Grâce à une *regex* et à la fonction `sub` remplacez plusieurs espaces par un seul espace. Le nouveau texte « propre » sera enregistré dans un fichier `cigaleFourmiPropre.txt`.

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
import re

with open("Data/cigaleFourmi.txt", "r+") as file:
    texte = file.read()

texte = re.sub(" +", " ", texte)

with open("Data/cigaleFourmiPropre.txt", "w+") as file:
    file.write(texte)
<p>
</details>

## Le défi du dé-htmliseur

Le format HTML permet d'afficher des pages web dans un navigateur. Il s'agit d'un langage à balise qui fonctionne avec des balises ouvrantes `<balise>` et des balises fermantes `</balise>`.

Affichez à l'écran le contenu du fichier `fichierADehtmliser.html` sans ses balises HTML.

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
import re

with open("Data/fichierADehtmliser.html", "r+") as file:
    contenu = file.read()

print(re.sub(r"<.+?>", "", contenu).strip())
<p>
</details>

## Nettoyeur de doublons

Le fichier `brevesDoublons.txt` contient des mots répétés deux fois.<br>
Lisez le fichier `brevesDoublons.txt` et supprimez tous les doublons à l'aide d'une *regex*. Affichez ensuite le nouveau texte à l'écran.

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
import re

with open("Data/brevesDoublons.txt", "r+") as file:
    contenu = file.read()

print(re.sub(r"\b(.+?) \1\b", r"\1", contenu))
<p>
</details>

## Extraction d'information

### Analyse des données

Ce corpus est une collection de plus de 4000 emails frauduleux (spam, phishing, …) de 1998 à 2007.

Tous les emails sont dans un seul fichier, le fichier `debugFile` ne contient que 2 emails.

Chaque email possède les headers suivants :
- `Return-Path`: address the email was sent from
- `X-Sieve`: the X-Sieve host (always cmu-sieve 2.0)
- `Message-Id`: a unique identifier for each message
- `From`: the message sender (sometimes blank)
- `Reply-To`: the email address to which replies will be sent
- `To`: the email address to which the e-mail was originally set (some are - truncated for anonymity)
- `Date`: Date e-mail was sent
- `Subject`: Subject line of e-mail
- `X-Mailer`: The platform the e-mail was sent from
- `MIME-Version`: The Multipurpose Internet Mail Extension version
- `Content-Type`: type of content & character encoding
- `Content-Transfer-Encoding`: encoding in bits
- `X-MIME-Autoconverted`: the type of autoconversion done
- `Status`: r (read) and o (opened)

Commencez par stocker le texte de chaque fichier dans les variables `debugText` et `workText`. Attention, les fichiers sont encodés avec l'encoding `windows-1252`.

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
with open("Data/debugFile.txt", "r+") as file:
    debugText = file.read()

with open("Data/fradulentEmails.txt", "r+", encoding="windows-1252") as file:
    workText = file.read()

print(workText[0:1000])
<p>
</details>

### Affichage de l'émetteur

À l'aide d'une expression régulière, affichez les 10 premières lignes ``From:``

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
import itertools
import re

for line in re.findall(r"^From:.*$", workText, re.MULTILINE)[0:10]:
    print(line)

print("***")

for i, match in enumerate(re.finditer(r"^From:.*$", workText, re.MULTILINE)):
    if i >= 10:
        break
    print(match.group(0))

print("***")

for match in itertools.islice(re.finditer(r"^From:.*$", workText, re.MULTILINE), 10):
    print(match.group(0))
<p>
</details>

### Suppression des guillements

Implémentez une fonction qui :
- prend en entrée une chaine de caractère
- renvoie la chaîne en ayant supprimé :
  - les `'` et `"`.
  - les espaces en debut et en fin.

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
def processName(text):
    result = re.sub("""['"]""", "", text)
    result = re.sub(r"^\s*(.*?)\s*$", r"\1", result)
    return result
<p>
</details>

### Récupération de l'émetteur

À l'aide d'une expression régulière, instanciez le dictionnaire `senders` où :

- clef = nom de l'émetteur auquel vous aurez enlevé quotes et espaces inutiles.
- valeur = ensemble d'email ( en prenant garde de vérifier que l'adresse email est valide).

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
senders = {}
for match in re.finditer(r"^From:(.*)<(\w\S+@\S+\.\w+)>$", workText, re.MULTILINE):
    name, email = match.groups()
    processedName = processName(name)
    if processedName not in senders:
        senders[processedName] = {email}
    else:
        senders[processedName].add(email)
<p>
</details>

### Affichage des noms des personnes possédant plusieurs emails

In [None]:
# Votre code ici

<details>
<summary>Solution</summary>
<p>
for name, emails in senders.items():
    if len(emails) > 1:
        print(name)
<p>
</details>