# Travaux pratiques 1 

## Ann√©e: 2024-2025

## Objectifs
1. Renforcer les concepts √† l'aide d'outils comme NumPy et scikit-learn.
2. Appliquer la logique propositionnelle et la tester sur des ensembles de donn√©es d'images.
3. Explorer la logique pr√©dicative et la valider sur des ensembles de donn√©es d'images.
4. Comprendre les techniques d'analyse de texte, y compris le stemming, la lemmatisation et l'analyse morphologique.

### Exercice 1.0 [‚òÖ]

Testez le notebook Python Jupyter [rappels](./TP0.ipynb) et familiarisez-vous avec les diff√©rentes m√©thodes des biblioth√®ques : numpy, scikit-learn, etc.

### Exercice 1.1 [‚òÖ]

L'exercice consiste √† tester la logique propositionnelle. Le fichier CSV (`image_data.csv`) contient des attributs tels que la couleur, la forme, la taille, la texture et la classification apr√®s le processus d'analyse d'image. D√©finissez les propositions ci-dessous et testez les expressions logiques bas√©es sur ces attributs pour √©valuer les relations au sein des donn√©es.

##### √âtape 1 : Charger et Inspecter le Fichier CSV
1. Lire le fichier CSV dans un DataFrame pandas.
2. Afficher les premi√®res lignes du DataFrame pour comprendre la structure.

In [13]:
import pandas as pd

# Load the CSV file
df = pd.read_csv('../../data/image_data.csv')

# Inspect the data
print(df.head())

    color      shape  size    texture classification
0   green   triangle   400  polka dot         animal
1     red     square   150  patterned          plant
2   green     square   250  polka dot         object
3  yellow  rectangle   200  polka dot       building
4     red     circle   200  polka dot        vehicle


In [14]:
print(df["texture"].unique())

['polka dot' 'patterned' 'smooth' 'rough' 'striped']


#### √âtape 2 : D√©finir des Propositions Bas√©es sur les Donn√©es
1. Cr√©er des propositions bool√©ennes bas√©es sur les colonnes du fichier CSV.
   - `P` : V√©rifie si la couleur est bleue.
   - `Q` : V√©rifie si la forme est un cercle.
   - `R` : V√©rifie si la classification est un animal.
   - `S` : V√©rifie si la taille est grande (d√©finir un seuil pour 'grand').
   - `T` : V√©rifie si la texture est rugueuse.
   - `U` : V√©rifie si la classification est un v√©hicule.
   - `V` : V√©rifie si la classification est un b√¢timent.

#### √âtape 3 : D√©finir les Expressions Logiques
Cr√©er des expressions logiques bas√©es sur les propositions d√©finies √† l'√©tape 2.
   - `expr1` : Si la couleur est bleue et la forme est un cercle, alors la classification est un animal.
   - `expr2` : Si la taille est grande et la texture est rugueuse, alors la classification est un v√©hicule.
   - `expr3` : Si la classification est un b√¢timent, que la forme est un cercle, que la couleur est bleue et que la taille est grande, alors la classification est un b√¢timent.

#### √âtape 4 : Tester les Expressions
1. Tester les expressions logiques sur chaque ligne du DataFrame.
2. Afficher les r√©sultats des expressions pour chaque ligne.

##### √âtape 5 : Ajouter une Proposition Compos√©e avec N√©gation et Disjonction

Cr√©er une nouvelle expression complexe qui teste ce qui suit :
- Si l'objet n'est **pas bleu** ou **a une texture lisse**, alors il est class√© comme **non un objet**.

##### √âtape 6 : Compter les Lignes Satisfaisantes pour Chaque Expression

Compter le nombre de lignes o√π chaque expression logique est `True` et comparer les fr√©quences des propositions satisfaites.

### Exercice 1.2 [‚òÖ]

##### √âtape 1 : Installer et Importer Z3
- Installer la biblioth√®que de solveur Z3 (`z3-solver`).
- Importer Z3 et se familiariser avec ses fonctions de base.

In [15]:
%pip install z3-solver

Note: you may need to restart the kernel to use updated packages.


In [1]:
import z3

##### √âtape 2 : D√©finir les Attributs comme Variables de Logique du Premier Ordre
- D√©finir des variables pour chaque colonne (par exemple, `color`, `shape`, `size`).
- Sp√©cifier les valeurs possibles (par exemple, `color` peut √™tre bleu, rouge, vert, etc.).
- D√©finir des contraintes pour des attributs tels que **size** √©tant un entier et d'autres attributs √©tant des cha√Ænes de caract√®res.

In [2]:
# Declare Z3 variables
Color = z3.String('color')
Shape = z3.String('shape')
Size = z3.Int('size')
Texture = z3.String('texture')
Classification = z3.String('classification')

#### √âtape 3 : Encoder les Propositions Logiques en Logique du Premier Ordre
- Encoder les propositions fournies en utilisant la logique de Z3 (voir l'exercice 1.1).
- Exemple : Si l'objet est bleu et circulaire, alors il est class√© comme un animal (`Implies(And(Color == "blue", Shape == "circle"), Classification == "animal")`).

In [3]:
# Define constraints

valid_colors = z3.Or(Color == "blue", Color == "red", Color == "green", Color == "yellow", Color == "purple")
valid_shapes = z3.Or(Shape == "circle", Shape == "square", Shape == "triangle", Shape == "rectangle", Shape == "ellipse")
valid_size = Size >= 100  # Size constraint
valid_textures = z3.Or(Texture == "polka dot", Texture == "smooth", Texture == "patterned", Texture == "rough")
valid_classifications = z3.Or(Classification == "animal", Classification == "plant", Classification == "object", Classification == "vehicle", Classification == "building")

expr5 =z3.Implies(z3.And(Color == "blue", Shape == "circle"), Classification == "animal")
expr6 = z3.Implies(z3.And(Size > 350, Texture == "rough"), Classification == "vehicle")
expr7 = z3.Implies(z3.And(z3.And(Classification == "building", Color == "blue"), z3.And(Shape == "circle", Size >= 350)), Classification == "building")
expr8 = z3.Implies(z3.And(Color == "blue", Shape == "circle"), Classification == "animal")

# Add these constraints to the solver
solver = z3.Solver()
solver.add(valid_colors, valid_shapes, valid_size, valid_textures, valid_classifications, expr5, expr6, expr7, expr8)

##### √âtape 4 : R√©soudre pour la Satisfaisabilit√©

- Utiliser le solveur Z3 pour v√©rifier si les propositions sont satisfaisables.
- Afficher les r√©sultats.

In [4]:
# Check if the solver finds a solution that satisfies the constraints
if solver.check() == z3.sat:
    print("The propositions are satisfiable.")
    model = solver.model()
    print(model)
else:
    print("The propositions are not satisfiable.")

The propositions are satisfiable.
[texture = "polka dot",
 classification = "animal",
 shape = "circle",
 color = "blue",
 size = 100]


##### √âtape 5 : Ajouter des Contraintes Suppl√©mentaires
- Ajouter une contrainte qui restreint certaines combinaisons, comme ¬´ si l'objet est vert, il ne peut pas √™tre circulaire ¬ª.
- Ajouter une autre contrainte o√π ¬´ les objets √† pois ne peuvent pas √™tre des v√©hicules ¬ª.

In [5]:
expr9 = z3.Implies(Color == "green", Shape != 'circle')
expr10 = z3.Implies(Texture == "polka dot", Classification != 'vehicle')

solver2 = z3.Solver()
solver2.add(valid_colors, valid_shapes, valid_size, valid_textures, valid_classifications, expr5, expr6, expr7, expr8, expr9, expr10)

if solver2.check() == z3.sat:
    print("The propositions are satisfiable.")
    model2 = solver2.model()
    print(model2)
else:
    print("The propositions are not satisfiable.")

The propositions are satisfiable.
[texture = "polka dot",
 classification = "animal",
 shape = "circle",
 color = "blue",
 size = 100]


## Exercice 1.3 [‚òÖ‚òÖ]

Lire le fichier CSV `image_data.csv` et d√©finir les attributs comme des variables Z3 en fonction des donn√©es du fichier. Encoder les propositions logiques et les contraintes en utilisant la logique du premier ordre pour chaque ligne, puis r√©soudre pour la satisfaisabilit√©.

In [6]:
import pandas as pd
import z3

# Load CSV data
df = pd.read_csv('../../data/image_data.csv')

# Initialize Z3 solver
solver = z3.Solver()

##### √âtape 2 : D√©finir les Variables Z3 Dynamiquement √† Partir des Donn√©es CSV
Pour chaque ligne du CSV, d√©finir les attributs comme des variables Z3 et s'assurer que les types sont coh√©rents.

In [8]:
# Define Z3 variables for each attribute dynamically for each row
for index, row in df.iterrows():
    color = z3.String(f'color_{index}')
    shape = z3.String(f'shape_{index}')
    size = z3.Int(f'size_{index}')
    texture = z3.String(f'texture_{index}')
    classification = z3.String(f'classification_{index}')
    
    # Add constraints for valid values
    solver.add(z3.Or(color == row['color'], shape == row['shape'], size == row['size'], texture == row['texture'], classification == row['classification']))


#### √âtape 3 : Encoder des Propositions en Logique du Premier Ordre
- √âcrire des propositions logiques pour chaque ligne, comme ¬´ si un objet est bleu et circulaire, alors il est class√© comme un animal ¬ª.
- Utiliser l'exercice 1.1 et ajouter des propositions suppl√©mentaires.

In [9]:
# Example FOL for each row
for index, row in df.iterrows():
    expr1 = z3.Implies(z3.And(z3.String(f'color_{index}') == "blue", z3.String(f'shape_{index}') == "circle"), z3.String(f'classification_{index}') == "animal")
    expr2 = z3.Implies(z3.And(z3.Int(f'size_{index}') > 350, z3.String(f'texture_{index}') == "rough"), z3.String(f'classification_{index}') == "vehicle")
    expr3 = z3.Implies(z3.And(z3.And(z3.String(f'classification_{index}') == "building", z3.String(f'color_{index}') == "blue"), z3.And(z3.String(f'shape_{index}') == "circle", z3.Int(f'size_{index}') >= 350)), z3.String(f'classification_{index}') == "building")
    expr4 = z3.Implies(z3.And(z3.String(f'color_{index}') == "blue", z3.String(f'shape_{index}') == "circle"), z3.String(f'classification_{index}') == "animal")
    solver.add(expr1, expr2, expr3, expr4)


#### √âtape 4 : R√©soudre pour la Satisfaisabilit√©
V√©rifier si les propositions logiques pour les donn√©es CSV sont satisfaisables.

In [10]:
# Check if the solver finds a solution that satisfies the constraints
if solver.check() == z3.sat:
    print("The propositions are satisfiable.")
    model = solver.model()
    print(model)
else:
    print("The propositions are not satisfiable.")

The propositions are satisfiable.
[texture_97 = "",
 color_12 = "",
 color_44 = "",
 color_88 = "",
 texture_61 = "",
 color_51 = "purple",
 texture_23 = "",
 shape_83 = "",
 texture_99 = "",
 texture_51 = "",
 classification_51 = "!2f!",
 size_88 = 400,
 classification_18 = "!12!",
 classification_83 = "!50!",
 color_40 = "red",
 texture_84 = "",
 color_23 = "",
 texture_68 = "",
 texture_45 = "",
 texture_74 = "",
 color_92 = "blue",
 color_32 = "",
 texture_9 = "",
 size_26 = 450,
 color_39 = "",
 shape_18 = "",
 classification_41 = "!25!",
 classification_92 = "!59!",
 texture_42 = "",
 texture_82 = "",
 classification_67 = "vehicle",
 classification_1 = "!1!",
 texture_95 = "",
 classification_20 = "!13!",
 texture_57 = "",
 color_93 = "green",
 classification_4 = "!4!",
 shape_36 = "",
 shape_58 = "rectangle",
 classification_59 = "!38!",
 shape_31 = "",
 classification_16 = "!10!",
 color_66 = "",
 classification_33 = "!1d!",
 texture_15 = "smooth",
 color_3 = "",
 classificatio

#### √âtape 5 : Ajouter des Contraintes Suppl√©mentaires
- Inclure de nouvelles contraintes (par exemple, ¬´ les objets verts ne peuvent pas √™tre circulaires ¬ª) et v√©rifier √† nouveau le r√©sultat.

In [13]:
no_green_circle = z3.Implies(z3.String(f'color_{index}') == "green", z3.String(f'shape_{index}') != "circle")
solver.add(no_green_circle)

if solver.check():
    print("The propositions are satisfiable.")
    model = solver.model()
    print(model)

The propositions are satisfiable.
[texture_97 = "",
 color_12 = "yellow",
 color_44 = "yellow",
 color_88 = "",
 texture_61 = "",
 color_51 = "",
 texture_23 = "",
 shape_83 = "",
 texture_99 = "",
 texture_51 = "",
 classification_51 = "vehicle",
 size_88 = 400,
 classification_18 = "!12!",
 classification_83 = "!51!",
 color_40 = "red",
 texture_84 = "",
 color_23 = "green",
 texture_68 = "",
 texture_45 = "",
 texture_74 = "",
 color_32 = "red",
 color_92 = "blue",
 texture_9 = "",
 color_39 = "green",
 shape_18 = "",
 classification_41 = "!28!",
 classification_92 = "!5a!",
 texture_42 = "",
 texture_82 = "",
 classification_67 = "vehicle",
 size_7 = 250,
 classification_1 = "!1!",
 texture_95 = "",
 classification_20 = "!14!",
 texture_57 = "",
 color_93 = "green",
 classification_4 = "!3!",
 shape_36 = "ellipse",
 shape_58 = "",
 classification_59 = "!3a!",
 shape_31 = "!1d!",
 classification_16 = "plant",
 color_66 = "green",
 classification_33 = "!20!",
 texture_15 = "smooth",


#### √âtape 6 : Introduire une Contrainte Insatisfaisable
- Ajouter une contrainte conflictuelle qui force un objet √† avoir deux attributs mutuellement exclusifs (par exemple, √™tre √† la fois bleu et rouge).
- V√©rifier la satisfaisabilit√© et montrer que le mod√®le devient insatisfaisable.

In [14]:
# Add a conflicting constraint: Object must be both blue and red (which is impossible)
for index in range(len(df)):
    conflicting_constraint = z3.And(z3.String(f'color_{index}') == "blue", z3.String(f'color_{index}') == "red")
    solver.add(conflicting_constraint)

# Check satisfiability after adding the conflicting constraint
if solver.check() == z3.sat:
    print("The propositions are still satisfiable.")
else:
    print("The model is now unsatisfiable due to conflicting constraints.")


The model is now unsatisfiable due to conflicting constraints.


### Exercice 1.4 [‚òÖ‚òÖ]

T√©l√©chargez cette page Web de Wikipedia : [https://fr.wikipedia.org/wiki/Paris](https://fr.wikipedia.org/wiki/Paris) et enregistrez le fichier au format HTML. Analysez la page Wikipedia en extrayant et en comptant les mots, les liens, les images, les nombres, les dates, les noms propres et les donn√©es structur√©es √† partir des tableaux, tout en diff√©renciant les sections et les paragraphes. Cela implique de t√©l√©charger le HTML, de le parser et d'identifier syst√©matiquement le contenu pertinent. √âcrivez un programme pour mettre en ≈ìuvre ces t√¢ches :

1. **T√©l√©charger le HTML** : R√©cup√©rer et enregistrer la page Wikipedia au format HTML.
2. **Charger le Contenu** : Lire et parser le fichier HTML pour analyse.
3. **Analyse des Mots** : Compter les occurrences de mots dans le texte.
4. **Extraction des Liens** : Identifier et cat√©goriser les liens internes et externes.
5. **Extraction d'Images** : Localiser les images et rassembler leurs URL et tailles.
6. **Extraction de Nombres et de Dates** : Identifier les nombres, les dates et les coordonn√©es g√©ographiques.
7. **Noms Propres** : Extraire les noms de personnes et de lieux.
8. **Donn√©es des Tableaux** : Localiser et extraire les donn√©es des tableaux.
9. **Diff√©renciation des Sections** : Identifier les sections et les paragraphes dans le contenu.

#### Analyse de la Page Wikipedia : Paris

Dans ce notebook, des t√¢ches seront effectu√©es pour extraire et analyser divers √©l√©ments de la page Wikipedia de Paris.

##### √âtape 1 : T√©l√©charger la Page HTML
Tout d'abord, t√©l√©chargez le contenu HTML de la page Wikipedia sp√©cifi√©e et enregistrez-le en tant que fichier HTML. Nous utilisons la biblioth√®que `requests` pour g√©rer la requ√™te HTTP. N'oubliez pas de v√©rifier le statut de la r√©ponse pour confirmer que la page a √©t√© t√©l√©charg√©e avec succ√®s.

In [15]:
import requests

# URL of the Wikipedia page
url = "https://fr.wikipedia.org/wiki/Paris"

# Send a GET request to the URL
response = requests.get(url)

# Save the content as an HTML file
with open("paris.html", "w", encoding='utf-8') as file:
    file.write(response.text)

print("HTML page downloaded and saved as paris.html")


HTML page downloaded and saved as paris.html


##### √âtape 2 : Charger le Contenu HTML
Chargez le fichier HTML t√©l√©charg√© pour une analyse plus approfondie.
- **Commentaire** : Parser le HTML est crucial pour extraire des donn√©es. Assurez-vous d'utiliser une biblioth√®que comme BeautifulSoup qui peut naviguer efficacement dans la structure HTML.

Familiarisez-vous avec les m√©thodes de `BeautifulSoup` pour trouver des √©l√©ments dans le HTML, telles que `find()` et `find_all()`.

In [16]:
%pip install beautifulsoup4

Collecting beautifulsoup4
  Using cached beautifulsoup4-4.12.3-py3-none-any.whl.metadata (3.8 kB)
Collecting soupsieve>1.2 (from beautifulsoup4)
  Using cached soupsieve-2.6-py3-none-any.whl.metadata (4.6 kB)
Using cached beautifulsoup4-4.12.3-py3-none-any.whl (147 kB)
Using cached soupsieve-2.6-py3-none-any.whl (36 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.12.3 soupsieve-2.6
Note: you may need to restart the kernel to use updated packages.


In [17]:
from bs4 import BeautifulSoup

# Load the HTML file
with open("paris.html", "r", encoding='utf-8') as file:
    html_content = file.read()

# Parse the HTML content using BeautifulSoup
soup = BeautifulSoup(html_content, "html.parser")
print("HTML content loaded.")


HTML content loaded.


##### √âtape 3 : Extraire et Analyser les Mots
Comptez les occurrences de chaque mot sur la page.
- **Commentaire** : Envisagez de normaliser le texte en le convertissant en minuscules pour √©viter de compter le m√™me mot en diff√©rentes majuscules s√©par√©ment. Nous utilisons des expressions r√©guli√®res pour filtrer efficacement les caract√®res non alphanum√©riques lors de la s√©paration du texte en mots.

In [19]:
from collections import Counter
import re

# Extract text from the HTML content
text = soup.get_text()

# Clean and split text into words
words = re.findall(r'\w+', text.lower())
word_count = Counter(words)

# Display the 10 most common words
print(word_count.most_common(5))


[('de', 3538), ('la', 2128), ('le', 1518), ('et', 1326), ('paris', 1214)]


##### √âtape 4 : Extraire les Liens
Identifiez tous les liens internes et externes de la page.

- **Commentaire** : Comprendre la diff√©rence entre les liens internes et externes est important pour la cat√©gorisation.
- **Indice** : V√©rifiez l'attribut `href` des balises d'ancrage (`<a>`) pour d√©terminer le type de lien.

In [20]:
# extraction des lien <a> du html
links = soup.find_all('a')
intern_links = []
extern_links = []

# Extract internal and external links
for link in links:
    href = link.get('href')
    if href:
        if href.startswith('http'):
            extern_links.append(href)
        else:
            intern_links.append(href)


##### √âtape 5 : Extraire les Images et Leurs Tailles
Identifiez toutes les images sur la page et obtenez leurs tailles.

- **Commentaire** : Soyez conscient que les images ne sont pas toujours stock√©es dans le m√™me format. Assurez-vous de construire les bonnes URLs pour elles.
- **Indice** : Vous devrez peut-√™tre v√©rifier les attributs des balises `<img>` pour obtenir des informations suppl√©mentaires, telles que la taille des images si disponible.

In [23]:
# ectract all images
images = soup.find_all('img')

# Extract image URLs and size id possible
image_data = []
for image in images:
    src = image.get('src')
    alt = image.get('alt')
    width = image.get('width')
    height = image.get('height')
    image_data.append({'src': src, 'alt': alt, 'width': width, 'height': height})
image_data[:2]

[{'src': '/static/images/icons/wikipedia.png',
  'alt': '',
  'width': '50',
  'height': '50'},
 {'src': '/static/images/mobile/copyright/wikipedia-wordmark-fr.svg',
  'alt': 'Wikip√©dia',
  'width': None,
  'height': None}]

##### √âtape 6 : Extraire les Nombres, Dates et Coordonn√©es G√©ographiques
Identifiez les nombres, dates et coordonn√©es g√©ographiques dans le texte.

- **Commentaire** : Diff√©rents formats pour les dates et les nombres peuvent compliquer l'extraction. Consid√©rez les diverses mani√®res dont ces √©l√©ments peuvent appara√Ætre sur la page.
- **Indice** : Utilisez des expressions r√©guli√®res adapt√©es √† des motifs sp√©cifiques (par exemple, formats de date ou coordonn√©es g√©ographiques) pour les identifier avec pr√©cision.

In [25]:
# extract dates with regex, and geographical data, and numbers
dates = re.findall(r'\d{1,2} [a-zA-Z]+ \d{4}', text)
geographical_data = re.findall(r'\d{2}\.\d{4,6}, \d{2}\.\d{4,6}', text)
numbers = re.findall(r'\d+', text)
geographical_data

[]

##### √âtape 7 : Identifier les Noms Propres
Extraire les noms propres du texte.

- **Commentaire** : Les noms propres peuvent inclure des noms de personnes, de lieux et d'organisations. Les identifier correctement peut am√©liorer votre analyse des donn√©es.
- **Indice** : Utilisez des techniques de traitement du langage naturel (NLP), telles que la reconnaissance d'entit√©s nomm√©es, pour automatiser l'identification des noms propres.

In [27]:
%pip install spacy

Collecting spacy
  Downloading spacy-3.8.2-cp312-cp312-win_amd64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Downloading spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Downloading spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.10-cp312-cp312-win_amd64.whl.metadata (2.0 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.8-cp312-cp312-win_amd64.whl.metadata (8.6 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.9-cp312-cp312-win_amd64.whl.metadata (2.2 kB)
Collecting thinc<8.4.0,>=8.3.0 (from spacy)
  Downloading thinc-8.3.2-cp312-cp312-win_amd64.whl.metadata (15 kB)
Collecting wasabi<1.2.0,>=0.9.1 (from spacy)
  Downloading wasabi-1.1.3-py3-none-any.whl.metadata (28 kB)
Collecting srsly<3.0.0,>=2.4.3 (from spacy)
  Downloading srsly-2.4.8-cp312-cp312-win_amd64.

  You can safely remove it manually.
  You can safely remove it manually.
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
tensorflow-intel 2.17.0 requires numpy<2.0.0,>=1.26.0; python_version >= "3.12", but you have numpy 2.0.2 which is incompatible.


In [30]:
!python -m spacy download fr_core_news_md

Collecting fr-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.8.0/fr_core_news_md-3.8.0-py3-none-any.whl (45.8 MB)
     ---------------------------------------- 0.0/45.8 MB ? eta -:--:--
     ----- ---------------------------------- 6.6/45.8 MB 40.3 MB/s eta 0:00:01
     ------------- ------------------------- 15.7/45.8 MB 41.2 MB/s eta 0:00:01
     -------------------- ------------------ 24.1/45.8 MB 41.3 MB/s eta 0:00:01
     ---------------------------- ---------- 33.3/45.8 MB 42.3 MB/s eta 0:00:01
     ----------------------------------- --- 42.2/45.8 MB 42.6 MB/s eta 0:00:01
     --------------------------------------- 45.8/45.8 MB 38.4 MB/s eta 0:00:00
Installing collected packages: fr-core-news-md
Successfully installed fr-core-news-md-3.8.0
[38;5;2m‚úî Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_md')


In [35]:
# Extract all noms propres with NLP
import spacy

nlp = spacy.load("fr_core_news_md")
doc = nlp(text)
named_entities = [(ent.text, ent.label_) for ent in doc.ents]
named_entities[:5]
# get all labels
labels = set([ent.label_ for ent in doc.ents])
labels

{'LOC', 'MISC', 'ORG', 'PER'}

In [37]:
# get all PERS
persons = [(ent.text, ent.label_) for ent in doc.ents if ent.label_ == 'PER']
persons

[('D√©buter', 'PER'),
 ('Wikip√©diaAideCommunaut√©Modifications', 'PER'),
 ('Apparence', 'PER'),
 ('Urbanisme', 'PER'),
 ('Presse', 'PER'),
 ('BaliBoarisch≈Ωemaitƒó≈°kaBikol Central–ë–µ–ª–∞—Ä—É—Å–∫–∞—è–ë–µ–ª–∞—Ä—É—Å–∫–∞—è', 'PER'),
 ('G√µychi Konknniêå≤êåøêçÑêåπêçÉêå∫‡™ó‡´Å‡™ú‡™∞‡™æ‡™§‡´ÄGungbeGaelgHausaÂÆ¢ÂÆ∂Ë™û', 'PER'),
 ('Hak-k√¢-ng√ÆHawai ªi◊¢◊ë◊®◊ô◊™‡§π‡§ø‡§®‡•ç‡§¶‡•ÄFiji', 'PER'),
 ('Jawa·É•·Éê·É†·Éó·É£·Éö·ÉòQaraqalpaqshaTaqbaylit–ê–¥—ã–≥—ç–±–∑—çKab…©y…õTyapKongoKumoring“ö–∞–∑–∞“õ—à–∞Kalaallisut·ûó·û∂·ûü·û∂·ûÅ·üí·ûò·üÇ·ûö‡≤ï‡≤®‡≥ç‡≤®‡≤°ÌïúÍµ≠Ïñ¥–ü–µ—Ä–µ–º –∫–æ–º–∏–ö—ä–∞—Ä–∞—á–∞–π',
  'PER'),
 ('Franca NovaLugandaLimburgsLigureLadinLombardLing√°la‡∫•‡∫≤‡∫ßLietuvi≈≥LatgaƒºuLatvie≈°u‡§Æ‡•à‡§•‡§ø‡§≤‡•Ä–ú–æ–∫—à–µ–Ω—åMalagasy–û–ª—ã–∫',
  'PER'),
 ('G√©n√©ral', 'PER'),
 ('Anne Hidalgo', 'PER'),
 ('Clovis', 'PER'),
 ('baron Haussmann', 'PER'),
 ('Roland Garros', 'PER'),
 ('Thiers', 'PER'),
 ('Thiers', 'PER'),
 ('baron Haussmann', 'PER'),
 ('ville[2].', 'PER'),
 ('Jean-Paul II', 'P

##### √âtape 8 : Extraire des Donn√©es Structur√©es (Tableaux)
Identifiez et extrayez des donn√©es des tableaux pr√©sents dans le HTML.

- **Commentaire** : Les tableaux contiennent souvent des donn√©es organis√©es qui peuvent √™tre utiles pour l'analyse. Assurez-vous de capturer √† la fois les cellules d'en-t√™te et les cellules de donn√©es.
- **Indice** : Familiarisez-vous avec la structure des tableaux HTML, y compris comment naviguer dans les lignes (`<tr>`) et les cellules (`<td>` et `<th>`).

In [40]:
# extract tables
tables = soup.find_all('table')
table_data = []
for table in tables:
    rows = table.find_all('tr')
    r = []
    for row in rows:
        cells = row.find_all(['th', 'td'])
        r.append([cell.text for cell in cells])
    table_data.append(r)
table_data

[[['Paris\n'],
  ["\nDe haut en bas et de gauche √† droite\xa0: Vue sur la Seine et la tour Eiffel, le pont des Arts avec au loin la cath√©drale Notre-Dame, l'op√©ra Garnier, l'Arc de Triomphe et enfin le palais du Louvre avec sa pyramide."],
  ['Blason\n', 'Logo\n'],
  ['Administration'],
  ['Pays\n', ' France\n'],
  ['R√©gion\n', '√éle-de-France (pr√©fecture)\n'],
  ['Arrondissement\n', 'Chef-lieu de vingt arrondissements\n'],
  ['Intercommunalit√©\n', 'M√©tropole du Grand Paris (si√®ge)\n'],
  ['Maire Mandat\n', 'Anne Hidalgo (PS) 2020‚Äì2026\n'],
  ['Code postal\n', 'Selon l‚Äôarrondissement, de 75001 √† 75020 et 75116\n'],
  ['Code commune\n',
   '75056 Codes des arrondissements\xa0: de 75101 √† 75120\n'],
  ['D√©mographie'],
  ['Gentil√©\n', 'Parisien, Parisienne\n'],
  ['Populationmunicipale\n', '2\xa0133\xa0111\xa0hab. (2021 )\n'],
  ['Densit√©', '20\xa0238\xa0hab./km2'],
  ['Population agglom√©ration\n', '10\xa0890\xa0751\xa0hab. (2021)\n'],
  ['G√©ographie'],
  ['Coordonn√©es

##### √âtape 9 : Diff√©rencier les Sections et les Paragraphes
Identifiez et s√©parez les sections et les paragraphes dans le contenu.

- **Commentaire** : Les sections aident √† comprendre l'organisation du contenu. Reconna√Ætre les diff√©rents niveaux de titres peut faciliter la navigation dans le contenu.
- **Indice** : Utilisez les balises appropri√©es (`<h1>`, `<h2>`, etc.) pour diff√©rencier les sections et assurez-vous de capturer leur contenu associ√©, comme les paragraphes.

In [57]:
# extract all headers with there paragraphes
headers = [ h.text for h in soup.find_all(['h1', 'h2', 'h3', 'h4', 'h5', 'h6'])]
paragraphs = [p.text for p in soup.find_all('p')]

headers[:2]

['Sommaire', 'Paris']

## Exercice 1.5 [‚òÖ‚òÖ‚òÖ]
Analysez le texte de la page Wikipedia t√©l√©charg√©e en appliquant le stemming, l'extraction d'n-grammes, l'√©tiquetage des parties du discours (PoS), la lemmatisation, l'analyse morphologique et la reconnaissance d'entit√©s nomm√©es. Comparez les r√©sultats de NLTK et de spaCy pour √©valuer leur efficacit√© dans les t√¢ches d'analyse de texte.

### Pr√©requis

Assurez-vous d'avoir les biblioth√®ques n√©cessaires install√©es. Vous pouvez les installer en utilisant pip si ce n'est pas d√©j√† fait :

In [58]:
%pip install spacy gensim wordcloud seaborn

Collecting nltk
  Downloading nltk-3.9.1-py3-none-any.whl.metadata (2.9 kB)
Collecting gensim
  Downloading gensim-4.3.3-cp312-cp312-win_amd64.whl.metadata (8.2 kB)
Collecting wordcloud
  Downloading wordcloud-1.9.3-cp312-cp312-win_amd64.whl.metadata (3.5 kB)
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2024.9.11-cp312-cp312-win_amd64.whl.metadata (41 kB)
Collecting numpy>=1.19.0 (from spacy)
  Using cached numpy-1.26.4-cp312-cp312-win_amd64.whl.metadata (61 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.1-cp312-cp312-win_amd64.whl.metadata (60 kB)
INFO: pip is looking at multiple versions of thinc to determine which version is compatible with other requirements. This could take a while.
Collecting thinc<8.4.0,>=8.3.0 (from spacy)
  Downloading thinc-8.3.1-cp312-cp312-win_amd64.whl.metadata (15 kB)
  Downloading thinc-8.3.0-cp312-cp312-win_amd64.whl.metadata (15 kB)
Collecting scipy<1.14.0,>=1.7.0 (from gensim)
  Downloading scipy-1.13.0-cp312-

  error: subprocess-exited-with-error
  
  √ó Preparing metadata (pyproject.toml) did not run successfully.
  ‚îÇ exit code: 1
  ‚ï∞‚îÄ> [21 lines of output]
      + meson setup C:\Users\CPE\AppData\Local\Temp\pip-install-2cwgn85o\scipy_17efc76a35de4743bc2c6d3d47d783dc C:\Users\CPE\AppData\Local\Temp\pip-install-2cwgn85o\scipy_17efc76a35de4743bc2c6d3d47d783dc\.mesonpy-7ki4nira\build -Dbuildtype=release -Db_ndebug=if-release -Db_vscrt=md --native-file=C:\Users\CPE\AppData\Local\Temp\pip-install-2cwgn85o\scipy_17efc76a35de4743bc2c6d3d47d783dc\.mesonpy-7ki4nira\build\meson-python-native-file.ini
      The Meson build system
      Version: 1.6.0
      Source dir: C:\Users\CPE\AppData\Local\Temp\pip-install-2cwgn85o\scipy_17efc76a35de4743bc2c6d3d47d783dc
      Build dir: C:\Users\CPE\AppData\Local\Temp\pip-install-2cwgn85o\scipy_17efc76a35de4743bc2c6d3d47d783dc\.mesonpy-7ki4nira\build
      Build type: native build
      Project name: SciPy
      Project version: 1.11.1
      
      ..\..\m

In [2]:
%pip install ntlk

Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement ntlk (from versions: none)
ERROR: No matching distribution found for ntlk


In [3]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')
nltk.download('wordnet')
nltk.download('maxent_ne_chunker')
nltk.download('words')
nltk.download('wordnet') 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\CPE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\CPE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\CPE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger.zip.
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     C:\Users\CPE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping taggers\averaged_perceptron_tagger_eng.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\CPE\AppData\Roaming\nltk_data...
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     C:\Users\CPE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping chunkers\maxent_ne_chunker.zip.
[nltk_data] Downloading package words to
[nltk_data]     C

True

#### √âtape 1 : Charger la Page Wikipedia
Commencez par charger le fichier HTML que vous avez enregistr√© pr√©c√©demment et extraire le texte.

In [4]:
from bs4 import BeautifulSoup

# Load the HTML file
with open("paris.html", "r", encoding='utf-8') as file:
    html_content = file.read()

# Parse the HTML content
soup = BeautifulSoup(html_content, "html.parser")
text = soup.get_text()

#### √âtape 2 : Appliquer des Algorithmes de Stemming
Utilisez les stemmers Porter et Snowball de NLTK pour r√©duire les mots du texte √† leur racine.

In [5]:
import nltk
from nltk.stem import PorterStemmer, SnowballStemmer
from collections import Counter
import re

# Tokenize and clean the text
words = re.findall(r'\w+', text.lower())

# Initialize stemmers
porter_stemmer = PorterStemmer()
snowball_stemmer = SnowballStemmer("english")

# Apply stemming
porter_stems = [porter_stemmer.stem(word) for word in words]
snowball_stems = [snowball_stemmer.stem(word) for word in words]

# Count unique stems
porter_stem_count = Counter(porter_stems)
snowball_stem_count = Counter(snowball_stems)

# Display the most common stems and count of unique stems
print("Most common Porter stems:", porter_stem_count.most_common(10))
print("Unique Porter stems count:", len(porter_stem_count))

print("Most common Snowball stems:", snowball_stem_count.most_common(10))
print("Unique Snowball stems count:", len(snowball_stem_count))

Most common Porter stems: [('de', 4484), ('le', 2348), ('la', 2129), ('et', 1326), ('pari', 1215), ('l', 1045), ('en', 924), ('√†', 923), ('du', 781), ('d', 754)]
Unique Porter stems count: 8006
Most common Snowball stems: [('de', 3538), ('la', 2128), ('le', 1518), ('et', 1326), ('pari', 1215), ('l', 1045), ('des', 946), ('en', 924), ('√†', 923), ('les', 830)]
Unique Snowball stems count: 8079


#### √âtape 3 : Extraire des N-grammes
G√©n√©rez et affichez les n-grammes les plus courants (1-grammes √† 5-grammes) du texte.

In [11]:
# extract N-grams from 1 to 5
from nltk.util import ngrams

# Extract n-grams from 1 to 5
n_grams = []
for n in range(1, 6):
    n_grams.extend(ngrams(words, n))
    
# Count unique n-grams
n_gram_count = Counter(n_grams)
n_gram_count.most_common(5)

[(('de',), 3538),
 (('la',), 2128),
 (('le',), 1518),
 (('et',), 1326),
 (('paris',), 1214)]

#### √âtape 4 : √âtiquetage des Parties du Discours (PoS)
Utilisez NLTK ou spaCy pour effectuer l'√©tiquetage des parties du discours sur le texte.

In [12]:
# extract POS
from nltk import pos_tag
from nltk.tokenize import word_tokenize

# Tokenize the text
tokens = word_tokenize(text)

# Extract POS tags
pos_tags = pos_tag(tokens)
pos_tags[:5]

[('Paris', 'NNP'),
 ('‚Äî', 'NNP'),
 ('Wikip√©dia', 'NNP'),
 ('Aller', 'NNP'),
 ('au', 'NN')]

#### √âtape 5 : Lemmatisation
Appliquez la lemmatisation en utilisant NLTK ou spaCy.

In [13]:
# Lemmatisation

from nltk.stem import WordNetLemmatizer

# Initialize the WordNet lemmatizer
lemmatizer = WordNetLemmatizer()

# Lemmatize the words
lemmas = [lemmatizer.lemmatize(word) for word in words]

# Count unique lemmas
lemma_count = Counter(lemmas)

# Display the most common lemmas and count of unique lemmas
print("Most common lemmas:", lemma_count.most_common(10))


Most common lemmas: [('de', 4484), ('le', 2348), ('la', 2129), ('et', 1326), ('paris', 1214), ('l', 1045), ('en', 924), ('√†', 923), ('du', 781), ('d', 754)]


#### √âtape 6 : Analyse Morphologique
Utilisez spaCy pour effectuer une analyse morphologique sur le texte.

In [17]:
# Morphological analysis
import spacy

nlp = spacy.load("fr_core_news_md")
doc = nlp(text)

# Extract morphological analysis
morphological_analysis = [(token.text, token.morph) for token in doc]
morphological_analysis[:5]
    

[('\n\n\n\n', ),
 ('Paris', Gender=Masc|Number=Sing),
 ('‚Äî', ),
 ('Wikip√©dia', ),
 ('\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n',
  )]

#### √âtape 7 : Reconnaissance d'Entit√©s Nomm√©es (NER)
Utilisez spaCy pour identifier les entit√©s nomm√©es dans le texte.

In [19]:
# get entities from doc
entities = [(ent.text, ent.label_) for ent in doc.ents]
entities[:5]

[('Paris', 'LOC'),
 ('Wikip√©dia\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nAller',
  'MISC'),
 ('Menu', 'MISC'),
 ('Navigation\n\t\n\n\n', 'MISC'),
 ('AccueilPortails', 'ORG')]

#### √âtape 8 : Distribution de Fr√©quence des Mots
Visualisez la distribution de fr√©quence des mots √† l'aide de Matplotlib.

In [23]:
# show word frequencies
import matplotlib.pyplot as plt

# Get the most common words and their frequencies


# Plot the word frequencies
plt.figure(figsize=(10, 6))
plt.bar(lemma)
plt.xlabel('Words')
plt.ylabel('Frequency')
plt.title('10 Most Common Words')
plt.show()



NameError: name 'lemma' is not defined

<Figure size 1000x600 with 0 Axes>

#### √âtape 9 : Cr√©er un Nuage de Mots

G√©n√©rez un nuage de mots pour visualiser les mots les plus fr√©quents.

#### √âtape 10 : Visualisation des Entit√©s Nomm√©es

Visualisez les entit√©s nomm√©es reconnues dans le texte √† l'aide de Matplotlib.

#### √âtape 11 : Visualisation des Noms les Plus Courants

Visualisez les noms les plus courants dans le texte, ce qui peut fournir des informations sur les principaux sujets abord√©s.