In [1]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import CountVectorizer

[nltk_data] Downloading package punkt to /home/codespace/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [2]:
# Étape de prétraitement des données
def preprocess(text):
    # Supprimer la ponctuation et les chiffres
    text = ''.join([c for c in text if c.isalpha() or c.isspace()])

    # Mettre en minuscules
    text = text.lower()

    # Tokenization
    tokens = word_tokenize(text)

    # Supprimer les stopwords
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [token for token in tokens if token not in stop_words]

    # Lemmatization
    lemmatizer = WordNetLemmatizer()
    lemmatized_tokens = [lemmatizer.lemmatize(token) for token in filtered_tokens]

    # Rejoindre les tokens en une seule chaîne de texte
    preprocessed_text = ' '.join(lemmatized_tokens)

    return preprocessed_text

# Étape de représentation des données
def represent(texts):
    vectorizer = CountVectorizer()
    X = vectorizer.fit_transform(texts)
    feature_names = vectorizer.get_feature_names_out()

    return X, feature_names

In [3]:
# Textes d'exemple
texts = [
    "Text mining is the process of extracting useful information from unstructured text data.",
    "The preprocessing step involves cleaning and preparing the text for analysis.",
    "Representation of the data is important to make it suitable for machine learning algorithms.",
]

# Prétraitement des textes
preprocessed_texts = [preprocess(text) for text in texts]

# Représentation des données
X, feature_names = represent(preprocessed_texts)

# Affichage des résultats
print("Textes d'origine :")
for text in texts:
    print("- ", text)
print("\nTextes prétraités :")
for text in preprocessed_texts:
    print("- ", text)
print("\nMatrice de termes :")
print(X.toarray())
print("\nListe des termes :")
print(feature_names)

Textes d'origine :
-  Text mining is the process of extracting useful information from unstructured text data.
-  The preprocessing step involves cleaning and preparing the text for analysis.
-  Representation of the data is important to make it suitable for machine learning algorithms.

Textes prétraités :
-  text mining process extracting useful information unstructured text data
-  preprocessing step involves cleaning preparing text analysis
-  representation data important make suitable machine learning algorithm

Matrice de termes :
[[0 0 0 1 1 0 1 0 0 0 0 1 0 0 1 0 0 0 2 1 1]
 [0 1 1 0 0 0 0 1 0 0 0 0 1 1 0 0 1 0 1 0 0]
 [1 0 0 1 0 1 0 0 1 1 1 0 0 0 0 1 0 1 0 0 0]]

Liste des termes :
['algorithm' 'analysis' 'cleaning' 'data' 'extracting' 'important'
 'information' 'involves' 'learning' 'machine' 'make' 'mining' 'preparing'
 'preprocessing' 'process' 'representation' 'step' 'suitable' 'text'
 'unstructured' 'useful']


## Les expressions régulières

* La fonction `match` tente de trouver la correspondance de l'expression régulière uniquement au début de la chaîne de texte. Si une correspondance est trouvée, elle renvoie un objet Match, sinon elle renvoie None.

* La fonction `search` recherche la première occurrence de l'expression régulière dans la chaîne de texte. Elle renvoie également un objet Match si une correspondance est trouvée, sinon elle renvoie None.

* La fonction `findall` recherche toutes les occurrences de l'expression régulière dans la chaîne de texte et renvoie les correspondances sous forme de liste de chaînes de caractères.

* La fonction `finditer` recherche toutes les occurrences de l'expression régulière dans la chaîne de texte et renvoie un itérable d'objets Match. Vous pouvez parcourir cet itérable pour obtenir les correspondances individuelles.

In [20]:
import re

# Le texte de recherche
phrase = "Le chat est reparti avec la souris."

# match trouve une correspondance au début de la chaîne seulement
match = re.match('Le', phrase)
print("Fonction match :")
if match:
    print(f"Correspondance trouvée : {match.group()}")
    print(match)
else:
    print("Aucune correspondance trouvée.")

Fonction match :
Correspondance trouvée : Le
<re.Match object; span=(0, 2), match='Le'>


In [21]:
# search trouve la première correspondance dans toute la chaîne
search = re.search('souris', phrase)
print("\nFonction search :")
if search:
    print(f"Correspondance trouvée : {search.group()}")
    print(search)
else:
    print("Aucune correspondance trouvée.")


Fonction search :
Correspondance trouvée : souris
<re.Match object; span=(28, 34), match='souris'>


In [22]:
# findall trouve toutes les correspondances dans la chaîne
findall = re.findall('e', phrase)
print("\nFonction findall :")
if findall:
    print(f"Correspondances trouvées : {findall}")
else:
    print("Aucune correspondance trouvée.")


Fonction findall :
Correspondances trouvées : ['e', 'e', 'e', 'e']


In [23]:
# finditer trouve toutes les correspondances dans la chaine 
# et retourne un objet itérable de correspondances
finditer = re.finditer('e', phrase)
print("\nFonction finditer :")
for match in finditer:
    print(f"Correspondance trouvée : {match.group()} at {match.start()}")


Fonction finditer :
Correspondance trouvée : e at 1
Correspondance trouvée : e at 8
Correspondance trouvée : e at 13
Correspondance trouvée : e at 22


## La différence entre `match` et `search`

La fonction match essaie de trouver une correspondance dès le début de la chaîne. Si le motif ne correspond pas au début de la chaîne, match renvoie `None`.


In [24]:
texte = "Bonjour, comment ça va ?"
match = re.match("Bonjour", texte)
print(match) # <re.Match object; span=(0, 7), match='Bonjour'>

<re.Match object; span=(0, 7), match='Bonjour'>


In [27]:
match = re.match("comment", texte)
match

En revanche, la fonction `search` cherche la première correspondance dans toute la chaîne.

In [28]:
texte = "Bonjour, comment ça va ?"
search = re.search("comment", texte)
print(search) # <re.Match object; span=(9, 15), match='comment'>

<re.Match object; span=(9, 16), match='comment'>


In [30]:
# un exemple un peu plus compliqué
texte = "Il y a 12 chats dans la maison. 3 d'entre eux sont noirs et 9 sont blancs."
pattern = r'(\d+)\s(chats|chiens)\s(dans|sur)\s\w+'

correspondances = re.findall(pattern, texte)
print(correspondances)  # [('12', 'chats', 'dans')]

[('12', 'chats', 'dans')]


Dans cet exemple, le pattern recherché est `(\d+)\s(chats|chiens)\s(dans|sur)\s\w+`. 

Il contient :

* `(\d+)` : Un groupe de capture permettant de rechercher une série de un ou plusieurs chiffres.
* `\s`  : Un espace blanc.
(chats|chiens) : Un groupe d'alternatives permettant de rechercher soit "chats" soit "chiens".
* `\s` : Un autre espace blanc.
(dans|sur) : Un autre groupe d'alternatives permettant de rechercher soit "dans" soit "sur".
* `\s` : Un autre espace blanc.
* `\w+` : Un ou plusieurs caractères alphanumériques.
Ce pattern recherche donc une chaîne de