# Création d'un vocabulaire de mot unique:

1. **Prendre un texte** : Commencez par choisir le texte que vous souhaitez traiter.

2. **Tokenisation** : La tokenisation consiste à diviser le texte en mots ou en tokens. Vous pouvez utiliser des espaces pour cela.

   ```python
   texte = "Votre texte ici."
   tokens = texte.split()
   ```

3. **Mise en minuscules** : Convertissez tous les tokens en minuscules pour éviter les problèmes de casse.

   ```python
   tokens = [mot.lower() for mot in tokens]
   ```

4. **Suppression de la ponctuation** : Éliminez la ponctuation du texte. Vous pouvez utiliser la bibliothèque `string` pour cela.

   ```python
   # Compiler l'expression régulière pour la ponctuation
    regex = re.compile(f"[{re.escape(string.punctuation)}]")

    # Suppression de la ponctuation
    tokens = [regex.sub('', mot) for mot in tokens]
   ```
5. **Suppression des Stop words** : Les mots vides sont des mots courants qui ne portent pas beaucoup d'information.
```python
   stop_words = set(stopwords.words('french'))  # Obtenir la liste des mots vides en français

  filtered_tokens = [word for word in tokens if word not in stop_words]  # Supprimer les mots vides
   ```

6. **Stemming** : Le stemming consiste à réduire les mots à leur forme de base (le radical). Vous pouvez utiliser une bibliothèque comme NLTK pour cela.

   ```python
   from nltk.stem import SnowballStemmer

   stemmer = SnowballStemmer('french')
   stemmed_tokens = [stemmer.stem(mot) for mot in tokens]
   ```

6. **Création du vocabulaire** : Créez un vocabulaire à partir des tokens uniques.

   ```python
   vocabulaire = set(stemmed_tokens)
   ```



In [11]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
import string

nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [17]:


# Étape 1: Prétraitement du texte
texte = """I have three visions for India. In 3000 years of our history, people from all over
               the world have come and invaded us, captured our lands, conquered our minds.
               strong not only as a military power but also as an economic power. Both must go hand-in-hand.
               My good fortune was to have worked with three great minds. Dr. Vikram Sarabhai of the Dept. of
               space, Professor Satish Dhawan, who succeeded him and Dr. Brahm Prakash, father of nuclear material.
               I was lucky to have worked with all three of them closely and consider this the great opportunity of my life.
               I see four milestones in my career"""
texte = texte.lower()  # Convertir en minuscules
# Compiler l'expression régulière pour la ponctuation
regex = re.compile(f"[{re.escape(string.punctuation)}]")

# Suppression de la ponctuation
texte = regex.sub('', texte)

# Étape 2: Tokenisation
tokens = word_tokenize(texte, language='english')  # Tokenisation du texte

# Étape 3: Suppression des mots vides
stop_words = set(stopwords.words('english'))  # Obtenir la liste des mots vides en français
tokens_sans_mots_vides = [word for word in tokens if word not in stop_words]  # Supprimer les mots vides

# Étape 4: Stemming
stemmer = SnowballStemmer('english')  # Utilisation d'un stemmer pour le français
tokens_stemmed = [stemmer.stem(word) for word in tokens_sans_mots_vides]  # Appliquer le stemming

# Afficher les résultats
print("Texte prétraité :", texte)
print("Tokens :", tokens)
print("Tokens sans mots vides :", tokens_sans_mots_vides)
print("Tokens après stemming :", tokens_stemmed)


Texte prétraité : i have three visions for india in 3000 years of our history people from all over 
               the world have come and invaded us captured our lands conquered our minds 
               strong not only as a military power but also as an economic power both must go handinhand 
               my good fortune was to have worked with three great minds dr vikram sarabhai of the dept of 
               space professor satish dhawan who succeeded him and dr brahm prakash father of nuclear material
               i was lucky to have worked with all three of them closely and consider this the great opportunity of my life 
               i see four milestones in my career
Tokens : ['i', 'have', 'three', 'visions', 'for', 'india', 'in', '3000', 'years', 'of', 'our', 'history', 'people', 'from', 'all', 'over', 'the', 'world', 'have', 'come', 'and', 'invaded', 'us', 'captured', 'our', 'lands', 'conquered', 'our', 'minds', 'strong', 'not', 'only', 'as', 'a', 'military', 'power', '

In [18]:
from collections import Counter

# Étape 5: Création du vocabulaire et comptage des fréquences
vocabulaire = Counter(tokens_stemmed)  # Créer un vocabulaire avec les tokens stemmés et leurs fréquences

In [19]:
# Trouver le token avec la fréquence la plus élevée
mot_plus_frequent, frequence = vocabulaire.most_common(1)[0]

# Afficher le vocabulaire et le token le plus fréquent
print("Vocabulaire :", vocabulaire)
print("Longeur du vocabulaire :", len(vocabulaire))
print(f"Le token le plus fréquent est '{mot_plus_frequent}' avec une fréquence de {frequence} fois.")


Vocabulaire : Counter({'three': 3, 'mind': 2, 'power': 2, 'work': 2, 'great': 2, 'dr': 2, 'vision': 1, 'india': 1, '3000': 1, 'year': 1, 'histori': 1, 'peopl': 1, 'world': 1, 'come': 1, 'invad': 1, 'us': 1, 'captur': 1, 'land': 1, 'conquer': 1, 'strong': 1, 'militari': 1, 'also': 1, 'econom': 1, 'must': 1, 'go': 1, 'handinhand': 1, 'good': 1, 'fortun': 1, 'vikram': 1, 'sarabhai': 1, 'dept': 1, 'space': 1, 'professor': 1, 'satish': 1, 'dhawan': 1, 'succeed': 1, 'brahm': 1, 'prakash': 1, 'father': 1, 'nuclear': 1, 'materi': 1, 'lucki': 1, 'close': 1, 'consid': 1, 'opportun': 1, 'life': 1, 'see': 1, 'four': 1, 'mileston': 1, 'career': 1})
Longeur du vocabulaire : 50
Le token le plus fréquent est 'three' avec une fréquence de 3 fois.
