In [25]:
import nltk
from nltk.corpus import stopwords
from collections import Counter
from nltk.tokenize import word_tokenize
import pandas as pd

In [26]:
path = "/voiture_dataset.txt"

In [28]:
Corpus = []
with open(path, 'r') as file:
    for line in file:
        Corpus.append(line)

In [29]:
# Importer les stopwords de la langue anglaise
nltk.download('stopwords')
stop_words = set(stopwords.words('french'))

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [30]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [31]:
# Tokenisation et prétraitement des données
vocabulaire = set()
documents = []
for document in Corpus:
    # Transformer le document en minuscule et le tokenizer en mots
    tokens = nltk.word_tokenize(document.lower())
    
    # Enlever les stopwords et les ponctuations
    tokens = [token for token in tokens if token not in stop_words and token.isalpha()]
    
    # Ajouter les mots au vocabulaire
    vocabulaire.update(tokens)
    
    # Ajouter les tokens pré-traités au document
    documents.append(tokens)

In [32]:
documents

[['honda',
  'civic',
  'lx',
  'seulement',
  'miles',
  'compteur',
  'cette',
  'voiture',
  'excellent',
  'état',
  'a',
  'régulièrement',
  'entretenue',
  'équipée',
  'moteur',
  'transmission',
  'variation',
  'continue',
  'cvt'],
 ['ford',
  'escape',
  'seulement',
  'miles',
  'compteur',
  'suv',
  'très',
  'bon',
  'état',
  'a',
  'soigneusement',
  'entretenu',
  'dispose',
  'moteur',
  'ecoboost',
  'transmission',
  'automatique',
  'vitesses'],
 ['chevrolet',
  'malibu',
  'lt',
  'miles',
  'cette',
  'voiture',
  'excellent',
  'état',
  'a',
  'bien',
  'entretenue',
  'équipée',
  'moteur',
  'turbocompressé',
  'transmission',
  'automatique',
  'vitesses'],
 ['nissan',
  'altima',
  'seulement',
  'miles',
  'compteur',
  'cette',
  'voiture',
  'excellent',
  'état',
  'a',
  'régulièrement',
  'entretenue',
  'équipée',
  'moteur',
  'transmission',
  'variation',
  'continue',
  'cvt'],
 ['toyota',
  'xle',
  'seulement',
  'miles',
  'compteur',
  'suv

In [33]:
# Indexation des documents
BOW = []
for document in documents:
    # Compter le nombre d'occurrences de chaque mot dans le document
    counts = Counter(document)
    
    # Créer un dictionnaire avec le mot et son nombre d'occurrences
    document_index = {mot: counts[mot] for mot in vocabulaire}
    
    # Ajouter l'index du document à la liste des index
    BOW.append(document_index)

In [34]:
BOW

[{'moteur': 1,
  'ford': 0,
  'soigneusement': 0,
  'très': 0,
  'vitesses': 0,
  'chevrolet': 0,
  'lx': 1,
  'régulièrement': 1,
  'escape': 0,
  'bien': 0,
  'accord': 0,
  'ecoboost': 0,
  'optima': 0,
  'touring': 0,
  'malibu': 0,
  'seulement': 1,
  'méticuleusement': 0,
  'impreza': 0,
  'cette': 1,
  'entretenue': 1,
  'excellent': 1,
  'cvt': 1,
  'hyundai': 0,
  'équipée': 1,
  'xle': 0,
  'civic': 1,
  'gls': 0,
  'sonata': 0,
  'toyota': 0,
  'altima': 0,
  'miles': 1,
  'bon': 0,
  'voiture': 1,
  'automatique': 0,
  'kia': 0,
  'sport': 0,
  'lt': 0,
  'honda': 1,
  'a': 1,
  'subaru': 0,
  'nissan': 0,
  'entretenu': 0,
  'turbocompressé': 0,
  'continue': 1,
  'dispose': 0,
  'variation': 1,
  'suv': 0,
  'état': 1,
  'compteur': 1,
  'mazda': 0,
  'transmission': 1,
  'manuelle': 0},
 {'moteur': 1,
  'ford': 1,
  'soigneusement': 1,
  'très': 1,
  'vitesses': 1,
  'chevrolet': 0,
  'lx': 0,
  'régulièrement': 0,
  'escape': 1,
  'bien': 0,
  'accord': 0,
  'ecoboost':

In [35]:
df = pd.DataFrame(BOW)
df

Unnamed: 0,moteur,ford,soigneusement,très,vitesses,chevrolet,lx,régulièrement,escape,bien,...,turbocompressé,continue,dispose,variation,suv,état,compteur,mazda,transmission,manuelle
0,1,0,0,0,0,0,1,1,0,0,...,0,1,0,1,0,1,1,0,1,0
1,1,1,1,1,1,0,0,0,1,0,...,0,0,1,0,1,1,1,0,1,0
2,1,0,0,0,1,1,0,0,0,1,...,1,0,0,0,0,1,0,0,1,0
3,1,0,0,0,0,0,0,1,0,0,...,0,1,0,1,0,1,1,0,1,0
4,1,0,0,0,1,0,0,0,0,0,...,0,0,1,0,1,1,1,0,1,0
5,1,0,0,1,0,0,0,1,0,0,...,0,1,0,1,0,1,0,0,1,0
6,1,0,0,0,1,0,0,0,0,1,...,0,0,1,0,0,1,1,0,1,1
7,1,0,0,0,1,0,1,1,0,0,...,0,0,0,0,0,1,0,0,1,0
8,1,0,1,0,1,0,0,0,0,0,...,0,0,1,0,1,1,1,1,1,0
9,1,0,0,1,1,0,0,0,0,1,...,0,0,0,0,0,1,1,0,1,0
