In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import StandardScaler
import nltk
from nltk.corpus import stopwords
import spacy

# Télécharger les stopwords de NLTK
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

# Télécharger le modèle de lemmatisation de Spacy
nlp = spacy.load('en_core_web_sm')

# Lire les données du fichier CSV
data = pd.read_csv("C:/Users/mob8/Desktop/Cours IA/test_pandas3.csv", encoding='latin-1')

# Supprimer les lignes avec des valeurs manquantes
data.dropna(inplace=True)

# Supposons que votre fichier CSV a des colonnes 'description' pour les libellés et 'compte_comptable' pour les numéros de comptes
texts = data['description']
labels = data['compte_comptable']

# Fonction de prétraitement du texte
def preprocess_text(text):
    doc = nlp(text)
    tokens = [token.lemma_ for token in doc if token.is_alpha and token.lemma_ not in stop_words]
    return ' '.join(tokens)

# Appliquer la fonction de prétraitement à tous les textes
texts = texts.apply(preprocess_text)

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.3, random_state=101)

# Convertir le texte en caractéristiques numériques avec TF-IDF
vectorizer = TfidfVectorizer()
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# Normaliser les données TF-IDF
scaler = StandardScaler(with_mean=False)
X_train_tfidf = scaler.fit_transform(X_train_tfidf)
X_test_tfidf = scaler.transform(X_test_tfidf)

# Entraîner le modèle Random Forest
model = RandomForestClassifier()
model.fit(X_train_tfidf, y_train)

# Prédire sur l'ensemble de test
y_pred = model.predict(X_test_tfidf)

# Évaluer le modèle
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:")
print(classification_report(y_test, y_pred))

[nltk_data] Error loading stopwords: <urlopen error [Errno 11001]
[nltk_data]     getaddrinfo failed>


Accuracy: 0.9853503184713376
Classification Report:
              precision    recall  f1-score   support

         202       1.00      1.00      1.00       707
         606       0.97      0.96      0.97       353
         625       0.97      0.98      0.98       510

    accuracy                           0.99      1570
   macro avg       0.98      0.98      0.98      1570
weighted avg       0.99      0.99      0.99      1570



In [7]:
# Tester un nouveau libellé
new_description = input("entrez : ")

# Prétraiter le nouveau libellé
new_description_preprocessed = preprocess_text(new_description)

# Transformer le nouveau libellé en caractéristiques TF-IDF
new_description_tfidf = vectorizer.transform([new_description_preprocessed])

# Normaliser les caractéristiques TF-IDF du nouveau libellé
new_description_tfidf = scaler.transform(new_description_tfidf)

# Prédire le compte comptable pour le nouveau libellé
new_prediction = model.predict(new_description_tfidf)

print("La prédiction pour le nouveau libellé est:", new_prediction[0])

entrez : achat 158 stylos pour félicien
La prédiction pour le nouveau libellé est: 606
