In [None]:
#1.Importation des bibliothèques nécessaires
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.feature_extraction.text import TfidfVectorizer
import pickle
import re

# 2. Chargement et exploration des données
data = pd.read_csv('/content/3.csv')
# Affichage des premières lignes des données
print(data.head())
# Vérification des colonnes et des types de données
print(data.info())
data['CB_Label'].value_counts()

# 3. Prétraitement des données
# Nettoyage des messages textuels
def clean_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)  # Supprimer la ponctuation
    text = re.sub(r'\d+', '', text)  # Supprimer les chiffres
    return text.strip()
data['cleaned_text'] = data['Text'].apply(clean_text)
# Affichage des premières lignes après nettoyage
print(data[['Text', 'cleaned_text']].head())

# 4. Représentation des messages sous forme numérique avec TF-IDF
tfidf_vectorizer = TfidfVectorizer()
X = tfidf_vectorizer.fit_transform(data['cleaned_text'])
# Étiquettes (0 pour non-cyberharcèlement, 1 pour cyberharcèlement)
y = data['CB_Label']
# Affichage de la forme de la matrice TF-IDF
print("Forme de la matrice TF-IDF (lignes x colonnes) :", X.shape)
# Conversion de la matrice sparse en dense pour pouvoir l'afficher
X_dense = X.toarray()

# Affichage des 5 premières lignes de la matrice TF-IDF
print("\nPremières lignes de la matrice TF-IDF :")
print(X_dense[:5])

# Affichage des mots associés aux colonnes de la matrice TF-IDF
print("\nLes mots associés aux colonnes de la matrice TF-IDF :")
print(tfidf_vectorizer.get_feature_names_out()[:10])  # Affiche les 10 premiers mots

# 5. Division des données
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Affichage des tailles des ensembles d'entraînement et de test
print("Taille de l'ensemble d'entraînement (X_train) :", X_train.shape)
print("Taille de l'ensemble de test (X_test) :", X_test.shape)
print("Taille des étiquettes d'entraînement (y_train) :", y_train.shape)
print("Taille des étiquettes de test (y_test) :", y_test.shape)
# Affichage de quelques exemples des ensembles
print("\nExemples de l'ensemble d'entraînement (X_train) :")
print(X_train[:5].toarray())  # Affiche les 5 premiers exemples (sous forme dense)
print("\nExemples des étiquettes d'entraînement (y_train) :")
print(y_train[:5].tolist())  # Affiche les 5 premières étiquettes

# 6. Entraînement du modèle
model = LogisticRegression()
model.fit(X_train, y_train)
# Confirmation que l'entraînement est terminé
print("Le modèle LogisticRegression a été entraîné avec succès.")
# Affichage des coefficients appris (importance des termes)
print("\nCoefficients du modèle (importance des termes) :")
print(model.coef_)
# Affichage de l'interception (biais) du modèle
print("\nIntercept (biais) du modèle :")
print(model.intercept_)
# Optionnel : performance sur l'ensemble d'entraînement
train_accuracy = model.score(X_train, y_train)
print(f"\nExactitude du modèle sur l'ensemble d'entraînement : {train_accuracy:.2f}")

# 7. Évaluation du modèle
y_pred = model.predict(X_test)
# Affichage des premières prédictions
print("Premières prédictions du modèle :")
print(y_pred[:10])
# Affichage des vraies étiquettes correspondantes
print("\nValeurs réelles correspondantes :")
print(y_test[:10].tolist())
# Évaluation de l'exactitude du modèle
test_accuracy = model.score(X_test, y_test)
print(f"\nExactitude du modèle sur l'ensemble de test : {test_accuracy:.2f}")
# Affichage du rapport de classification
print("\nRapport de classification :")
print(classification_report(y_test, y_pred))

#8. Visualisation de la matrice de confusion
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatrice de confusion :\n", conf_matrix)
# Tracé de la matrice de confusion
plt.figure(figsize=(5, 4))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues',
            xticklabels=['Non-Cyberharcèlement', 'Cyberharcèlement'],
            yticklabels=['Non-Cyberharcèlement', 'Cyberharcèlement'])
plt.ylabel('Vérité')
plt.xlabel('Prédiction')
plt.title('Matrice de Confusion')
plt.show()


# Sauvegarder le modèle
with open('logistic_model.pkl', 'wb') as file:
    pickle.dump(model, file)

# Sauvegarder le TfidfVectorizer
with open('tfidf_vectorizer.pkl', 'wb') as file:
    pickle.dump(tfidf_vectorizer, file)



FileNotFoundError: [Errno 2] No such file or directory: '/content/3.csv'

In [None]:
# Charger le modèle et le TF-IDF
with open('logistic_model.pkl', 'rb') as file:
    model = pickle.load(file)

with open('tfidf_vectorizer.pkl', 'rb') as file:
    tfidf_vectorizer = pickle.load(file)


In [None]:
from google.colab import files
# Télécharger les fichiers sur votre machine locale
files.download('logistic_model.pkl')
files.download('tfidf_vectorizer.pkl')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>