<a href="https://colab.research.google.com/github/aymanezzouhairi/datamining/blob/main/Projetdatamining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [6]:
# Importation des bibliothèques nécessaires
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB, ComplementNB
from sklearn.metrics import classification_report, accuracy_score

# Charger les données
data = pd.read_csv('Test.csv')  # Remplacez par votre chemin
print("Aperçu des données :\n", data.head())

# Identifier les colonnes numériques et catégoriques
numeric_columns = data.select_dtypes(include=['int64', 'float64']).columns
categorical_columns = data.select_dtypes(include=['object']).columns

# 1. Gestion des valeurs manquantes
# Remplacer les valeurs manquantes dans les colonnes numériques par la moyenne
data[numeric_columns] = data[numeric_columns].fillna(data[numeric_columns].mean())

# Remplacer les valeurs manquantes dans les colonnes catégoriques par le mode
for col in categorical_columns:
    data[col] = data[col].fillna(data[col].mode()[0])

# 2. Encodage des variables catégoriques
label_encoders = {}
for col in categorical_columns:
    label_encoders[col] = LabelEncoder()
    data[col] = label_encoders[col].fit_transform(data[col].astype(str))

# Séparation des caractéristiques et de la cible
X = data.drop(columns=['ID', 'Segmentation'])
y = LabelEncoder().fit_transform(data['Segmentation'])

# 3. Normalisation des données avec Min-Max Scaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# 4. Sélection des caractéristiques avec Chi-square test
chi2_selector = SelectKBest(chi2, k=8)  # Sélectionne les 8 meilleures caractéristiques
X_selected = chi2_selector.fit_transform(X_scaled, y)

# 5. Division des données pour la classification
X_train, X_test, y_train, y_test = train_test_split(X_selected, y, test_size=0.2, random_state=42)

# Modèle SVM
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)
y_pred_svm = svm_model.predict(X_test)

# Modèle Naive Bayes
nb_model = MultinomialNB()
nb_model.fit(X_train, y_train)
y_pred_nb = nb_model.predict(X_test)

# Modèle Complement Naive Bayes
cnb_model = ComplementNB()
cnb_model.fit(X_train, y_train)
y_pred_cnb = cnb_model.predict(X_test)

# Évaluation des modèles
print("SVM Classification Report:\n", classification_report(y_test, y_pred_svm))
print("Naive Bayes Accuracy:", accuracy_score(y_test, y_pred_nb))
print("Complement Naive Bayes Accuracy:", accuracy_score(y_test, y_pred_cnb))


Aperçu des données :
        ID  Gender Ever_Married  Age Graduated  Profession  Work_Experience  \
0  458989  Female          Yes   36       Yes    Engineer              0.0   
1  458994    Male          Yes   37       Yes  Healthcare              8.0   
2  458996  Female          Yes   69        No         NaN              0.0   
3  459000    Male          Yes   59        No   Executive             11.0   
4  459001  Female           No   19        No   Marketing              NaN   

  Spending_Score  Family_Size  Var_1 Segmentation  
0            Low          1.0  Cat_6            B  
1        Average          4.0  Cat_6            A  
2            Low          1.0  Cat_6            A  
3           High          2.0  Cat_6            B  
4            Low          4.0  Cat_6            A  
SVM Classification Report:
               precision    recall  f1-score   support

           0       0.32      0.61      0.42       177
           1       0.00      0.00      0.00        97
      

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
