In [15]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Charger les données clients
data_file = '29.11.2024 BDD Client (1).xlsx'
client_data = pd.read_excel(data_file)

# Supprimer la première ligne (row) des données
client_data = client_data.iloc[1:].reset_index(drop=True)

# Aperçu des données
print("Aperçu des données :")
print(client_data.head())

# Prétraitement des données
# Sélectionner les colonnes utiles (ajustez les noms selon votre fichier)
features = client_data[["Voix (minutes)", "Data (MO)", "Youtube", "Navigation internet", "Gaming", "Musique", "Réseaux sociaux", "Films", "Sport"]]

# Convertir les colonnes Oui/Non en 0/1
features.replace({"OUI": 1, "NON": 0}, inplace=True)

# Normaliser les données pour K-Means
scaler = StandardScaler()
scaled_features = scaler.fit_transform(features)

# Appliquer le clustering K-Means
kmeans = KMeans(n_clusters=6, random_state=42)  # 6 segments pour inclure plus de forfaits
client_data['Segment'] = kmeans.fit_predict(scaled_features)

# Forfaits existants
forfaits = {
    0: "Forfait Yo 49 Dh - 1 Go / 5 heures",
    1: "Forfait Yo 99 Dh - 11 Go / 11 heures",
    2: "Forfait Yo 199 Dh - 40 Go / 5 heures",
    3: "Forfait Yoxo 99 Dh - 20 Go / 2 heures / SMS illimités",
    4: "Forfait Yo 149 Dh - 30 Go / 3 heures",
    5: "Forfait Yo Illimité 199 Dh - 25 Go / Appels illimités"
}

# Associer les recommandations aux segments
client_data['Forfait_Recommande'] = client_data['Segment'].map(forfaits)

# Afficher les recommandations
print("\nRecommandations de forfaits :")
print(client_data[["Numéro", "Segment", "Forfait_Recommande"]])

# Exporter les recommandations
client_data.to_excel("./recommandations_clients.xlsx", index=False)
print("\nRecommandations exportées dans 'recommandations_clients.xlsx'.")

# Ajouter une partie divertissement basée sur les préférences
def suggest_divertissement(row):
    divertissement = []
    if row["Youtube"] == "OUI": divertissement.append(("Youtube", "Playvod, Shahid"))
    if row["Navigation internet"] == "OUI": divertissement.append(("Navigation", "Spotify, Digster"))
    if row["Gaming"] == "OUI": divertissement.append(("Gaming", "Gameloft, Freefire"))
    if row["Musique"] == "OUI": divertissement.append(("Musique", "Spotify, Zikplay"))
    if row["Réseaux sociaux"] == "OUI": divertissement.append(("Réseaux sociaux", "Snapchat, Instagram"))
    if row["Films"] == "OUI": divertissement.append(("Films", "Shahid, Viu"))
    if row["Sport"] == "OUI": divertissement.append(("Sport", "LaLiga Xtra, ClicNscores"))
    
    # Trier les préférences et limiter à 2 divertissements
    divertissement = divertissement[:2]
    return ", ".join([item[1] for item in divertissement]) if divertissement else "Aucun divertissement suggéré"

# Appliquer la fonction
client_data['Divertissement_Suggere'] = client_data.apply(suggest_divertissement, axis=1)


client_data['Divertissement_Suggere'] = client_data.apply(suggest_divertissement, axis=1)

# Afficher les recommandations avec divertissement
print("\nRecommandations finales avec divertissement :")
print(client_data[["Numéro", "Forfait_Recommande", "Divertissement_Suggere"]])

# Exporter les recommandations finales
client_data.to_excel("./recommandations_finales.xlsx", index=False)
print("\nRecommandations finales exportées dans 'recommandations_finales.xlsx'.")


Aperçu des données :
      Numéro      Nom Type d'Offre  MMR  Voix (minutes)  Data (MO) Youtube  \
0  675000113      Ali     Prépayée   50              26        501     NON   
1  675000114     Omar     Prépayée   70              27        502     OUI   
2  675000115   Hassan     Prépayée   90              28        503     OUI   
3  675000116  Hussein     Prépayée   90              29        504     NON   
4  675000117    Karim     Prépayée   90              30        505     OUI   

  Navigation internet Gaming Musique Réseaux sociaux Films Sport  
0                 OUI    OUI     NON             OUI   OUI   NON  
1                 NON    NON     OUI             OUI   OUI   NON  
2                 OUI    NON     NON             OUI   OUI   NON  
3                 OUI    OUI     NON             OUI   OUI   NON  
4                 NON    NON     OUI             OUI   OUI   NON  

Recommandations de forfaits :
        Numéro  Segment                                 Forfait_Recommande
0 

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  features.replace({"OUI": 1, "NON": 0}, inplace=True)
  super()._check_params_vs_input(X, default_n_init=10)



Recommandations exportées dans 'recommandations_clients.xlsx'.

Recommandations finales avec divertissement :
        Numéro                                 Forfait_Recommande  \
0    675000113               Forfait Yo 149 Dh - 30 Go / 3 heures   
1    675000114  Forfait Yoxo 99 Dh - 20 Go / 2 heures / SMS il...   
2    675000115  Forfait Yo Illimité 199 Dh - 25 Go / Appels il...   
3    675000116               Forfait Yo 149 Dh - 30 Go / 3 heures   
4    675000117  Forfait Yoxo 99 Dh - 20 Go / 2 heures / SMS il...   
..         ...                                                ...   
994  675001107               Forfait Yo 99 Dh - 11 Go / 11 heures   
995  675001108                 Forfait Yo 49 Dh - 1 Go / 5 heures   
996  675001109               Forfait Yo 199 Dh - 40 Go / 5 heures   
997  675001110               Forfait Yo 99 Dh - 11 Go / 11 heures   
998  675001111               Forfait Yo 99 Dh - 11 Go / 11 heures   

                   Divertissement_Suggere  
0    Spotify, Di

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.metrics import accuracy_score, mean_absolute_error

# Load the dataset
file_path = './29.11.2024 BDD Client (1).xlsx'
data = pd.read_excel(file_path)

# Clean the dataset
# Rename columns properly
data.columns = ['Numero', 'Nom', 'Type_Offre', 'MMR', 'Voix_minutes', 'Data_MO', 
                'Youtube', 'Navigation', 'Gaming', 'Musique', 'Reseaux_sociaux', 'Films', 'Sport']

# Convert binary columns (OUI/NON) to 1/0
binary_columns = ['Youtube', 'Navigation', 'Gaming', 'Musique', 'Reseaux_sociaux', 'Films', 'Sport']
data[binary_columns] = data[binary_columns].replace({'OUI': 1, 'NON': 0})

# Map Type_Offre to numeric
data['Type_Offre'] = data['Type_Offre'].replace({'Prépayée': 0, 'Postpayée': 1})

# Convert MMR to numeric
data['MMR'] = pd.to_numeric(data['MMR'], errors='coerce')

# Define features (X) and targets (y)
X = data[['Voix_minutes', 'Data_MO', 'Youtube', 'Navigation', 'Gaming', 'Musique', 'Reseaux_sociaux']]
y_entertainment = data[['Sport', 'Films']]
y_offer = data['Type_Offre']
y_mmr = data['MMR']
y_preferences = data[['Youtube', 'Navigation', 'Gaming', 'Musique', 'Reseaux_sociaux', 'Films', 'Sport']]

# Train-Test Splits
X_train, X_test, y_ent_train, y_ent_test = train_test_split(X, y_entertainment, test_size=0.2, random_state=42)
X_train, X_test, y_offer_train, y_offer_test = train_test_split(X, y_offer, test_size=0.2, random_state=42)
X_train, X_test, y_mmr_train, y_mmr_test = train_test_split(X, y_mmr, test_size=0.2, random_state=42)
X_train, X_test, y_pref_train, y_pref_test = train_test_split(X, y_preferences, test_size=0.2, random_state=42)

# Train Models
# Model 1: Predict Entertainment Preference
ent_model = RandomForestClassifier()
ent_model.fit(X_train, y_ent_train)

# Model 2: Predict Offer Preference
offer_model = RandomForestClassifier()
offer_model.fit(X_train, y_offer_train)

# Model 3: Predict MMR
mmr_model = RandomForestRegressor()
mmr_model.fit(X_train, y_mmr_train)

# Model 4: Predict Service Preferences
pref_model = RandomForestClassifier()
pref_model.fit(X_train, y_pref_train)

# Make Predictions
y_mmr_pred = mmr_model.predict(X_test)
y_pref_pred = pref_model.predict(X_test)

# Map MMR predictions to offers and services
def map_to_offer(mmr_value):
    if mmr_value <= 49:
        return "Forfait Yo 49 Dh - 1 Go / 5 heures"
    elif mmr_value <= 99:
        return "Forfait Yo 99 Dh - 11 Go / 11 heures"
    elif mmr_value <= 199:
        return "Forfait Yo 199 Dh - 40 Go / 5 heures"
    elif mmr_value <= 299:
        return "Forfait Yoxo 99 Dh - 20 Go / 2 heures / SMS illimités"
    else:
        return "Custom High-Tier Plan"

def map_to_service(predicted):
    service_mapping = {
        0: "Spotify, Playvod",
        1: "Gameloft, Freefire",
        2: "Shahid, LaLiga Xtra",
        3: "Fitness24, Manhaj"
    }
    services = []
    for idx, val in enumerate(predicted):
        if val == 1 and idx in service_mapping:
            services.append(service_mapping[idx])
    return ", ".join(services) if services else "No Preferences"

mapped_offers = [map_to_offer(mmr) for mmr in y_mmr_pred]
mapped_services = [map_to_service(row) for row in y_pref_pred]

# Create output DataFrame
output_data = pd.DataFrame({
    'Numero': data['Numero'].iloc[X_test.index],  # Include phone numbers
    'MMR_Predicted': y_mmr_pred,                 # Predicted MMR values
    'Best_Offer': mapped_offers,                 # Mapped offers
    'Desired_Services': mapped_services          # Mapped services
})

# Save the output to an Excel file
output_file_path = './predicted_output.xlsx'
output_data.to_excel(output_file_path, index=False)

print(f"Output file saved to: {output_file_path}")


Output file saved to: ./predicted_output.xlsx


In [4]:
print(client_data.columns)


Index(['Unnamed: 0', 'Unnamed: 1', 'Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4',
       'Unnamed: 5', 'Type Data', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9',
       'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12'],
      dtype='object')
