# Introduction du Dataset Ooredoo
---------------------

Ce jeu de donn√©es regroupe des informations relatives aux retours clients collect√©s par l‚Äôop√©rateur Ooredoo. 
Chaque ligne repr√©sente un retour individuel incluant des donn√©es sociod√©mographiques du client, ses interactions avec le service, ainsi que des √©l√©ments d‚Äôanalyse textuelle et comportementale. 
L‚Äôobjectif principal de ce dataset est d‚Äôidentifier les sentiments des clients, √©valuer leur satisfaction et anticiper les risques de churn (d√©sabonnement), dans le but d‚Äôoptimiser la fid√©lisation et l‚Äôexp√©rience utilisateur.

* Num√©ro Client : Identifiant unique du client

* √Çge, Genre, Langue : Informations d√©mographiques

* Date de retour : Date du feedback client

* Avis Client, Note : Texte libre + score de satisfaction

* Type de probl√®me : Cat√©gorie du probl√®me √©voqu√©

* Localisation : Ville du client

* Score de sentiment, √âmotion d√©tect√©e : Analyse NLP de l‚Äôavis

* Probabilit√© de churn : Score pr√©dictif de d√©sabonnement

* R√©sum√© de l‚Äôavis : Synth√®se automatis√©e de l‚Äôavis

* Connection Type, Customer Type, Customer Tenure, Tarif, Segment Client : Donn√©es contractuelles

In [3]:
#  1. Importer les biblioth√®ques n√©cessaires
import pandas as pd
import numpy as np

In [4]:
# 2. Charger les donn√©es
df = pd.read_excel('Base_Finale_1000_Avis.xlsx')

In [5]:
df.head()

Unnamed: 0,Num√©ro Client,Age,Genre,Date de retour,Langue,Avis Client,Note,Type de probl√®me,Localisation,Score de sentiment,√âmotion d√©tect√©e,Probabilit√© de churn,R√©sum√© de l‚Äôavis,Connection Type,Customer Type,Customer Tenure,Tarif nom (Forfait),Segment Client,Unnamed: 18,Unnamed: 19
0,24737244.0,18-25,Homme,2025-01-10,Anglais,"Excellent 5G coverage, very satisfied!",5,Stabilit√©,Sousse,Positif,Joie,0.5,Excellent 5G coverage‚Ä¶,Prepaid,B2B,more than 15 year,Offre 1000,Entreprise,,
1,25876567.0,20-35,Femme,2025-03-07,Anglais,La couverture est excellente dans ma r√©gion.,5,Service client,Tunis,Neutre,Joie,0.2,5G works well but...,Paid,B2C,less than 10 year,Offre 1000,High value,,
2,22656507.0,50+,Homme,2025-02-05,Arabe,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß ÿ±ÿßÿ∂Ÿç ÿ¨ÿØŸãÿß!,5,Couverture,Tunis,Positif,Joie,0.2,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß‚Ä¶,Paid,B2B,0 to 3 months,Offre 1000,High value,,
3,25987154.0,36-50,Femme,2025-03-18,Anglais,ŸÉŸÜŸÉÿ≥ŸäŸàŸÜ ÿÆÿßŸäÿ®ÿ©,1,Stabilit√©,Sousse,Neutre,Col√®re,0.9,5G works well but...,Prepaid,B2B,more than 2 years,Offre 1000,High value,,
4,20546148.0,16-20,Homme,2025-04-09,Fran√ßais,La 5G fonctionne bien mais parfois instable.,4,Service client,Nabeul,Neutre,L√©g√®re inqui√©tude,0.1,La 5G fonctionne bien mais‚Ä¶,Paid,B2B,0 to 6 months,Offre 1000,High value,,


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 20 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Num√©ro Client         200 non-null    float64       
 1   Age                   200 non-null    object        
 2   Genre                 900 non-null    object        
 3   Date de retour        749 non-null    datetime64[ns]
 4   Langue                797 non-null    object        
 5   Avis Client           1486 non-null   object        
 6   Note                  800 non-null    object        
 7   Type de probl√®me      251 non-null    object        
 8   Localisation          201 non-null    object        
 9   Score de sentiment    200 non-null    object        
 10  √âmotion d√©tect√©e      200 non-null    object        
 11  Probabilit√© de churn  200 non-null    float64       
 12  R√©sum√© de l‚Äôavis      198 non-null    object        
 13  Connecti

In [7]:
df.shape

(1488, 20)

In [8]:
print(df.isnull().sum())  # Voir les valeurs manquantes

Num√©ro Client           1288
Age                     1288
Genre                    588
Date de retour           739
Langue                   691
Avis Client                2
Note                     688
Type de probl√®me        1237
Localisation            1287
Score de sentiment      1288
√âmotion d√©tect√©e        1288
Probabilit√© de churn    1288
R√©sum√© de l‚Äôavis        1290
Connection Type         1288
Customer Type           1288
Customer Tenure         1288
Tarif nom (Forfait)     1288
Segment Client          1288
Unnamed: 18             1488
Unnamed: 19             1488
dtype: int64


In [9]:
# supprime les colonnes 18 et 19
df = df.drop(columns=['Unnamed: 18', 'Unnamed: 19'], errors='ignore')

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Num√©ro Client         200 non-null    float64       
 1   Age                   200 non-null    object        
 2   Genre                 900 non-null    object        
 3   Date de retour        749 non-null    datetime64[ns]
 4   Langue                797 non-null    object        
 5   Avis Client           1486 non-null   object        
 6   Note                  800 non-null    object        
 7   Type de probl√®me      251 non-null    object        
 8   Localisation          201 non-null    object        
 9   Score de sentiment    200 non-null    object        
 10  √âmotion d√©tect√©e      200 non-null    object        
 11  Probabilit√© de churn  200 non-null    float64       
 12  R√©sum√© de l‚Äôavis      198 non-null    object        
 13  Connecti

In [11]:
# ajouter une colonne id_client auto incr√©mant a la place de num√©ro client 

# 1. R√©initialiser l'index (important si tu as supprim√© des lignes)
df.reset_index(drop=True, inplace=True)

# 2. Cr√©er une nouvelle colonne auto-incr√©ment√©e
df['id_client'] = df.index + 1  # Commence √† 1

# 3. Supprimer la colonne "Num√©ro Client"
df.drop(columns=['Num√©ro Client'], inplace=False)

# 4. R√©organiser les colonnes : mettre id_client en premier
cols = ['id_client'] + [col for col in df.columns if col != 'id_client']
df = df[cols]



In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   200 non-null    object        
 3   Genre                 900 non-null    object        
 4   Date de retour        749 non-null    datetime64[ns]
 5   Langue                797 non-null    object        
 6   Avis Client           1486 non-null   object        
 7   Note                  800 non-null    object        
 8   Type de probl√®me      251 non-null    object        
 9   Localisation          201 non-null    object        
 10  Score de sentiment    200 non-null    object        
 11  √âmotion d√©tect√©e      200 non-null    object        
 12  Probabilit√© de churn  200 non-null    float64       
 13  R√©sum√© de 

In [13]:
df.head()

Unnamed: 0,id_client,Num√©ro Client,Age,Genre,Date de retour,Langue,Avis Client,Note,Type de probl√®me,Localisation,Score de sentiment,√âmotion d√©tect√©e,Probabilit√© de churn,R√©sum√© de l‚Äôavis,Connection Type,Customer Type,Customer Tenure,Tarif nom (Forfait),Segment Client
0,1,24737244.0,18-25,Homme,2025-01-10,Anglais,"Excellent 5G coverage, very satisfied!",5,Stabilit√©,Sousse,Positif,Joie,0.5,Excellent 5G coverage‚Ä¶,Prepaid,B2B,more than 15 year,Offre 1000,Entreprise
1,2,25876567.0,20-35,Femme,2025-03-07,Anglais,La couverture est excellente dans ma r√©gion.,5,Service client,Tunis,Neutre,Joie,0.2,5G works well but...,Paid,B2C,less than 10 year,Offre 1000,High value
2,3,22656507.0,50+,Homme,2025-02-05,Arabe,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß ÿ±ÿßÿ∂Ÿç ÿ¨ÿØŸãÿß!,5,Couverture,Tunis,Positif,Joie,0.2,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß‚Ä¶,Paid,B2B,0 to 3 months,Offre 1000,High value
3,4,25987154.0,36-50,Femme,2025-03-18,Anglais,ŸÉŸÜŸÉÿ≥ŸäŸàŸÜ ÿÆÿßŸäÿ®ÿ©,1,Stabilit√©,Sousse,Neutre,Col√®re,0.9,5G works well but...,Prepaid,B2B,more than 2 years,Offre 1000,High value
4,5,20546148.0,16-20,Homme,2025-04-09,Fran√ßais,La 5G fonctionne bien mais parfois instable.,4,Service client,Nabeul,Neutre,L√©g√®re inqui√©tude,0.1,La 5G fonctionne bien mais‚Ä¶,Paid,B2B,0 to 6 months,Offre 1000,High value


In [14]:
# remplir la colonne date 
import datetime
df['Date de retour'] = df['Date de retour'].fillna(pd.Timestamp(datetime.date.today()))

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   200 non-null    object        
 3   Genre                 900 non-null    object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                797 non-null    object        
 6   Avis Client           1486 non-null   object        
 7   Note                  800 non-null    object        
 8   Type de probl√®me      251 non-null    object        
 9   Localisation          201 non-null    object        
 10  Score de sentiment    200 non-null    object        
 11  √âmotion d√©tect√©e      200 non-null    object        
 12  Probabilit√© de churn  200 non-null    float64       
 13  R√©sum√© de 

In [16]:
colonnes_a_analyser = [
    'Type de probl√®me',
    'Score de sentiment',
    '√âmotion d√©tect√©e',
    'Connection Type',
    'Customer Type'
]

for col in colonnes_a_analyser:
    print(f"\nüìä Valeurs les plus fr√©quentes dans la colonne : {col}")
    print(df[col].value_counts(dropna=False))  # dropna=False inclut les NaN



üìä Valeurs les plus fr√©quentes dans la colonne : Type de probl√®me
Type de probl√®me
NaN                                   1237
Stabilit√©                               52
Service client                          44
Couverture                              38
D√©bit                                   36
Autre                                   30
1                                       20
5                                       19
3                                        6
4                                        2
c jolie                                  1
Je suis avec Ooredoo depuis 20 ans       1
ÿ¥ŸÉÿ±ÿßŸã ÿßŸàÿ±ŸäÿØŸà                             1
2                                        1
Name: count, dtype: int64

üìä Valeurs les plus fr√©quentes dans la colonne : Score de sentiment
Score de sentiment
NaN        1288
N√©gatif     130
Neutre       42
Positif      28
Name: count, dtype: int64

üìä Valeurs les plus fr√©quentes dans la colonne : √âmotion d√©tect√©e
√âmotion d√©tec

In [17]:
# 1. Nettoyer les avis clients "isol√©s" ‚Üí remplacer par "pas de probl√®me"
avis_a_remplacer = [
    "c jolie",
    "Je suis avec Ooredoo depuis 20 ans",
    "ÿ¥ŸÉÿ±ÿßŸã ÿßŸàÿ±ŸäÿØŸà",
    "2"
]
df['Type de probl√®me'] = df['Type de probl√®me'].replace(avis_a_remplacer, "Pas de probl√®me")

In [18]:
print(df.columns)

Index(['id_client', 'Num√©ro Client', 'Age', 'Genre', 'Date de retour',
       'Langue', 'Avis Client', 'Note', 'Type de probl√®me', 'Localisation',
       'Score de sentiment', '√âmotion d√©tect√©e', 'Probabilit√© de churn',
       'R√©sum√© de l‚Äôavis', 'Connection Type', 'Customer Type',
       'Customer Tenure', 'Tarif nom (Forfait)', 'Segment Client'],
      dtype='object')


In [19]:
# Remplacer les valeurs 1, 2, 4, 5 par "Service client"
df['Type de probl√®me'] = df['Type de probl√®me'].replace([1,2,  4, 5], " Service client  ")
# Remplacer les valeurs 3 par "Probl√®me Application"
df['Type de probl√®me'] = df['Type de probl√®me'].replace([3], "Probl√®me Application")
# Enlever les espaces avant/apr√®s dans toute la colonne
df['Type de probl√®me'] = df['Type de probl√®me'].astype(str).str.strip()

In [20]:
def update_type_probleme(row):
    val = row['Type de probl√®me']
    # Teste si val est NaN ou vide apr√®s suppression des espaces
    if pd.isna(val) or (isinstance(val, str) and val.strip() == ''):
        if row['Note'] in [1, 2, 4, 5]:
            return "Service client"
        elif row['Note'] == 3:
            return "Probl√®me Application"
        else:
            return val
    else:
        return val


# hedhi mamchetech 

In [21]:
df['Type de probl√®me'].value_counts()

Type de probl√®me
nan                     1237
Service client            86
Stabilit√©                 52
Couverture                38
D√©bit                     36
Autre                     30
Probl√®me Application       6
Pas de probl√®me            3
Name: count, dtype: int64

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   200 non-null    object        
 3   Genre                 900 non-null    object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                797 non-null    object        
 6   Avis Client           1486 non-null   object        
 7   Note                  800 non-null    object        
 8   Type de probl√®me      1488 non-null   object        
 9   Localisation          201 non-null    object        
 10  Score de sentiment    200 non-null    object        
 11  √âmotion d√©tect√©e      200 non-null    object        
 12  Probabilit√© de churn  200 non-null    float64       
 13  R√©sum√© de 

In [23]:
#df.to_excel("donnees_nettoyees1.xlsx", index=False)

## Avec le fichier "donn√©es nettoyes" : 

In [1]:
#  1. Importer les biblioth√®ques n√©cessaires
import pandas as pd
import numpy as np

In [2]:
# 2. Charger les donn√©es
df_net = pd.read_excel('donnees_nettoyees.xlsx')

In [27]:
df_net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   200 non-null    object        
 3   Genre                 900 non-null    object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                1488 non-null   object        
 6   Avis Client           1486 non-null   object        
 7   Note                  799 non-null    float64       
 8   Type de probl√®me      251 non-null    object        
 9   Localisation          200 non-null    object        
 10  Score de sentiment    200 non-null    object        
 11  √âmotion d√©tect√©e      200 non-null    object        
 12  Probabilit√© de churn  200 non-null    float64       
 13  R√©sum√© de 

In [28]:
colonnes_a_analyser = [
    'Type de probl√®me',
    'Score de sentiment',
    '√âmotion d√©tect√©e',
    'Connection Type',
    'Customer Type'
]

for col in colonnes_a_analyser:
    print(f"\nüìä Valeurs les plus fr√©quentes dans la colonne : {col}")
    print(df_net[col].value_counts(dropna=False))  # dropna=False inclut les NaN



üìä Valeurs les plus fr√©quentes dans la colonne : Type de probl√®me
Type de probl√®me
NaN                     1237
Service client            86
Stabilit√©                 52
Couverture                38
D√©bit                     36
Autre                     30
Probl√®me Application       6
Pas de probl√®me            3
Name: count, dtype: int64

üìä Valeurs les plus fr√©quentes dans la colonne : Score de sentiment
Score de sentiment
NaN        1288
N√©gatif     127
Positif      41
Neutre       32
Name: count, dtype: int64

üìä Valeurs les plus fr√©quentes dans la colonne : √âmotion d√©tect√©e
√âmotion d√©tect√©e
NaN                  1288
Col√®re                127
Joie                   41
L√©g√®re inqui√©tude      32
Name: count, dtype: int64

üìä Valeurs les plus fr√©quentes dans la colonne : Connection Type
Connection Type
NaN         1288
Prepaid       76
Paid          70
Hybrid        54
Name: count, dtype: int64

üìä Valeurs les plus fr√©quentes dans la colonne : Customer

## remplir la colonne " Type de probl√®me "
------------------

In [30]:
print(df_net['Type de probl√®me'].unique())

['Stabilit√©' 'Service client' 'Couverture' 'D√©bit' 'Autre' nan
 'Pas de probl√®me' 'Probl√®me Application']


In [31]:
# Remplacer les fausses valeurs manquantes par de vrais NaN
df_net['Type de probl√®me'] = df_net['Type de probl√®me'].replace(['nan', 'NaN'], np.nan)
df_net['Type de probl√®me'] = df_net['Type de probl√®me'].replace(r'^\s*$', np.nan, regex=True)

In [32]:
# Fonction de remplissage
def remplir_nan_aleatoirement(df_net, col):
    valeurs_existantes = df_net[col].dropna()
    freqs = valeurs_existantes.value_counts(normalize=True)
    n_nan = df_net[col].isna().sum()
    valeurs_remplacement = np.random.choice(freqs.index, size=n_nan, p=freqs.values)
    df_net.loc[df_net[col].isna(), col] = valeurs_remplacement
    return df_net

# Application
df_net = remplir_nan_aleatoirement(df_net, 'Type de probl√®me')

In [33]:
# V√©rification
print(df_net['Type de probl√®me'].value_counts(dropna=False))

Type de probl√®me
Service client          506
Stabilit√©               312
Couverture              223
D√©bit                   212
Autre                   177
Probl√®me Application     38
Pas de probl√®me          20
Name: count, dtype: int64


## remplir la colonne " Score de sentiment "
-----------------------

In [35]:
df_net['Score de sentiment'] = df_net['Score de sentiment'].replace(['nan', 'NaN'], np.nan)
df_net['Score de sentiment'] = df_net['Score de sentiment'].replace(r'^\s*$', np.nan, regex=True)


In [36]:
def remplir_nan_aleatoirement(df_net, col):
    valeurs_existantes = df_net[col].dropna()
    freqs = valeurs_existantes.value_counts(normalize=True)
    n_nan = df_net[col].isna().sum()
    valeurs_remplacement = np.random.choice(freqs.index, size=n_nan, p=freqs.values)
    df_net.loc[df_net[col].isna(), col] = valeurs_remplacement
    return df_net


In [37]:
df_net = remplir_nan_aleatoirement(df_net, 'Score de sentiment')

In [38]:
print(df_net['Score de sentiment'].value_counts())

Score de sentiment
N√©gatif    961
Positif    291
Neutre     236
Name: count, dtype: int64


In [39]:
df_net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   200 non-null    object        
 3   Genre                 900 non-null    object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                1488 non-null   object        
 6   Avis Client           1486 non-null   object        
 7   Note                  799 non-null    float64       
 8   Type de probl√®me      1488 non-null   object        
 9   Localisation          200 non-null    object        
 10  Score de sentiment    1488 non-null   object        
 11  √âmotion d√©tect√©e      200 non-null    object        
 12  Probabilit√© de churn  200 non-null    float64       
 13  R√©sum√© de 

## Remplir la colonne √âmotion d√©tect√©e par rapport au commentaire dans Score de sentiment
----------

## Objectif
* Score de sentiment	      √âmotion d√©tect√©e
*    Positif	                      Joie
*    N√©gatif	                     Col√®re
*    Neutre	                   L√©g√®re inqui√©tude

In [42]:
def remplir_emotion_depuis_score(df_net, col_score, col_emotion):
    correspondance = {
        'Positif': 'Joie',
        'N√©gatif': 'Col√®re',
        'Neutre': 'L√©g√®re inqui√©tude'
    }

    mask_nan = df_net[col_emotion].isna()
    df_net.loc[mask_nan, col_emotion] = df_net.loc[mask_nan, col_score].map(correspondance)

    return df_net


In [43]:
df_net = remplir_emotion_depuis_score(df_net, 'Score de sentiment', '√âmotion d√©tect√©e')

In [44]:
print(df_net['√âmotion d√©tect√©e'].value_counts())

√âmotion d√©tect√©e
Col√®re               961
Joie                 291
L√©g√®re inqui√©tude    236
Name: count, dtype: int64


##  Remplissage par la cat√©gorie la plus fr√©quente (mode) pour la colonne "Connection Type "
------------

In [46]:
df_net['Connection Type'] = df_net['Connection Type'].replace(['nan', 'NaN', ''], np.nan)

In [47]:
if not df_net['Connection Type'].dropna().empty:
    mode_val = df_net['Connection Type'].mode()[0]
    df_net['Connection Type'] = df_net['Connection Type'].fillna(mode_val)

else:
    print("Aucune valeur non nulle dans 'Connection Type' pour calculer le mode.")

In [48]:
print(df_net['Connection Type'].unique())

['Prepaid ' 'Paid' 'Hybrid']


## Remplir la colonne " Customer Type " par la mode 
---------

In [50]:
mode_val = df_net['Customer Type'].mode()[0]
df_net['Customer Type'] = df_net['Customer Type'].fillna(mode_val)

In [51]:
print(df_net['Customer Type'].unique())

['B2B' 'B2C']


In [52]:
print(df_net['Customer Type'].value_counts())

Customer Type
B2C    1390
B2B      98
Name: count, dtype: int64


In [53]:
df_net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   200 non-null    object        
 3   Genre                 900 non-null    object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                1488 non-null   object        
 6   Avis Client           1486 non-null   object        
 7   Note                  799 non-null    float64       
 8   Type de probl√®me      1488 non-null   object        
 9   Localisation          200 non-null    object        
 10  Score de sentiment    1488 non-null   object        
 11  √âmotion d√©tect√©e      1488 non-null   object        
 12  Probabilit√© de churn  200 non-null    float64       
 13  R√©sum√© de 

--------------------------------

## remplir de la colonne " Langue " et "Genre" par la mode 
---------

In [56]:
for col in ['Langue']:
    mode_val = df_net[col].mode()[0]
    df_net[col] = df_net[col].fillna(mode_val)

In [57]:
df_net['Langue'] = df_net['Langue'].replace({
    'fr': 'Fran√ßais',
    'Fr': 'Fran√ßais',
    'Fran√ßais': 'Fran√ßais',
    'en': 'Anglais',
    'Anglais': 'Anglais',
    'ar': 'Arabe',
    'Ar': 'Arabe',
    'Arabe': 'Arabe'
})

In [58]:
# v√©rification
print(df_net['Langue'].value_counts(dropna=False))

Langue
Anglais     658
Arabe       519
Fran√ßais    311
Name: count, dtype: int64


In [59]:
print(df_net['Genre'].value_counts(dropna=False))

Genre
Homme    631
NaN      588
Femme    223
femme     46
Name: count, dtype: int64


In [60]:
df_net['Genre'] = df_net['Genre'].replace({
    'femme' : 'Femme'
})

In [61]:
print(df_net['Genre'].value_counts(dropna=False))

Genre
Homme    631
NaN      588
Femme    269
Name: count, dtype: int64


In [62]:
mode_val = df_net['Genre'].mode()[0]
df_net['Genre'] = df_net['Genre'].fillna(mode_val)

In [63]:
print(df_net['Genre'].value_counts(dropna=False))

Genre
Homme    1219
Femme     269
Name: count, dtype: int64


## la colonne Age 

In [65]:
print(df_net['Age'].unique())

['18-25' '20-35' '50+' '36-50' '16-20' '25-35' '40-50' '26-25' '26-37'
 '26-38' '26-39' '26-40' '26-41' '35-40' '35-41' '35-42' '35-43' '35-44'
 '35-45' '16-25' '25-30' '26-35' nan]


In [66]:
# √âtape 1 : Fonction pour regrouper les tranches d‚Äô√¢ge
def regrouper_age(age):
    if age in ['16-20', '16-25', '18-25']:
        return '15-25'
    elif age in ['20-35', '25-30', '25-35', '26-25', '26-35', '26-37', '26-38', '26-39', '26-40', '26-41']:
        return '25-35'
    elif age in ['35-40', '35-41', '35-42', '35-43', '35-44', '35-45']:
        return '35-45'
    elif age in ['36-50', '40-50', '45-55']:
        return '45-55'
    elif age == '50+':
        return '55+'
    else:
        return np.nan


In [67]:
# √âtape 2 : Appliquer le regroupement
df_net['Age'] = df_net['Age'].apply(regrouper_age)

In [68]:
# √âtape 3 : Remplir les NaN avec la cat√©gorie la plus fr√©quente (temporairement)
mode_val = df_net['Age'].mode()[0]
df_net['Age'] = df_net['Age'].fillna(mode_val)

In [69]:
# √âtape 4 : R√©duire la proportion de '55+' et augmenter les jeunes
nb_55_plus = df_net[df_net['Age'] == '55+'].shape[0]

In [70]:
# Choisir combien en modifier (ex: 60%)
nb_a_remplacer = int(nb_55_plus * 0.6)

# S√©lectionner al√©atoirement ces lignes
indices_a_modifier = df_net[df_net['Age'] == '55+'].sample(nb_a_remplacer, random_state=42).index

# R√©partition cibl√©e : majoritairement jeunes
nouvelles_valeurs = np.random.choice(
    ['15-25', '25-35', '35-45', '45-55'],
    size=nb_a_remplacer,
    p=[0.4, 0.3, 0.2, 0.1]
)

In [71]:
# Remplacer dans le DataFrame
df_net.loc[indices_a_modifier, 'Age'] = nouvelles_valeurs

In [72]:
print(df_net['Age'].value_counts(dropna=False))

Age
55+      538
15-25    376
25-35    297
35-45    182
45-55     95
Name: count, dtype: int64


## Localisation 
----------

In [74]:
print(df_net['Localisation'].unique())

['Sousse' 'Tunis' 'Nabeul' 'Sfax' 'Bizerte' 'gabes' 'sfax' nan]


In [75]:
gouvernorats_tunisie = [
    'Tunis', 'Ariana', 'Ben Arous', 'Manouba', 'Nabeul', 'Zaghouan', 'Bizerte', 'Beja',
    'Jendouba', 'Kef', 'Siliana', 'Kairouan', 'Kasserine', 'Sidi Bouzid', 'Sousse',
    'Monastir', 'Mahdia', 'Sfax', 'Gab√®s', 'M√©denine', 'Tataouine', 'Gafsa',
    'Tozeur', 'Kebili'
]


In [76]:
df_net['Localisation '] = df_net['Localisation'].str.capitalize()

In [77]:
def remplir_localisation_aleatoire(df_net, col, gouvernorats):
    n_nan = df_net[col].isna().sum()
    valeurs_random = np.random.choice(gouvernorats, size=n_nan)
    df_net.loc[df_net[col].isna(), col] = valeurs_random
    return df_net

df_net = remplir_localisation_aleatoire(df_net, 'Localisation', gouvernorats_tunisie)

In [78]:
df_net['Localisation'] = df_net['Localisation'].str.upper()

In [79]:
print(df_net['Localisation'].value_counts())

Localisation
NABEUL         110
BIZERTE         95
SOUSSE          91
TUNIS           82
SFAX            79
GAB√àS           62
KEBILI          59
KASSERINE       59
TOZEUR          57
MAHDIA          56
KAIROUAN        56
M√âDENINE        55
MANOUBA         55
ARIANA          54
SILIANA         54
SIDI BOUZID     53
MONASTIR        53
TATAOUINE       51
KEF             51
ZAGHOUAN        50
BEJA            50
JENDOUBA        50
BEN AROUS       49
GAFSA           47
GABES           10
Name: count, dtype: int64


In [80]:
df_net.head()

Unnamed: 0,id_client,Num√©ro Client,Age,Genre,Date de retour,Langue,Avis Client,Note,Type de probl√®me,Localisation,Score de sentiment,√âmotion d√©tect√©e,Probabilit√© de churn,R√©sum√© de l‚Äôavis,Connection Type,Customer Type,Customer Tenure,Tarif nom (Forfait),Segment Client,Localisation.1
0,1,24737244.0,15-25,Homme,2025-01-10,Anglais,"Excellent 5G coverage, very satisfied!",5.0,Stabilit√©,SOUSSE,Positif,Joie,0.5,Excellent 5G coverage‚Ä¶,Prepaid,B2B,more than 15 year,Offre 1000,Entreprise,Sousse
1,2,25876567.0,25-35,Femme,2025-03-07,Anglais,La couverture est excellente dans ma r√©gion.,5.0,Service client,TUNIS,Positif,Joie,0.2,5G works well but...,Paid,B2C,less than 10 year,Offre 1000,High value,Tunis
2,3,22656507.0,35-45,Homme,2025-02-05,Arabe,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß ÿ±ÿßÿ∂Ÿç ÿ¨ÿØŸãÿß!,5.0,Couverture,TUNIS,Positif,Joie,0.2,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß‚Ä¶,Paid,B2B,0 to 3 months,Offre 1000,High value,Tunis
3,4,25987154.0,45-55,Femme,2025-03-18,Anglais,ŸÉŸÜŸÉÿ≥ŸäŸàŸÜ ÿÆÿßŸäÿ®ÿ©,1.0,Stabilit√©,SOUSSE,N√©gatif,Col√®re,0.9,5G works well but...,Prepaid,B2B,more than 2 years,Offre 1000,High value,Sousse
4,5,20546148.0,15-25,Homme,2025-04-09,Fran√ßais,La 5G fonctionne bien mais parfois instable.,4.0,Service client,NABEUL,Neutre,L√©g√®re inqui√©tude,0.1,La 5G fonctionne bien mais‚Ä¶,Paid,B2B,0 to 6 months,Offre 1000,High value,Nabeul


In [81]:
df_net.drop(df_net.columns[19], axis=1, inplace=True)

In [82]:
df_net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   1488 non-null   object        
 3   Genre                 1488 non-null   object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                1488 non-null   object        
 6   Avis Client           1486 non-null   object        
 7   Note                  799 non-null    float64       
 8   Type de probl√®me      1488 non-null   object        
 9   Localisation          1488 non-null   object        
 10  Score de sentiment    1488 non-null   object        
 11  √âmotion d√©tect√©e      1488 non-null   object        
 12  Probabilit√© de churn  200 non-null    float64       
 13  R√©sum√© de 

## Remplir la colonne " Probabilit√© de churn "
-----------------

In [84]:
nombre_nan = df_net['Probabilit√© de churn'].isna().sum()
nombre_nan

1288

In [85]:
# Nettoyer la colonne 'Score de sentiment' pour √©viter les erreurs
df_net['Score de sentiment'] = df_net['Score de sentiment'].str.strip().str.lower()

In [86]:
def generer_proba_churn(score_de_sentiment):
    if score_de_sentiment == 'n√©gatif':
        return np.random.uniform(0.7, 1.0)
    elif score_de_sentiment == 'neutre':
        return np.random.uniform(0.4, 0.6)
    elif score_de_sentiment == 'positif':
        return np.random.uniform(0.0, 0.3)
    else:
        return np.nan

In [87]:
# Masque pour s√©lectionner les lignes o√π 'Probabilit√© de churn' est NaN
mask = df_net['Probabilit√© de churn'].isna()

# Remplir uniquement ces lignes vides
df_net.loc[mask, 'Probabilit√© de churn'] = df_net.loc[mask, 'Score de sentiment'].apply(generer_proba_churn)

In [88]:
print(df_net['Probabilit√© de churn'].unique())

[0.5        0.2        0.9        ... 0.56536406 0.4643624  0.84947818]


In [89]:
nombre_nan = df_net['Probabilit√© de churn'].isna().sum()
nombre_nan

0

In [90]:
print(df_net['Probabilit√© de churn'].describe())

count    1488.000000
mean        0.634229
std         0.300576
min         0.002555
25%         0.432500
50%         0.755564
75%         0.877066
max         0.999795
Name: Probabilit√© de churn, dtype: float64


In [91]:
print(df_net.columns.tolist())

['id_client', 'Num√©ro Client', 'Age', 'Genre', 'Date de retour', 'Langue', 'Avis Client', 'Note', 'Type de probl√®me', 'Localisation', 'Score de sentiment', '√âmotion d√©tect√©e', 'Probabilit√© de churn', 'R√©sum√© de l‚Äôavis', 'Connection Type', 'Customer Type', 'Customer Tenure', 'Tarif nom (Forfait)', 'Segment Client']


## Modifier l'id client 
---------

In [93]:
df_net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   1488 non-null   object        
 3   Genre                 1488 non-null   object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                1488 non-null   object        
 6   Avis Client           1486 non-null   object        
 7   Note                  799 non-null    float64       
 8   Type de probl√®me      1488 non-null   object        
 9   Localisation          1488 non-null   object        
 10  Score de sentiment    1488 non-null   object        
 11  √âmotion d√©tect√©e      1488 non-null   object        
 12  Probabilit√© de churn  1488 non-null   float64       
 13  R√©sum√© de 

In [94]:
# Convertir en entier proprement
df_net['Num√©ro Client'] = df_net['Num√©ro Client'].astype(int)

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

## ajouter une colonne num√©ro al√©atoire
____________________

In [98]:
import random

def generer_numero_ooredoo():
    # "2" + 7 chiffres al√©atoires
    return '2' + ''.join([str(random.randint(0, 9)) for _ in range(7)])

# Appliquer √† chaque ligne
df_net['Num√©ro Ooredoo'] = df_net.apply(lambda _: generer_numero_ooredoo(), axis=1)


In [104]:
df_net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 21 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   1488 non-null   object        
 3   Genre                 1488 non-null   object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                1488 non-null   object        
 6   Avis Client           1486 non-null   object        
 7   Note                  799 non-null    float64       
 8   Type de probl√®me      1488 non-null   object        
 9   Localisation          1488 non-null   object        
 10  Score de sentiment    1488 non-null   object        
 11  √âmotion d√©tect√©e      1488 non-null   object        
 12  Probabilit√© de churn  1488 non-null   float64       
 13  R√©sum√© de 

In [102]:
# Cr√©er la colonne 'Numero Final'
df_net['Numero Final'] = df_net.apply(
    lambda row: str(int(row['Num√©ro Client'])) if pd.notna(row['Num√©ro Client']) else row['Num√©ro Ooredoo'],
    axis=1
)


In [108]:
# Cr√©er la colonne 'ID_CLT_final' avec 216 au d√©but, convertie en entier
df_net['ID_CLT_final'] = ('216' + df_net['Numero Final'].astype(str))


In [114]:
# Pour convertir en entier 64 bits (grand entier)
df_net['ID_CLT_final'] = df_net['ID_CLT_final'].astype('int64')

In [116]:
df_net.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1488 entries, 0 to 1487
Data columns (total 22 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   id_client             1488 non-null   int64         
 1   Num√©ro Client         200 non-null    float64       
 2   Age                   1488 non-null   object        
 3   Genre                 1488 non-null   object        
 4   Date de retour        1488 non-null   datetime64[ns]
 5   Langue                1488 non-null   object        
 6   Avis Client           1486 non-null   object        
 7   Note                  799 non-null    float64       
 8   Type de probl√®me      1488 non-null   object        
 9   Localisation          1488 non-null   object        
 10  Score de sentiment    1488 non-null   object        
 11  √âmotion d√©tect√©e      1488 non-null   object        
 12  Probabilit√© de churn  1488 non-null   float64       
 13  R√©sum√© de 

In [118]:
# R√©organiser les colonnes : mettre 'ID_CLT_final' en premier
colonnes = ['ID_CLT_final'] + [col for col in df_net.columns if col != 'ID_CLT_final']
df_net = df_net[colonnes]

In [120]:
df_net.head()

Unnamed: 0,ID_CLT_final,id_client,Num√©ro Client,Age,Genre,Date de retour,Langue,Avis Client,Note,Type de probl√®me,...,√âmotion d√©tect√©e,Probabilit√© de churn,R√©sum√© de l‚Äôavis,Connection Type,Customer Type,Customer Tenure,Tarif nom (Forfait),Segment Client,Num√©ro Ooredoo,Numero Final
0,21624737244,1,24737244.0,15-25,Homme,2025-01-10,Anglais,"Excellent 5G coverage, very satisfied!",5.0,Stabilit√©,...,Joie,0.5,Excellent 5G coverage‚Ä¶,Prepaid,B2B,more than 15 year,Offre 1000,Entreprise,24296663,24737244
1,21625876567,2,25876567.0,25-35,Femme,2025-03-07,Anglais,La couverture est excellente dans ma r√©gion.,5.0,Service client,...,Joie,0.2,5G works well but...,Paid,B2C,less than 10 year,Offre 1000,High value,25857179,25876567
2,21622656507,3,22656507.0,35-45,Homme,2025-02-05,Arabe,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß ÿ±ÿßÿ∂Ÿç ÿ¨ÿØŸãÿß!,5.0,Couverture,...,Joie,0.2,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß‚Ä¶,Paid,B2B,0 to 3 months,Offre 1000,High value,26010443,22656507
3,21625987154,4,25987154.0,45-55,Femme,2025-03-18,Anglais,ŸÉŸÜŸÉÿ≥ŸäŸàŸÜ ÿÆÿßŸäÿ®ÿ©,1.0,Stabilit√©,...,Col√®re,0.9,5G works well but...,Prepaid,B2B,more than 2 years,Offre 1000,High value,27337396,25987154
4,21620546148,5,20546148.0,15-25,Homme,2025-04-09,Fran√ßais,La 5G fonctionne bien mais parfois instable.,4.0,Service client,...,L√©g√®re inqui√©tude,0.1,La 5G fonctionne bien mais‚Ä¶,Paid,B2B,0 to 6 months,Offre 1000,High value,20011424,20546148


In [122]:
df_net.to_excel("df_net_nettoyees3.xlsx", index=False)

In [5]:
df_net = pd.read_excel('df_net_nettoyees3.xlsx')

In [21]:
df_net.head()

Unnamed: 0,ID_CLT_final,id_client,Num√©ro Client,Age,Genre,Date de retour,Langue,Avis Client,Note,Type de probl√®me,...,R√©sum√© de l‚Äôavis,Connection Type,Customer Type,Customer Tenure,Tarif nom (Forfait),Segment Client,Num√©ro Ooredoo,Numero Final,Latitude,Longitude
0,21624737244,1,24737244.0,15-25,Homme,2025-01-10,Anglais,"Excellent 5G coverage, very satisfied!",5.0,Stabilit√©,...,Excellent 5G coverage‚Ä¶,Prepaid,B2B,more than 15 year,Offre 1000,Entreprise,24296663,24737244,,
1,21625876567,2,25876567.0,25-35,Femme,2025-03-07,Anglais,La couverture est excellente dans ma r√©gion.,5.0,Service client,...,5G works well but...,Paid,B2C,less than 10 year,Offre 1000,High value,25857179,25876567,,
2,21622656507,3,22656507.0,35-45,Homme,2025-02-05,Arabe,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß ÿ±ÿßÿ∂Ÿç ÿ¨ÿØŸãÿß!,5.0,Couverture,...,ÿ™ÿ∫ÿ∑Ÿäÿ© 5G ŸÖŸÖÿ™ÿßÿ≤ÿ©ÿå ÿ£ŸÜÿß‚Ä¶,Paid,B2B,0 to 3 months,Offre 1000,High value,26010443,22656507,,
3,21625987154,4,25987154.0,45-55,Femme,2025-03-18,Anglais,ŸÉŸÜŸÉÿ≥ŸäŸàŸÜ ÿÆÿßŸäÿ®ÿ©,1.0,Stabilit√©,...,5G works well but...,Prepaid,B2B,more than 2 years,Offre 1000,High value,27337396,25987154,,
4,21620546148,5,20546148.0,15-25,Homme,2025-04-09,Fran√ßais,La 5G fonctionne bien mais parfois instable.,4.0,Service client,...,La 5G fonctionne bien mais‚Ä¶,Paid,B2B,0 to 6 months,Offre 1000,High value,20011424,20546148,,


In [23]:
# Fonction pour mettre en minuscule et retirer les accents
import unicodedata

def normaliser_nom(v):
    if pd.isna(v):
        return v
    v = v.strip().lower()
    v = ''.join(c for c in unicodedata.normalize('NFD', v) if unicodedata.category(c) != 'Mn')
    return v

# Appliquer la fonction √† la colonne Localisation pour le mapping
df_net['Localisation_norm'] = df_net['Localisation'].apply(normaliser_nom)


In [25]:
# Nouveau dictionnaire avec cl√©s normalis√©es
coord_gouv_normalise = {
    normaliser_nom(k): v for k, v in coord_gouv.items()
}


In [27]:
# Appliquer le mapping sur la colonne normalis√©e
df_net['Latitude'] = df_net['Localisation_norm'].map(lambda x: coord_gouv_normalise.get(x, (None, None))[0])
df_net['Longitude'] = df_net['Localisation_norm'].map(lambda x: coord_gouv_normalise.get(x, (None, None))[1])

In [29]:
print(df_net[['Localisation', 'Latitude', 'Longitude']].head())

  Localisation  Latitude  Longitude
0       SOUSSE   35.8256    10.6084
1        TUNIS   36.8065    10.1815
2        TUNIS   36.8065    10.1815
3       SOUSSE   35.8256    10.6084
4       NABEUL   36.4519    10.7363
