In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt # plotting
from mpl_toolkits.mplot3d import Axes3D


In [None]:
url = "https://raw.githubusercontent.com/Ya-2/Churn/main/Customer_Churn.csv"
df = pd.read_csv(url)
df.head(5)

# Data description 

In [None]:
nombre_de_tuples = df.shape[0]
print("Nombre de tuples :", nombre_de_tuples)

In [None]:
df.info()

In [None]:
df.nunique()

In [None]:
df.isnull().sum()

# Etudes des données

## Analyse univariée

In [None]:


# Liste des colonnes et étiquettes pour les pie charts
columns = ['Churn', 'Status','Tariff Plan']
labels_dict = {'Churn': ['Désabonné', 'Non désabonné'], 'Status': ['Actif', 'Non actif'], 'Tariff Plan' : ['Contractuel','Pay as you go']}

# Liste des couleurs pour les pie charts
colors_dict = {'Churn': ['#ff9999', '#66b3ff'], 'Status': ['#99ff99', '#ffcc99'], 'Tariff Plan': ['#F89FE0', '#F18994']}


# Calcul des pourcentages pour chaque colonne et création des pie charts
fig, axs = plt.subplots(1, len(columns), figsize=(12, 8))

for i, col in enumerate(columns):
    sizes = df[col].value_counts(normalize=True) * 100
    labels = labels_dict[col]
    colors = colors_dict[col]

    axs[i].pie(sizes, labels=labels, colors=colors, autopct='%1.1f%%', startangle=90)

plt.subplots_adjust(wspace=0.4)
plt.show()


In [None]:
sns.set_style("dark")
sns.set_palette(sns.color_palette("husl", 8))

fig, axes = plt.subplots(1, 2, figsize=(10, 3))
sns.countplot(x="Age Group", data=df, ax=axes[0])
axes[0].set_title('Distribution par groupe d\'âge')
sns.countplot(x="Age", data=df, ax=axes[1])
axes[1].set_title('Distribution par âge')
plt.show()

similarité entre les deux variables

### Distribution des variables

In [None]:
cols = ['Subscription  Length', 'Seconds of Use',
        'Frequency of use', 'Frequency of SMS', 'Distinct Called Numbers',
        'Customer Value']

fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(20,10))
axes = axes.flatten()

for i, col in enumerate(cols):
    sns.histplot(data=df, x=col, kde=True, ax=axes[i])
    
plt.suptitle('Distribution des variables')
plt.tight_layout()

une similarité apparente entre Frequency of Use et Seconds of Use.

## Analyse bivariée

### Matrice de corrélation

In [None]:
corr_matrix = df.corr()

# Afficher la matrice de corrélation avec Seaborn
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Matrice de corrélation')
plt.show()

In [None]:
c = pd.crosstab(df['Complains'], df['Churn'])
complains_churn_pourcentage = c.loc[:, 1] / c.sum(axis=1) * 100
complains_not_churn_pourcentage = c.loc[:, 0] / c.sum(axis=1) * 100

# Créer un graphique à barres en utilisant Seaborn
plt.figure(figsize=(8, 6))
sns.barplot(x=['No Complaints', 'Complaints'], y=complains_churn_pourcentage, color='#66b3ff', label='Churned')
sns.barplot(x=['No Complaints', 'Complaints'], y=complains_not_churn_pourcentage, color='#99ff99', bottom=complains_churn_pourcentage, label='Not Churned')

# Ajouter des étiquettes et un titre
plt.xlabel('Complaints')
plt.ylabel('Percentage (%)')
plt.title('Churned Percentage Based on Complaints')
plt.legend()

###  la corrélation entre la colonne 'Churn' et les autres caractéristiques.

In [None]:
df.drop('Churn', axis=1).corrwith(df.Churn).abs().plot(kind='barh',
                                                           figsize=(8, 6),
                                                           color='forestgreen',
                                                           title="Churn vs all Features")

### Box plot pour comparer "Seconds of Use" entre les deux groupes de "Tariff Plan"

In [None]:
plt.figure(figsize=(6, 5))
sns.boxplot(x='Tariff Plan', y='Seconds of Use', data=df)
plt.title('Box Plot - Seconds of Use par Tariff Plan')
plt.figure(figsize=(6, 5))
sns.boxplot(x='Churn', y='Customer Value', data=df)
plt.title('Box Plot - Customer value par Churn')
plt.show()

In [None]:
import matplotlib
plt.figure(figsize=(32, 32))
matplotlib.rc('axes', titlesize=24)#cols size
cols = ['Subscription  Length', 'Call  Failure',
        'Frequency of use', 'Age', 'Distinct Called Numbers',
        'Charge  Amount']
for i, column in enumerate(cols, 1):
    plt.subplot(4, 4, i)
    df[df["Churn"] == 0][column].hist(bins=20, color='pink', label='churn = 0(non-churn)', alpha=1)
    df[df["Churn"] == 1][column].hist(bins=20, color='tomato', label='churn = 1(churn)', alpha=1)
    plt.legend(fontsize='medium')
    plt.title(column)

nous pouvons visualiser le nombre de désabonnement et non désabonnement en fonction de changement de certains variables qu'on estime importantes