<a href="https://colab.research.google.com/github/Sela80/s/blob/main/Marketing_bancaire.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Marketing bancaire**
* Résumé :
#Les données sont liées aux campagnes de marketing direct (appels téléphoniques) d'une institution bancaire portugaise. L'objectif de la classification est de prédire si le client souscrira un dépôt à terme (variable y).

#**Informations sur l'ensemble de données :**
#les données sont liées aux campagnes de marketing direct d'une institution bancaire portugaise. Les campagnes marketing étaient basées sur des appels téléphoniques. Souvent, plusieurs contacts avec le même client étaient nécessaires pour savoir si le produit (dépôt bancaire à terme) serait (« oui ») ou non (« non ») souscrit.

#**Informations sur les attributs :**
* Données clients bancaires :
#Âge (numérique)
#Emploi : type d'emploi (catégorique : 'admin.', 'ouvrier', 'entrepreneur', 'femme de ménage', 'gestion', 'retraité', 'indépendant', 'services', 'étudiant', ' technicien', 'chômeur', 'inconnu')
#Matrimonial : état civil (catégorique : 'divorcé', 'marié', 'célibataire', 'inconnu' ; note : 'divorcé' signifie divorcé ou veuf)
#Éducation (catégorique : « de base.4 ans », « de base.6 ans », « de base.9 ans », « lycée », « illettré », « cours.professionnel », « diplôme.universitaire », « inconnu »)
#Défaut : le crédit est-il en défaut ? (catégorique : "non", "oui", "inconnu")
#Logement : existe-t-il un prêt logement ? (catégorique : "non", "oui", "inconnu")
#Prêt : avez-vous un prêt personnel ? (catégorique : "non", "oui", "inconnu")
#En lien avec le dernier contact de la campagne en cours :
#Contact : type de communication du contact (catégorique :
#« cellulaire », « téléphone »)
#Mois : mois du dernier contact de l'année (catégorique : 'jan', 'feb', 'mar',
#…, 'nov', 'dec')
#Day_of_week : dernier jour de contact de la semaine (catégorique :
#'lundi', 'mardi', 'mercredi', 'jeu', 'ven')
#Durée : durée du dernier contact, en secondes (numérique). Remarque importante
#: cet attribut affecte fortement la cible de sortie (par exemple, si
#durée=0 alors y='no'). Cependant, la durée n'est pas connue avant qu'un appel
#soit effectué. De plus, après la fin de l'appel, y est évidemment connu.
#Ainsi, cette donnée ne doit être incluse qu’à des fins de référence et
#doit être écartée si l’intention est d’avoir un
#modèle prédictif réaliste.
#**Autres attributs :**
#Campagne : nombre de contacts effectués lors de cette campagne et pour
#ce client (numérique, inclut le dernier contact)
#Pdays : nombre de jours écoulés après que le client a été
#contacté pour la dernière fois lors d'une campagne précédente (numérique ; 999 signifie que le client n'a pas été
#contacté auparavant)
#Précédent : nombre de contacts effectués avant cette campagne et pour
#ce client (numérique)
#Poutcome : résultat de la campagne marketing précédente (catégorique :
#"échec", "inexistant", "succès")
#Attributs du contexte social et économique
#Emp.var.rate : taux de variation de l'emploi - indicateur trimestriel
#(numérique)
#Cons.price.idx : indice des prix à la consommation - indicateur mensuel (numérique)
#Cons.conf.idx : indice de confiance des consommateurs - indicateur mensuel
#(numérique)
#Euribor3m : taux euribor 3 mois - indicateur journalier (numérique)
#Nr.employed: nombre d'employés - indicateur trimestriel (numérique)
#Variable de sortie (cible souhaitée) :
#y - le client a-t-il souscrit un dépôt à terme ? (binaire : 'oui', 'non')
#**Étapes d'analyse :**
#Analyse des informations sur les attributs.
#Apprentissage automatique (régression logistique, KNN, SVM, arbre de décision,
#forêt aléatoire, Naive Bayes)
#Apprentissage profond (ANN)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import warnings
warnings.filterwarnings('ignore')
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder


In [None]:
data=pd.read_csv('/content/bank.csv')

# **Analyse exploratoire **

In [None]:
#affichage du dataset
data.head()

In [None]:
#Affichons les colonnes de notre ensemble de données

data.columns

In [None]:
#Afficher les informations sur le data
data.info()

In [None]:
#affichage des "object"
cat_col=data.select_dtypes('object').columns
cat_col

In [None]:
#Affichage des "int64"
data.select_dtypes('int64').columns

In [None]:
#Vérifions les valeurs manquantes
data.isnull().sum()

In [None]:
#vérifions des doublans
data.duplicated().sum()

In [None]:
#Resumer statistiques

data.describe()

# **Visualisons Visualisation Des Données**

In [None]:
#Distribution par job
count_job=data['job'].value_counts()
fig=px.bar(x=count_job.index,y=count_job.values,title='Nombre de clients par profession',color=count_job.values)
fig.show()


# Le nombre des travailleurs varit en fonction du post occupé

# Vérifions parmi les travailleurs ceux qui ont effectués un dépôt


In [None]:
job_deposit=data.groupby('job')['deposit'].value_counts()
job_deposit


In [None]:
job_deposit=data.groupby('job')['deposit'].value_counts().unstack()
job_deposit
plt.figure(figsize=(13,5) )
sns.countplot(x='job',hue='deposit',data=data)
plt.show()

#Le graphique ci-dessus montre que :
#la souscription # Non du depot à terme varit en fonction du post occupé

In [None]:
#Distribution par marital
count_marital=data['marital'].value_counts()
fig=px.bar(x=count_marital.index,y=count_marital.values,title='Nombre de clients par marital',color=count_marital.values)
fig.show()

# Verifions maintenant en fonction de la situation matrimonial ceux qui arrivent à souscrire à dépôt à terme et ceux qui arrivent pas

In [None]:
marital_deposit=data.groupby('marital')['deposit'].value_counts()
plt.figure(figsize=(13,5) )
sns.countplot(x='marital',hue='deposit',data=data)
plt.show()

In [None]:
#Distribution par education
count_education=data['education'].value_counts()
fig=px.bar(x=count_education.index,y=count_education.values,title='Nombre de clients par education',color=count_education.values)
fig.show()

# Maintenant verifions les clients qui arrivent à faire le dépôt à terme en fonction de leur niveau d'éducation

In [None]:
education_deposit=data.groupby('education')['deposit'].value_counts()
plt.figure(figsize=(13,5) )
sns.countplot(x='education',hue='deposit',data=data)
plt.show()

# le graphique ci-dessus montre que:
# une bonne portion l'éducation second et primaire ne s'intéresse pas trop au dépôt par contre ceux du tertiare un bon nombre le fait.
# et voilà que les clients du inconnu sont à égalité

In [None]:
#Distribution par campaign
count_campaign=data['campaign'].value_counts()
fig=px.bar(x=count_campaign.index,y=count_campaign.values,title='Nombre de clients par campaign',color=count_campaign.values)
fig.show()

In [None]:
#Distribution par loan
count_loan=data['loan'].value_counts()
fig=px.bar(x=count_loan.index,y=count_loan.values,title='Nombre de clients par loan',color=count_loan.values)
fig.show()


# Verifions maintenant en fonction du job ceux qui ont pris credit

In [None]:
Loan_job=data.groupby('loan')['job'].value_counts()
plt.figure(figsize=(13,5) )
sns.countplot(x='job',hue='loan',data=data)
plt.show()

# le graphique ci-dessus montre que:
# De l'administrateur jusqu'aux entrepreneurs, une mini portion est crédité par contre les étudiants par du tout

In [None]:
encoded_df = pd.get_dummies(data, columns=['job', 'marital', 'education', 'default', 'housing', 'loan', 'contact','month', 'poutcome', 'deposit'],)

In [None]:
cate_col={
                'job':1,
                'marital': 2,
                'education':3,
                'default':4,
                'housing':5,
                'loan':6,
                'contact':7,
                'month':8,
                'poutcome':9,
                'deposit':10
}

In [None]:
# Appliquez le mapping à la colonne 'Travail' à l'aide de la méthode map()
data['cate_col'] = data['cate_col'].map(cate_col)
print(data)

In [None]:
# Créer une instance de LabelEncoder
label_encoder = LabelEncoder()
data['cate_col'] = label_encoder.fit_transform(data["cate_col"])
