In [1]:
# Importation des bibliothèques Python
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt


# Importation des données
data = pd.read_csv('data/Social_Network_Ads.csv')
# Dimension du dataset
data.shape

(400, 5)

In [2]:
# Preview du dataset
data.head()

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0


In [3]:
# Sommaire du dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   User ID          400 non-null    int64 
 1   Gender           400 non-null    object
 2   Age              400 non-null    int64 
 3   EstimatedSalary  400 non-null    int64 
 4   Purchased        400 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 15.8+ KB


In [9]:
# Recherche des variables catégorielles du dataset
categorical = [var for var in data.columns if data[var].dtype=='O']
print('Il y a {} variable(s) catégorielles.'.format(len(categorical)))
print('Les variables catégorielles sont : {}'.format(categorical))

Il y a 1 variable(s) catégorielles.
Les variables catégorielles sont : ['Gender']


In [5]:
# Affichage des variables catégorielles
data[categorical].head

<bound method NDFrame.head of      Gender
0      Male
1      Male
2    Female
3    Female
4      Male
..      ...
395  Female
396    Male
397  Female
398    Male
399  Female

[400 rows x 1 columns]>

In [6]:
# vérification des valeurs manquantes dans les variables catégorielles
data[categorical].isnull().sum()

Gender    0
dtype: int64

In [7]:
# affichage du nombre de fréquences des valeurs dans les variables catégorielles
for var in categorical:    
    print(data[var].value_counts())

Female    204
Male      196
Name: Gender, dtype: int64


In [8]:
# affichage de la distribution de fréquence des variables catégorielles
for var in categorical:    
    print(data[var].value_counts()/np.float(len(data)))

Female    0.51
Male      0.49
Name: Gender, dtype: float64


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  print(data[var].value_counts()/np.float(len(data)))


In [11]:
# Recherche des variables numériques
numerical = [var for var in data.columns if data[var].dtype!='O']
print('Il y a {} variables numériques.'.format(len(numerical)))
print('Les variables numériques sont : {}'.format(numerical))


Il y a 4 variables numériques.
Les variables numériques sont : ['User ID', 'Age', 'EstimatedSalary', 'Purchased']


In [12]:
# affichage des variables numériques
data[numerical].head()

Unnamed: 0,User ID,Age,EstimatedSalary,Purchased
0,15624510,19,19000,0
1,15810944,35,20000,0
2,15668575,26,43000,0
3,15603246,27,57000,0
4,15804002,19,76000,0


In [13]:
# vérification des variables numériques pour voir si certaines sont nulles
data[numerical].isnull().sum()

User ID            0
Age                0
EstimatedSalary    0
Purchased          0
dtype: int64

In [19]:
# division des données 
X = data.drop(["Purchased"], axis = 1)
y = data["Purchased"]

In [20]:
# Séparation de X et y en training et testing sets
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

In [21]:
# check the shape of X_train and X_test
X_train.shape, X_test.shape

((280, 4), (120, 4))

In [22]:
# check data types in X_train
X_train.dtypes

User ID             int64
Gender             object
Age                 int64
EstimatedSalary     int64
dtype: object

In [24]:
# Affichage des variables catégorielles
categorical = [col for col in X_train.columns if X_train[col].dtypes == 'O']
categorical

['Gender']

In [25]:
# Affichage des variables numériques
numerical = [col for col in X_train.columns if X_train[col].dtypes != 'O']
numerical

['User ID', 'Age', 'EstimatedSalary']

In [26]:
# affichage du pourcentage de valeurs manquantes dans les variables catégorielles de l'ensemble d'apprentissage
X_train[categorical].isnull().mean()

Gender    0.0
dtype: float64

In [27]:
# affichage des variables catégorielles avec des données manquantes
for col in categorical:
    if X_train[col].isnull().mean()>0:
        print(col, (X_train[col].isnull().mean()))