In [1]:
import pandas as pd
import numpy as np

# Pour obtenir des résultats reproductibles
np.random.seed(42)

# Définir une liste de noms
noms = ['Alice', 'Bob', 'Claire', 'David', 'Emily', 'François', 'Gabriel', 'Hélène', 'Igor', 'Juliette']

# Associer un genre à chacun (par exemple, "F" pour féminin et "M" pour masculin)
genre = ['F', 'M', 'F', 'M', 'F', 'M', 'M', 'F', 'M', 'F']

# Générer la colonne 'achat' avec uniquement les réponses "oui" et "non" de manière aléatoire
achat = np.random.choice(['oui', 'non'], size=len(noms))

# Créer la colonne 'revenue' sous forme de revenus générés aléatoirement (par exemple entre 1000 et 5000)
revenue = np.random.randint(1000, 5000, size=len(noms))

# Créer le DataFrame avec toutes les colonnes
df = pd.DataFrame({
    'noms': noms,
    'genre': genre,
    'achat': achat,
    'revenue': revenue
})

# Afficher le DataFrame
print(df)


       noms genre achat  revenue
0     Alice     F   oui     1466
1       Bob     M   non     2238
2    Claire     F   oui     1330
3     David     M   oui     2482
4     Emily     F   oui     3135
5  François     M   non     4444
6   Gabriel     M   oui     4171
7    Hélène     F   oui     3919
8      Igor     M   oui     4735
9  Juliette     F   non     1130


In [2]:
# Encodage de genre et achat

df = pd.get_dummies(df, columns=['genre', 'achat'], drop_first=True)

In [3]:
df

Unnamed: 0,noms,revenue,genre_M,achat_oui
0,Alice,1466,0,1
1,Bob,2238,1,0
2,Claire,1330,0,1
3,David,2482,1,1
4,Emily,3135,0,1
5,François,4444,1,0
6,Gabriel,4171,1,1
7,Hélène,3919,0,1
8,Igor,4735,1,1
9,Juliette,1130,0,0


In [4]:
#  Standardisation de revenue

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[['revenue']] = scaler.fit_transform(df[['revenue']])

In [5]:
df

Unnamed: 0,noms,revenue,genre_M,achat_oui
0,Alice,-1.11263,0,1
1,Bob,-0.515722,1,0
2,Claire,-1.217785,0,1
3,David,-0.327062,1,1
4,Emily,0.177835,0,1
5,François,1.18995,1,0
6,Gabriel,0.978867,1,1
7,Hélène,0.784022,0,1
8,Igor,1.414951,1,1
9,Juliette,-1.372425,0,0


In [6]:
# binarizer la variable 'revenue'

from sklearn.preprocessing import Binarizer
binarizer = Binarizer(threshold=0.1)
df['revenue_binaire'] = binarizer.fit_transform(df[['revenue']])

In [7]:
df

Unnamed: 0,noms,revenue,genre_M,achat_oui,revenue_binaire
0,Alice,-1.11263,0,1,0.0
1,Bob,-0.515722,1,0,0.0
2,Claire,-1.217785,0,1,0.0
3,David,-0.327062,1,1,0.0
4,Emily,0.177835,0,1,1.0
5,François,1.18995,1,0,1.0
6,Gabriel,0.978867,1,1,1.0
7,Hélène,0.784022,0,1,1.0
8,Igor,1.414951,1,1,1.0
9,Juliette,-1.372425,0,0,0.0
