In [9]:
import pandas as pd
from sklearn import preprocessing 
from sklearn.preprocessing import LabelEncoder
import plotly
import plotly.express as px


In [3]:
# загрузим данные
df = pd.read_csv("./data/segmented_customers.csv")
# посмотрим на данные
df.head()

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100),cluster
0,1,Male,19.0,15.0,39.0,4.0
1,2,Male,21.0,15.0,81.0,3.0
2,3,Female,20.0,16.0,6.0,4.0
3,4,Female,23.0,16.0,77.0,3.0
4,5,Female,31.0,17.0,40.0,4.0


Проведём предобработку данных: удалим пропуски и дубли, признак Gender превратим в бинарный с помощью LabelEncoder:



In [4]:
# посмотрим, есть ли пропуски в датасете
df[df.isna().any(axis=1)]

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100),cluster
200,201,Female,21.0,,40.0,0.0
201,202,Female,30.0,127.0,,
202,203,Male,80.0,,20.0,
203,204,Male,,16.0,120.0,
204,205,Female,,9.0,80.0,


In [5]:
# пропусков не так много, поэтому мы можем удалить данные с пропусками
df = df.dropna()

# переименуем столбцы для более удобной работы
df.rename(columns = {'CustomerID' : 'customer_id', 'Gender' : 'gender', 
                    'Age': 'age', 'Annual Income (k$)': 'annual_income', 
                    'Spending Score (1-100)': 'spending_score', }, inplace = True)

In [6]:
# проверим, есть ли в данных дубликаты
df[df.duplicated(subset=['customer_id'])]

Unnamed: 0,customer_id,gender,age,annual_income,spending_score,cluster


In [8]:
# Создаем экземпляр LabelEncoder
label_encoder = LabelEncoder()
df['gender'] = label_encoder.fit_transform(df['gender'])
df.head()


Unnamed: 0,customer_id,gender,age,annual_income,spending_score,cluster
0,1,1,19.0,15.0,39.0,4.0
1,2,1,21.0,15.0,81.0,3.0
2,3,0,20.0,16.0,6.0,4.0
3,4,0,23.0,16.0,77.0,3.0
4,5,0,31.0,17.0,40.0,4.0


3
Чтобы мы могли визуально оценивать результаты кластеризации, будем проводить её по трём признакам, а именно: годовой заработок, коэффициент покупательской способности и возраст. Визуализируем распределение данных:

In [10]:
# передаём датафрейм и поля, которые нужно использовать для осей абсцисс, ординат и аппликат
fig = px.scatter_3d(
  data_frame=df,
  x='age',
  y= 'annual_income',
  z = 'spending_score',
  width=1000,
  height=700
)
fig.show()

Так как нам часто будет требоваться визуализировать результаты кластеризации, напишем для этого функцию. Она будет принимать датафрейм и название столбца датафрейма с результатами кластеризации. Так как нас будут стабильно интересовать три столбца (age, annual_income, spending_score), зафиксируем их названия внутри функции:

In [None]:
def get_3d_visualization(df, clust_res):
    fig = px.scatter_3d(
        data_frame=df, 
        x = 'age', 
        y = 'annual_income', 
        z = 'spending_score', 
        color = clust_res,
        width=1000,
        height=700
    )

    #возвращаем график
    return fig

In [None]:
# Сохраним признаки, по которым будем проводить моделирование, в переменную X:
X = df[['age', 'annual_income', 'spending_score']]
