<a href="https://colab.research.google.com/github/arkadijshmelev/Clustering_people-s_activity/blob/master/4_Clustering_people's_activity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Библиотеки

In [86]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.cluster import AgglomerativeClustering
from sklearn import metrics

# Данные

In [87]:
from pydrive.auth import GoogleAuth
from pydrive.drive import GoogleDrive
from google.colab import auth
from oauth2client.client import GoogleCredentials

auth.authenticate_user()
gauth = GoogleAuth()
gauth.credentials = GoogleCredentials.get_application_default()
drive = GoogleDrive(gauth)

In [88]:
# Загрузим данные с google drive.
data = drive.CreateFile({'id': '1vcQCKsa9WFREQANdO6Wa0p4Yu9gAupHG'})
data.GetContentFile('train.txt')

data = drive.CreateFile({'id': '141gRoXS4VTzKzUjgObrNgSr7zkoxxGg9'})
data.GetContentFile('train_labels.txt')

data = drive.CreateFile({'id': '1XCuT6SyGTYSzaxmRXKYAKtkXBzI8LnJ_'})
data.GetContentFile('test.txt')

data = drive.CreateFile({'id': '1yOWnNLPLCb0tO7BJb9-8Unm-j0WKzxD2'})
data.GetContentFile('test_labels.txt')

In [89]:
# Загрузжаем данные.
X_train = np.loadtxt('train.txt')
X_test = np.loadtxt('test.txt')
y_train = np.loadtxt('train_labels.txt')
y_test = np.loadtxt('test_labels.txt')

In [90]:
# Сверим размерности.
print(X_train.shape)
print(y_train.shape)
print(X_test.shape)
print(y_test.shape)

(7352, 561)
(7352,)
(2947, 561)
(2947,)


In [91]:
# Соединим тренировочные и тестовые выборки.
X = np.concatenate((X_train, X_test))
y = np.concatenate((y_train, y_test))
print(X.shape)

(10299, 561)


In [92]:
# Найдем число разных активностей.
print('Число активностей -', len(np.unique(y)))

Число активностей - 6


- 1 — ходьба;
- 2 — подъём;
- 3 — спуск;
- 4 — сидение;
- 5 — стояние;
- 6 — лежание.

# Маштабирование признаков

In [93]:
# Иницианализируем объект типа StandardScaler().
scaler = StandardScaler()
# Отмаштабируем данные.
X_scaled = scaler.fit_transform(X)

# Коэффициент силуета, индекс Калински — Харабаса и индекс Дэвиса — Болдина

In [94]:
# Проходимся циклом по всем нужным нам значениям количества кластеров.
for i in range(2,10):
	  # Обучаем модель k-means с текущим количеством кластеров.
    km = KMeans(n_clusters = i , random_state = 42 ).fit(X_scaled)
	  # Предсказываем метки.
    y_pred = km.labels_
	  # Выводим результат для коэффициента силуэта.
    print (i, round(metrics.silhouette_score(X_scaled,  y_pred), 2))

# Для индекса Калински — Харабаса.
for i in range(2,10):
    km = KMeans(n_clusters = i , random_state = 42 ).fit(X_scaled)
    y_pred= km.labels_
    print (i, round(metrics.calinski_harabasz_score(X_scaled,y_pred), 2))

# Для индекса Дэвиса — Болдина.
for i in range(2,10):
    km = KMeans(n_clusters = i , random_state = 42 ).fit(X_scaled)
    y_pred = km.labels_
    print (i, round(metrics.davies_bouldin_score(X_scaled, y_pred), 2))



2 0.39




3 0.32




4 0.15




5 0.13




6 0.11




7 0.09




8 0.08




9 0.08




2 7880.81




3 5034.48




4 3696.34




5 3027.08




6 2556.77




7 2216.56




8 1974.97




9 1790.95




2 1.07




3 1.79




4 2.34




5 2.43




6 2.37




7 2.68




8 2.61




9 2.58


# Меры

In [95]:
# Иницианализируем объект типа KMeans(). Количество кластеров возьмем количество активностей.
km_model = KMeans(n_clusters=6, init='random', random_state=42)
# Обучим модель.
km_model.fit(X_scaled)



In [96]:
# Вычисляем значение однородности.
print(round(metrics.homogeneity_score(y, km_model.labels_), 2))
# Вычисляем значение полноты.
print(round(metrics.completeness_score(y, km_model.labels_), 2))
# Вычисляем значение скорректированного индекса Рэнда.
print(round(metrics.adjusted_rand_score(y, km_model.labels_), 2))

0.54
0.58
0.42


Выясним, к каким кластерам были преимущественно отнесены различные активности (т. е. в какой кластер попало большинство наблюдений с этой активностью). Нумерацию кластеров начнем с 1.

In [97]:
ctable = pd.crosstab(y, km_model.labels_)
ctable.index = ['ходьба', 'подъём', 
    'спуск', 'сидение', 'стояние', 'лежание']
ctable.columns = list(range(1, 7))
# Выведем для просмотра.
display(ctable)

Unnamed: 0,1,2,3,4,5,6
ходьба,0,0,903,78,741,0
подъём,0,0,1242,5,295,2
спуск,0,0,321,196,889,0
сидение,91,1238,1,0,0,447
стояние,0,1346,0,0,0,560
лежание,1556,54,5,0,0,329


In [98]:
# Иницианализируем объект типа KMeans(). Количество кластеров возьмем 2.
km_model = KMeans(n_clusters=2, init='random', random_state=42)
# Обучим модель.
km_model.fit(X_scaled)



In [99]:
ctable = pd.crosstab(y, km_model.labels_)
ctable.index = ['ходьба', 'подъём', 
             'спуск', 'сидение', 'стояние', 'лежание']
ctable.columns = list(range(1, 3))
# Выведем для просмотра.
display(ctable)

Unnamed: 0,1,2
ходьба,1722,0
подъём,1536,8
спуск,1406,0
сидение,3,1774
стояние,0,1906
лежание,12,1932


In [100]:
# Вычислим значение полноты.
print(round(metrics.completeness_score(y, km_model.labels_), 2))

0.98


# Агломеративная кластеризация

In [101]:
ag = AgglomerativeClustering(n_clusters=2).fit(X_scaled)
print('Полнота: {:.3f}'.format(metrics.completeness_score(y, ag.labels_)))

Полнота: 1.000


Агломеративная кластеризация показывает лучшее значение полноты.