## Importazione librerie

In [34]:
import pandas as pd
import numpy as np
from datetime import datetime
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Input, Conv1D, Add, Activation, Dense, Lambda
from tensorflow.keras.optimizers import Adam
import scipy.stats

## Caricamento del dataset originale
Il dataset originale è composto da 4 colonne:   
- user_id: identificatore dell'utente
- date: giorno in cui è stato raccolto il dato aggregato
- data_type: intero che identifica la tipologia di dato raccolto
- data_value: valore associato al dato raccolto

I diversi valori della variabile data_type si riferiscono a dati aggregati raccolti giornalmente dal dispositivo di ogni singolo utente e identificano le tipologie di dato in base al seguente schema:
- 1: numero totale di passi effettuati
- 2: peso (kg)
- 3: BMI (kg/m^2)
- 4: pressione sanguigna sistolica (mmHg)
- 5: velocità dell'onda sfigmica arteriosa (PWV), (m/s)
- 6: PWV healthiness (1: bassa, 2: sano, 3: troppo alta)
- 7: frequenza cardiaca media (bpm)
- 8: frequenza cardiaca minima (bpm)
- 9: frequenza cardiaca massima (bpm)
- 10: durata del sonno (ore)
- 11: orario in cui l'utente si è messo a letto
- 12: orario in cui l'utente si è alzato dal letto
- 13: numero di volte in cui l'utente si è svegliato durante il sonno
- 14: durata del tempo in cui l'utente si è svegliato durante il sonno (ore)
- 15: tempo impiegato dall'utente per addormentarsi (ore)
- 16: tempo impiegato dall'utente per alzarsi dal letto (ore)
- 17: durata di sonno leggero (ore)
- 18: durata di sonno REM (ore)
- 19: durata di sonno profondo (ore)
- 20: tipo di attività
- 21: durata dell'attività (secondi)
- 22: calorie consumate durante l'attività
- 23: frequenza cardiaca media durante l'attività (bpm)
- 24: frequenza cardiaca minima durante l'attività (bpm)
- 25: frequenza cardiaca massima durante l'attività (bpm)
- 26: velocità dell'andatura dei passi (passi al minuto)
- 27: velocità dell'andatura a distanza (km all'ora)

In [2]:
raw_dataset = pd.read_csv('./data.csv', usecols=['user_id', 'date', 'data_type', 'data_value'])

raw_dataset.head()

Unnamed: 0,user_id,date,data_type,data_value
0,2bc16eda651db5936cd31e735c815296fc1579d9,2016-04-01,1,10131.39
1,2bc16eda651db5936cd31e735c815296fc1579d9,2016-04-01,2,86.8
2,2bc16eda651db5936cd31e735c815296fc1579d9,2016-04-01,3,28.96
3,2bc16eda651db5936cd31e735c815296fc1579d9,2016-04-01,7,117.62
4,2bc16eda651db5936cd31e735c815296fc1579d9,2016-04-01,8,117.86


## Creazione del dataset personalizzato
L'obiettivo del progetto è quello di verificare, attraverso strumenti di deep learning, l'esistenza di una correlazione fra la qualità del sonno di un utente e l'andatura dei suoi passi. Per raggiungere tale scopo è necessario costruire un nuovo dataset personalizzato contenente i soli dati utili per questa analisi, in particolare i dati riguardanti il sonno e l'andatura dei passi degli utenti.

In [3]:
feature_types = [10, 11, 12, 14, 15, 18, 19, 26]
feature_names = ["sleepduration", "bedin", "bedout", "awakeduration", "timetosleep", "remduration", "deepduration", "stepsgaitspeed"]

dataset_array = []

for i in range(len(feature_types)):
    dataset_feature = raw_dataset[raw_dataset['data_type'] == feature_types[i]].copy(deep=True)
    dataset_feature.drop(raw_dataset.columns[[2]], axis=1, inplace=True)
    dataset_feature.columns = ["user_id", "date", feature_names[i]]
    dataset_array.append(dataset_feature)

dataset = dataset_array[0]
for i in range(1, len(dataset_array)):
    dataset = dataset.merge(dataset_array[i], on=["user_id", "date"], how="outer")

# rimozione delle righe del dataset che non contengono i valori più importanti per lo studio
dataset = dataset.dropna(subset=['sleepduration', 'stepsgaitspeed'])

dataset.set_index(['user_id','date'], inplace=True)

# salvataggio del dataset in un file locale
dataset.to_csv('dataset.csv')
dataset.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,sleepduration,bedin,bedout,awakeduration,timetosleep,remduration,deepduration,stepsgaitspeed
user_id,date,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1003e58667235e01b49008155604980b3900b00e,2016-08-01,11.31,22.11,9.86,0.53,0.15,,3.99,108.81
1003e58667235e01b49008155604980b3900b00e,2016-08-10,9.15,22.34,7.66,0.28,0.02,,3.58,105.02
1003e58667235e01b49008155604980b3900b00e,2016-08-15,7.87,23.93,7.95,0.27,0.02,,3.19,88.27
1003e58667235e01b49008155604980b3900b00e,2016-09-05,8.34,22.7,7.16,0.28,0.1,,3.11,84.91
1003e58667235e01b49008155604980b3900b00e,2016-09-06,8.08,23.55,7.72,0.2,0.0,,3.6,88.6


## Analisi del dataset personalizzato


In [3]:
dataset = pd.read_csv('./dataset.csv')

Per estrarre delle sequenze di giorni significative, è necessario trovare nei dati delle sequenze di giorni che non abbiano troppi dati mancanti. Nello studio sono state selezionate delle sequenze di giorni di lunghezza 15 in cui ogni giorno è seguito al più da un singolo giorno mancante.

In [4]:
# metodo che trasforma una data in un intero (la data zero è allineata a quella del dataset e corrisponde al giorno 2016-04-01)
def date_to_int(date):
    d1 = datetime.strptime('2016-04-01', "%Y-%m-%d")
    d2 = datetime.strptime(date, "%Y-%m-%d")
    return (d2 - d1).days

In [5]:
# trasformazione delle date in interi per semplificare il confronto
dataset['date'] = dataset['date'].apply(date_to_int)
dataset.set_index(['user_id','date'], inplace=True)
dataset.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,sleepduration,bedin,bedout,awakeduration,timetosleep,remduration,deepduration,stepsgaitspeed
user_id,date,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
1003e58667235e01b49008155604980b3900b00e,122,11.31,22.11,9.86,0.53,0.15,,3.99,108.81
1003e58667235e01b49008155604980b3900b00e,131,9.15,22.34,7.66,0.28,0.02,,3.58,105.02
1003e58667235e01b49008155604980b3900b00e,136,7.87,23.93,7.95,0.27,0.02,,3.19,88.27
1003e58667235e01b49008155604980b3900b00e,157,8.34,22.7,7.16,0.28,0.1,,3.11,84.91
1003e58667235e01b49008155604980b3900b00e,158,8.08,23.55,7.72,0.2,0.0,,3.6,88.6


In [6]:
target_sequence_len = 15
last_user = None
last_date = None
current_sequence = []
sequences = []
count = 1

# estrazione di sequenze di lunghezza target_sequence_len che soddisfano i criteri stabiliti (ogni giorno è seguito al più da un singolo giorno mancante)
for index, row in dataset.iterrows():
    user, date = index
    if last_user != None:
        if user == last_user:
            if date == last_date + 1 or date == last_date + 2:
                current_sequence.append((index, row))
                if len(current_sequence) == target_sequence_len:
                    sequences.append(current_sequence[::])
                    current_sequence.pop(0)
            else:
                current_sequence = []
        else:
            current_sequence = []
    else:
        current_sequence.append((index, row))
    last_user = user
    last_date = date

print(f'trovate {len(sequences)} sequenze di lunghezza {target_sequence_len}')

trovate 273472 sequenze di lunghezza 15


In [7]:
# visualizzazione dei giorni considerati per alcune sequenze
for sequence in sequences[20:30]:
    test_sequence = []
    for index, row in sequence:
        test_sequence.append(index[1])
    print(test_sequence)

[344, 345, 346, 348, 349, 351, 352, 353, 354, 355, 357, 358, 359, 360, 361]
[345, 346, 348, 349, 351, 352, 353, 354, 355, 357, 358, 359, 360, 361, 362]
[346, 348, 349, 351, 352, 353, 354, 355, 357, 358, 359, 360, 361, 362, 364]
[172, 173, 174, 175, 176, 178, 179, 180, 181, 183, 184, 185, 186, 187, 188]
[173, 174, 175, 176, 178, 179, 180, 181, 183, 184, 185, 186, 187, 188, 189]
[174, 175, 176, 178, 179, 180, 181, 183, 184, 185, 186, 187, 188, 189, 191]
[175, 176, 178, 179, 180, 181, 183, 184, 185, 186, 187, 188, 189, 191, 192]
[176, 178, 179, 180, 181, 183, 184, 185, 186, 187, 188, 189, 191, 192, 193]
[178, 179, 180, 181, 183, 184, 185, 186, 187, 188, 189, 191, 192, 193, 194]
[179, 180, 181, 183, 184, 185, 186, 187, 188, 189, 191, 192, 193, 194, 195]


Per poter estrarre dalle sequenze di giorni dei valori rilevanti più semplici da confrontare, è necessario addestrare un modello sull'analisi delle sequenze. In questo progetto è stato scelto come task di addestramento dei modelli il task di forecasting. Dunque, data una sequenza di 14 giorni contenente i valori di una variabile nei diversi giorni come input, il modello dovrà cercare di prevedere il valore di tale variabile al giorno 15.
Per poter soddisfare gli obiettivi del progetto è necessario addestrare due modelli diversi, uno per la previsione della qualità del sonno e l'altro per la previsione dell'andatura dei passi. È dunque necessario creare i dati di addestramento per tali modelli.

Per quanto riguarda la qualità del sonno, questa viene calcolata attraverso una versione rivisitata del Pittsburgh Sleep Quality Index (PSQI) in modo da poter includere nel calcolo dell'indice anche i dati riguardanti la durata del sonno profondo e la durata del sonno REM. Per addestrare il modello per la previsione della qualità del sonno è quindi necessario calcolare l'indice di qualità del sonno per ogni giorno a partire dai dati nelle sequenze. Per quanto riguarda invece le sequenze con i dati sull'andatura dei passi, è sufficiente raccogliere i dati giornalieri in un insieme separato.

In [8]:
def get_sleep_quality(timetosleep, sleepduration, bedin, bedout, awakeduration, remduration, deepduration):
    sleep_quality = 0

    if not pd.isna(timetosleep):
        if timetosleep > 0.25 and timetosleep <= 0.5:
            sleep_quality += 1
        elif timetosleep > 0.5 and timetosleep <= 1:
            sleep_quality += 2
        elif timetosleep > 1:
            sleep_quality += 3

    if not sleepduration:
        return 14
    
    if sleepduration > 6 and sleepduration <= 7:
        sleep_quality += 1
    elif sleepduration > 5 and sleepduration <= 6:
        sleep_quality += 2
    elif sleepduration <= 5:
        sleep_quality += 3

    if not pd.isna(bedin) and not pd.isna(bedout):
        timeinbed = bedout + 24 - bedin
        sleep_efficiency = sleepduration / timeinbed

        if sleep_efficiency > 0.75 and sleep_efficiency <= 0.85:
            sleep_quality += 1
        elif sleep_efficiency > 0.65 and sleep_efficiency <= 0.75:
            sleep_quality += 2
        elif sleep_efficiency <= 0.65:
            sleep_quality += 3

    if not pd.isna(awakeduration):
        if awakeduration > 1/3 and awakeduration <= 0.5:
            sleep_quality += 1
        elif awakeduration > 0.5 and awakeduration <= 2/3:
            sleep_quality += 2
        elif awakeduration > 2/3:
            sleep_quality += 3

    if not pd.isna(deepduration):
        percentage_deep = deepduration / sleepduration

        if percentage_deep <= 0.1:
            sleep_quality += 1

    if not pd.isna(remduration):
        percentage_rem = remduration / sleepduration

        if percentage_rem < 0.2 or percentage_rem > 0.25:
            sleep_quality += 1
    
    return sleep_quality

In [9]:
sleep_quality_sequences = []
steps_gait_speed_sequences = []

for sequence in sequences:
    sleep_quality_sequence = []
    steps_gait_speed_sequence = []
    for index, row in sequence:
        sleep_quality = get_sleep_quality(row['timetosleep'], row['sleepduration'], row['bedin'], row['bedout'], row['awakeduration'], row['remduration'], row['deepduration'])
        sleep_quality_sequence.append(sleep_quality)

        steps_gait_speed_sequence.append(row['stepsgaitspeed'])
    
    sleep_quality_sequences.append(sleep_quality_sequence)
    steps_gait_speed_sequences.append(steps_gait_speed_sequence)

In [10]:
# creazione degli insiemi utili all'addestramento (sleep quality index)
sleep_quality_x = []
sleep_quality_y = []

for sleep_quality_sequence in sleep_quality_sequences:
    sleep_quality_x.append(sleep_quality_sequence[:14])
    sleep_quality_y.append(sleep_quality_sequence[14])

In [11]:
# creazione degli insiemi utili all'addestramento (steps gait speed)
steps_gait_x = []
steps_gait_y = []

for steps_gait_speed_sequence in steps_gait_speed_sequences:
    steps_gait_x.append(steps_gait_speed_sequence[:14])
    steps_gait_y.append(steps_gait_speed_sequence[14])

## Definizione del modello WaveNet

In [12]:
def get_wavenet(num_filters, filter_size, dilation_rates):
    # input
    inputs = Input(shape=(target_sequence_len - 1, 1))

    # strato di convoluzione iniziale
    conv_out = Conv1D(filters=num_filters, kernel_size=filter_size, padding='causal', dilation_rate=1)(inputs)

    # strati convoluzionali dilatati
    for dilation_rate in dilation_rates:
        conv = Conv1D(filters=num_filters, kernel_size=filter_size, padding='causal', dilation_rate=dilation_rate)(conv_out)
        conv = Activation('relu')(conv)
        conv_out = Add()([conv_out, conv])

    # strato di output finale
    outputs = Conv1D(filters=1, kernel_size=1, activation='linear')(conv_out)
    outputs = Lambda(lambda x: x[:, -1, :])(outputs)

    # costruzione del modello
    model = Model(inputs=inputs, outputs=outputs)

    # compilazione del modello
    model.compile(optimizer=Adam(), loss='mse')

    return model

In [15]:
train_set_len = (len(sleep_quality_x) * 80) // 100

sleep_quality_train_x = sleep_quality_x[:train_set_len]
sleep_quality_train_y = sleep_quality_y[:train_set_len]

sleep_quality_train_x = np.array(sleep_quality_train_x)
sleep_quality_train_y = np.array(sleep_quality_train_y)

# definizione dei parametri del modello
num_filters = 32
filter_size = 2
dilation_rates = [1, 2, 4, 8]

model_sleep_quality = get_wavenet(num_filters, filter_size, dilation_rates)

# reshape dei dati per il modello
x = sleep_quality_train_x[..., np.newaxis]

# addestramento del modello
history_sleep_quality = model_sleep_quality.fit(x, sleep_quality_train_y, epochs=50, batch_size=1024, validation_split=0.2)

Epoch 1/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 18ms/step - loss: 2.1458 - val_loss: 1.7941
Epoch 2/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 1.8439 - val_loss: 1.7920
Epoch 3/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 1.8476 - val_loss: 1.7879
Epoch 4/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 18ms/step - loss: 1.8134 - val_loss: 1.7841
Epoch 5/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 1.8398 - val_loss: 1.7847
Epoch 6/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 1.8309 - val_loss: 1.7840
Epoch 7/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 1.8406 - val_loss: 1.7865
Epoch 8/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 1.8447 - val_loss: 1.7909
Epoch 9/50
[1m171/171[0m [32m

In [16]:
speed_gait_train_x = steps_gait_x[:train_set_len]
speed_gait_train_y = steps_gait_y[:train_set_len]

speed_gait_train_x = np.array(speed_gait_train_x)
speed_gait_train_y = np.array(speed_gait_train_y)

# definizione dei parametri del modello
num_filters = 32
filter_size = 2
dilation_rates = [1, 2, 4, 8]

model_steps_gait = get_wavenet(num_filters, filter_size, dilation_rates)

# reshape dei dati per il modello
x = speed_gait_train_x[..., np.newaxis]

# addestramento del modello
history_speed_gait = model_steps_gait.fit(x, speed_gait_train_y, epochs=50, batch_size=1024, validation_split=0.2)

Epoch 1/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m5s[0m 18ms/step - loss: 1292.6071 - val_loss: 109.3366
Epoch 2/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 106.5835 - val_loss: 103.0965
Epoch 3/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 102.0481 - val_loss: 102.1947
Epoch 4/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 102.7864 - val_loss: 102.0070
Epoch 5/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 102.5616 - val_loss: 101.9134
Epoch 6/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 101.8875 - val_loss: 101.9391
Epoch 7/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 103.0348 - val_loss: 102.0007
Epoch 8/50
[1m171/171[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 17ms/step - loss: 102.1763 - val_loss: 102.4456

In [27]:
model_sleep_quality.summary()

In [26]:
layer_name = 'conv1d_17'

sleep_quality_test_x = sleep_quality_x[train_set_len:]
sleep_quality_test_y = sleep_quality_y[train_set_len:]

sleep_quality_test_x = np.array(sleep_quality_test_x)
sleep_quality_test_y = np.array(sleep_quality_test_y)

intermediate_model_sleep_quality = Model(inputs=model_sleep_quality.input, outputs=model_sleep_quality.get_layer(layer_name).output)

sleep_quality_activations = intermediate_model_sleep_quality.predict(sleep_quality_test_x)

print(sleep_quality_activations.shape)
print(sleep_quality_activations[0])

[1m1710/1710[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step
(54695, 14, 1)
[[0.61662984]
 [0.52142215]
 [0.5716685 ]
 [0.61125314]
 [0.6516874 ]
 [0.62291   ]
 [0.5111463 ]
 [0.4711311 ]
 [0.7966887 ]
 [0.73740435]
 [0.72030663]
 [0.8830298 ]
 [0.6731123 ]
 [0.74976563]]


In [28]:
model_steps_gait.summary()

In [33]:
layer_name = 'conv1d_23'

steps_gait_test_x = steps_gait_x[train_set_len:]
steps_gait_test_y = steps_gait_y[train_set_len:]

steps_gait_test_x = np.array(steps_gait_test_x)
steps_gait_test_y = np.array(steps_gait_test_y)

intermediate_model_steps_gait = Model(inputs=model_steps_gait.input, outputs=model_steps_gait.get_layer(layer_name).output)

steps_gait_activations = intermediate_model_steps_gait.predict(steps_gait_test_x)

print(steps_gait_activations.shape)
print(steps_gait_activations[0])

[1m1710/1710[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 1ms/step
(54695, 14, 1)
[[ -7.6421447]
 [ 10.221144 ]
 [ 23.293955 ]
 [ 32.756496 ]
 [ 39.78098  ]
 [ 48.99145  ]
 [ 57.293148 ]
 [ 62.06182  ]
 [ 78.575066 ]
 [ 84.26723  ]
 [ 90.70243  ]
 [ 94.34384  ]
 [100.15795  ]
 [102.49557  ]]


In [35]:
# appiattimento delle attivazioni
sleep_quality_activations_flat = sleep_quality_activations.reshape(sleep_quality_activations.shape[0], -1)
steps_gait_activations_flat = steps_gait_activations.reshape(steps_gait_activations.shape[0], -1)

# Calcolo della correlazione di Pearson tra le attivazioni corrispondenti
correlations = []
for i in range(sleep_quality_activations_flat.shape[0]):
    corr, _ = scipy.stats.pearsonr(sleep_quality_activations_flat[i], steps_gait_activations_flat[i])
    correlations.append(corr)

# Calcolare la correlazione media
mean_correlation = np.mean(correlations)
print(f'Correlazione media tra le attivazioni dei due modelli: {mean_correlation}')

Correlazione media tra le attivazioni dei due modelli: 0.8123334930529936
