## Librerías

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import datetime as datetime

## Carga y visualización de datos

In [2]:
sueño = pd.read_excel('sueño_withings_1.xlsx')
pasos = pd.read_excel('agregados_pasos_1.xlsx')

In [3]:
sueño.head()

Unnamed: 0,Desde,Hasta,Ligero (s),Profundido (s),Rem (s),Despierto (s),Interrupciones,Conciliación (s),Duration to wake up (s),Snoring (s),Snoring episodes,Average heart rate,Heart rate (min),Heart rate (max),Night events
0,2018-11-01T23:08:00+01:00,2018-11-02T09:15:00+01:00,18720,15480,0,2220,2,0,420,0,0,0,0,0,
1,2018-11-03T02:18:00+01:00,2018-11-03T09:48:00+01:00,9240,16080,0,1680,1,360,840,0,0,0,0,0,
2,2018-11-03T23:15:00+01:00,2018-11-04T10:07:00+01:00,16680,19320,0,3120,5,0,0,0,0,0,0,0,
3,2018-11-04T23:58:00+01:00,2018-11-05T07:52:00+01:00,11280,14940,0,2220,3,300,240,0,0,0,0,0,
4,2018-11-05T23:35:00+01:00,2018-11-06T07:57:00+01:00,11460,17160,0,1500,2,360,0,0,0,0,0,0,


In [4]:
pasos.head()

Unnamed: 0,date,value
0,2023-05-08,3972
1,2023-05-07,8002
2,2023-05-06,154
3,2023-05-05,4356
4,2023-05-04,15933


In [5]:
pasos['pasos'] = pasos['value']
pasos = pasos.drop('value', axis=1)

In [6]:
print(sueño.shape, pasos.shape)

(762, 15) (1650, 2)


In [7]:
sueño.dtypes

Desde                       object
Hasta                       object
Ligero (s)                   int64
Profundido (s)               int64
Rem (s)                      int64
Despierto (s)                int64
Interrupciones               int64
Conciliación (s)             int64
Duration to wake up (s)      int64
Snoring (s)                  int64
Snoring episodes             int64
Average heart rate           int64
Heart rate (min)             int64
Heart rate (max)             int64
Night events               float64
dtype: object

## Unificación de tablas

In [8]:
# Creamos la columna 'Fecha Despertar' por la que vamos a hacer la concatenación
sueño['Fecha Despertar'] = sueño['Hasta'].astype(str)
sueño['Fecha Despertar'] = sueño['Fecha Despertar'].str.slice(0,10)

# Cambiamos a formato fecha
sueño['Fecha Despertar'] = pd.to_datetime(sueño['Fecha Despertar'])

In [9]:
# Unificamos las tablas por la columna común
sueño_pasos = sueño.merge(pasos, left_on='Fecha Despertar', right_on='date')
sueño_pasos.head()

Unnamed: 0,Desde,Hasta,Ligero (s),Profundido (s),Rem (s),Despierto (s),Interrupciones,Conciliación (s),Duration to wake up (s),Snoring (s),Snoring episodes,Average heart rate,Heart rate (min),Heart rate (max),Night events,Fecha Despertar,date,pasos
0,2018-11-01T23:08:00+01:00,2018-11-02T09:15:00+01:00,18720,15480,0,2220,2,0,420,0,0,0,0,0,,2018-11-02,2018-11-02,3665
1,2018-11-03T02:18:00+01:00,2018-11-03T09:48:00+01:00,9240,16080,0,1680,1,360,840,0,0,0,0,0,,2018-11-03,2018-11-03,3725
2,2018-11-03T23:15:00+01:00,2018-11-04T10:07:00+01:00,16680,19320,0,3120,5,0,0,0,0,0,0,0,,2018-11-04,2018-11-04,3976
3,2018-11-04T23:58:00+01:00,2018-11-05T07:52:00+01:00,11280,14940,0,2220,3,300,240,0,0,0,0,0,,2018-11-05,2018-11-05,12174
4,2018-11-05T23:35:00+01:00,2018-11-06T07:57:00+01:00,11460,17160,0,1500,2,360,0,0,0,0,0,0,,2018-11-06,2018-11-06,5391


In [10]:
sueño_pasos.shape

(762, 18)

## Análisis de las variables

In [11]:
for i in sueño_pasos.columns:
    print(i)
    print(sueño_pasos[i].describe(), '\n')

Desde
count                           762
unique                          762
top       2018-11-01T23:08:00+01:00
freq                              1
Name: Desde, dtype: object 

Hasta
count                           762
unique                          762
top       2018-11-02T09:15:00+01:00
freq                              1
Name: Hasta, dtype: object 

Ligero (s)
count      762.000000
mean     12846.922572
std       3440.320273
min        180.000000
25%      10800.000000
50%      13020.000000
75%      15239.000000
max      21540.000000
Name: Ligero (s), dtype: float64 

Profundido (s)
count      762.000000
mean     13889.370079
std       3451.519456
min          0.000000
25%      12000.250000
50%      13920.000000
75%      15840.000000
max      24840.000000
Name: Profundido (s), dtype: float64 

Rem (s)
count    762.0
mean       0.0
std        0.0
min        0.0
25%        0.0
50%        0.0
75%        0.0
max        0.0
Name: Rem (s), dtype: float64 

Despierto (s)
count     762.00

## Transformación de las columnas

In [12]:
# Eliminamos las varibales que no nos interesan
sueño_pasos = sueño_pasos.drop(columns=['Rem (s)', 'Snoring (s)', 'Snoring episodes', 'Average heart rate',
                                       'Heart rate (min)', 'Heart rate (max)', 'Night events', 'date'])
sueño_pasos.head()

Unnamed: 0,Desde,Hasta,Ligero (s),Profundido (s),Despierto (s),Interrupciones,Conciliación (s),Duration to wake up (s),Fecha Despertar,pasos
0,2018-11-01T23:08:00+01:00,2018-11-02T09:15:00+01:00,18720,15480,2220,2,0,420,2018-11-02,3665
1,2018-11-03T02:18:00+01:00,2018-11-03T09:48:00+01:00,9240,16080,1680,1,360,840,2018-11-03,3725
2,2018-11-03T23:15:00+01:00,2018-11-04T10:07:00+01:00,16680,19320,3120,5,0,0,2018-11-04,3976
3,2018-11-04T23:58:00+01:00,2018-11-05T07:52:00+01:00,11280,14940,2220,3,300,240,2018-11-05,12174
4,2018-11-05T23:35:00+01:00,2018-11-06T07:57:00+01:00,11460,17160,1500,2,360,0,2018-11-06,5391


In [13]:
# Quitamos la zona horaria de las columnas 'Desde' y 'Hasta'
sueño_pasos['Desde'] = sueño_pasos['Desde'].astype(str)
sueño_pasos['Hasta'] = sueño_pasos['Hasta'].astype(str)

sueño_pasos['Desde'] = sueño_pasos['Desde'].str[:-6]
sueño_pasos['Hasta'] = sueño_pasos['Hasta'].str[:-6]

sueño_pasos['Desde'] = pd.to_datetime(sueño_pasos['Desde'])
sueño_pasos['Hasta'] = pd.to_datetime(sueño_pasos['Hasta'])

In [14]:
# Creamos la columna Tiempo Durmiendo
sueño_pasos['Tiempo Durmiendo (s)'] = sueño_pasos['Ligero (s)'] + sueño_pasos['Profundido (s)']

In [15]:
# Vamos a obtener la hora y minuto de las columnas 'Desde' y 'Hasta'
sueño_pasos['Hora Desde'] = sueño_pasos['Desde'].dt.hour
sueño_pasos['Minuto Desde'] = sueño_pasos['Desde'].dt.minute
sueño_pasos = sueño_pasos.drop(columns='Desde')

sueño_pasos['Hora Hasta'] = sueño_pasos['Hasta'].dt.hour
sueño_pasos['Minuto Hasta'] = sueño_pasos['Hasta'].dt.minute
sueño_pasos = sueño_pasos.drop(columns='Hasta')

In [16]:
# Eliminamos la variable 'Fecha Despertar' porque no nos sirve para el modelo KMeans
sueño_pasos = sueño_pasos.drop(columns='Fecha Despertar')

In [17]:
# Renombramos las columnas
sueño_pasos.rename(columns={'Profundido (s)': 'Profundo (s)'}, inplace=True)
sueño_pasos.rename(columns={'Duration to wake up (s)': 'Tiempo en Levantarse (s)'}, inplace=True)
sueño_pasos.rename(columns={'pasos': 'Pasos'}, inplace=True)
sueño_pasos.rename(columns={'Hora Desde': 'Hora Dormir'}, inplace=True)
sueño_pasos.rename(columns={'Minuto Desde': 'Minuto Dormir'}, inplace=True)
sueño_pasos.rename(columns={'Hora Hasta': 'Hora Despertar'}, inplace=True)
sueño_pasos.rename(columns={'Minuto Hasta': 'Minuto Despertar'}, inplace=True)

# Las ordenamos
sueño_pasos = sueño_pasos[['Hora Dormir', 'Minuto Dormir', 'Hora Despertar', 'Minuto Despertar', 
                          'Tiempo Durmiendo (s)', 'Ligero (s)', 'Profundo (s)', 'Despierto (s)', 
                          'Conciliación (s)', 'Tiempo en Levantarse (s)', 'Interrupciones', 'Pasos']]
sueño_pasos.head()

Unnamed: 0,Hora Dormir,Minuto Dormir,Hora Despertar,Minuto Despertar,Tiempo Durmiendo (s),Ligero (s),Profundo (s),Despierto (s),Conciliación (s),Tiempo en Levantarse (s),Interrupciones,Pasos
0,23,8,9,15,34200,18720,15480,2220,0,420,2,3665
1,2,18,9,48,25320,9240,16080,1680,360,840,1,3725
2,23,15,10,7,36000,16680,19320,3120,0,0,5,3976
3,23,58,7,52,26220,11280,14940,2220,300,240,3,12174
4,23,35,7,57,28620,11460,17160,1500,360,0,2,5391


In [18]:
# Guardamos el DataFrame
sueño_pasos.to_csv('df_sueño_pasos_1.csv')