# Progetto DataMining

### Introduzione al dataset

Il datatset utilizzato per questo progetto può essere scaricato al seguente link: [https://datasets.simula.no/pmdata/](https://datasets.simula.no/pmdata/)

In [None]:
import pandas as pd
import json as json
from datetime import datetime
import dateutil as du

Di seguito va inserito il percorso della cartella che contiene i dati.

In [None]:
PATH = '../../pmdata/'

In [None]:
def calories_to_df(root_path, partecipants):
    """Funzione che dal file json delle calorie lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    calories_file = 'calories.json'
    for p_id in partecipants: 
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        with open(p_folder + calories_file) as file:
            dict_cal = json.load(file)
        for d in dict_cal:
            d['TS'] = du.parser.parse(d['dateTime'])
            d['calories'] = float(d['value'])
            d.pop('dateTime')
            d.pop('value')
        df_cal = pd.DataFrame.from_dict(dict_cal)
        df_cal['partecipant'] = p_id
        df_cal = df_cal.set_index(['partecipant','TS'])
        dfs.append(df_cal)
    r = pd.concat(dfs)
    r = r.sort_index()
    return r

In [None]:
calories = calories_to_df(PATH,[1,2])

In [None]:
calories

**OSS:** La parte appena scritta è stata implementata guardando il file del professore per poter capire meglio e per iniziare mettendo mano sul dataset.

# Data Mining Project (part 1) 

Write a  function similar to
```python
calories_to_df
```

For the json files:

- sedentary_minutes.json
- distance.json
- sleep.json
- exercise.json
- heart_rate.json
- steps.json
- lightly_active_minutes.json
- time_in_heart_rate_zones.json
- moderately_active_minutes.json
- very_active_minutes.json
- resting_heart_rate.json

Implementazione della funzione 
```python
x_minutes_df
```
Per la creazione del dataFrame partendo dai file che rappresentano l'attività **x_minutes.json**

In [None]:
def x_minutes_df(root_path,partecipants,n_file):
    """Funzione che dal file json lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -param n_file: nome del file da andare a trasformare
    -return: dataframe contenente i dati
    
    (utilizzare per i file contenente i minutes)
    """
    dfs = []
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        sed_min_file = n_file
        with open(p_folder + sed_min_file) as file:
            dict_sed_min = json.load(file)
        for d in dict_sed_min:
            d['TS'] = du.parser.parse(d['dateTime'])
            d['mins'] = int(d['value'])
            d.pop('dateTime')
            d.pop('value')
        df_sed_min = pd.DataFrame.from_dict(dict_sed_min)
        df_sed_min['partecipant'] = p_id
        df_sed_min = df_sed_min.set_index(['partecipant','TS'])
        dfs.append(df_sed_min)
    r = pd.concat(dfs)
    r = r.sort_index()
    return r
        

Per la creazione del dataFrame partendo dal file **sedentary_minutes.json**

In [None]:
sedentary_minutes = x_minutes_df(PATH,[1,2],'sedentary_minutes.json')

In [None]:
sedentary_minutes

Per la creazione del dataFrame partendo dal file **moderately_active_minutes.json**

In [None]:
moderately_active_minutes = x_minutes_df(PATH,[1,2],'moderately_active_minutes.json')

In [None]:
moderately_active_minutes

Per la creazione del dataFrame partendo dal file **lightly_active_minutes.json**

In [None]:
lightly_active_minutes = x_minutes_df(PATH,[1,1],'lightly_active_minutes.json')

In [None]:
lightly_active_minutes

Per la creazione del dataFrame partendo dal file **very_active_minutes.json**

In [None]:
very_active_minutes = x_minutes_df(PATH,[1,1],'very_active_minutes.json')

In [None]:
very_active_minutes

Implementazione della funzione 
```python
distance_to_df
```
Per la creazione del dataFrame partendo dal file **distance.json**

In [None]:
def distance_to_df(root_path,partecipants):
    """Funzione che dal file json distance lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        distance_file = 'distance.json'
        with open(p_folder + distance_file) as file:
            dict_distance = json.load(file)
        for d in dict_distance:
            d['TS'] = du.parser.parse(d['dateTime'])
            d['distance'] = int(d['value'])
            d.pop('dateTime')
            d.pop('value')
        df_distance = pd.DataFrame.from_dict(dict_distance)
        df_distance['partecipant'] = p_id
        df_distance = df_distance.set_index(['partecipant','TS'])
        dfs.append(df_distance)
    r = pd.concat(dfs)
    r = r.sort_index()
    return r

In [None]:
distance = distance_to_df(PATH,[1,10])

In [None]:
distance

Implementazione della funzione 
```python
heart_rate_to_df
```
Per la creazione del dataFrame partendo dal file **heart_rate.json**

In [None]:
def heart_rate_to_df(root_path,partecipants):
    """Funzione che dal file json heart_rate lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        hr_file = 'heart_rate.json'
        with open(p_folder + hr_file) as file:
            dict_hr = json.load(file)
        for d in dict_hr:
            d['TS'] = du.parser.parse(d['dateTime'])
            d['bpm'] = d["value"]["bpm"]
            d['confidence'] = d["value"]["confidence"]
            d.pop('dateTime')
            d.pop('value')
        df_hr = pd.DataFrame.from_dict(dict_hr)
        df_hr['partecipant'] = p_id
        df_hr = df_hr.set_index(['partecipant','TS'])
        dfs.append(df_hr)
    r = pd.concat(dfs)
    r = r.sort_index()
    return r

In [None]:
heart_rate = heart_rate_to_df(PATH,[1,1])

In [None]:
heart_rate

Implementazione della funzione 
```python
sleep_to_df
```
Per la creazione del dataFrame partendo dal file **sleep.json**

In [None]:
def sleep_to_df(root_path,partecipants):
    """Funzione che dal file json sleep lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        sleep_file = 'sleep.json'
        with open(p_folder + sleep_file) as file:
            dict_sleep = json.load(file)
        for d in dict_sleep:
            d['startT'] = du.parser.parse(d['startTime'])
            d['endT'] = du.parser.parse(d['endTime'])
            if 'deep' in d['levels']['summary']:
                d['levelDeep'] = d['levels']['summary']['deep']
            if 'wake' in d['levels']['summary']:
                d['levelWake'] = d['levels']['summary']['wake']
            if 'light' in d['levels']['summary']:
                d['levelLight'] = d['levels']['summary']['light']
            if 'rem' in d['levels']['summary']:
                d['levelRem'] = d['levels']['summary']['rem']
            if 'shortData' in d['levels']:  
                d['shortData'] = d['levels']['shortData']
            d['data'] = d['levels']['data']
            d.pop('startTime')
            d.pop('endTime')
            d.pop('logId')
            d.pop('infoCode')
            d.pop('levels')
            d.pop('minutesToFallAsleep')
        df_sleep = pd.DataFrame.from_dict(dict_sleep)
        df_sleep['partecipants'] = p_id
        df_sleep = df_sleep.set_index(['partecipants','dateOfSleep'])
        dfs.append(df_sleep)
    r = pd.concat(dfs)
    r = r.sort_index()
    
    return r

In [None]:
sleep= sleep_to_df(PATH,[1,2])

In [None]:
sleep

Implementazione della funzione 
```python
exercise_to_df
```
Per la creazione del dataFrame partendo dal file **exercise.json**

In [None]:
def exercise_to_df(root_path,partecipants):
    """Funzione che dal file json exercise lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        exercise_file = 'exercise.json'
        with open(p_folder + exercise_file) as file:
            dict_exercise = json.load(file)
        
        for d in dict_exercise:
            d['start'] = du.parser.parse(d['startTime'])
            d['activityLevelSedentary'] = d['activityLevel'][0]
            d['activityLevelLightly'] = d['activityLevel'][1]
            d['activityLevelFairly'] = d['activityLevel'][2]
            d['activityLevelVery'] = d['activityLevel'][3]
            if 'heartRateZones' in d:
                d['heartRateZonesOutofRange'] = d['heartRateZones'][0]
                d['heartRateZonesFatBurn'] = d['heartRateZones'][1]
                d['heartRateZonesCardio'] = d['heartRateZones'][2]
                d['heartRateZonesPeak'] = d['heartRateZones'][3]
            else:
                d['heartRateZonesOutofRange'] = None
                d['heartRateZonesFatBurn'] = None
                d['heartRateZonesCardio'] = None
                d['heartRateZonesPeak'] = None
            d.pop('activityTypeId')
            d.pop('logId')
            d.pop('logType')
            d.pop('lastModified')
            d.pop('originalStartTime')
            d.pop('hasGps')
            d.pop('shouldFetchDetails')
            d.pop('originalDuration')
            d.pop('activityLevel')
            if 'heartRateZones' in d:
                d.pop('heartRateZones')
            
        df_exercise = pd.DataFrame.from_dict(dict_exercise)
        df_exercise['partecipants'] = p_id
        df_exercise = df_exercise.set_index(['partecipants','start'])
        dfs.append(df_exercise) 
    r = pd.concat(dfs)
    r = r.sort_index()
    r = r.fillna(0)
    return r

In [None]:
exercise = exercise_to_df(PATH,[1,2])

In [None]:
exercise.head()

Implementazione della funzione 
```python
steps_to_df
```
Per la creazione del dataFrame partendo dal file **steps.json**

In [None]:
def steps_to_df(root_path,partecipants):
    """Funzione che dal file json steos lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        steps_file = 'steps.json'
        with open(p_folder + steps_file) as file:
            dict_steps = json.load(file)
        for d in dict_steps:
            d['TS'] = du.parser.parse(d['dateTime'])
            d['STEPS'] = int(d['value'])
            d.pop('dateTime')
            d.pop('value')
        df_steps = pd.DataFrame.from_dict(dict_steps)
        df_steps['partecipant'] = p_id
        df_steps = df_steps.set_index(['partecipant','TS'])
        dfs.append(df_steps)
    r = pd.concat(dfs)
    r = r.sort_index()
    return r

In [None]:
steps = steps_to_df(PATH,[1,1])

In [None]:
steps

Implementazione della funzione 
```python
time_in_hr_zones_to_df
```
Per la creazione del dataFrame partendo dal file **time_in_heart_rate_zones.json**

In [None]:
def time_in_hr_zones_to_df(root_path,partecipants):
    """Funzione che dal file json time_in_heart_rate_zones lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        t_hr_zones_file = 'time_in_heart_rate_zones.json'
        with open(p_folder + t_hr_zones_file) as file:
            dict_t_hr_zones = json.load(file)
        for d in dict_t_hr_zones:
            d['TS'] = du.parser.parse(d['dateTime'])
            d['times_Zone1'] = d["value"]["valuesInZones"]['IN_DEFAULT_ZONE_1']
            d['times_Zone2'] = d["value"]["valuesInZones"]['IN_DEFAULT_ZONE_2']
            d['times_Zone3'] = d["value"]["valuesInZones"]['IN_DEFAULT_ZONE_3']
            d['times_below_def_zone1'] = d["value"]["valuesInZones"]['BELOW_DEFAULT_ZONE_1']
            d.pop('dateTime')
            d.pop('value')
        df_t_hr_zones = pd.DataFrame.from_dict(dict_t_hr_zones)
        df_t_hr_zones['partecipant'] = p_id
        df_t_hr_zones = df_t_hr_zones.set_index(['partecipant','TS'])
        dfs.append(df_t_hr_zones)
    r = pd.concat(dfs)
    r = r.sort_index()
    return r

In [None]:
time_in_heart_rate_zones = time_in_hr_zones_to_df(PATH,[1,2])

In [None]:
time_in_heart_rate_zones

Implementazione della funzione 
```python
resting_heart_rate_to_df
```
Per la creazione del dataFrame partendo dal file **resting_heart_rate.json**

In [None]:
def resting_heart_rate_to_df(root_path,partecipants):
    """Funzione che dal file json resting_heart_rate lo trasforma in un dataframe.
    
    -param root_path: il percorso del file
    -param partecipanti: partecipanti presi in considerazione. es [1,2]
    -return: dataframe contenente i dati
    """
    dfs = []
    resting_hr_file = 'resting_heart_rate.json'
    for p_id in partecipants:
        p_folder = root_path + "p{:02d}".format(p_id) + '/fitbit/'
        with open(p_folder + resting_hr_file) as file:
            dict_resting_hr = json.load(file)
        for d in dict_resting_hr:
            d['TS'] = du.parser.parse(d['dateTime'])
            d['rest'] = d['value']['value']
            d['error'] = d['value']['error']
            d.pop('dateTime')
            d.pop('value')
            
        df_resting_hr = pd.DataFrame.from_dict(dict_resting_hr)
        df_resting_hr['partecipant'] = p_id
        df_resting_hr = df_resting_hr.set_index(['partecipant','TS'])
        dfs.append(df_resting_hr)
    r= pd.concat(dfs)
    r = r.sort_index()
    
    return r
    

In [None]:
resting_hr = resting_heart_rate_to_df(PATH, [1,2,3,4,5,6,7,8])

In [None]:
resting_hr

# Scelte sui Dati

Per i seguenti file ho mantenuto la stessa struttura del json:
- calories.json
- distance.json
- sedentary_minutes.json
- lightly_active_minutes.json
- moderately_active_minutes.json
- very_active_minutes.json
- steps.json



Invece per il file **exercise.json** ho deciso di eliminare la lista `activityLevel` e creare una colonna per ogni elemento della lista: activityLevelSedentary, activityLevelLightly, activityLevelFairly e activityLevelVery. In modo simile è stato fatto per la lista `heartRateZones` generando heartRateZonesOutofRange, heartRateZonesFatBurn, heartRateZonesCardio, heartRateZonesPeak. Nella creazione del dataFrame ho omesso:
- logId, perchè introducendo per ogni riga il numero del partecipante non ho bisogno di identificare l'attività;
- activityTypeId;
- duration;
- logType;
- manualValuesSpecified;
- lastModified;
- originalStartTime;
- originalDuration;
- hasGps;
- shouldFetchDetails;