Lorenzo Colletta, Giorgio Fantilli, Luca Lucioli

## Parte 1 - Descrizione del problema

Il dataset in esame include dati per la stima dei livelli di obesità negli individui provenienti dai paesi di Messico, Perù e Colombia, in base alle loro abitudini alimentari e alle condizioni fisiche. `TODO`

Di seguito vengono importate le librerie necessarie per scaricare i file, organizzare le strutture dati e disegnare i grafici.

In [None]:
import os.path

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

### Caricamento dati e preprocessing

In [None]:
file_zip_url = "https://archive.ics.uci.edu/static/public/544/estimation+of+obesity+levels+based+on+eating+habits+and+physical+condition.zip"
file_zip_name = "obesity_data.zip"
file = "./ObesityDataSet_raw_and_data_sinthetic.csv"

if not os.path.exists(file_zip_name):
    from urllib.request import urlretrieve
    urlretrieve(file_zip_url, file_zip_name)
    from zipfile import ZipFile
    with ZipFile(file_zip_name) as f:
        f.extractall()

obesity_row_data = pd.read_csv(file)
obesity_row_data = obesity_row_data.rename(columns={"family_history_with_overweight" : "FHWO", "NObeyesdad" : "ObesityLevel"})

obesity_row_data.head(10)

Sopra viene mostrato un piccolo estratto del dataset in esame, dopo aver rinominato alcune feature per migliorarne la leggibilità e l'utilizzo.

Di seguito sono riportate le dimensioni in memoria, il numero di istanze non nulle e il tipo delle feature che compongono i dati raccolti nel dataset.


In [None]:
obesity_row_data.info(memory_usage="deep");

Osserviamo come molte delle feature sono di tipo `object`. Procediamo di seguito con la trasformazione in variabili categoriche e booleane per limitare la memoria occupata.

In [None]:
categorical = ["NCP", "CAEC", "CH2O", "FAF",
               "TUE", "CALC", "MTRANS", "ObesityLevel"];
boolean = ["FHWO", "FAVC", "SMOKE", "SCC"]

obesity_row_data[categorical] = obesity_row_data[categorical].astype("category")

obesity_row_data[boolean] = obesity_row_data[boolean].apply(lambda x: x.map({"yes": True, "no": False})).astype(bool)

obesity_row_data.info(verbose=False, memory_usage="deep");

Osserviamo come tutte le feature sono rileventi per il problema, e soprattutto che nessuna delle stesse presenta valori nulli. Non risulta perciò necessaria nessuna pulizia dei dati.

## Descrizione delle feature
Il dataset contiene le seguenti feature:
*   `Gender`: genere
*   `Age`: età
*   `Height`: altezza
*   `Weight`: peso
*   `FHWO`: indica se il soggetto ha familiari che sono o sono stati sovrappeso
*   `FAVC`: indica se il soggetto mangia spesso cibo ad alto contenuto calorico o meno
*   `FCVC`: indica se solitamente il soggetto mangia verdura durante i pasti o meno
*   `NCP`: indica quanti pasti consuma il soggetto durante la giornata (tra 1 e 2, tre, più di tre)
*   `CAEC`: indica se il soggetto mangia tra i pasti (no, qualche volta, frequentemente, sempre)
*   `SMOKE`: indica se il soggetto fuma o meno
*   `CH2O`: indica quanta acqua beve il soggetto durante il giorno (meno di un litro, tra uno e due litri, più di due litri)
*   `SCC`: indica se il soggetto monitora le calorie che assume durante il giorno
*   `FAF`: indica quanto spesso il soggetto svolge attività fisica durante la settimana (mai, da 1 a 2 volte a settimana, da 2 a 4 volte a settimana, da 4 a 5 volte a settimana)
*   `TUE`: indica quanto spesso il soggetto utilizza apparecchi tecnologici durante il giorno come telefono, videogiochi, tv, computer o altri (da 0 a 2 ore, da 3 a 5 ore, più di 5 ore)
*   `CALC`: indica quanto spesso il soggetto beve (mai, qualche volta, frequentemente, sempre)
*   `MTRANS`: indica quale mezzo di trasporto utilizza solitamente il soggetto (auto, moto, bicicletta, trasporto pubblico, a piedi)

La variabile target è `ObesityLevel`, che rappresenta il livello di obesità nelle seguenti classi: Insufficient Weight, Normal Weight, Overweight Level I, Overweight Level II, Obesity Type I, Obesity Type II, and Obesity Type III.

In [None]:
obesity_row_data["ObesityLevel"].value_counts().plot.pie(autopct='%1.1f%%', startangle=90)

Osserviamo dal grafico a torta che la variabile target `ObesityLevel` risulta essere bilanciata, ovvero il numero di istanze per le possibili classi sono pressochè identiche.  Il problema in esame risulta quindi essere bilanciato e non e' necessario utilizzare tecniche di bilanciamento delle classi.

In [None]:
obesity_row_data.describe()

dasdasdadsadadsaddadadasdsadas sdsadadasd