# Introduzione

Il codice del progetto è open source con [licenza MIT](https://github.com/OB-UNISA/Statistica/blob/master/LICENSE) ed è possibile trovarlo al seguente link: [https://github.com/OB-UNISA/Statistica](https://github.com/OB-UNISA/Statistica)

I dati unidimensionali esaminati sono quelli del peso corporeo nel periodo di tre anni di un uomo di età 24 attuali.  
I dati bidimensionali riguardano il peso corporeo della medesima persona nello stesso periodo e le calorie assunte giornalmente.

Il peso corporeo è stato registrato con due bilance differenti, una per il primo anno e un'altra nei restanti e quindi vi potrebbe essere una differenza di misura.  
I dati dei primi mesi sulle calorie assunte non sono molto precisi in quanto la quantità del cibo non veniva pesata, ma approssimata.

Allo stato dell'arte, importando i dati da Samsung Health, è possibile visualizzare le proprie statistiche. Questo potrebbe non funzionare in futuro se la forma dei dati venisse cambiata, ossia il parsing dei dati non funzionerebbe più. I commenti sui dati, tuttavia, risulteranno inefficienti in quanto non sono dinamici, bensì basati su un campione di esso.

Poiché i dati sono molti riguardanti il peso corporeo, circa 500, e sulle calorie assunte, quasi 1000, ne verrà preso un campione calcolato nel seguente modo:
* Per il peso corporeo, il campione sarà il peso medio delle pesate in ogni settimana.  
  Quindi x_i = peso medio nella settimana i.
* Per le calorie assunte, il campione sarà la media delle calorie assunte in ogni settimana.  
  Quindi y_i = media delle calorie assunte nella settimana i.

**Nota:** Se nella settimana i non vi sono dati sul peso, essa verrà saltata e quindi anche le rispettive calorie assunte.

Si è deciso di usare la media campionaria e non la mediana perché i picchi di valore sono importanti da considerare.

# Installazione dipendenze

In [71]:
!pip install matplotlib
!pip install pandas



In [72]:
import matplotlib.pyplot as plt
import pandas as pd
import csv

# Parsing dei dati del peso corporeo

È stato necessario arrotondare i valori del peso corporeo perché altrimenti si avrebbe avuto il numero di modalità del carattere quasi uguale all'ampiezza del dato.

In [73]:
with open('peso.csv', 'r') as csvfile:
    reader = csv.reader(csvfile, delimiter=',')
    peso = []
    reader.__next__()
    reader.__next__()
    for row in reader:
        peso.append([row[6], float(row[4])])

df_peso = pd.DataFrame(peso, columns=['data', 'peso'])
df_peso['data'] = pd.to_datetime(df_peso['data'])
df_peso = df_peso.groupby(pd.Grouper(key='data', freq='W')).mean().round(0)
df_peso

Unnamed: 0_level_0,peso
data,Unnamed: 1_level_1
2019-12-29,140.0
2020-01-05,
2020-01-12,140.0
2020-01-19,
2020-01-26,139.0
...,...
2022-05-08,105.0
2022-05-15,104.0
2022-05-22,104.0
2022-05-29,103.0


Sono state eliminate le settimane in cui non vi erano dati.

In [74]:
x_not_sorted = [p for p in df_peso['peso'] if pd.isnull(p) == False]
x = sorted(x_not_sorted)
n = len(x)
print(f'Dimensione del dato: {n}')
x

Dimensione del dato: 115


[102.0,
 102.0,
 103.0,
 103.0,
 103.0,
 103.0,
 103.0,
 103.0,
 103.0,
 103.0,
 103.0,
 104.0,
 104.0,
 104.0,
 104.0,
 104.0,
 104.0,
 104.0,
 104.0,
 104.0,
 105.0,
 105.0,
 105.0,
 105.0,
 105.0,
 105.0,
 105.0,
 105.0,
 105.0,
 105.0,
 106.0,
 106.0,
 106.0,
 106.0,
 106.0,
 107.0,
 107.0,
 108.0,
 108.0,
 108.0,
 109.0,
 109.0,
 110.0,
 111.0,
 111.0,
 112.0,
 112.0,
 113.0,
 114.0,
 115.0,
 116.0,
 117.0,
 117.0,
 117.0,
 117.0,
 117.0,
 117.0,
 117.0,
 118.0,
 118.0,
 118.0,
 118.0,
 118.0,
 118.0,
 118.0,
 119.0,
 120.0,
 121.0,
 121.0,
 121.0,
 121.0,
 122.0,
 122.0,
 122.0,
 122.0,
 122.0,
 123.0,
 124.0,
 124.0,
 125.0,
 125.0,
 125.0,
 126.0,
 126.0,
 126.0,
 126.0,
 126.0,
 127.0,
 127.0,
 127.0,
 128.0,
 128.0,
 129.0,
 129.0,
 129.0,
 130.0,
 130.0,
 131.0,
 131.0,
 132.0,
 132.0,
 133.0,
 133.0,
 134.0,
 134.0,
 135.0,
 136.0,
 137.0,
 137.0,
 138.0,
 138.0,
 139.0,
 139.0,
 140.0,
 140.0]

In [75]:
x_not_sorted = [p for p in df_peso['peso'] if pd.isnull(p) == False]
x = sorted(x_not_sorted)
n = len(x)
print(f'Dimensione del dato: {n}')
x

# Costruzione della tabella delle frequenze

### Calcolo delle modalità

In [76]:
v_x = [x[0]]
for i in range(1, len(x)):
    if v_x[-1] != x[i]:
        v_x.append(x[i])

for i, v_i in enumerate(v_x):
    print(f'v_{i + 1} = {v_i}')

### Calcolo della frequenza assoluta delle modalità

In [77]:
f_x = [1]
for i in range(1, len(x)):
    if x[i - 1] == x[i]:
        f_x[-1] += 1
    else:
        f_x.append(1)

for i, f_i in enumerate(f_x):
    print(f'f_{i + 1} = {f_i}')

### Calcolo della frequenza cumulativa assoluta delle modalità

In [78]:
F_x = [f_x[0]]
for i in range(1, len(f_x)):
    # Uso della relazione di ricorrenza
    F_x.append(F_x[-1] + f_x[i])

for i, F_i in enumerate(F_x):
    print(f'F_{i + 1} = {F_i}')

### Calcolo della frequenza relativa delle modalità

In [79]:
p_x = []
for f_i in f_x:
    p_x.append(f_i / n)

for i, p_i in enumerate(p_x):
    print(f'p_{i + 1} = {p_i}')

### Calcolo della frequenza cumulativa relativa delle modalità

In [80]:
P_x = []
for F_i in F_x:
    P_x.append(F_i / n)

for i, P_i in enumerate(P_x):
    print(f'P_{i + 1} = {P_i}')

### Tabella delle frequenze

In [70]:
table = []
for i in range(len(v_x)):
    table.append([i + 1, v_x[i], f_x[i], p_x[i], F_x[i], P_x[i]])

df = pd.DataFrame(table, columns=['i', 'v_i', 'f_i', 'p_i', 'F_i', 'P_i'])
df.set_index('i', inplace=True)
df

Unnamed: 0_level_0,v_i,f_i,p_i,F_i,P_i
i,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,102.0,2,0.017391,2,0.017391
2,103.0,9,0.078261,11,0.095652
3,104.0,9,0.078261,20,0.173913
4,105.0,10,0.086957,30,0.26087
5,106.0,5,0.043478,35,0.304348
6,107.0,2,0.017391,37,0.321739
7,108.0,3,0.026087,40,0.347826
8,109.0,2,0.017391,42,0.365217
9,110.0,1,0.008696,43,0.373913
10,111.0,2,0.017391,45,0.391304
