In [1]:
import pandas as pd

dataset = pd.read_csv('BondYield.csv',index_col=0)
dataset

Unnamed: 0,time,value
1,1990.0,8.99
2,1990.083333,9.72
3,1990.166667,9.37
4,1990.25,9.46
5,1990.333333,9.47
6,1990.416667,9.26
7,1990.5,9.24
8,1990.583333,9.41
9,1990.666667,9.56
10,1990.75,9.53


In [2]:
assert dataset.shape[0] == 60   # 60 osservazioni
assert dataset.shape[1] >= 2   # almeno 2 colonne
assert dataset.shape[1] == 2   # esattamente 2 colonne se la prima è usata come indice di riga

In [3]:
def date_fromFractional(frac_date):
    #print(frac_date)
    year = int(frac_date)
    month = int(((frac_date-year)*365)/30)+1
    
    return (month,year)

In [4]:
date_fromFractional(1995.5)

(7, 1995)

In [5]:
assert date_fromFractional(1989.0) == (1, 1989)   # mese di gennaio corretto
assert date_fromFractional(1990.5) == (7, 1990)   # mese di luglio corretto
assert date_fromFractional(dataset.time.iat[1]) == (2, 1990) # febbraio 1990 come nel dataset
assert all(date_fromFractional(1990+i/12) == (i+1, 1990) for i in range(12)) # tutti i mesi alla precisione di macchina

In [6]:
m = []
y = []
for i in dataset.time:
    data = date_fromFractional(i)
    m.append(data[0])
    y.append(data[1])
dataset.pop('time')
dataset['month']= m
dataset['year'] = y
dataset

Unnamed: 0,value,month,year
1,8.99,1,1990
2,9.72,2,1990
3,9.37,3,1990
4,9.46,4,1990
5,9.47,5,1990
6,9.26,6,1990
7,9.24,7,1990
8,9.41,8,1990
9,9.56,9,1990
10,9.53,10,1990


In [7]:
time = 'time'
assert not dataset.month.empty   # è presente la colonna month
assert not dataset.year.empty    # è presente la colonna year
assert (dataset.month.iat[0], dataset.year.iat[0]) == (1, 1990) # le nuove colonne hanno valori corretti
assert time not in dataset.columns # la colonna `time` è stata rimossa
assert 0 not in dataset.index  # l'indice 0 non è presente nel dataset.

In [8]:
unici = dataset.year.unique()
unici

for i in unici:
    print(min(dataset[dataset.year==i].value))

8.99
8.31
7.92
6.66
6.92


In [9]:
yearly_stats = {int(i) : {'min':min(dataset[dataset.year==i].value),'max':max(dataset[dataset.year==i].value)} for i in unici }

In [10]:
yearly_stats

{1990: {'min': 8.99, 'max': 9.72},
 1991: {'min': 8.31, 'max': 9.04},
 1992: {'min': 7.92, 'max': 8.35},
 1993: {'min': 6.66, 'max': 7.91},
 1994: {'min': 6.92, 'max': 8.68}}

In [11]:
assert all(y in yearly_stats for y in range(1990, 1994+1))  # tutti gli anni nel dizionario
assert all(all(k in yearly_stats[y] for k in ['min','max']) for y in yearly_stats) # struttura corretta del dizionario
assert all(yearly_stats[y]['min'] <= yearly_stats[y]['max'] for y in yearly_stats) # contenuto valido
assert all(type(y) == int for y in yearly_stats)   # (Non valutato) Attenzione al tipo della chiave del dizionario

In [12]:
import json

with open('fileMio.json','w') as f:
    json.dump(yearly_stats ,f)

In [13]:
with open('yearly_stats.json', 'r') as jsonfile:
    test_dict = json.load(jsonfile)
    

In [14]:
test_dict

{'1990': {'min': 8.99, 'max': 9.72},
 '1991': {'min': 8.31, 'max': 9.04},
 '1992': {'min': 7.92, 'max': 8.35},
 '1993': {'min': 6.66, 'max': 7.91},
 '1994': {'min': 6.92, 'max': 8.68}}

In [15]:
yields = list(dataset.value)
yields_diff = ['+' if (yields[i+1]-yields[i])>0 else '-' for i in range(0,len(yields)-1)]
#yields_diff = ['+' if yields[i] - yields[i - 1] > 0 else '-' for i in range(1 , len(yields))]

yields_diff

['+',
 '-',
 '+',
 '+',
 '-',
 '-',
 '+',
 '+',
 '-',
 '-',
 '-',
 '-',
 '-',
 '+',
 '-',
 '-',
 '+',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '+',
 '+',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '+',
 '+',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '-',
 '+',
 '+',
 '-',
 '-',
 '+',
 '+',
 '+',
 '+',
 '-',
 '+',
 '-',
 '+',
 '+',
 '+',
 '-']

In [16]:
assert yields_diff[0:10] == ['+', '-', '+', '+', '-', '-', '+', '+', '-', '-'] # Contenuto corretto
assert len(yields_diff) == len(yields)-1 # Lunghezza corretta

In [19]:
yields_diff_str = ''.join(str(i) for i in yields_diff)
yields_diff_str

'+-++--++-----+--+-------++------++----------++--++++-+-+++-'

In [20]:
assert all(c in yields_diff_str for c in '+-') and type(yields_diff_str) == str # yields_diff_str è una stringa corretta

In [26]:
import re
subs = re.findall(r'\+{3,}',yields_diff_str)
subs += re.findall(r'\-{3,}',yields_diff_str)
subs

['++++', '+++', '-----', '-------', '------', '----------']

In [27]:
assert all(len(s)>=3 for s in subs)   # Tutte le sottostringhe hanno almeno tre caratteri
assert all(len(set(s)) == 1 for s in subs) # Ogni sottostringa ha lo stesso carattere replicato più volte.