Per **serializzazione** (detta anche *marshalling*) intendiamo il processo di conversione di una struttura dati in una forma (usualmente uno stream di byte) che può essere conservata in un file o trasmessa su una rete. Di contro, la **deserializzazione** (detta anche *unmarshalling*) è il processo inverso, cioè la conversione dallo stream di byte ad una forma intellegibile dal linguaggio di programmazione che stiamo utilizzando. 

Uno dei casi più comuni di utilizzo di serializzazione è salvare lo stato di una rete neurale (ad esempio i suoi parametri dopo una certa iterazione) in maniera da poter ri-addestrare o utilizzare a produzione la nostra rete senza dover riaddestrare tutto. 

La libreria standard di Python offre 3 moduli diversi per fare serializzazione e deserializzazione di oggetti:

- `json`
- `pickle`
- `marshal`


In questo notebook ci concentreremo su `pickle` e `json`.

## JSON

JSON sta per **JavaScript Object Notation**. È un formato molto comune per la sua leggibilità e per la sua versatilità, che gli consente di essere language-indipendent. È *molto* usato nel mondo del web proprio a causa di questo suo ampio raggio di utilizzo in termini di linguaggi di programmazione che lo supportano. Un oggetto JSON di base è una serie di coppie chiave/valore. 

La sua sintassi ricorda *molto* da vicino un dizionario Python. Vediamo un esempio:
```
{
    "firstName"       : "Giuseppe",
    "lastName"        : "Mastrandrea",
    "birthDate"       : "20/02/1985",
    "married"         : true,
    "children"        : 1,
    "spokenLanguages" : ["Italian", "English"],
    "work": {
        "company" : "Datamasters",
        "mansion" : "Teacher"
    }
}
```

Come possiamo notare JSON è un formato che supporta: 
- stringhe
- numeri
- booleani
- array
- oggetti

e combinazioni fra di essi (ad esempio, possiamo avere array di oggetti, oggetti nestati in altri oggetti, etc).

L'altra cosa che salta all'occhio è che un oggetto serializzato in JSON somiglia *moltissimo* ad un dizionario Python. 

Iniziamo a vedere come è possibile codificare/decodificare degli oggetti JSON in Python:

In [4]:
import json

d = {
    'lastName': 'Mastrandrea',
    'firstName': 'Giuseppe',
    'married': True,
    'age': 37, 
    'hobbies': ['ML', 'Web Programming', 'Beer']
}

print(type(d))


filename = "files/json_dump.json"


<class 'dict'>


Per trasformare un dizionario Python in un oggetto JSON abbiamo a disposizione due metodi:

- `dump`
- `dumps`

Il primo scrive un oggetto JSON in un file, il secondo invece in una stringa.



In [7]:
with open(filename, "w") as f:
    json.dump(d, f) 
    # json.dump(d, f, indent=4, sort_keys=True)

Notiamo le virgolette. In JSON le chiavi e le stringhe

In [9]:
with open(filename, "r") as f:
    obj = json.load(f)
    print(type(obj))
    print(obj)
    print(obj['lastName'])

<class 'dict'>
{'lastName': 'Mastrandrea', 'firstName': 'Giuseppe', 'married': True, 'age': 37, 'hobbies': ['ML', 'Web Programming', 'Beer']}
Mastrandrea


In [10]:
stud = {
    "firstName": "Giuseppe",
    "lastName": "Mastrandrea",
    "number": 523562,
    "birthDate": "20/02/1985",
    "sex": "M",
    "average": 20.33,
    "partTime": False, 
    "exams": [
        {
            "name": "Analisi matematica 1",
            "grade": 18,
            "cfu": 6,
            "ssd": "MAT-01"
        },
        {
            "name": "Analisi matematica 2",
            "grade": 18,
            "cfu": 6,
            "ssd": "MAT-01"
        },
        {
            "name": "Sistemi operativi",
            "grade": 25,
            "cfu": 6,
            "ssd": "ING-INF-05"
        }
    ]
}

In [15]:
s = json.dumps(stud)
print(s)
print(type(s))
print(s[0])
print(s[1])
print(hex(ord(s[1])))

{"firstName": "Giuseppe", "lastName": "Mastrandrea", "number": 523562, "birthDate": "20/02/1985", "sex": "M", "average": 20.33, "partTime": false, "exams": [{"name": "Analisi matematica 1", "grade": 18, "cfu": 6, "ssd": "MAT-01"}, {"name": "Analisi matematica 2", "grade": 18, "cfu": 6, "ssd": "MAT-01"}, {"name": "Sistemi operativi", "grade": 25, "cfu": 6, "ssd": "ING-INF-05"}]}
<class 'str'>
{
"
0x22


In [16]:
new_obj = json.loads(s)
print(type(new_obj))
print(new_obj['exams'])

<class 'dict'>
[{'name': 'Analisi matematica 1', 'grade': 18, 'cfu': 6, 'ssd': 'MAT-01'}, {'name': 'Analisi matematica 2', 'grade': 18, 'cfu': 6, 'ssd': 'MAT-01'}, {'name': 'Sistemi operativi', 'grade': 25, 'cfu': 6, 'ssd': 'ING-INF-05'}]


In [18]:
class Stud(object):
    def __init__(self, firstName, lastName):
        self.firstName = firstName
        self.lastName = lastName
    
    def __str__(self):
        return f"{self.firstName} {self.lastName}"
        
s1 = Stud("Giuseppe", "Mastrandrea")

print(s1)

json.dumps(s1)

Giuseppe Mastrandrea


TypeError: Object of type Stud is not JSON serializable

In [22]:
from json import JSONEncoder

class StudEncoder(JSONEncoder):
    def default(self, obj):
        return {
            "firstName": obj.firstName,
            "lastName": obj.lastName
        }

me = Stud("Giuseppe", "Mastrandrea")

s = json.dumps(me, cls=StudEncoder)
print(s)


j = json.loads(s)
student = Stud(**j)
 
print(student)

{"firstName": "Giuseppe", "lastName": "Mastrandrea"}
Giuseppe Mastrandrea


In [24]:
import pickle

print(s1)
print(type(s1))

s = pickle.dumps(s1)
print(s)


copy = pickle.loads(s)
print(copy)

pickle_filename="files/pickle"

with open(pickle_filename, "wb") as f:
    pickle.dump(s1, f)

Giuseppe Mastrandrea
<class '__main__.Stud'>
b'\x80\x04\x95M\x00\x00\x00\x00\x00\x00\x00\x8c\x08__main__\x94\x8c\x04Stud\x94\x93\x94)\x81\x94}\x94(\x8c\tfirstName\x94\x8c\x08Giuseppe\x94\x8c\x08lastName\x94\x8c\x0bMastrandrea\x94ub.'
Giuseppe Mastrandrea


In [26]:
with open(pickle_filename, "rb") as f:
    obj = pickle.load(f)
    print(obj)
    print(type(obj))
    print(obj.firstName)

Giuseppe Mastrandrea
<class '__main__.Stud'>
Giuseppe


In [27]:
from sklearn.linear_model import LinearRegression
import numpy as np
lr = LinearRegression()

X = [[1], [20], [30]]
y = [0, 2, 3]
lr.fit(X, y)

LinearRegression()

In [30]:
print(lr.coef_)
print(lr.intercept_)

with open("files/model.pickle", "wb") as f:
    pickle.dump(lr, f)
    s = pickle.dumps(lr)
    print(s.decode("latin1"))


[0.10368664]
-0.09600614439324118
Ð      sklearn.linear_model._baseLinearRegression)}(fit_intercept	normalize
deprecatedcopy_Xn_jobsNpositiven_features_in_Kcoef_numpy.core.multiarray_reconstructnumpyndarrayK CbR(KKhdtypef8R(K<NNNJÿÿÿÿJÿÿÿÿK tbCÕ,j5º?tb	_residueshscalarhCr«d Ý*I?Rrank_K	singular_hhK hR(KKhCüüW¤)Õ4@tb
intercept_h#hCpObÒÛ¸¿R_sklearn_version1.0.2ub.


In [35]:
X = np.random.rand(100, 1)
y = np.random.rand(100)
    
for i in range(0, 1000):
    lr.fit(X, y)
    
print(f"coef_      after further training: {lr.coef_}")
print(f"intercept_ after further training: {lr.intercept_}")



with open("files/model.pickle", "rb") as f:
    model = pickle.load(f)
    print(f"coef_      legacy model: {model.coef_}")
    print(f"intercept_ legacy model: {model.intercept_}")

with open("files/model.pickle", "wb") as f:
    pickle.dump(lr, f)
    
with open("files/model.pickle", "rb") as f:
    model = pickle.load(f)
    print(f"coef_      legacy model: {model.coef_}")
    print(f"intercept_ legacy model: {model.intercept_}")

coef_      after further training: [-0.18245846]
intercept_ after further training: 0.5411611049028924
coef_      legacy model: [0.05146781]
intercept_ legacy model: 0.434968501594567
coef_      legacy model: [-0.18245846]
intercept_ legacy model: 0.5411611049028924
