# Serialisering

Serialisering (eller *serializing*) betyder att vi sparar data som binär data (*bytes*) istället för text.

Inom datavetenskapen är en *byte* specificerad som 8 *bits* (vilket är lite förvirrande och gärna hade fått styras upp av någon).

En *bit* är den minsta beståndsdelen av data, och är antingen `0`, eller `1`.

Med hjälp av 8 *bits* kan vi representera tal i bas 2 upp till 127 i bas 10.

Det är vanligt att *bytes* representeras i bas 16 (*hexadecimal*) istället eftersom två hexadecimala siffror motsvarar en *byte*. 

I bas 16 använder man bokstäverna `a` till `f` för att representera tal mellan 10 och 15.

|Bas 2 (binärt)|Bas 16 (Hexadecimalt)|Bas 10|
|-------------:|---------------------:|-----:|
|0000 0001     |1                     |1     |
|0000 1010     |a                     |10    |
|0000 1111     |f                     |15    |
|0001 0000     |10                    |16    |
|0111 1111     |3f                    |63    |
|1111 1111     |7f                    |127   |

*Tips: Kolla de inbyggda Pythonfunktionerna `bin()` och `hex()` om du vill omvandla tal mellan olika baser.*

In [1]:
n = 63
print(bin(n), hex(n), n, sep=" | ")

0b111111 | 0x3f | 63


In [16]:
b"HeLlX".hex(" ") 

'48 65 4c 6c 58'

In [17]:
bytes(range(15))

b'\x00\x01\x02\x03\x04\x05\x06\x07\x08\t\n\x0b\x0c\r\x0e'

In [6]:
int("48", base=16)

72

In [9]:
[chr(i) for i in [int(0x48), int(0x65), int(0x4c), int(0x6c), int(0x58)]]

['H', 'e', 'L', 'l', 'X']

In [8]:
ord("H")

72

In [13]:
0b110

6

Serialisering underlättar när data ska lagras i exempelvis en databas, eller skickas över nätverk.

Pythons inbyggda modul för att serialisera data heter `pickle`.

In [18]:
import csv
import pickle

Vi kan läsa in en `.csv`-fil och spara datan i en lista av dictionaries.

In [19]:
data = []
with open("DimCustomers.csv", "r", encoding="utf-8-sig") as f:
    r = csv.DictReader(f)
    [data.append(l) for l in r]

data[:5]


[{'CustomerID': '1',
  'JoinDate': '2021-11-24',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '2',
  'JoinDate': '2021-05-09',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '3',
  'JoinDate': '2022-02-04',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '4',
  'JoinDate': '2021-05-16',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '5',
  'JoinDate': '2021-09-16',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'}]

Vi serialiserar vår lista av dictionaries med `pickle.dump()`.

In [20]:
pickle.dump(data, open("customers.pkl", "wb"))

In [24]:
with open("customers.pkl", "rb") as f:
    for line in f.readlines():
        print(line.hex())

80049543110000000000005d94287d94288c0a
437573746f6d65724944948c0131948c084a6f696e44617465948c0a
323032312d31312d3234948c0c4163746976654d656d626572948c0474727565948c11417070726f766564546f436f6e74616374948c047472756594757d942868028c01329468048c0a
323032312d30352d30399468068c04747275659468088c047472756594757d942868028c01339468048c0a
323032322d30322d30349468068c04747275659468088c047472756594757d942868028c01349468048c0a
323032312d30352d31369468068c04747275659468088c047472756594757d942868028c01359468048c0a
323032312d30392d31369468068c04747275659468088c047472756594757d942868028c01369468048c0a
323032312d30352d30389468068c04747275659468088c0094757d942868028c01379468048c0a
323032312d30362d31399468068c04747275659468088c047472756594757d942868028c01389468048c0a
323032322d30332d31319468068c04747275659468088c047472756594757d942868028c01399468048c0a
323032312d30352d30369468068c04747275659468088c047472756594757d942868028c0231309468048c0a
323032312d30352d30369468068c04747275659468088c047472756594757d942

In [25]:
new_data = pickle.load(open("customers.pkl", "rb"))

new_data[:5]

[{'CustomerID': '1',
  'JoinDate': '2021-11-24',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '2',
  'JoinDate': '2021-05-09',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '3',
  'JoinDate': '2022-02-04',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '4',
  'JoinDate': '2021-05-16',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'},
 {'CustomerID': '5',
  'JoinDate': '2021-09-16',
  'ActiveMember': 'true',
  'ApprovedToContact': 'true'}]

Vi kan naturligtvis skicka runt vår `.csv`-fil med data, men med större mängder data finns det en poäng med serialisering.

Alla databastyper vi kommer stöta på under den här kursens gång sysslar med någon form av serialisering. Det innebär att de på olika sätt omvandlar data från en form som är läsbar för människor, till *bytes* som bara är läsbara för datorer.