In [None]:
# Co to jest serializacja i dlaczego powinno nas to obchodzić?
# Pomyśl o przechowywaniu liczby całkowitej; jak chcesz to zapisać w pliku lub przesłać? To łatwe! 
# Możemy po prostu zapisać liczbę całkowitą do pliku i zapisać lub przesłać ten plik.

# Ale co, jeśli pomyślimy o przechowywaniu obiektu Pythona (np. słownika Pythona lub Pandas DataFrame), 
# który ma złożoną strukturę i wiele atrybutów (np. kolumny i indeks DataFrame oraz typ danych każdej kolumny )? 
# W jaki sposób zapiszesz go jako plik lub prześlesz na inny komputer?

# Tu właśnie pojawia się serializacja!

# Serializacja to proces konwersji obiektu do formatu, który można przechowywać lub przesyłać.
# Po przesłaniu lub zapisaniu serializowanych danych jesteśmy w stanie później zrekonstruować obiekt i
# uzyskać dokładnie taką samą strukturę/obiekt, co sprawia, że ​​naprawdę wygodnie jest nam później korzystać z przechowywanego
# obiektu zamiast rekonstruować obiekt od podstaw.

# W Pythonie dostępnych jest wiele różnych formatów serializacji. Typowym przykładem map skrótów (słowników Pythona), które działają w wielu językach, jest format pliku JSON, który jest czytelny dla człowieka i pozwala nam przechowywać słownik i odtwarzać go z tą samą strukturą. Ale JSON może przechowywać tylko podstawowe struktury, takie jak lista i słownik, 
# i może przechowywać tylko ciągi znaków i liczby. Nie możemy poprosić JSON o zapamiętanie typu danych
# (np. numpy float32 vs. float64). Nie można również odróżnić krotek Pythona od list.

# Istnieją potężniejsze formaty serializacji. Poniżej przyjrzymy się dwóm popularnym bibliotekom serializacji w Pythonie, a mianowicie pickle i h5py.

In [None]:
!pip install pickle5

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pickle5
  Downloading pickle5-0.0.11.tar.gz (132 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.1/132.1 KB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pickle5
  Building wheel for pickle5 (setup.py) ... [?25l[?25hdone
  Created wheel for pickle5: filename=pickle5-0.0.11-cp39-cp39-linux_x86_64.whl size=255889 sha256=fd588337d6dbd236abf7e02d2b2ca144770140792141779ab7a912a526dc5ff4
  Stored in directory: /root/.cache/pip/wheels/f2/7a/49/9bef8878949914ecb90c08fc5bf30a05e17f475fe7e08b63a8
Successfully built pickle5
Installing collected packages: pickle5
Successfully installed pickle5-0.0.11


In [None]:
import pickle

In [None]:
## tworzymy słownik i zapisujmy go

In [None]:
test_dict = {"Hello" : "World!"}

In [None]:
type(test_dict)

dict

In [None]:
test_dict = {"Hello": "World!"}
with open("test.pickle", "wb") as outfile:
 	# "wb" argument opens the file in binary mode
	pickle.dump(test_dict, outfile)

In [None]:
## wczytujemy go spowrotem

In [None]:
with open("test.pickle", "rb") as infile:
      test_dict_reconstructed = pickle.load(infile)

In [None]:
test_dict_reconstructed

{'Hello': 'World!'}

In [None]:
test_dict_ba = pickle.dumps(test_dict)

In [None]:
test_dict_ba

b'\x80\x04\x95\x15\x00\x00\x00\x00\x00\x00\x00}\x94\x8c\x05Hello\x94\x8c\x06World!\x94s.'

In [None]:
## zapisujemy modele

In [None]:
## można odpalić jeżeli zainstalujecie tensorflowa

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, Dense, AveragePooling2D, Dropout, Flatten
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.callbacks import EarlyStopping
 
# Load MNIST digits
(X_train, y_train), (X_test, y_test) = mnist.load_data()
 
# Reshape data to (n_samples, height, wiedth, n_channel)
X_train = np.expand_dims(X_train, axis=3).astype("float32")
X_test = np.expand_dims(X_test, axis=3).astype("float32")
 
# One-hot encode the output
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)
 
# LeNet5 model
model = Sequential([
    Conv2D(6, (5,5), input_shape=(28,28,1), padding="same", activation="tanh"),
    AveragePooling2D((2,2), strides=2),
    Conv2D(16, (5,5), activation="tanh"),
    AveragePooling2D((2,2), strides=2),
    Conv2D(120, (5,5), activation="tanh"),
    Flatten(),
    Dense(84, activation="tanh"),
    Dense(10, activation="softmax")
])
 
# Train the model
model.compile(loss="categorical_crossentropy", optimizer="adam", metrics=["accuracy"])
earlystopping = EarlyStopping(monitor="val_loss", patience=4, restore_best_weights=True)
model.fit(X_train, y_train, validation_data=(X_test, y_test), epochs=100, batch_size=32, callbacks=[earlystopping])
 
# Evaluate the model
print(model.evaluate(X_test, y_test, verbose=0))
 
# Pickle to serialize and deserialize
pickled_model = pickle.dumps(model)
reconstructed = pickle.loads(pickled_model)
 
# Evaluate again
print(reconstructed.evaluate(X_test, y_test, verbose=0))

In [None]:
from pandas_profiling import ProfileReport
# Generate the Profiling Report
import pandas as pd

In [None]:
titanic

In [None]:
profile = ProfileReport(titianic_df,
                         title="Titanic Dataset",
                         html={'style': {'full_width': True}},
                         sort=None)
                        # Save to file
profile.to_file('report.html')