<a href="https://colab.research.google.com/github/kuzovkov/neural-university/blob/main/%D0%91%D0%B0%D0%B7%D0%B0_%D0%B7%D0%BD%D0%B0%D0%BD%D0%B8%D0%B9_%7C_%D0%9C%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_Pickle_%7C_%D0%A3%D0%98%D0%98.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Модуль Pickle

---



 Модуль Pickle используется разработчиками для сериализации/десериализации объектов в языке Python и представлении этих объектов в последовательность байтов.
 Главная идея состоит в том, что сериализованный формат — это набор байт или строк, который можно легко сохранить на диск или передать другому процессу или, например, по сети, в отличие от самого объекта. А значит, задача сохранения объекта/группы объектов при этом сводится к простой задаче сохранения набора байт или строк.

 Типы данных которые Pickle умеет запаковывать:
*   None, True, False
*   Строки (обычные или Юникод)
*   Стандартные числовые типы данных
*   Словари, списки, кортежи
*   Функции
*   Классы

## Пример использования модуля Pickle для датасета "Трафик сайтов".

In [None]:
# Библиотека для скачивания файлов из google drive
import gdown

url = "https://storage.googleapis.com/terra_ai/DataSets/traff.csv"  # Ссылка на датасет Трафик сайтов
output = "traffic.csv"                                              # Название файла после скачивания
gdown.download(url, output, quiet=True)                             # Скачивание файла

'traffic.csv'

In [None]:
# Импорт библиотеки Pandas
import pandas as pd

pd.read_csv("/content/traffic.csv").head(5)                         # Смотрим содержимое базы

Unnamed: 0,1/1/2017,"22,226.00"
0,1/2/2017,29593.0
1,1/3/2017,31726.0
2,1/4/2017,32684.0
3,1/5/2017,31820.0
4,1/6/2017,29354.0


Теперь делаем сериализацию объекта с помощью модуля Pickle.

In [None]:
# Импорт модуля pickle
import pickle as pkl

Чтобы сделать сериализацию объекта в формат .pkl используется метод pickle.dump().
Для этого необходимо открыть файл для записи и перенести в этот файл наш объект.

In [None]:
HOME = '/content/'    # Задаем основную дирикторию
file_name = 'traffic' # Название будущего файла в новом формате

with open(f'{HOME}{file_name}.pkl', "wb") as f: # Открывем файл в формате чтение и запись
    pkl.dump(HOME + "traffic.csv", f)           # Записываем сериализованный объект

Для того чтобы загрузить и использовать этот объект для работы над проектом, используется метод pickle.load().
Для этого открывается файл для чтения и вызывается метод pickle.load().
Так как наш объект в формате .csv, мы можем его прочитать с помощью библиотеки Pandas.

In [None]:
with open(f'{HOME}{file_name}.pkl', "rb") as f: # Открываем файл для чтения
    traffic_pkl = pkl.load(f)     # Загружаем объект из файла
    df = pd.read_csv(traffic_pkl) # Переводим в DataFrame для дальнейшей работы с датасетом

df.head(5) # Первые 5 строк датасета

Unnamed: 0,1/1/2017,"22,226.00"
0,1/2/2017,29593.0
1,1/3/2017,31726.0
2,1/4/2017,32684.0
3,1/5/2017,31820.0
4,1/6/2017,29354.0


Разница в объеме памяти которое занимает файл в формате .csv и .pkl

In [None]:
# Импорт библиотеки OS
import os
pkl_size = int(os.path.getsize("/content/traffic.pkl"))                              # Получаем размер файла в формате .pkl
csv_size = int(os.path.getsize("/content/traffic.csv"))                              # Получаем размер файла в формате .pkl

print("Размер файла в формате pkl:", pkl_size, "баит")                               # Размер файла в формате .pkl
print("Размер файла в формате csv:", csv_size, "баит")                               # Размер файла в формате .pkl
print("В", csv_size / pkl_size, "раз файл в формате pkl меньше файла в формате csv") # Разниза между объемом памяти

Размер файла в формате pkl: 30 баит
Размер файла в формате csv: 25137 баит
В 837.9 раз файл в формате pkl меньше файла в формате csv
