In [1]:
import pandas as pd
import numpy as np

# .csv
## Описание формата:
Обычно для хранения табличных данных, в том числе и `DataFrame`, в виде файлов используют формат `.csv`. CSV расшифровывается как _comma separated values_ и имеет соответсвующую структуру.
Строки табличных данных записываются так же построчно, а столбцы разделяются запятой.

## Сохранение в .csv
Для того, чтобы сохранить объект типа `DataFrame` в csv вызывается метод объекта `.to_csv(путь_до_файла)`. Однако, сначала вспомним как выглядит `DataFrame` с продуктами из предыдущей главы:

In [2]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix, 
                  columns=['Жиры', 'Белки', 'Углеводы'], 
                  index=['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки'])
df

Unnamed: 0,Жиры,Белки,Углеводы
Хлеб,14,16,28
Колбаса,7,6,16
Огурцы,8,13,5
Помидоры,27,9,20
Яблоки,9,9,20


А теперь сохраним его и посмотрим, что будет содержать файл на диске:

**Важно: Перед выполнением этой ячейки выполните предыдущую**

In [3]:
savepath = '/tmp/df.csv'
df.to_csv(savepath)

print(f'Содержимое файла: \n{open(savepath).readlines()}')

Содержимое файла: 
[',Жиры,Белки,Углеводы\n', 'Хлеб,14,16,28\n', 'Колбаса,7,6,16\n', 'Огурцы,8,13,5\n', 'Помидоры,27,9,20\n', 'Яблоки,9,9,20\n']


Сравните строки из файла с содержимым `DataFrame`.

## Загрузка .csv файла
Для того, чтобы создать `DataFrame` из .csv файла нужно воспользоваться функцией `pd.read_csv(путь)`:

In [4]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix, 
                  columns=['Жиры', 'Белки', 'Углеводы'], 
                  index=['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки'])

savepath = '/tmp/df.csv'
df.to_csv(savepath)

loaded_df = pd.read_csv(savepath)
loaded_df

Unnamed: 0.1,Unnamed: 0,Жиры,Белки,Углеводы
0,Хлеб,7,15,23
1,Колбаса,28,14,13
2,Огурцы,8,21,21
3,Помидоры,27,17,15
4,Яблоки,15,9,18


То, что раньше было индексом становится безымянной колонкой. Чтобы этого не происходило, фукнции `pd.read_csv` нужно передать параметр `index_col`. Этот параметр указывает, какой столбец нужно использовать в качестве индекса. Значение этого параметра может быть либо типа `int`, либо типа `str`. В случае `int` параметр воспринимается как порядковый номер столбца, который нужно использовать в качестве индекса. В случае `str` столбец выбирается по имени.

In [5]:
matrix = np.random.randint(5, 30, (5, 3))
df = pd.DataFrame(matrix, 
                  columns=['Жиры', 'Белки', 'Углеводы'], 
                  index=['Хлеб', 'Колбаса', 'Огурцы', 'Помидоры', 'Яблоки'])

savepath = '/tmp/df.csv'
df.to_csv(savepath)

loaded_df = pd.read_csv(savepath, index_col=0)  # <---- Указали взять индексом самый левый столбец
loaded_df

Unnamed: 0,Жиры,Белки,Углеводы
Хлеб,12,24,16
Колбаса,16,22,29
Огурцы,18,11,18
Помидоры,9,13,17
Яблоки,28,14,20


Вот это уже похоже на наш исходный `DataFrame`