#### @author: Александр Владимирович Толмачев | axtolm@gmail.com
<hr>

## 2. Сбор и извлечение данных на Python

## Часть 1. Работа с данными в csv и excel формате

### На этом занятии мы планируем научиться:
- Загружать данные из csv и excel файлов в таблицу pandas DataFrame.
- Записывать данные из таблиц pandas DataFrame в файлы csv и excel.

### 1. Вводная информация
На практике достаточно часто возникает ситуация, когда из какого-либо внешнего источника на локальный компьютер получен файл с данными в формате csv или excel и их надо обработать.<br>

**CSV** (Comma-Separated Values) — текстовый формат представления табличных данных. Его спецификация:
- В одном `.csv` файле — одна таблица.
- Каждая строка файла — это одна строка таблицы. Первая строка может содержать заголовки таблицы.
- Разделителями колонок могут быть: `,`, `;`, `|`.
- Значения, содержащие зарезервированные символы (двойная кавычка, запятая, точка с запятой, новая строка) обрамляются двойными кавычками ("). Если в значении встречаются кавычки — они представляются в файле в виде двух кавычек подряд.

Открыть и редактировать `.csv` файл можно в текстовом редакторе, например, в Блокноте Windows.<br>

Пример данных (котировки акций Лукойл) в CSV формате:

```
<TICKER>;<PER>;<DATE>;<TIME>;<CLOSE>;<VOL>
LKOH;D;20171019;000000;2985.0000000;417461
LKOH;D;20171020;000000;2994.0000000;424104
LKOH;D;20171023;000000;2997.0000000;394534
LKOH;D;20171024;000000;3018.0000000;338596
...
```

**EXCEL** — формат представления табличных данных, получаемых с использованием электронных таблиц MS Excel:
- Файл `.xlsx` может содержать несколько таблиц на разных вкладках (у каждой вкладки свое имя).
- Каждая вкладка - это таблица ячейками данных. Максимальный размер таблицы - 1048576 строк и 16384 столбцов.
- Разделители, как в csv формате, не используются.

Открыть и редактировать `.xlsx` файл можно в электронных таблицах MS Excel.<br>

### 2. Загрузка данных из файла в csv формате в таблицу pandas DataFrame

Для загрузки воспользуемся методом `pandas.read_csv`<br>
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html<br>   
Метод имеет множество параметров, с помощью которых можно кастомизировать процесс загрузки данных, например, указать отличные от значений по умолчанию разделитель, кодировку данных, строку заголовков, колонку индексов и т.д.<br>  
По минимуму нужно указать имя файла в формате строки, например, `'учебный_датасет.csv'` или с указанием полного пути к файлу `C:/my_py_file/учебный_датасет.csv'`, если без указания пути Python не сможет найти файл.

In [1]:
# зададим имена файлов (лежат в той же папке)
file_LKOH_csv_utf8 = 'dataset_1_LKOH_csv_utf8.csv'
file_SBER_csv_zip_utf8 = 'dataset_1_SBER_csv_utf8.zip'
file_SBERP_csv_ru_cp1251 = 'dataset_1_SBERP_csv_ru_cp1251.csv'

In [2]:
import pandas as pd    # импорт библиотеки

Загрузим в DataFrame первый файл `file_LKOH_csv_utf8.csv`. В нем котировки обыкновенных акций Лукойла.<br>
Формат `csv`, разделитель `,`, кодировка `UTF8`, кирилицы нет - это аргументы по умолчанию.<br>
Отличных от аргументов по умолчанию нет, поэтому достаточно указать только имя файла.<br>
Т.к. файл лежит там же, где и `.ipynb`, то полный путь можно не указывать. 

In [3]:
df_LKOH = pd.read_csv(file_LKOH_csv_utf8)

In [4]:
df_LKOH    # проверим, что получилось

Unnamed: 0,<TICKER>,<PER>,<DATE>,<TIME>,<CLOSE>,<VOL>
0,LKOH,D,20171019,0,2985.0,417461
1,LKOH,D,20171020,0,2994.0,424104
2,LKOH,D,20171023,0,2997.0,394534
3,LKOH,D,20171024,0,3018.0,338596
4,LKOH,D,20171025,0,3005.0,620960
...,...,...,...,...,...,...
1006,LKOH,D,20211013,0,7252.0,1257240
1007,LKOH,D,20211014,0,7215.0,804831
1008,LKOH,D,20211015,0,7306.5,950893
1009,LKOH,D,20211018,0,7319.0,711222


Загрузим в DataFrame второй файл `file_SBER_csv_zip_utf8.zip`. В нем котировки обыкновенных акций Сбербанка.<br>
Формат `csv`, кодировка `UTF8`, кирилицы нет - это все аргументы по умолчанию.<br> 
**Надо указать в явном виде** - `sep = ';'` - разделитель не запятая, а точка с запятой, `compression = 'zip'`  - файл `.csv` упакован в `.zip`.<br> 
Т.к. лежит он там же, где и `.ipynb`, то полный путь можно не указывать.<br>
Из zip-архива тоже можем загружать данные сразу в pandas DataFrame!

In [5]:
df_SBER = pd.read_csv(file_SBER_csv_zip_utf8, sep = ';', compression = 'zip')   

In [6]:
df_SBER    # проверим, что получилось

Unnamed: 0,<TICKER>,<PER>,<DATE>,<TIME>,<CLOSE>,<VOL>
0,SBER,D,20171019,0,192.20,40301270
1,SBER,D,20171020,0,192.97,28740370
2,SBER,D,20171023,0,192.34,26923870
3,SBER,D,20171024,0,192.50,28240990
4,SBER,D,20171025,0,192.04,32243310
...,...,...,...,...,...,...
1006,SBER,D,20211013,0,378.80,54668150
1007,SBER,D,20211014,0,376.09,36290870
1008,SBER,D,20211015,0,371.82,37276570
1009,SBER,D,20211018,0,364.60,38112280


Загрузим в DataFrame третий файл `file_csv_ru_cp1251`. В нем котировки привилегированных акций Сбербанка.<br>
**Надо указать в явном виде** - `sep = ';'` - разделитель не запятая, а точка с запятой, `encoding = 'cp1251'` - кодировка кодировка `cp1251`, а не `UTF8` (плюс есть кирилица).<br> 
Т.к. лежит он там же, где и `.ipynb`, то полный путь можно не указывать.

In [7]:
df_SBERP = pd.read_csv(file_SBERP_csv_ru_cp1251, sep = ';', encoding = 'cp1251')

In [8]:
df_SBERP    # проверим, что получилось

Unnamed: 0,<ТИКЕР>,<ПЕРИОД>,<ДАТА>,<ВРЕМЯ>,<ЦЕНА_CLOSE>,<ОБЪЕМ>
0,SBERP,D,20171019,0,159.01,2925500
1,SBERP,D,20171020,0,160.87,2301800
2,SBERP,D,20171023,0,159.89,2089900
3,SBERP,D,20171024,0,160.00,1927500
4,SBERP,D,20171025,0,158.79,2205200
...,...,...,...,...,...,...
1006,SBERP,D,20211013,0,346.45,9156050
1007,SBERP,D,20211014,0,345.30,7297000
1008,SBERP,D,20211015,0,341.50,4339600
1009,SBERP,D,20211018,0,333.03,7329220


**А что будет, если не указать правильный разделитель и корректную кодировку, отличные от аргументов по умолчанию?**

In [9]:
df_SBERP_incorrect_1 = pd.read_csv(file_SBERP_csv_ru_cp1251)

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd2 in position 1: invalid continuation byte

In [10]:
df_SBERP_incorrect_1    # проверим, что получилось

NameError: name 'df_SBERP_incorrect_1' is not defined

**Что видим: ошибку из-за кодировки.**<br>

Если укажем только кодировку, но не укажем разделитель:

In [11]:
df_SBERP_incorrect_2 = pd.read_csv(file_SBERP_csv_ru_cp1251, encoding = 'cp1251')

In [12]:
df_SBERP_incorrect_2    # проверим, что получилось

Unnamed: 0,<ТИКЕР>;<ПЕРИОД>;<ДАТА>;<ВРЕМЯ>;<ЦЕНА_CLOSE>;<ОБЪЕМ>
0,SBERP;D;20171019;0;159.01;2925500
1,SBERP;D;20171020;0;160.87;2301800
2,SBERP;D;20171023;0;159.89;2089900
3,SBERP;D;20171024;0;160;1927500
4,SBERP;D;20171025;0;158.79;2205200
...,...
1006,SBERP;D;20211013;0;346.45;9156050
1007,SBERP;D;20211014;0;345.3;7297000
1008,SBERP;D;20211015;0;341.5;4339600
1009,SBERP;D;20211018;0;333.03;7329220


**Что видим: ошибки нет (мы указали кодировку), но все в одной колонке (это из-за sep = ';').**<br>

### 3. Запись данных из таблицы pandas DataFrame в файл csv формата

Для записи данных в файл csv формата воспользуемся методом `pandas.DataFrame.to_csv`<br>
https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html<br>    
Метод имеет множество параметров, с помощью которых можно кастомизировать процесс записи данных в файл. Набор параметров во многом аналогичен тем, что используются при загрузке данных - кодировка, разделитель, записывать или нет колонку индекса и т.д.<br>  
По минимуму нужно указать имя файла в формате строки, например, `'out_учебный_датасет.csv'` или с указанием полного пути к файлу `C:/my_py_file/out_учебный_датасет.csv'`.

In [13]:
# зададим имя файла для данных SBERP путем добавления префикса 'out_' к имени исходного файла
file_out_SBERP_csv_ru_cp1251 = 'out_' + file_SBERP_csv_ru_cp1251
file_out_SBERP_csv_ru_cp1251    # выведем на экран

'out_dataset_1_SBERP_csv_ru_cp1251.csv'

Запишем DataFrame `df_SBERP` с котировками привилегированных акций Сбербанка в файл csv формата:
- с разделителем в виде `;` (надо указать в явном виде `sep = ';'`, если хотим `,` - это по умолчанию),
- с кодировкой cp1251 для работы с данными в MS Excel (надо указать `encoding = 'cp1251'`),
- c игнорированием индексного столбца с номерами по порядку (надо указать `index = False`).

Полный путь можно не указывать - файл запишется в ту же папку, где и .ipynb.

In [14]:
df_SBERP.to_csv(file_out_SBERP_csv_ru_cp1251, sep = ';', encoding = 'cp1251', index = False)

Откроем полученный файл `out_dataset_1_SBERP_csv_ru_cp1251.csv` с помощью MS Excel и посмотрим, что получилось:
- MS Excel смог разбить данные на ячейки и разделитель `;` не виден (его можно увидеть, если открыть файл в Блокнот Windows),
- кириллица читаема,
- индексной колонки с 0,1,... нет

Проделаем все то же самое, но запишем DataFrame `df_SBERP` в файл csv формата без указания дополнительных параметров.

In [15]:
df_SBERP.to_csv(file_out_SBERP_csv_ru_cp1251)

Откроем полученный файл `out_dataset_1_SBERP_csv_ru_cp1251.csv` с помощью MS Excel и посмотрим, что получилось:
- MS Excel не смог разбить на ячейки и виден разделитель `,` (по умолчанию MS Excel понимает `;`),
- кириллица не читаема (если не указать явно, файл запишется в кодировке UTF8, а MS Excel по умолчанию понимает cp1251),
- индексная колонка с 0,1,... без имени - присутствует.

### 4. Загрузка данных из файла в excel формате в таблицу pandas DataFrame

Для загрузки воспользуемся методом `pandas.read_excel`<br>
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html<br>   
Метод имеет множество параметров, с помощью которых можно кастомизировать процесс загрузки данных, указав нужную вкладку, строку с именами колонок и колонку с индексами строк и т.д.<br>  
По минимуму нужно указать имя файла в формате строки, например, `'учебный_датасет.xlsx'` или с указанием полного пути к файлу `C:/my_py_file/учебный_датасет.xlsx'`, если без указания пути Python не сможет найти файл.

In [16]:
# зададим имя файла (лежит в той же папке)
file_SNGS_excel = 'dataset_1_SNGS_excel.xlsx'

Загрузим в два DataFrame данные с двух вкладок excel файла `file_SNGS_excel`.<br>
В нем котировки обыкновенных и привилегированных акций Сургутнефтегаза (вкладки `SNGS` и `SNGSP`).<br>
**Надо указать в явном виде** - `sheet_name = "SNGS"` - название вкладки, `header = 0` - в какой строке заголовки, `index_col = 2` - в какой колонке индексы (у нас это будет дата из 2-й колонки - напомню, нумерация с нуля).<br> 
Т.к. лежит он там же, где и `.ipynb`, то полный путь можно не указывать. 

In [17]:
# выкачиваем данные c двух вкладок (листов) xlsx файла в две таблицы DataFrame 
df_SNGS = pd.read_excel(file_SNGS_excel,sheet_name = "SNGS", header = 0, index_col = 2)
df_SNGSP = pd.read_excel(file_SNGS_excel,sheet_name = "SNGSP", header = 0, index_col = 2)

In [18]:
df_SNGS    # проверим, что скачалось с вкладки SNGS

Unnamed: 0_level_0,<TICKER>,<PER>,<TIME>,<CLOSE>,<VOL>
<DATE>,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
20171019,SNGS,D,0,29.330,7912200
20171020,SNGS,D,0,29.520,11010600
20171023,SNGS,D,0,29.400,4819300
20171024,SNGS,D,0,29.270,9892000
20171025,SNGS,D,0,29.110,13120600
...,...,...,...,...,...
20211013,SNGS,D,0,36.850,30316400
20211014,SNGS,D,0,37.040,21989100
20211015,SNGS,D,0,37.360,30094800
20211018,SNGS,D,0,36.915,35549900


In [19]:
df_SNGSP    # проверим, что скачалось с вкладки SNGSP

Unnamed: 0_level_0,<TICKER>,<PER>,<TIME>,<CLOSE>,<VOL>
<DATE>,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
20171019,SNGSP,D,0,29.250,15117300
20171020,SNGSP,D,0,29.195,11387400
20171023,SNGSP,D,0,28.725,17589400
20171024,SNGSP,D,0,28.825,7883000
20171025,SNGSP,D,0,28.355,15978000
...,...,...,...,...,...
20211013,SNGSP,D,0,39.975,36317400
20211014,SNGSP,D,0,39.790,26511700
20211015,SNGSP,D,0,39.790,47813200
20211018,SNGSP,D,0,39.235,55244500


### 5. Запись данных из таблицы pandas DataFrame в файл excel формата

Для записи данных в файл csv формата воспользуемся методом `pandas.DataFrame.to_excel`<br>
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_excel.html#pandas.DataFrame.to_excel<br>    
Метод имеет множество параметров, с помощью которых можно кастомизировать процесс записи данных в файл. Набор параметров во многом аналогичен тем, что используются при загрузке данных - вкладк, нужны ли заголовки и индексы и т.д.<br>  
По минимуму нужно указать имя файла в формате строки, например, `'out_учебный_датасет.xlsx'` или с указанием полного пути к файлу `C:/my_py_file/out_учебный_датасет.xlsx'`.

In [20]:
# зададим имя файла для данных SNGS и SNGSP путем добавления префикса 'out_' к имени исходного файла
file_out_file_SNGS_excel = 'out_' + file_SNGS_excel
file_out_file_SNGS_excel   # выведем на экран

'out_dataset_1_SNGS_excel.xlsx'

Запишем DataFrame `df_SNGS` в файл `out_dataset_1_SNGS_excel.xlsx` без каких либо параметров.

In [21]:
df_SNGS.to_excel(file_out_file_SNGS_excel)

Откроем полученный файл `out_dataset_1_SNGS_excel.xlsx` с помощью MS Excel и посмотрим, что получилось:
- таблица записалась на вкладку `Sheet1`,
- индексная колонка с датой выделена жирным шрифтом,
- заголовки есть.

Запишем второй DataFrame `df_SNGSP` в этот же файл `out_dataset_1_SNGS_excel.xlsx` без каких либо параметров.

In [22]:
df_SNGSP.to_excel(file_out_file_SNGS_excel)

Откроем полученный файл `out_dataset_1_SNGS_excel.xlsx` с помощью MS Excel и посмотрим, что получилось:
- файл записался заново - данные `df_SNGS` не сохранились.

**Модифицируем код, чтобы можно было записать данные в одну таблицу excel на разные вкладки.**<br>
Для этого понадобится объект класса `pd.ExcelWriter`<br>
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.ExcelWriter.html#pandas.ExcelWriter<br>
Вкладки (листы) excel назовем именами таблиц DataFrame `df_SNGS` и `df_SNGSP`

In [23]:
with pd.ExcelWriter(file_out_file_SNGS_excel) as writer:  
    df_SNGS.to_excel(writer, sheet_name='df_SNGS')
    df_SNGSP.to_excel(writer, sheet_name='df_SNGSP')

Откроем полученный файл `out_dataset_1_SNGS_excel.xlsx` с помощью MS Excel и посмотрим, что получилось:
- файл записался заново - данные `df_SNGS` и `df_SNGSP` теперь на разных вкладках.

> Не трудно заметить, в разделе Input/Output описания библиотеки pandas есть еще много вариантов, откуда брать данные:  
> https://pandas.pydata.org/pandas-docs/stable/reference/io.html
> JSON, HTML, SPSS, SQL, ...

### Подведем итоги. На этом занятии мы научились:
- Загружать данные из csv и excel файлов в таблицу pandas DataFrame.
- Записывать данные из таблиц pandas DataFrame в файлы csv и excel.