# **16 Чтение и запись данных. Часть 1 (обновление от 02.07.2020)**

Курс ведёт **Андрей Мещеряков** Data Scientist в EPAM

## **16.1** *Что такое данные и какие они бывают*

### План модуля

* Что такое данные
* Чтение и запись данных в формате CSV
* Форматирование дат
* Чтение и запись данных в формате XLSX
* Домашнее задание

### Что такое данные

**Данные** - это цифровой след деятельности человека или машины<br>
Данные бывают **структурированные** и **неструктурированные**<br>
**Неструктурированные данные** - это данные в своей исходной форме. Большинство существующих данных является неструктурированным. Это данные в исходной форме: текст, книга, письмо и т.д.<br>
**Структурированные данные** - это данные с чётко заданной структурой (**схемой**). Наилучший пример: это БД или таблицы, в которых столбцы как раз и задают жёсткую структуру данных.<br>
Структурированные данные легко собирать, анализировать и хранить, в то время как неструктурированные данные - не организованы и требуют дополнительной проработки.<br>
Мы, люди, обрабатываем данные неструктурированно. Компьютеры же обрабатывают данные структурированно. Анализировать неструктурированные данные с помощью компьютеров - гораздо сложнее.

### Свойства данных

Возможность перехода данных от неструктурированных к структурированным.<br>
Пример: письмо из рассылки - это неструктурированные данные, но мы можем структурировать их.<br>
Сохраним каждую выделенную часть письма (дата, тема, адрес, текст и т.д.) в отдельную ячейку электронной таблицы. Т.о. мы можем обработать все письма в нашем ящике и проанализировать данные.<br>
Письма от какого отправителя приходят чаще всего? Или в какое время мы чаще получаем письма? такую структурированную информацию анализировать гораздо легче.<br>
Любую неструктурированную информацию можно превратить в структурированную. Однако, дата-саентисты чаще сталкиваются именно с переводом из неструктурированных в структурированные данные.<br>

### Инструменты обработки данных

Для обработки почти любых структурированных данных достаточно двух инструментов:
* **pandas**
* **SQL**

### Средства хранения данных

Любые данные нужно как-то хранить и передавать. БОльшая часть всех существующих данных хранится ввиде разных файлов в памяти компьютеров и серверов.<br>
Существует огромное количество форматов различных файлов: табличный, текстовые, видео, аудио, изображения и мн. др.<br>
Обычно понять формат файла (и понять как его читать) можно по его расширению. Например, .xlsx - это документ в формате Excel, .doc и .docx - это Word, а .jpeg - это изображение, сжатое методом jpeg.<br>
Чаше всего дата-саентист работает с табличными данными в форматах csv и xlsx - их мы и рассмотрим в следующих уроках.

### Выводы

* Данные бывают структурированные и неструктурированные
* Структурированные данные проще обрабатывать, чем неструктурированные
* Неструктурированные данные можно привести к структурированным, и наоборот
* Для хранения данных используются файлы разных форматов

## **16.2** *Чтение файлов в формате csv*

### План урока

* Что такое формат CSV
* Почему CSV - наиболее популярный формат табличных данных
* Как прочитать файл CSV
* Важные особенности формата CSV

### Что такое формат CSV

**CSV**(comma-separated values; значения, разделённые запятыми) - текстовый формат, позволяющий хранить табличные данные
В таких файлах каждая строка - это строка таблицы, а столбцы внутри каждой строки обычно отделяются друг от друга запятыми ','

### Почему CSV - наиболее популярный формат табличных данных

* Лекго читается людьми
* Содержит структурированные данные
* Поддерживается почти всеми системами хранения данных

Почему CSV оказался таким распространённым форматом? Этот формат является одновременно текстовым и табличным.<br>
Поэтому, как текстовый - он **читается достаточно легко людьми** и может быть открыт с помощью простого блокнота если вам нужно просто взглянуть на данные.<br>
И, как табличный формат, существенно облегчает анализ записанных в нём данных, поскольку данные в нём структурированные.<br>
Однако, у этого формата есть и свои недостатки. Поскольку в одном файле может быть только одна таблицы со значениями, в один csv файл нельзя сразу сохранить несколько листов как в Excel.<br>
Также, формат csv не поддерживает объединённые ячейки, форматирование ячеек, или формулы.<br>
Поэтому, если нам нужно просто записать данные, чтобы потом проанализировать, - то csv - это наиболее удобный и простой формат данных.<br>
Но обрабатывать их придётся с помощью чего-то ещё. Кроме того, формат csv поддерживается всеми системами хранения данных.<br>
Если нужно, например, перенести данные из одной СУБД в другую, а затем преобразовать их в файл Excel и построить диаграммы для отчёта, то формат csv отлично подходит для этого.

### Чтение файла

In [6]:
import pandas as pd

In [92]:
df = pd.read_csv('./data-les/2-1.csv')
df.head()
# в первой строке файла содержатся заголовки столбцов таблицы

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1


In [16]:
df = pd.read_csv('./data-les/2-2.csv', sep=';') # тут используется разделитель ; вместо ,
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1


Тут мы видим дополнительный крайний левый столбец, выделенный **жирным**. Его не было в исходном csv-файле, но тут он появился.<br>
На самом деле, в каждом **pandas** `DataFrame` есть особый столбец, который называется ***index*** и который служит для нумерации строк в таблице.<br>
По смыслу он похож на первичный ключ в таблице баз данных, или номера строк в Excel. Это уникальный индентификатор (**id**) создаваемый для каждой строки.<br>
Обычно это просто числа, номера строк, но могут быть и другие уникальные значения. При загрузке из csv-файла ***index*** был создан автоматически.<br>
Однако, мы также можем указать вручную какой столбец при загрузке датафрейма использовать как ***index***.<br>
Для того чтобы при загрузке файла пометить какой-либо столбец как индексный, нужно передать его название или порядковый номер в параметр `index_col`.

In [94]:
df = pd.read_csv('./data-les/2-3.csv')
df.head()
# тут столбец index уже выделен за нас

Unnamed: 0,index,Date,Country,State,City,AvgTemperature
0,44300,2012-01-01,US,Alabama,Birmingham,59.1
1,44301,2012-01-02,US,Alabama,Birmingham,43.0
2,44302,2012-01-03,US,Alabama,Birmingham,30.9
3,44303,2012-01-04,US,Alabama,Birmingham,34.7
4,44304,2012-01-05,US,Alabama,Birmingham,44.1


In [95]:
df = pd.read_csv('./data-les/2-3.csv', index_col='index') # зададим при помощи параметра index_col название столбца, котоырй будет использован как индекс
df.head()

Unnamed: 0_level_0,Date,Country,State,City,AvgTemperature
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
44300,2012-01-01,US,Alabama,Birmingham,59.1
44301,2012-01-02,US,Alabama,Birmingham,43.0
44302,2012-01-03,US,Alabama,Birmingham,30.9
44303,2012-01-04,US,Alabama,Birmingham,34.7
44304,2012-01-05,US,Alabama,Birmingham,44.1


Видно, что индекс нового датафрейма совпадает со столбцом index из предыдущей версии. Значит, мы правильно интерпретировали структуру данных.

Иногда бывает так, что при загрузке файла первый столбец называется ***Unnamed*** - как в следующем примере.<br>
Скрей всего такой файл тоже индексный, но при сохранении файла ему не задали названия.<br>
Мы можем передать в параметр `index_col` не название, а порядковый номер столбца индекса. В нашем случае 0.<br>
И тогда мы тоже правильно интерпретируем структуру данных

In [96]:
df = pd.read_csv('./data-les/2-4.csv', index_col=0)
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1


### Выводы

* CSV - текстовый формат, позволяющий хранить личные данные
* CSV поддерживается почти всеми системами хранения данных
* При чтении файла CSV важно правильно указать разделитель и название индекса

### Практика

#### Задание 1

Откройте файл Practice1_1.csv, загрузите его в DataFrame с помощью библиотеки pandas и выведите первые 5 строк этого файла на экран. Выведите на экран название **предпоследнего** столбца этого файла. Обратите внимание, что при загрузке файла вам может потребоваться явно указать разделитель столбцов.

In [97]:
df = pd.read_csv('./data-practice/Practice1_1.csv')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-12-02,US,Additional Territories,San Juan Puerto Rico,79.4
1,2012-12-03,US,Additional Territories,San Juan Puerto Rico,77.9
2,2012-12-04,US,Additional Territories,San Juan Puerto Rico,79.8
3,2012-12-05,US,Additional Territories,San Juan Puerto Rico,80.2
4,2012-12-06,US,Additional Territories,San Juan Puerto Rico,78.2


In [19]:
df.columns[-2]

'City'

#### Задание 2. 

Откройте файл Practice1_2.csv и загрузите его в DataFrame с помощью библиотеки pandas, указав правильный разделитель столбцов и выбрав столбец-индекс.

In [98]:
df = pd.read_csv('./data-practice/Practice1_2.csv', sep=';', index_col=0)
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
56334,2012-12-02,US,Additional Territories,San Juan Puerto Rico,79.4
56335,2012-12-03,US,Additional Territories,San Juan Puerto Rico,77.9
56336,2012-12-04,US,Additional Territories,San Juan Puerto Rico,79.8
56337,2012-12-05,US,Additional Territories,San Juan Puerto Rico,80.2
56338,2012-12-06,US,Additional Territories,San Juan Puerto Rico,78.2


#### Задание 3

Откройте файл Practice1_3.csv, загрузите его в DataFrame с помощью библиотеки pandas и выведите первые 5 строк этого файла на экран. Выведите на экран все записи, в которых значение температуры превышает 30 градусов. Обратите внимание, что вам может потребоваться явно указать разделитель столбцов.

In [99]:
df = pd.read_csv('./data-practice/Practice1_3.csv')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-03,US,Alabama,Birmingham,30.9
1,2012-01-04,US,Alabama,Birmingham,34.7
2,2012-01-13,US,Alabama,Birmingham,31.6
3,2012-02-12,US,Alabama,Birmingham,29.5
4,2012-02-13,US,Alabama,Birmingham,34.8


In [24]:
df[df['AvgTemperature'] > 30]

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-03,US,Alabama,Birmingham,30.9
1,2012-01-04,US,Alabama,Birmingham,34.7
2,2012-01-13,US,Alabama,Birmingham,31.6
4,2012-02-13,US,Alabama,Birmingham,34.8
5,2012-12-27,US,Alabama,Birmingham,34.3
6,2012-12-30,US,Alabama,Birmingham,34.5
8,2012-01-04,US,Alabama,Huntsville,32.6
9,2012-01-13,US,Alabama,Huntsville,30.1
10,2012-02-11,US,Alabama,Huntsville,34.8
12,2012-02-13,US,Alabama,Huntsville,31.5


## **16.3** *Запись файлов в формате csv*

В этом уроке мы научимся записывать данные из файла в формате csv, чтобы данные можно было сохранять и передавать другим для их обработки

### План урока

* Демонстрация практического задания к предыдущему уроку
* Сохранение данных в файл CSV
* Указание дополнительных атрибутов при сохранении данных

### Сохранение DataFrame в файл CSV

In [100]:
df = pd.read_csv('./data-les/2-1.csv')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1


Для хранения данных только в табличном виде лучше всего подходят файлы в формате csv

In [27]:
df.to_csv('./data-les/result.csv', index_label='index') # передаём параметр index_label чтобы сохранился столбец с индексами

In [30]:
df = pd.read_csv('./data-les/3-1.csv')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature,Name
0,2012-01-01,US,Alabama,Birmingham,59.1,Joshua Harrison
1,2012-01-02,US,Alabama,Birmingham,43.0,Mauricio Hinton
2,2012-01-03,US,Alabama,Birmingham,30.9,Scott Kaur
3,2012-01-04,US,Alabama,Birmingham,34.7,Davion Moss
4,2012-01-05,US,Alabama,Birmingham,44.1,Mauricio Hinton


In [32]:
df.to_csv('./data-les/result1.csv', sep=';', index_label='index')

In [101]:
df = pd.read_csv('./data-les/result1.csv', sep=';', index_col='index')
df.head()

Unnamed: 0_level_0,Date,Country,State,City,AvgTemperature,Name
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,2012-01-01,US,Alabama,Birmingham,59.1,Joshua Harrison
1,2012-01-02,US,Alabama,Birmingham,43.0,Mauricio Hinton
2,2012-01-03,US,Alabama,Birmingham,30.9,Scott Kaur
3,2012-01-04,US,Alabama,Birmingham,34.7,Davion Moss
4,2012-01-05,US,Alabama,Birmingham,44.1,Mauricio Hinton


### Итоги

* Для сохранения DataFrame в файле формата CSV используется метод `to_csv()`
* При сохранении файла CSV можно указать разделитель и название индекса

### Практика

#### Задание 1. 

Скачайте файл Practice2_1.csv, загрузите его в DataFrame с помощью библиотеки pandas и выведите первые 5 строк этого файла на экран. После этого сохраните этот DataFrame в файл MyPractice2_1.csv, при этом укажите в качестве разделителя символ точки с запятой `;` и задайте столбцу-индексу имя "index". 

In [34]:
df = pd.read_csv('./data-practice/Practice2_1.csv')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,01/01/2012,US,Alabama,Birmingham,59.1
1,01/02/2012,US,Alabama,Birmingham,43.0
2,01/03/2012,US,Alabama,Birmingham,30.9
3,01/04/2012,US,Alabama,Birmingham,34.7
4,01/05/2012,US,Alabama,Birmingham,44.1


In [35]:
df.to_csv('./data-practice/MyPractice2_1.csv', sep=';', index_label='index')

In [38]:
df = pd.read_csv('./data-practice/MyPractice2_1.csv', sep=';', index_col='index')
df.head()

Unnamed: 0_level_0,Date,Country,State,City,AvgTemperature
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,01/01/2012,US,Alabama,Birmingham,59.1
1,01/02/2012,US,Alabama,Birmingham,43.0
2,01/03/2012,US,Alabama,Birmingham,30.9
3,01/04/2012,US,Alabama,Birmingham,34.7
4,01/05/2012,US,Alabama,Birmingham,44.1


#### Задание 2. 

Снова выведите первые 5 строк файла Practice2_1.csv на экран. Обратите внимание на столбец `AvgTemperature`. В нем указана температура в градусах Фаренгейта. На основе столбца `AvgTemperature` cоздайте новый столбец с названием `AvgTemperature_2`, который будет содержать значения температуры, возведенные в квадрат. Затем сохраните этот DataFrame в файл MyPractice2_1.csv, используя в качестве разделителя запятую.

In [39]:
df = pd.read_csv('./data-practice/Practice2_1.csv')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,01/01/2012,US,Alabama,Birmingham,59.1
1,01/02/2012,US,Alabama,Birmingham,43.0
2,01/03/2012,US,Alabama,Birmingham,30.9
3,01/04/2012,US,Alabama,Birmingham,34.7
4,01/05/2012,US,Alabama,Birmingham,44.1


In [40]:
df['AvgTemperature_2'] = df['AvgTemperature'] ** 2
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature,AvgTemperature_2
0,01/01/2012,US,Alabama,Birmingham,59.1,3492.81
1,01/02/2012,US,Alabama,Birmingham,43.0,1849.0
2,01/03/2012,US,Alabama,Birmingham,30.9,954.81
3,01/04/2012,US,Alabama,Birmingham,34.7,1204.09
4,01/05/2012,US,Alabama,Birmingham,44.1,1944.81


In [41]:
df.to_csv('./data-practice/MyPractice2_1.csv', sep=',', index_label='index')

In [43]:
df = pd.read_csv('./data-practice/MyPractice2_1.csv', index_col='index')
df.head()

Unnamed: 0_level_0,Date,Country,State,City,AvgTemperature,AvgTemperature_2
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,01/01/2012,US,Alabama,Birmingham,59.1,3492.81
1,01/02/2012,US,Alabama,Birmingham,43.0,1849.0
2,01/03/2012,US,Alabama,Birmingham,30.9,954.81
3,01/04/2012,US,Alabama,Birmingham,34.7,1204.09
4,01/05/2012,US,Alabama,Birmingham,44.1,1944.81


## **16.4** *Форматирование дат*

На этом уроке мы разберём форматирование дат. Мы узнаем почему форматирование дат является такой существенной задачей анализа данных.<br>
Какие форматы дат встречаются чаще всего и как с помощью **pandas** привести все даты к этому формату.

### План урока

* Демонстрация практического задания к предыдущему уроку
* Важность проблемы форматирования дат
* Самые частые форматы дат
* Использование **pandas** для форматирования дат

Существует огромное количество способов записи дат, которые зависят от стран, того, как там принято записывать даты<br>
Форматы могут быть разными: 25.07.2020, 25.07.20, 25-07-2020, 2020.07.25, 07/25/2020 или 07.25.2020

Проблема возникает, когда мы работаем с данными, собранными в разных частях Мира.<br>
Предположим, мы анализируем отчёты какой-либо компании, имеющей офисы в США, Сингапуре, Дании и России.<br>
И нам нужно объединять отчёты каждого офиса в один глобальный отчёт по всей компании.<br>
В каждой стране будут записаны даты в своём формате - и мы не сможем просто соединить отчёты по дате, т.к. с т.з. **pandas** даты записаны совершенно по-разному.<br>
Ситуация может ещё более усугубиться в определённые дни и месяцы. Представим что мы отрываем один из отчётов и видим дату 11/08/12 - какая это дата?<br>
11 августа 2012 года или 8 ноября 2012? А может быть вообще 12 августа 2011 года? Сложно сказать... И такая неразбериха доставляет немало хлопот аналитикам.<br>
Какой же есть выход из этой ситуации? Решение напрашивается само собой: это стандартизация форматов дат, т.е. приведение всех дат к одному и тому же виду.

### Стандартный формат дат
11/08/12 - ?
Стандарт **ISO 8601:** предписывает записывать даты в следующем виде: **2012-08-11**

Почему такой формат хорош? Во-первых, соблюдается естественная иерархия: год-месяц-день - от большего к меньшему,<br>
а во-вторых, такие даты очень просто сортировать

### Форматирование дат в **pandas**

В библиотеке **pandas** есть особый тип данных `datetime`, позволяющих хранить в нём даты.<br>
Преимущества использования отдельного типа данных для дат, а не строк в том, что мы сможем легко переводить даты из одного формата в другой, производить всякие вычисления над датами,<br>
например вычесть из даты семь дней, чтобы узнать, какое было число семь дней назад.<br>
Со строками проводить такие операции проблематично.

### Преобразование строковых признаков в дату

Здесь первый столбец, ***Date***, по умолчанию будет загружен как строка. Но можно сделать так, чтобы при чтении данных этот столбец сразу будет представлен в нужно форматею<br>
Для этого в функции `read_csv` нужно указать два параметра: первый `parse_dates` - в нём мы передаём имена столбцов, которые должны быть интерпретированы как даты.<br>
Pandas сможет сам найти год в дате, стоит ли он первым или последним - не важно, однако, ему будет трудно определеить где месяц, а где день. Поэтому нам нужно ему помочь.<br>
Для этого есть второй параметр `dayfirst`. Это бинарный параметр, т.е. он принимает значения: *True* или *False*. Мы задаём этому парамерту значение *True*, если день стоит левее чем месяц (день-месяц).<br>
Если же у нас месяц стоит левее дня (месяц-день), то в параметре нужно задать значение *False*.<br>
Но мы пока не можем определить что находится раньше: день или месяц. Давайте выведем первые 30 строк на экран:

In [46]:
df = pd.read_csv('./data-practice/Practice2_1.csv', parse_dates=['Date'], dayfirst=False) # добавили параметры parse_dates и dayfirst
df.head(30)

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1
5,2012-01-06,US,Alabama,Birmingham,46.3
6,2012-01-07,US,Alabama,Birmingham,60.6
7,2012-01-08,US,Alabama,Birmingham,57.4
8,2012-01-09,US,Alabama,Birmingham,59.8
9,2012-01-10,US,Alabama,Birmingham,59.4


Теперь **pandas** перевёл даты к стандартному формату. И мы теперь можем использовать все преимущества этого типа.<br>
Например, давайте создадим столбец в датафрейме, в котором укажем день недели для каждой даты.<br>
Сделать это довольно просто - нужно только вызвать специальный метод у столбца с датами `day_name`

In [47]:
df['Day_of_week'] = df['Date'].dt.day_name()
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature,Day_of_week
0,2012-01-01,US,Alabama,Birmingham,59.1,Sunday
1,2012-01-02,US,Alabama,Birmingham,43.0,Monday
2,2012-01-03,US,Alabama,Birmingham,30.9,Tuesday
3,2012-01-04,US,Alabama,Birmingham,34.7,Wednesday
4,2012-01-05,US,Alabama,Birmingham,44.1,Thursday


Мы получили новый столбец с днями недели

Полный список методов и полей, доступных при работе с датами, вы можете посмотреть в документации pandas: https://pandas.pydata.org/pandas-docs/stable/reference/series.html#datetimelike-properties

### Практика

#### Задание 1.

Скачайте файл Practice3_1.csv, загрузите его в DataFrame с помощью библиотеки pandas и выведите первые 5 строк этого файла на экран. Определите, какой формат дат используется в столбце `Date`. После этого загрузите файл Practice3_1.csv в DataFrame снова, использовав параметры `parse_dates` и `dayfirst`.

In [49]:
df = pd.read_csv('./data-practice/Practice3_1.csv')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,01/01/2012,US,Alabama,Birmingham,59.1
1,02/01/2012,US,Alabama,Birmingham,43.0
2,03/01/2012,US,Alabama,Birmingham,30.9
3,04/01/2012,US,Alabama,Birmingham,34.7
4,05/01/2012,US,Alabama,Birmingham,44.1


In [54]:
df = pd.read_csv('./data-practice/Practice3_1.csv', parse_dates=['Date'], dayfirst=True)
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1


#### Задание 2. 

На основе столбца "Date" создайте новый столбец "Month", который будет содержать _номер месяца_ (от 1 до 12), соответствующего дате в каждой строке. Затем сохраните этот DataFrame в файл MyPractice3_1.csv, используя в качестве разделителя точку с запятой `;`.

In [57]:
df['Month'] = df['Date'].dt.month

In [59]:
df.to_csv('./data-practice/MyPractice3_1.csv', sep=';')

In [63]:
pd.read_csv('./data-practice/MyPractice3_1.csv', sep=';', parse_dates=['Date'], dayfirst=True, index_col=0)

Unnamed: 0,Date,Country,State,City,AvgTemperature,Month
0,2012-01-01,US,Alabama,Birmingham,59.1,1
1,2012-01-02,US,Alabama,Birmingham,43.0,1
2,2012-01-03,US,Alabama,Birmingham,30.9,1
3,2012-01-04,US,Alabama,Birmingham,34.7,1
4,2012-01-05,US,Alabama,Birmingham,44.1,1
5,2012-01-06,US,Alabama,Birmingham,46.3,1
6,2012-01-07,US,Alabama,Birmingham,60.6,1
7,2012-01-08,US,Alabama,Birmingham,57.4,1
8,2012-01-09,US,Alabama,Birmingham,59.8,1
9,2012-01-10,US,Alabama,Birmingham,59.4,1


## **16.5** *Чтение и запись файлов в формате XLSX*

В этом урое мы научимся работать с файлами Excel

### План урока

* Демонстрация практического задания к предыдущему уроку
* Что такое формат XLSX
* Чем XLSX отличается от CSV
* Как читать файлы формата XLSX
* Как записывать файлы формата XLSX

### Что такое формат XLSX

**XLSX** - бинарный формат храенения данных Excel

Excel имеет гораздо больше возможностей, чем CSV!

Некоторые особенности формата XLSX:
* Несколько таблиц в одном файле
* Форматирование и объединение ячеек
* Формулы для автоматического вычисления значений ячеек

Однако, в **pandas** эти возможности использовать нелья. Болле того, некоторые возможности, такие как, например, нескольких листов, - могут усложнить чтение данных.<br>
Чуть позже, мы с вами научимся работать с такими данными. А пока, давайте попробуем читать данные из файлов Excel

### Чтение и запись файлов формата XLSX

In [86]:
df = pd.read_excel('./data-les/5-1.xlsx')
df.head()

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1


In [88]:
df = pd.read_excel('./data-les/5-2.xlsx', parse_dates=['date'], dayfirst=False) # сначала загрузим в таком же режиме
df.head()

Unnamed: 0,name,score,date
0,"cassandra tu ""Yeah, well, that's just like, u...",5.0,2014-02-28
1,Jake,5.0,2013-03-16
2,"Rick Bennette ""Rick Bennette""",5.0,2013-08-28
3,"RustyBill ""Sunday Rocker""",5.0,2014-02-14
4,SEAN MASLANKA,5.0,2014-02-21


Мы загрузили первый лист xlsx файла. Но как же теперь переключиться на второй лист?<br>
В этом же датафрейме это сделать невозможно. Дело в том, что датафрей **pandas** может содержать только одну таблицу.<br>
Поэтому, чтобы работать со вторым листом, нужно прочитать данные ещё раз и загрузить их во второй датафрейм.<br>
Ещё раз прочитаем этот файл и в вызов функции `read_excel` добавим параметр `sheet_name`. В этот параметр передадим имя второго листа

In [90]:
df = pd.read_excel('./data-les/5-2.xlsx', sheet_name='Sheet2', parse_dates=['Date'], dayfirst=False) # с датами работаем аналогичным образом как и с csv файлами
df.head(30)

Unnamed: 0,Date,Country,State,City,AvgTemperature
0,2012-01-01,US,Alabama,Birmingham,59.1
1,2012-01-02,US,Alabama,Birmingham,43.0
2,2012-01-03,US,Alabama,Birmingham,30.9
3,2012-01-04,US,Alabama,Birmingham,34.7
4,2012-01-05,US,Alabama,Birmingham,44.1
5,2012-01-06,US,Alabama,Birmingham,46.3
6,2012-01-07,US,Alabama,Birmingham,60.6
7,2012-01-08,US,Alabama,Birmingham,57.4
8,2012-01-09,US,Alabama,Birmingham,59.8
9,2012-01-10,US,Alabama,Birmingham,59.4


Отлично! Теперь научимся сохранять данные в формате Excel. Иногда это более предпочтительно, чем данные в формате csv.
Например, когда на основе наших данных другие коллеги будут строить отчёт прямо в Excel. И им просто удобнее работать прямо в нашем файле, а не создавать новый и копировать в него данные.
Итак, вызываем метод `to_excel`, аналогичный методу `to_csv`. В параметре метода хранится путь к сохраняемому файлу. И можно передать название для столбца индекса

In [89]:
df.to_excel('./data-les/result.xlsx', index_label='index', sheet_name='Sheet1')

In [91]:
with pd.ExcelWriter('./data-les/result.xlsx',
                    mode='a', engine='openpyxl') as writer:  
    df.to_excel(writer, sheet_name='Sheet2') # записываем датафрейм в новый лист того же Excel файла

### Выводы

* Данные можно разделить на структурированные и неструктурированные
* Формат CSV наиболее популярен и поддерживается почти всеми системами хранения данных
* Формат XLSX представляет больше возможностей, но используется реже
* Даты могут быть записаны в разных форматах, и при работе с ними, важно привести их к стандарту