In [1]:
%load_ext pycodestyle_magic
%flake8_on

# Что такое Excel и зачем он нужен?

**Excel-файлы** — это по-простому таблицы с данными, которые имеют формат **.xls** и **.xlsx**. У вас уже есть опыт работы с форматом данных **.csv**, но этот формат проще **Excel**. Файл формата **.csv** это текстовый файл, в котором данные перечислены через запятую, но могут быть разделены и другими символами.

Файл формата **.csv** можно открыть любым текстовым редактором, с **Excel** иначе: он хранит не только табличные данные, но и может содержать *изображения, графики, формулы, форматирование*. Например, вы можете сделать столбец с температурой за окном за прошедшие 100 дней. Над столбцом можно записать *«Температура»* и выделить это слово красным цветом, написать его курсивом, рядом можно записать функцию, которая посчитает среднюю температуру, и построить график с изменением температуры.

Скорее всего, вы уже работали с этим форматом данных, используя инструменты, которые мы рассмотрим ниже. В этом блоке мы будем применять **Python**, чтобы извлекать данные из **Excel**-файлов и записывать туда данные.

In [2]:
import pandas as pd
import numpy as np

In [3]:
# Это просто небольшая настройка Pandas.
# Вы можете применить её сразу после импортирования библиотеки
# и её действие будет распространяться на весь код.
pd.set_option('display.max_columns', None)

In [4]:
data = pd.read_excel('./data/Fig3-1.xls', header=None)
data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,"U.S. Home Price and Related data, for Figure 3...",,,,,,,,,,,,,,,,,,
1,See the book for description of data.,,,,"Update Nominal Home Price Index, Click Additio...",,,,,,,,,,,,,,
2,"Monthly data from January 1953 for prices, all...",,,,,,,,Nominal,,,,,,,,,,
3,,Real,,Real,,,,,Home,,,Nominal,,,Consumer,,,,
4,,Home,,Building,U.S.,,,,Price,HPI,,Building,,,Price,CPI Annual&,,,


## Основные параметры при чтении
Параметры, которые можно передавать методу **pandas.read_excel()**:

1. **io** — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете или специальный объект ExcelFile, о котором мы поговорим позже.

2. **sheet_name** — ссылка на лист в Excel-файле. Возможные варианты значения данного параметра:
    - **0** — значение по умолчанию, означает, что загружаем первую страницу (первый лист);
    - **'Sheet1'** — можно передать название листа; обычно страницы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; 
    - **[0, 1, 'Sheet3']** — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame;
    - **None** — если передать такое значение, то Pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте.
    
3. **na_values** — список значений, которые будут считаться пропусками. Здесь всё точно так же, как при чтении .csv файла: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’

Сколько строк содержится в файле, с которым мы будем работать?

Для получения ответа на вопрос прочитайте файл Fig3-1.xls. Явно укажите, что у файла нет заголовка (header). Запишите ниже, сколько строк содержится в полученном датафрейме.

In [5]:
len(data)

864

## Чтение с помощью ExcelFile

Еще один способ прочитать **Excel**-файл — использовать **pd.ExcelFile**. Это специальный объект, которому на вход можно передать путь к файлу. Сначала мы создаем объект **ExcelFile** и передаём ему путь к файлу, после этого можем работать с файлом, считывая содержимое.

In [6]:
data_file = pd.ExcelFile('./data/Fig3-1.xls')
data = pd.read_excel(data_file, header=None)

*Когда это может пригодиться?* Например, если мы принимаем файл в одном месте программы, а используем в другом. Это может оптимизировать затрачиваемое время, если мы не знаем заранее, когда будем использовать содержимое файла. Ещё один случай:   в файле есть несколько страниц и нам не нужны все эти страницы сразу. Если мы будем читать страницы порознь с помощью read_excel и передавать в этот метод путь к файлу, мы будем каждый раз загружать этот файл в память. Когда данных много, это заполнит вашу оперативную память. В случае с ExcelFile мы прочитаем файл один раз и потом будем только подгружать необходимые страницы.

С ExcelFile можно работать с помощью контекстного менеджера:

In [7]:
# with pd.ExcelFile('path_to_file.xls') as xls:
#     data['Sheet1'] = pd.read_excel(xls, 'Sheet1', na_values=['NA'])
#     data['Sheet2'] = pd.read_excel(xls, 'Sheet2')

Если на первой странице мы хотим считать пропусками только ячейки со значением 'NA', а на второй  – любые похожие на пропуски значения (они описаны выше), то ExcelFile позволит проявить такую гибкость при чтении данных с разных листов.

Если мы просто хотим прочитать два листа из Excel-файла, то этот код:

In [8]:
# with pd.ExcelFile('path_to_file.xls') as xls:
#     data['Sheet1'] = pd.read_excel(xls, 'Sheet1')
#     data['Sheet2'] = pd.read_excel(xls, 'Sheet2')

И этот код:

In [9]:
# data = pd.read_excel('path_to_file.xls', ['Sheet1', 'Sheet2'])

Оба кода дадут нам **одинаковый результат как по скорости работы**, так и по возвращаемому результату.

## Продвинутое чтение Excel-файла

## Чтение по ссылке

Рассмотрим ещё один способ, с помощью которого можно прочитать данные. В прошлой секции вы скачали данные, которые мы специально загрузили на учебный портал. На самом деле ни вам, ни нам не обязательно было сохранять эти данные к себе на компьютер: ссылку на данные можно было передать прямо в метод read_excel:

In [10]:
data = pd.read_excel(
    'http://www.econ.yale.edu/~shiller/data/Fig3-1.xls',
    header=None
)

До этого вы работали с данными, в которых находились обычные таблицы. Что вы делали? Загружали эти таблицы и дальше работали с ними. Однако часто приходится работать с таблицами, не имеющими настолько чёткой структуры или содержащих много дополнительной, значимой для нас информации: номер документа, дата его подписания, фамилия сотрудника, чья подпись стоит на документе. 

Давайте рассмотрим подходы к решению таких задач на примере.

![nakladnaya](./img/nakladnaya.png)

Что нам может понадобиться в этих данных? Во-первых, это названия компаний, имена людей, номер и дата накладной. Во-вторых, табличные данные в центре файла — информация об объектах, которые были куплены.

## Пустые строки
Если мы посмотрим на то, как выглядит файл, то увидим, что первые две строчки — пустые, и при чтении файла их желательно пропустить. Для этого можно передать в функцию **read_excel** дополнительный параметр — **skiprows**. В качестве значения параметра укажем количество строк, которые надо пропустить при чтении:

In [11]:
X = 2
data = pd.read_excel("./data/nakladnaya.xls", header=None, skiprows=X)

Здесь вместо **X** нужно написать количество строк, которые мы хотим пропустить. Если мы хотим пропустить строки не в начале, а в конце, то нужно использовать параметр **skipfooter**, он работает точно так же.

In [12]:
# удалит только те строки или столбцы где все значения равны Nan
data = data.dropna(how='all')
len(data)

15

## Ручная работа
Теперь начинается ручная работа. Предобработка данных занимает до 80% работы, часто приходится пристально изучать данные и искать способы автоматизировать процесс в надежде, что формат данных внезапно не поменяется.

С таблицами можно работать, как с текстовыми данными, и использовать алгоритмы машинного обучения, чтобы автоматически определять, как поменялся формат данных и автоматически перестраивать правила извлечения данных. Тем не менее, в этом модуле мы не используем машинное обучение, поэтому извлечём данные вручную.

Выберите те варианты, которые позволят нам получить таблицу. Не забудьте избавиться от пропусков. Заголовок таблицы нам тоже не нужен.

In [13]:
data.iloc[6:8, [1, 2, 6, 9, 11, 12]]

Unnamed: 0,1,2,6,9,11,12
11,1,"Велосипед ""Спринтер""",шт,5,9000,45000
12,2,"Велосипед ""Малютка""",шт,10,3500,35000


In [14]:
data.iloc[6:8, :].dropna(axis=1, how='any')

Unnamed: 0,1,2,6,9,11,12
11,1,"Велосипед ""Спринтер""",шт,5,9000,45000
12,2,"Велосипед ""Малютка""",шт,10,3500,35000


In [15]:
data.iloc[6:8, :].dropna(axis=1, how='all')

Unnamed: 0,1,2,6,9,11,12
11,1,"Велосипед ""Спринтер""",шт,5,9000,45000
12,2,"Велосипед ""Малютка""",шт,10,3500,35000


# Запись в Excel-файл

Как записать файл
В прошлом блоке вы смогли получить таблицу, содержащую данные о товарах (велосипедах). Запишите ее в объект table. Теперь посмотрим, как мы можем записать ее обратно в чистый Excel файл. 

Как сохранить эту таблицу в Excel файл:

In [16]:
# table.to_excel("table.xls")

Если мы сохраним таблицу именно так, мы сохраним ее индекс, и в данных будет находиться лишний столбец. Чтобы не сохранять индекс, можно в метод to_excel() передать параметр index=False.

Ранее вы познакомились с еще одним способом прочитать Excel файл с помощью ExcelFile. Теперь вы увидите схожий инструмент для записи — ExcelWriter. Вот как записать данные в файл с его помощью:

In [17]:
# writer = pd.ExcelWriter('test.xlsx')
# table.to_excel(writer, index=False, sheet_name='Таблица')
# writer.save()

Что здесь произошло?

Во-первых, мы все равно использовали метод to_excel(), но вместо пути к будущему файлу передали объект типа ExcelWriter, который создали на первой строке. Во-вторых, мы вызвали метод save() у объекта ExcelWriter. До этого момента сохранение не было завершено, и мы могли сделать еще некоторые действия. Какие? Давайте узнаем.

## Добавим форматирование

Как мы узнали в самом начале, Excel-файлы поддерживают форматирование текста. С помощью pandas мы можем добавлять форматирование в Excel-файлы, используя ExcelWriter. Если мы хотим добавить форматирование, нужно выбрать объект workbook, с помощью которого мы будем добавлять, например, выделение текста жирным. Кроме этого, нужно выбрать нужную страницу:

In [18]:
# workbook = writer.book
# worksheet = writer.sheets['Таблица']

Теперь давайте выделим цену и сумму жирным, а наименование — красным цветом:

In [19]:
# money_fmt = workbook.add_format({'bold': True})
# name_fmt = workbook.add_format({'color': 'red'})

# worksheet.set_column('E:F', 20, money_fmt)
# worksheet.set_column(1, 1, 20, name_fmt)

Что здесь произошло?

1. Мы создали два объекта с описанием двух типов форматирования:
    - для оформления цены и стоимости — полужирное начертание;
    - для оформления наименований товаров — красный цвет текста.

2. Связали описанные типы форматирования с определёнными ячейками листа "Таблица": 
    - для столбцов E-F выбрали форматирование money_fmt (применяется для оформления цены и стоимости); 
    - для столбца 1, который отвечает за наименование, выбрали форматирование name_fmt.


Для выбора нужных столбцов при задании параметров форматирования мы использовали два способа. Один из них — с помощью буквенных обозначений. Это стандартный способ обращаться к столбцам в Excel. Второй — с помощью номера столбца.

Важно запомнить, что при работе с Excel при задании диапазона значений значения указываются включительно. Именно поэтому мы выбрали во втором случае применение форматирования от столбца 1 до столбца 1.

Ещё одна вещь, на которую нужно обратить внимание: число 20 среди параметров метода set_column(). Этот параметр означает ширину столбца. Например, если мы передадим число 300, столбец получится очень широким, вы можете убедиться в этом сами.

**Какие еще параметры можно попробовать:**
- **border** отвечает за границы столбца и может быть равен True или False; 
- **align** отвечает за расположение данных внутри ячеек, например, center для настройки выравнивания по центру; 
- **fg_color** отвечает за цвет фона, например, 'green', хотя можно передать и шестнадцатеричное значение, например, '#D7E4BC'.


Для того, чтобы исполнить код, нужно изменить engine для ExcelWriter:

In [20]:
# writer = pd.ExcelWriter('test.xlsx', engine='xlsxwriter')

Предварительно установите Google Colab:

In [21]:
%pip install xlsxwriter

Note: you may need to restart the kernel to use updated packages.
