<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/кейсы%20по%20анализу%20данных/excel.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>

In [None]:
import pandas as pd

data = pd.read_excel('https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/test.xls')  
data.head(3)

В этот метод можно передать параметр header=None, чтобы не считать первую строчку за названия столбцов. Посмотрим, что будет, если передать такой параметр и открыть данные:

In [None]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html
data = pd.read_excel('https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/test.xls', header=None)  
data.head(3)

Мы видим, что файл загрузился и выглядит, как обычный pandas.DataFrame. Pandas автоматически обрабатывает данные в этом формате при загрузке. При этом получается много пропусков (NaN), это те места, где в ячейках ничего не было написано. Посмотрим, как этот файл выглядит, если посмотреть на него стандартными средствами (не через Pandas):

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/table.png">

При загрузке потерялось форматирование (жирные символы): Pandas не умеет работать с данными, содержащими форматирование. 

### Параметры, которые можно передавать методу pandas.read_excel():

* io — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете или специальный объект ExcelFile.
* sheet_name — ссылка на лист в Excel-файле. Возможные варианты значения данного параметра:
 * 0 — значение по умолчанию, означает, что загружаем первую страницу (первый лист);
 * 'Sheet1' — можно передать название листа; обычно страницы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; 
 * [0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame;
 * None — если передать такое значение, то Pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте.
* na_values — список значений, которые будут считаться пропусками. Здесь всё точно так же, как при чтении .csv файла: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’

До этого вы работали с данными, в которых находились обычные таблицы. Что вы делали? Загружали эти таблицы и дальше работали с ними. Однако часто приходится работать с таблицами, не имеющими настолько чёткой структуры или содержащих много дополнительной, значимой для нас информации: номер документа, дата его подписания, фамилия сотрудника, чья подпись стоит на документе. 

Посмотрим на файл стандартными средствами:

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/count.png">

Что нам может понадобиться в этих данных? 

Во-первых, это названия компаний, имена людей, номер и дата накладной. 

Во-вторых, табличные данные в центре файла — информация об объектах, которые были куплены.

Если мы посмотрим на то, как выглядит файл, то увидим, что первые две строчки — пустые, и при чтении файла их желательно пропустить. Для этого можно передать в функцию read_excel дополнительный параметр — skiprows. В качестве значения параметра укажем количество строк, которые надо пропустить при чтении:

In [None]:
data = pd.read_excel("https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/count.xls", header=None)
data.head()

Если мы хотим пропустить строки не в начале, а в конце, то нужно использовать параметр skipfooter, он работает точно так же.

Сколько строк нужно пропустить в начале, чтобы в первой строке получить номер и дату накладной?

In [None]:
data = pd.read_excel("https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/data/count.xls", header=None, skiprows=2)
data[:1]

Можно заметить, что многие строки полностью состоят из пропусков. Используйте изученный ранее метод pandas, чтобы убрать все такие строки. Запишите ниже, сколько строк осталось.

Чтобы убирать только те строки, в которых все значения являются пропусками, нужно использовать параметр how и передавать в него значение all.

In [None]:
data = data.dropna(how='all')
data.head()

### Ручная работа

Теперь начинается ручная работа. Предобработка данных занимает до 80% работы, часто приходится пристально изучать данные и искать способы автоматизировать процесс в надежде, что формат данных внезапно не поменяется.

С таблицами можно работать, как с текстовыми данными, и использовать алгоритмы машинного обучения, чтобы автоматически определять, как поменялся формат данных и автоматически перестраивать правила извлечения данных.

Узнаем номер накладной:


In [None]:
data.iloc[0, 4][2:9]

В данных все-таки есть небольшая таблица. Теперь финальная часть - вытащим эту таблицу.

In [None]:
table = data.iloc[6:8, [1, 2, 6, 9, 11, 12]]

### Как записать файл

В прошлом блоке вы смогли получить таблицу, содержащую данные о товарах (велосипедах). Запишите ее в объект table. Теперь посмотрим, как мы можем записать ее обратно в чистый Excel-файл. 

Как сохранить эту таблицу в Excel файл:

In [None]:
table.to_excel("table.xls", index=False)  