## Чтение xlsx файлов

In [1]:
import pandas as pd

## Метод `read_excel`

Метод **read_excel** позволяет считывать файлы Excel в DataFrame.

Этот метод поддерживает расширения файлов XLS и XLSX из локальной файловой системы или URL-адреса и имеет широкий набор параметров для настройки способа чтения и анализа данных. Эти параметры очень похожи на параметры метода read_csv. Наиболее распространенные параметры следующие:

- `filepath`: путь к файлу, который нужно прочитать.
- `sheet_name`: для имен листов используются строки. Целые числа используются в позициях листа с нулевым индексом. Списки строк/целых чисел используются для запроса нескольких листов. Укажите «Нет», чтобы получить все листы.
- `header`: индекс строки, содержащей имена столбцов (нет, если нет).
- `index_col`: индекс столбца или последовательности индексов, которые следует использовать в качестве индекса строк данных.
- `names`: последовательность, содержащая имена столбцов (используется вместе с заголовком = None).
- `skiprows`: количество строк или последовательность индексов строк, которые следует игнорировать при загрузке.
- `na_values`: последовательность значений, которые, если они найдены в файле, должны рассматриваться как NaN.
- `dtype`: словарь, в котором ключами будут имена столбцов, а значениями будут типы NumPy, в которые должно быть преобразовано их содержимое.
- `parse_dates`: флаг, указывающий, должен ли Python попытаться проанализировать данные в формате, аналогичном датам, как даты. Вы можете ввести список имен столбцов, которые необходимо объединить для анализа, в качестве даты.
- `date_parser`: функция, которую можно использовать для анализа дат.
- `nrows`: количество строк для чтения с начала файла.
- `skip_footer`: количество строк, которые нужно игнорировать в конце файла.
- `squeeze`: флаг, указывающий, что если считанные данные содержат только один столбец, результатом будет серия, а не DataFrame.
- `thousands`: символ, используемый для определения разделителя тысяч.


Мы прочитаем файл Excel «products.xlsx».

Этот файл содержит записи о продуктах с их ценой, брендом, описанием и информацией о продавце на разных листах.

## Чтение файла Excel

Каждый раз, когда мы вызываем метод read_excel, нам нужно будет передать явный параметр filepath, указывающий путь, по которому находится наш файл Excel.

Допускается любой допустимый путь к строке. Строка может быть URL-адресом. Допустимые схемы URL-адресов включают HTTP, FTP, S3 и файл. Для URL-адресов файлов ожидается хост. Локальным файлом может быть: `file://localhost/path/to/table.xlsx`.

In [2]:
df = pd.read_excel('https://raw.githubusercontent.com/yakushinav/omo/main/data/products.xlsx')

In [3]:
df.head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


В этом случае мы позволяем pandas делать выводы обо всем, что связано с нашими данными, но в большинстве случаев нам нужно будет явно указать, как мы хотим, чтобы наши данные загружались. Для этого мы используем параметры.

Давайте посмотрим, как работают эти параметры.

## Поведение первой строки с параметром `header`

Файл Excel, который мы читаем, имеет следующие столбцы:

- `product_id`
- `цена`
- `merchant_id`
- `бренд`
- `имя`

Первая строка (0-индекс) данных содержит имена этих столбцов, поэтому мы сохраняем неявный параметр header=0, чтобы позволить Pandas назначить эту первую строку в качестве заголовков. Мы можем перезаписать это поведение, явно указав параметр «header».

In [4]:
pd.read_excel('https://raw.githubusercontent.com/yakushinav/omo/main/data/products.xlsx').head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


In [5]:
pd.read_excel('https://raw.githubusercontent.com/yakushinav/omo/main/data/products.xlsx',
              header=None).head()

Unnamed: 0,0,1,2,3,4
0,product_id,price,merchant_id,brand,name
1,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
2,AVpgMuGwLJeJML43KY_c,69,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
3,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
4,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...


## Добавление индекса к нашим данным с помощью параметра index_col

По умолчанию pandas автоматически назначает числовой автоинкрементный индекс или метку строки, начинающуюся с нуля.

Возможно, вы захотите оставить индекс по умолчанию как таковой, если в ваших данных нет столбца с уникальными значениями, который мог бы служить лучшим индексом.

Если есть столбец, который, по вашему мнению, будет служить лучшим индексом, вы можете переопределить поведение по умолчанию, установив для столбца свойство index_col. Требуется числовое значение или строка для установки одного столбца в качестве индекса или список числовых значений для создания мультииндекса.

В наших данных мы выбираем первый столбец «product_id» в качестве индекса (индекс = 0), передавая ноль в аргумент «index_col».

In [6]:
df = pd.read_excel('https://raw.githubusercontent.com/yakushinav/omo/main/data/products.xlsx',
                   index_col=[0])

In [7]:
df.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


## Выбор определенных листов

Файлы Excel часто состоят из нескольких листов, и возможность чтения определенного листа или всех из них очень важна. Чтобы упростить это, метод pandas `read_excel` принимает аргумент с именем `sheet_name`, который сообщает pandas, с какого листа следует читать данные.

Для этого вы можете использовать имя листа или номер листа. Номера листов начинаются с нуля. Первый лист будет загружен по умолчанию. Вы можете изменить лист, указав параметр «sheet_name».

In [8]:
products = pd.read_excel('https://raw.githubusercontent.com/yakushinav/omo/main/data/products.xlsx',
                         sheet_name='Products',
                         index_col='product_id')

In [9]:
products.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


In [10]:
merchants = pd.read_excel('https://raw.githubusercontent.com/yakushinav/omo/main/data/products.xlsx',
                          sheet_name='Merchants',
                          index_col='merchant_id')

In [11]:
merchants.head()

Unnamed: 0_level_0,merchant
merchant_id,Unnamed: 1_level_1
1001,Bestbuy.com
1002,Walmart.com
1003,Bestbuy.com
1004,Growkart
1005,bhphotovideo.com


## Класс `ExcelFile`

Другой подход к чтению данных Excel — использование класса ExcelFile для анализа табличных листов Excel в объекты DataFrame.

Этот ExcelFile позволит нам легко работать с листами и будет работать быстрее, чем предыдущий метод read_excel.

In [12]:
excel_file = pd.ExcelFile('https://raw.githubusercontent.com/yakushinav/omo/main/data/products.xlsx')

Теперь мы можем исследовать листы в этом файле Excel с помощью `sheet_names`:

In [13]:
excel_file.sheet_names

['Products', 'Descriptions', 'Merchants']

И проанализировать указанные листы в `DataFrame` Pandas, используя метод `parse()` ExcelFile.

Каждый раз, когда мы вызываем метод parse(), нам нужно будет передать явный параметр «sheet_name», указывающий, какой лист из файла Excel мы хотим проанализировать. По умолчанию будет проанализирован первый лист.

In [14]:
products = excel_file.parse('Products')

In [15]:
products.head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


Этот метод parse() имеет все параметры, которые мы видели ранее в методе read_excel(), давайте попробуем некоторые из них:

In [16]:
products = excel_file.parse(sheet_name='Products',
                            header=0,
                            index_col='product_id')

In [17]:
products.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


In [18]:
products.dtypes

Unnamed: 0,0
price,float64
merchant_id,int64
brand,object
name,object


In [19]:
merchants = excel_file.parse('Merchants',
                             index_col='merchant_id')

In [None]:
merchants.head()

Unnamed: 0_level_0,merchant
merchant_id,Unnamed: 1_level_1
1001,Bestbuy.com
1002,Walmart.com
1003,Bestbuy.com
1004,Growkart
1005,bhphotovideo.com


In [20]:
merchants.dtypes

Unnamed: 0,0
merchant,object


## Сохранить в файл Excel

Наконец, мы можем сохранить наш DataFrame как файл Excel.

In [21]:
products.head()

Unnamed: 0_level_0,price,merchant_id,brand,name
product_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


Быстрый и простой способ записать один DataFrame в файл Excel — напрямую использовать метод to_excel() DataFrame.

In [22]:
products.to_excel('out.xlsx')

In [23]:
pd.read_excel('out.xlsx').head()

Unnamed: 0,product_id,price,merchant_id,brand,name
0,AVphzgbJLJeJML43fA0o,104.99,1001,Sanus,Sanus VLF410B1 10-Inch Super Slim Full-Motion ...
1,AVpgMuGwLJeJML43KY_c,69.0,1002,Boytone,Boytone - 2500W 2.1-Ch. Home Theater System - ...
2,AVpe9FXeLJeJML43zHrq,23.99,1001,DENAQ,DENAQ - AC Adapter for TOSHIBA SATELLITE
3,AVpfVJXu1cnluZ0-iwTT,290.99,1001,DreamWave,DreamWave - Tremor Portable Bluetooth Speaker ...
4,AVphUeKeilAPnD_x3-Be,244.01,1004,Yamaha,NS-SP1800BL 5.1-Channel Home Theater System (B...


Мы можем указать имя листа с помощью параметра «sheet_name»:

In [24]:
products.to_excel('out.xlsx',
                  sheet_name='Products')

Дальнейшие вызовы to_excel с другими именами листов будут перезаписывать только первый лист, а не добавлять дополнительные листы.

Также имейте в виду, что удалив индекс, мы потеряем этот столбец.

In [26]:
products.to_excel('out.xlsx',
                  index=None)