In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)

---
# 12.7 Чтение Excel-файла
---

In [2]:
data = pd.read_excel('Fig3-1.xls',header=None)

In [5]:
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,"U.S. Home Price and Related data, for Figure 3...",,,,,,,,,,,,,,,,,,
1,See the book for description of data.,,,,"Update Nominal Home Price Index, Click Additio...",,,,,,,,,,,,,,
2,"Monthly data from January 1953 for prices, all...",,,,,,,,Nominal,,,,,,,,,,
3,,Real,,Real,,,,,Home,,,Nominal,,,Consumer,,,,
4,,Home,,Building,U.S.,,,,Price,HPI,,Building,,,Price,CPI Annual&,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2018.79,174.056,,,,,,2018.79,205.709,S&P/CoreLogic/Case-Shiller,,,,2018.79,252.885,BLS,,,
860,2018.87,174.439,,,,,,2018.87,205.471,S&P/CoreLogic/Case-Shiller,,,,2018.87,252.038,BLS,,,
861,2018.96,174.659,,,,,,2018.96,205.073,S&P/CoreLogic/Case-Shiller,,,,2018.96,251.233,BLS,,,
862,2019.04,174.016,,,,,,2019.04,204.708,S&P/CoreLogic/Case-Shiller,,,,2019.04,251.712,BLS,,,


Мы видим, что файл загрузился и выглядит, как обычный pandas.DataFrame. Pandas автоматически обрабатывает данные в этом формате при загрузке. При этом получается много пропусков (NaN), это те места, где в ячейках ничего не было написано

При загрузке потерялось форматирование (жирные символы): Pandas не умеет работать с данными, содержащими форматирование. Но при сохранении файла после обработки мы сможем добавить форматирование. Если pandas отображает не все столбцы при выводе данных, вы можете воспользоваться следующим методом, чтобы выводить все столбцы:

***Основные параметры при чтении***

Параметры, которые можно передавать методу pandas.read_excel():

1. io — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете или специальный объект ExcelFile, о котором мы поговорим позже.

2. sheet_name — ссылка на лист в Excel-файле. Возможные варианты значения данного параметра:

0 — значение по умолчанию, означает, что загружаем первую страницу (первый лист);

'Sheet1' — можно передать название листа; обычно страницы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; 

[0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а 
значениями — их содержимое в виде DataFrame;

None — если передать такое значение, то Pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте.

na_values — список значений, которые будут считаться пропусками. Здесь всё точно так же, как при чтении .csv файла: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’

<span style="color: orange; font-weight: bold; font-size:16pt">Чтение с помощью ExcelFile</span>

In [7]:
data_file = pd.ExcelFile('Fig3-1.xls')
data = pd.read_excel(data_file,header=None)

Когда это может пригодиться? Например, если мы принимаем файл в одном месте программы, а используем в другом. Это может оптимизировать затрачиваемое время, если мы не знаем заранее, когда будем использовать содержимое файла. Ещё один случай:   в файле есть несколько страниц и нам не нужны все эти страницы сразу. Если мы будем читать страницы порознь с помощью read_excel и передавать в этот метод путь к файлу, мы будем каждый раз загружать этот файл в память. Когда данных много, это заполнит вашу оперативную память. В случае с ExcelFile мы прочитаем файл один раз и потом будем только подгружать необходимые страницы.

С ExcelFile можно работать с помощью контекстного менеджера:

In [None]:
with pd.ExcelFile('path_to_file.xls') as xls:
    data['Sheet1'] = pd.read_excel(xls, 'Sheet1', na_values=['NA'])  
    data['Sheet2'] = pd.read_excel(xls, 'Sheet2')

Если на первой странице мы хотим считать пропусками только ячейки со значением 'NA', а на второй  – любые похожие на пропуски значения (они описаны выше), то ExcelFile позволит проявить такую гибкость при чтении данных с разных листов.

Если мы просто хотим прочитать два листа из Excel-файла, то этот код:

In [None]:
with pd.ExcelFile('path_to_file.xls') as xls:  
    data['Sheet1'] = pd.read_excel(xls, 'Sheet1')  
    data['Sheet2'] = pd.read_excel(xls, 'Sheet2')  

In [None]:
# OR

data = pd.read_excel('path_to_file.xls', ['Sheet1', 'Sheet2'])  

---
# 12.8 Продвинутое чтение Excel-файла
---

<span style="color: orange; font-weight: bold; font-size:16pt">Чтение по ссылкеe</span>

In [None]:
data = pd.read_excel('http://www.econ.yale.edu/~shiller/data/Fig3-1.xls', header=None) 

In [11]:
data = pd.read_excel("./nakladnaya.xls", header=None, skiprows=2)

In [4]:
data1 = data.copy()
data1 = data1.dropna(how='all')
data1

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18
0,"U.S. Home Price and Related data, for Figure 3...",,,,,,,,,,,,,,,,,,
1,See the book for description of data.,,,,"Update Nominal Home Price Index, Click Additio...",,,,,,,,,,,,,,
2,"Monthly data from January 1953 for prices, all...",,,,,,,,Nominal,,,,,,,,,,
3,,Real,,Real,,,,,Home,,,Nominal,,,Consumer,,,,
4,,Home,,Building,U.S.,,,,Price,HPI,,Building,,,Price,CPI Annual&,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2018.79,174.056,,,,,,2018.79,205.709,S&P/CoreLogic/Case-Shiller,,,,2018.79,252.885,BLS,,,
860,2018.87,174.439,,,,,,2018.87,205.471,S&P/CoreLogic/Case-Shiller,,,,2018.87,252.038,BLS,,,
861,2018.96,174.659,,,,,,2018.96,205.073,S&P/CoreLogic/Case-Shiller,,,,2018.96,251.233,BLS,,,
862,2019.04,174.016,,,,,,2019.04,204.708,S&P/CoreLogic/Case-Shiller,,,,2019.04,251.712,BLS,,,


Какой код поможет узнать номер накладной?

In [27]:
data1.iloc[0, 4][2:9]

'5764809'

In [38]:
data.iloc[6:8, :].dropna(axis=1, how='all')

Unnamed: 0,1,4,5
6,Основание для отпуска: Договор №,86.0,"от ""02""апреля 2018 г."
7,,,


---
# 12.9 Запись в Excel-файл
---

In [41]:
table = data1

In [None]:
table.to_excel("table.xls")  

Если мы сохраним таблицу именно так, мы сохраним ее индекс, и в данных будет находиться лишний столбец. Чтобы не сохранять индекс, можно в метод to_excel() передать параметр index=False.

In [45]:
writer = pd.ExcelWriter('test.xlsx')  
table.to_excel(writer, index=False, sheet_name='Таблица')  
writer.save()  

Во-первых, мы все равно использовали метод to_excel(), но вместо пути к будущему файлу передали объект типа ExcelWriter, который создали на первой строке. Во-вторых, мы вызвали метод save() у объекта ExcelWriter. До этого момента сохранение не было завершено, и мы могли сделать еще некоторые действия. Какие? Давайте узнаем.

<span style="color: orange; font-weight: bold; font-size:16pt">Добавим форматирование</span>

Как мы узнали в самом начале, Excel-файлы поддерживают форматирование текста. С помощью pandas мы можем добавлять форматирование в Excel-файлы, используя ExcelWriter. Если мы хотим добавить форматирование, нужно выбрать объект workbook, с помощью которого мы будем добавлять, например, выделение текста жирным. Кроме этого, нужно выбрать нужную страницу:

In [46]:
workbook = writer.book  
worksheet = writer.sheets['Таблица'] 

Теперь давайте выделим цену и сумму жирным, а наименование – красным цветом:

In [47]:
money_fmt = workbook.add_format({'bold': True})  
name_fmt = workbook.add_format({'color': 'red'})  
  
worksheet.set_column('E:F', 20, money_fmt)  
worksheet.set_column(1, 1, 20, name_fmt)  

0