In [6]:
import pandas as pd
pd.set_option('display.max_columns', None)  

In [7]:
data = pd.read_excel('Fig3-1.xls', header = None)  

1. io — первый параметр, в который мы передаём адрес файла, который хотим прочитать. Кроме адреса на диске, можно передавать адрес в интернете или специальный объект ExcelFile, о котором мы поговорим позже.
2. sheet_name — ссылка на лист в Excel-файле. Возможные варианты значения данного параметра:

2.1. 0 — значение по умолчанию, означает, что загружаем первую страницу (первый лист);

2.2. 'Sheet1' — можно передать название листа; обычно страницы называются 'SheetX', где X — номер листа, но могут использоваться и другие названия; 

2.3. [0, 1, 'Sheet3'] — список, содержащий номера или названия листов; в таком случае Pandas вернёт словарь, в котором ключами будут номера или названия листов, а значениями — их содержимое в виде DataFrame;

2.4. None — если передать такое значение, то Pandas прочитает все листы и вернёт их в виде словаря, как в предыдущем пункте.
3. na_values — список значений, которые будут считаться пропусками. Здесь всё точно так же, как при чтении .csv файла: ‘’, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’, ‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ‘N/A’, ‘NA’, ‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’

In [9]:
data.shape

(864, 19)

Еще один способ прочитать Excel-файл — использовать pd.ExcelFile. Это специальный объект, которому на вход можно передать путь к файлу. 

In [10]:
data_file = pd.ExcelFile('Fig3-1.xls')  
data = pd.read_excel(data_file, header=None)

 Когда это может пригодиться? Например, если мы принимаем файл в одном месте программы, а используем в другом. Это может оптимизировать затрачиваемое время, если мы не знаем заранее, когда будем использовать содержимое файла. Ещё один случай:   в файле есть несколько страниц и нам не нужны все эти страницы сразу. Если мы будем читать страницы порознь с помощью read_excel и передавать в этот метод путь к файлу, мы будем каждый раз загружать этот файл в память. Когда данных много, это заполнит вашу оперативную память. В случае с ExcelFile мы прочитаем файл один раз и потом будем только подгружать необходимые страницы.

In [14]:
with pd.ExcelFile('path_to_file.xls') as xls:  
    data['Sheet1'] = pd.read_excel(xls, 'Sheet1', na_values=['NA'])  
    data['Sheet2'] = pd.read_excel(xls, 'Sheet2')  

In [None]:
data = pd.read_excel('path_to_file.xls', ['Sheet1', 'Sheet2'])  

In [15]:
# ЧТЕНИЕ ПО ССЫЛКЕ
data = pd.read_excel('http://www.econ.yale.edu/~shiller/data/Fig3-1.xls', header=None)  

#### Нетабличные данные

Если мы посмотрим на то, как выглядит файл, то увидим, что первые две строчки — пустые, и при чтении файла их желательно пропустить. Для этого можно передать в функцию read_excel дополнительный параметр — skiprows. В качестве значения параметра укажем количество строк, которые надо пропустить при чтении:

In [50]:
data = pd.read_excel("nakladnaya.xls", header=None, skiprows=2)# пропустить две первые пустые строчки
# пропустить строки не в начале, а в конце, то нужно использовать параметр skipfooter

In [51]:
data = data.dropna(how = 'all', axis = 0).reset_index(drop=True) #удалить строчки, в которых все столбцы пустые

In [52]:
data.shape

(15, 13)

In [53]:
data.iloc[0, 4][2:9]

'5764809'

In [54]:
# data = data.dropna(how = 'all', axis = 1) #удалить столбцы, в которых все строчки пустые

In [55]:
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,,,,НАКЛАДНАЯ,"№ 5764809 от ""08"" апреля 2018 г.",,,,,,,,
1,,Грузоотправитель:,,"ООО ""Первый строитель""",,,,,,,,,
2,,Грузополучатель:,,"ООО ""Стройка века""",,,,,,,,,
3,,Основание для отпуска: Договор №,,,86,"от ""02""апреля 2018 г.",,,,,,,
4,,№,Наименование товарно-материальных ценностей,,,,Ед. изм.,,,Количество,,"Цена,","Сумма,"
5,,п/п,,,,,,,,,,руб. коп.,руб. коп.
6,,1,"Велосипед ""Спринтер""",,,,шт,,,5,,9000,45000
7,,2,"Велосипед ""Малютка""",,,,шт,,,10,,3500,35000
8,,,Всего отпущено,2 (два) наименования,,,,,,,,,
9,,,На сумму,80 000 (восемьдесят тысяч) рублей,,,,,,,,,


In [56]:
data.iloc[6:8, [1, 2, 6, 9, 11, 12]]

Unnamed: 0,1,2,6,9,11,12
6,1,"Велосипед ""Спринтер""",шт,5,9000,45000
7,2,"Велосипед ""Малютка""",шт,10,3500,35000


In [57]:
data.iloc[6:8, :].dropna(axis=1, how='all')

Unnamed: 0,1,2,6,9,11,12
6,1,"Велосипед ""Спринтер""",шт,5,9000,45000
7,2,"Велосипед ""Малютка""",шт,10,3500,35000


In [58]:
data.iloc[6:8, :].dropna(axis=1, how='any')

Unnamed: 0,1,2,6,9,11,12
6,1,"Велосипед ""Спринтер""",шт,5,9000,45000
7,2,"Велосипед ""Малютка""",шт,10,3500,35000


In [59]:
table = data.iloc[6:8, :].dropna(axis=1, how='all')

In [60]:
table.to_excel("table.xls", index=False)  

In [61]:
writer = pd.ExcelWriter('test.xlsx')  
table.to_excel(writer, index=False, sheet_name='Таблица')  
writer.save()  

Excel-файлы поддерживают форматирование текста. С помощью pandas мы можем добавлять форматирование в Excel-файлы, используя ExcelWriter. Если мы хотим добавить форматирование, нужно выбрать объект workbook, с помощью которого мы будем добавлять, например, выделение текста жирным. Кроме этого, нужно выбрать нужную страницу:

In [62]:
workbook = writer.book  
worksheet = writer.sheets['Таблица'] 

In [64]:
# выделим цену и сумму жирным, а наименование – красным цветом

money_fmt = workbook.add_format({'bold': True})  
name_fmt = workbook.add_format({'color': 'red'})  
  
worksheet.set_column('E:F', 20, money_fmt)  # 20 - ширина столбца
worksheet.set_column(1, 1, 20, name_fmt) 

0

Для выбора нужных столбцов при задании параметров форматирования мы использовали два способа. Один из них — с помощью буквенных обозначений. Это стандартный способ обращаться к столбцам в Excel. Второй — с помощью номера столбца. Важно запомнить, что при работе с Excel при задании диапазона значений значения указываются включительно. Именно поэтому мы выбрали во втором случае применение форматирования от столбца 1 до столбца 1.

Ещё одна вещь, на которую нужно обратить внимание: число 20 среди параметров метода set_column(). Этот параметр означает ширину столбца. 

Какие еще параметры можно попробовать:

1. border отвечает за границы столбца и может быть равен True или False; 
2. align отвечает за расположение данных внутри ячеек, например, center для настройки выравнивания по центру; 
3. fg_color отвечает за цвет фона, например, 'green', хотя можно передать и шестнадцатиричное значение, например, '#D7E4BC'.