# Библиотеки Python

Питон входит в ТОП-5 самых популярных языков. Это произошло по причине легкости написания кода и огромных возможностей этого языка. Популярные языки активно дорабатываются и к ним появляются модули расширения, или, как их правильнее называть, библиотеки. Для подключения библиотек используется ключевое слово `import`. Есть 3 варианта его использования:

In [3]:
from platform import python_version
print(python_version())

3.7.4


In [7]:
import pandas as pd

In [1]:
# Использовать библиотеку pandas
# Использовать библиотеку pandas по короткому имени pd
# Из библиотеки pandas использовать метод read_excel

# Введение в Pandas

Pandas — программная библиотека на языке Python для обработки и анализа данных. Эта библиотека позволяет работать с таблицами, которые можно получить из различных источников, например, Excel. Большим плюсом работы с таблицами через pandas является алгоритмизируемость всех совершаемых действий: однажды правильно написанный скрипт позволит вам никогда больше не возвращаться к обработке шаблона с данными. Также у Pandas нет ограничений на количество строк и столбцов в таблице, в отличие от Excel. С помощью pandas можно повторить всю функциональность Excel в плане вычислений и даже больше, но об этом в следующих уроках.

## Чтение данных

Для дальнейшей работы вам понадобятся таблица `Superstore.xls`. Скачать их можно на той же странице, где скачали эти уроки.

Для чтения данных из вашей таблицы Excel используется метод `read_excel('путь/к/файлу.xls')`. Если положить этот файл в ту же папку, где лежит ваш блокнот Jupyter, то вместо пути к файлу можно написать просто название этого файла.

In [10]:
df = pd.read_excel('Superstore.xls', sheet_name = 'Returns')
# Откроет первый лист из файла nodes.xlsx

У команды `read_excel` есть дополнительные параметры:
* `sheet_name` позволяет указать название листа в таблице или его порядковый номер (по умолчанию открывает первый лист Excel)
* `skiprows` количество строк, которые не нужно читать в начале файла (шапка таблицы)
* `nrows` количество строк для чтения (длина самой таблицы)
* `skipfooter` количество строк, которые не нужно читать в конце файла (подвал таблицы)

Все параметры можно посмотреть [в официальной документации](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html). Документацию по другим функциям легко найти в Google, вводя ключевое слово pandas и название функции.

In [14]:
# Первые 10 строк с листа Returns
pd.read_excel('Superstore.xls', sheet_name = 'Returns', nrows=10)

Unnamed: 0,Returned,Order ID
0,Yes,CA-2015-100762
1,Yes,CA-2015-100867
2,Yes,CA-2015-102652
3,Yes,CA-2015-103373
4,Yes,CA-2015-103744
5,Yes,CA-2015-103940
6,Yes,CA-2015-104829
7,Yes,CA-2015-105270
8,Yes,CA-2015-108609
9,Yes,CA-2015-108861


## Получение данных из таблицы

Пока нам не понадобится второй лист, откроем первый и сохраним открытую таблицу в памяти с помощью переменной. Переменные в Python создаются и присваиваются одной строкой: `<название переменной> = <значение переменной>`.

In [17]:
orders = pd.read_excel('Superstore.xls', sheet_name = 'Orders')

Чтобы получить из таблицы данные используются команды `iloc[строки, столбцы]` и `loc[строки, столбцы]`. Для функции `iloc` строки и столбцы – это числа. Для `loc` по умолчанию строки нумеруются числами от 0 (нумерация выведена в крайнем левом столбце, это называется индексом, его можно изменить и он не обязательно должен быть числовым), а заголовки столбцов берутся из первой строки таблицы.

In [21]:
orders.loc[0,'Order ID']
orders.iloc[0,1]

'CA-2017-152156'

Для получения нескольких столбцов или строк их следует взять в квадратные скобки и перечислить через запятую. Такие запросы можно комбинировать.

In [23]:
orders.loc[0,['Order ID','Ship Date']]

Order ID          CA-2017-152156
Ship Date    2017-11-11 00:00:00
Name: 0, dtype: object

In [24]:
orders.head(1)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,1,CA-2017-152156,2017-11-08,2017-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136


Для получения всех строк или столбцов вместо их названий пишется знак `:` (двоеточие)

In [30]:
orders.iloc[0,:];
orders.loc[[0,1,2],'Customer Name']

0        Claire Gute
1        Claire Gute
2    Darrin Van Huff
Name: Customer Name, dtype: object

Теперь попробуйте самостоятельно открыть лист Returns и вывести из него заказ, который в Excel находился бы в пятой строке.

In [33]:
orders.loc[5-1]

Row ID                                        5
Order ID                         US-2016-108966
Order Date                  2016-10-11 00:00:00
Ship Date                   2016-10-18 00:00:00
Ship Mode                        Standard Class
Customer ID                            SO-20335
Customer Name                    Sean O'Donnell
Segment                                Consumer
Country                           United States
City                            Fort Lauderdale
State                                   Florida
Postal Code                               33311
Region                                    South
Product ID                      OFF-ST-10000760
Category                        Office Supplies
Sub-Category                            Storage
Product Name     Eldon Fold 'N Roll Cart System
Sales                                    22.368
Quantity                                      2
Discount                                    0.2
Profit                                  

In [31]:
orders.head(6)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,1,CA-2017-152156,2017-11-08,2017-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136
1,2,CA-2017-152156,2017-11-08,2017-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420.0,South,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3,0.0,219.582
2,3,CA-2017-138688,2017-06-12,2017-06-16,Second Class,DV-13045,Darrin Van Huff,Corporate,United States,Los Angeles,...,90036.0,West,OFF-LA-10000240,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,14.62,2,0.0,6.8714
3,4,US-2016-108966,2016-10-11,2016-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311.0,South,FUR-TA-10000577,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,957.5775,5,0.45,-383.031
4,5,US-2016-108966,2016-10-11,2016-10-18,Standard Class,SO-20335,Sean O'Donnell,Consumer,United States,Fort Lauderdale,...,33311.0,South,OFF-ST-10000760,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,22.368,2,0.2,2.5164
5,6,CA-2015-115812,2015-06-09,2015-06-14,Standard Class,BH-11710,Brosina Hoffman,Consumer,United States,Los Angeles,...,90032.0,West,FUR-FU-10001487,Furniture,Furnishings,Eldon Expressions Wood and Plastic Desk Access...,48.86,7,0.0,14.1694


В этом небольшом уроке мы научились открывать файл Excel из питона и получать из него данных различным образом. В следующем уроке мы применим полученные знания для создания фильтров.