* Библиотека PANDAS

Одним из передовых инструментов для работы с данными, представленными в виде таблиц, в Python на сегодняшний день является библиотека Pandas.

Установка 
pip install pandas

Импорт
import pandas as pd

Просмотр версии
print(pd.__version__)

Основными структурами данных в Pandas являются Series и DataFrame.
Series — это упорядоченная изменяемая коллекция объектов, имеющая так называемые ассоциативные метки (индексы).

 Для создания объекта Series используется команда pd.Series().

# Способ 1 — из списка с использованием параметров функции pd.Series():

In [1]:
import pandas as pd

countries = pd.Series(
    data = ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Дания'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'DK'],
    name = 'countries'
)

display(countries)

UK      Англия
CA      Канада
US         США
RU      Россия
UA     Украина
BY    Беларусь
DK       Дания
Name: countries, dtype: object

# Способ 2 — из списка с использованием параметров функции pd.Series():

In [None]:
countries = pd.Series({
    'UK': 'Англия',
    'CA': 'Канада',
    'US' : 'США',
    'RU': 'Россия',
    'UA': 'Украина',
    'BY': 'Беларусь',
    'DK': 'Дания'},
    name = 'countries'
)

display(countries)

UK      Англия
CA      Канада
US         США
RU      Россия
UA     Украина
BY    Беларусь
DK       Дания
Name: countries, dtype: object

Доступ к данным Series:
с помощью loc и iloc

.loc вызывается с квадратными скобками, в которые передаются метки. В него можно передать как один индекс, так и список, чтобы получилось несколько элементов. 

Например, для получения названия страны по коду "US" можно выполнить следующий код:

In [None]:
display(countries.loc['US'])
# США

'США'

Для того чтобы достать информацию по нескольким индексам, необходимо обернуть интересующие индексы в список:

In [None]:
display(countries.loc[['UK', 'RU', 'DK']])

UK    Англия
RU    Россия
DK     Дания
Name: countries, dtype: object

In [19]:
# С .iloc работа с данными похожа на запросы по индексу в массивах
print(countries.iloc[4])

# Или срез
print(countries.iloc[1:5])

Украина
CA     Канада
US        США
RU     Россия
UA    Украина
Name: countries, dtype: object


На самом деле loc и iloc можно опустить и обращаться к элементам Series напрямую по индексам, например countries[['UK', 'US', 'UA']] или countries[[0, 2, 4]]. Оба варианта являются равноправными для Series, однако в дальнейшем мы будем использовать эти операции при обращении к более сложной структуре — DataFrame, а в контексте этой структуры эти варианты уже неравноправны.

# Dataframe как структура данных

Наиболее популярным и понятным является табличное представление данных. Для работы с такими данными в Pandas существует объект DataFrame.

DataFrame является двумерной структурой и представляется в виде таблицы, в которой есть строки и столбцы: столбцами в DataFrame выступают объекты Series, а строки формируются из их элементов. Также в DataFrame есть метки (индексы), которые соответствуют каждой строке таблицы.

DataFrame создаётся с помощью функции pd.DataFrame(). Так же, как и для Series, для создания объектов DataFrame есть несколько способов:

Способ 1 - Самый простой способ создания DataFrame — из словаря, ключами которого являются имена столбцов будущей таблицы, а значениями — списки, в которых хранится содержимое этих столбцов:

In [2]:
countries_df = pd.DataFrame({
    'country': ['Англия', 'Канада', 'США', 'Россия', 'Украина', 'Беларусь', 'Казахстан'],
    'population': [56.29, 38.05, 322.28, 146.24, 45.5, 9.5, 17.04],
    'square': [133396, 9984670, 9826630, 17125191, 603628, 207600, 2724902]
})
display(countries_df)

Unnamed: 0,country,population,square
0,Англия,56.29,133396
1,Канада,38.05,9984670
2,США,322.28,9826630
3,Россия,146.24,17125191
4,Украина,45.5,603628
5,Беларусь,9.5,207600
6,Казахстан,17.04,2724902


Cпособ 2 - Также DataFrame можно создать из вложенного списка, внутренние списки которого будут являться строками новой таблицы:

In [3]:
countries_df = pd.DataFrame(
    data = [
        ['Англия', 56.29, 133396],
        ['Канада', 38.05, 9984670],
        ['США', 322.28, 9826630],
        ['Россия', 146.24, 17125191],
        ['Украина', 45.5, 603628],
        ['Беларусь', 9.5, 207600],
        ['Дания', 17.04, 2724902]
    ],
    columns= ['country', 'population', 'square'],
    index = ['UK', 'CA', 'US', 'RU', 'UA', 'BY', 'DK']
)
display(countries_df)

Unnamed: 0,country,population,square
UK,Англия,56.29,133396
CA,Канада,38.05,9984670
US,США,322.28,9826630
RU,Россия,146.24,17125191
UA,Украина,45.5,603628
BY,Беларусь,9.5,207600
DK,Дания,17.04,2724902


# Axis в Dataframe

При работе с Pandas важно уметь указывать направление работы метода, который используется. Для этого вводится понятие axis (ось, координата). Движение по строкам в таблице обозначается axis с индексом 0, а движение по столбцам — axis с индексом 1.

Данный параметр заложен во все методы, которые могут работать в двух направлениях и по умолчанию в большинстве из них axis=0, то есть они выполняют операции со строками, если не задавать axis вручную.

Рассмотрим разницу в результатах работы методов в зависимости от параметра axis на примере использования метода DataFrame mean() — вычисление среднего по таблице:

Обратите внимание на то, что так как не все столбцы в нашей таблице являются числовыми, то нам необходимо установить параметр numeric_only в значение True (вести расчёт только по числовым столбцам). Это делается для того, чтобы не получать предупреждений (warnings).

In [23]:
# Считаем среднее по строкам (axis = 0) в каждом столбце:
countries_df.mean(axis=0, numeric_only=True)

population    9.070000e+01
square        5.800860e+06
dtype: float64

In [4]:

# Считаем среднее по столбцам (axis = 1) в каждой строке:
countries_df.mean(axis=1, numeric_only=True)

UK      66726.145
CA    4992354.025
US    4913476.140
RU    8562668.620
UA     301836.750
BY     103804.750
DK    1362459.520
dtype: float64

In [5]:
# Доступ к данным можно обратиться к DataFrame по имени столбца через точку:
# Однако использование такого способа возможно только тогда, когда имя столбца указано без пробелов.
countries_df.population

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
DK     17.04
Name: population, dtype: float64

In [6]:
# Другой вариант — обратиться к DataFrame по индексу и указать имя столбца:
countries_df['population']

UK     56.29
CA     38.05
US    322.28
RU    146.24
UA     45.50
BY      9.50
DK     17.04
Name: population, dtype: float64

Для того чтобы получить доступ к ячейкам таблицы, используются уже знакомые нам loc и iloc.

При этом, в соответствии с механизмом работы axis, при обращении к DataFrame по индексам с помощью loc (iloc) первым индексом указывается индекс (порядковый номер), соответствующий строкам, а вторым — имя (порядковый номер) столбца.

In [7]:
# 1 Получим площадь Великобритании:
countries_df.loc['UK', 'square']

# 2 Получим население и площадь, соответствующие России:
countries_df.loc['RU', ['population', 'square']]

# 3 Сделаем вырезку из таблицы и получим информацию о населении и площади, соответствующую Украине, Беларуси и Казахстану:
countries_df.loc[['UA', 'BY', 'DK'],['population', 'square']]
# или
countries_df.iloc[4:8, 1:3]

Unnamed: 0,population,square
UA,45.5,603628
BY,9.5,207600
DK,17.04,2724902


# Работа с различными источниками данных в Pandas
- Запись в файл .csv (comma-separated values):
<br> Экспорт данных в этот формат осуществляется с помощью метода DataFrame to_csv()
<br> - path_or_buf — путь до файла, в который будет записан DataFrame (например, data/my_data.csv);
<br> - sep — разделитель данных в выходном файле (по умолчанию ',');
<br> - decimal — разделитель чисел на целую и дробную части в выходном файле (по умолчанию '.');
<br> - columns — список столбцов, которые нужно записать в файл (по умолчанию записываются все столбцы);
<br> - index — параметр, определяющий, требуется ли создавать дополнительный столбец с индексами строк в файле (по умолчанию True).

- Чтение файла .csv
<br> Для чтения таблицы из csv-файла используется функция модуля Pandas read_csv. Функция возвращает DataFrame и имеет несколько важных параметров.
<br> - filepath_or_buffer — путь до файла, который мы читаем;
<br> - sep — разделитель данных (по умолчанию ',');
<br> - decimal — разделитель чисел на целую и дробную часть в выходном файле (по умолчанию '.');
<br> - names — список с названиями столбцов для чтения;
<br> - skiprows — количество строк в файле, которые нужно пропустить (например, файл может содержать служебную информацию, которая нам не нужна).

In [8]:
import pandas as pd
# Также чтение по ссылке из любого ресурса:
data = pd.read_csv('https://raw.githubusercontent.com/esabunor/MLWorkspace/master/melb_data.csv')
display(data)
display(data.loc[15, ['Price']])

Unnamed: 0.1,Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,1,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,...,1.0,1.0,202.0,,,Yarra,-37.79960,144.99840,Northern Metropolitan,4019.0
1,2,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,4,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
3,5,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,...,2.0,1.0,94.0,,,Yarra,-37.79690,144.99690,Northern Metropolitan,4019.0
4,6,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18391,23540,Williamstown,8/2 Thompson St,2,t,622500.0,SP,Greg,26/08/2017,6.8,...,2.0,1.0,,89.0,2010.0,,-37.86393,144.90484,Western Metropolitan,6380.0
18392,23541,Williamstown,96 Verdon St,4,h,2500000.0,PI,Sweeney,26/08/2017,6.8,...,1.0,5.0,866.0,157.0,1920.0,,-37.85908,144.89299,Western Metropolitan,6380.0
18393,23544,Yallambie,17 Amaroo Wy,4,h,1100000.0,S,Buckingham,26/08/2017,12.7,...,3.0,2.0,,,,,-37.72006,145.10547,Northern Metropolitan,1369.0
18394,23545,Yarraville,6 Agnes St,4,h,1285000.0,SP,Village,26/08/2017,6.3,...,1.0,1.0,362.0,112.0,1920.0,,-37.81188,144.88449,Western Metropolitan,6543.0


Price    700000.0
Name: 15, dtype: object

- Запись и чтение в других форматах
<br>
<br> Как уже говорилось ранее, Pandas способен работать со многими распространёнными форматами данных.
<br>
<br> Методы для записи таблиц в файлы отличных от csv форматов:
<br>
<br> to_excel() — запись DataFrame в формат Excel-таблицы (.xlsx);
<br> to_json() — запись DataFrame в формат JSON (.json);
<br> to_xml() — запись DataFrame в формат XML-документа (.xml);
<br> to_sql() — запись DataFrame в базу данных SQL (для реализации этого метода необходимо установить соединение с базой данных).
<br>
<br> Методы для чтения таблиц из файлов в отличных от csv форматах:
<br>
<br> read_excel() — чтение из формата Excel-таблицы (.xlsx) в DataFrame;
<br> read_json() — чтение из формата JSON (.json) в DataFrame;
<br> read_xml() — чтение из формата XML-документа (.xml) в DataFrame;
<br> read_sql() — чтение из базы данных SQL в DataFrame (также необходимо установить соединение с базой данных).

- Вывод первых и последних строк
<br>
<br> Часто бывает такое, что вывести на экран все строки таблицы является ресурсозатратной операцией, а иногда и вовсе не представляется возможным. <br> В большинстве случаев для того, чтобы понять структуру DataFrame и удостовериться, что таблица подгрузилась верно, достаточно вывести несколько <br> первых или последних строк.
<br>
<br> Для этого у DataFrame есть методы head() и tail(), которые возвращают n первых и n последних строк таблицы соответственно (по умолчанию n = 5).

- Изменение типа данных в столбце
<br>
<br> Если присмотреться внимательнее к выводу метода info(), а конкретнее — к типам данных столбцов, становится понятно, что некоторые признаки <br> кодируются не совсем корректными типами данных. 
<br>
<br> Например, данные в столбцах, которые отражают количество, должны, по идее, выражаться целым числом (Car, Bedroom, Bathroom и Propertyсount), <br> однако кодируются float64 — числом с плавающей запятой размером 64 бита.
<br>
<br> Наконец, данные в столбце с годом постройки (YearBuilt) также представлены в формате чисел с плавающей точкой.
<br>
<br> Чтобы исправить это, можно воспользоваться методом astype(), который позволяет преобразовать тип данных столбца:

<br>  melb_data['Car'] = melb_data['Car'].astype('int64')
<br>  melb_data['Bedroom'] = melb_data['Bedroom'].astype('int64')
<br>  melb_data['Bathroom'] = melb_data['Bathroom'].astype('int64')
<br>  melb_data['Propertycount'] = melb_data['Propertycount'].astype('int64')
<br>  melb_data['YearBuilt'] = melb_data['YearBuilt'].astype('int64')
<br>  melb_data.info()

- Частота уникальных значений
<br>
<br> Для того чтобы определить, сколько раз в столбце повторяется каждый из вариантов значений (т.е. найти частоту для каждого уникального знания), <br> используется метод value_counts().
<br> Данный метод возвращает объект Series, в котором в качестве индексов выступают уникальные категории столбца, а значениями — соответствующая им частота.
<br>
<br> melb_data['Regionname'].value_counts()

# Агрегирующие методы:
<br>
<br>МЕТОД       - СТАТИСТИЧЕСКИЙ ПАРАМЕТР
<br>.count()	- Количество непустых значений
<br>.mean()	    - Среднее значение
<br>.min()	    - Минимальное значение
<br>.max()	    - Максимальное значение
<br>.var()	    - Дисперсия
<br>.std()	    - Стандартное отклонение
<br>.sum()	    - Сумма
<br>.quantile(x)	- Квантиль уровня x
<br>.nunique()	- Число уникальных значений

<br> МОДАЛЬНОЕ ЗНАЧЕНИЕ
<br> Отдельный интерес представляет статический показатель моды — самого распространённого значения в столбце. 
<br> Он вычисляется с помощью метода mode().
<br> Модальных значений может быть несколько, то есть несколько значений могут встречаться одинаковое количество раз. Поэтому метод mode(), в <br> отличие от агрегирующих методов, возвращает не одно число, а серию.

# Фильтрация данных DataFrame
<br> Часто возникает необходимость исследовать определённую группу объектов по какому-то условию, например найти здания с ценой меньше 1 миллиона ,.<br> или выделить из всей таблицы помещения с двумя комнатами.
<br> Такие задачи называются задачами фильтрации.

<br> Разберём классический способ фильтрации в DataFrame — фильтрацию с помощью масок.
<br>
<br> Маской называется Series, которая состоит из булевых значений, при этом значения True соответствуют тем индексам, для которых заданное условие <br> выполняется, в противном случае ставится значение False (например, цена > 2 млн).

In [12]:
# Создадим маску и положим её в переменную с именем mask. Синтаксис очень прост:
melb_data = pd.read_csv('data/melb_data.csv', sep=',')

mask = melb_data['Price'] > 2000000
display(mask)

# Для фильтрации нужно просто подставить переменную mask в индексацию DataFrame. Маска показывает, какие строки нужно оставлять в результирующем наборе, а какие — убирать (выведем первые пять строк отфильтрованной таблицы):

display(melb_data[mask].head())

0        False
1        False
2        False
3        False
4        False
         ...  
13575    False
13576    False
13577    False
13578     True
13579    False
Name: Price, Length: 13580, dtype: bool

Unnamed: 0,index,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,Coordinates
80,80,Albert Park,112 Beaconsfield Pde,3,h,2850000.0,PI,Buxton,4/03/2017,3.3,...,0.0,211.0,198.0,1890.0,Port Phillip,-37.8481,144.9499,Southern Metropolitan,3280.0,"-37.8481, 144.9499"
85,85,Albert Park,104 Richardson St,4,h,2300000.0,S,Marshall,7/05/2016,3.3,...,1.0,153.0,180.0,1880.0,Port Phillip,-37.8447,144.9523,Southern Metropolitan,3280.0,"-37.8447, 144.9523"
88,88,Albert Park,29 Faussett St,2,h,2120000.0,S,Greg,10/09/2016,3.3,...,1.0,199.0,107.0,1900.0,Port Phillip,-37.8422,144.9554,Southern Metropolitan,3280.0,"-37.8422, 144.9554"
92,92,Albert Park,2 Dundas Pl,3,h,2615000.0,S,Cayzer,10/12/2016,3.3,...,1.0,177.0,181.0,1880.0,Port Phillip,-37.8415,144.9585,Southern Metropolitan,3280.0,"-37.8415, 144.9585"
93,93,Albert Park,23 Finlay St,5,h,2100000.0,S,Greg,10/12/2016,3.3,...,1.0,237.0,126.0,1970.0,Port Phillip,-37.8436,144.9557,Southern Metropolitan,3280.0,"-37.8436, 144.9557"


<br> Примечание. Обратите внимание, что использование привычных операторов and и or будет неверным и приведёт к ошибке, так как они выполняют
<br> логические операции между двумя булевыми числами. В нашем случае слева и справа от оператора стоят маски (объекты Series), для которых 
<br> логическую операцию надо совершить поэлементно, а операторы and и or для такого не предназначены.