![logo](img/four-pandas-ss-1920.jpg)

# Библиотека `Pandas`

## Содержание

- Класс Pandas `Series`;
- Класс Pandas `DataFrame`;
- Работа с данными с помощью `Pandas`;
- Объединение таблиц в `Pandas`

``Pandas`` $-$ это высокоуровневая библиотека `Python` для анализа данных, построена она поверх более низкоуровневой библиотеки `NumPy` (которая написана на `C`), что является большим плюсом в производительности. В экосистеме `Python`, `Pandas` является наиболее продвинутой и быстроразвивающейся библиотекой для обработки и анализа данных. 

Основной инструментарий `Pandas` основан на классах `Series` и `DataFrame`.

## Класс `Pandas` `Series`

Объекты класса `Series` похожи на словари (тип `dict` в `Python`), поскольку их отличительной чертой является наличие ассоциированных меток, или индексов, вдоль каждого элемента из списка. Такая особенность превращает их в ассоциативные массивы или словари.

In [None]:
#%pip install pandas

In [None]:
import pandas as pd
import numpy as np

pd_series = pd.Series([5, 6, 7, 8, 9, 10])
pd_series

### Индексы `Series`

Доступ к индексам можно получить при помощи следующего свойства

In [None]:
pd_series.index

`RangeIndex` $-$ класс предназначенный для реализации эффективных, с точки зрения памяти, монотонных целочисленных (**int64**) диапазонов. Данный тип индекса используется `DataFrame` и `Series` по умолчанию. Объекты `RangeIndex` итерируемые.

In [None]:
r_index = pd.RangeIndex(0, 6, 1)


In [None]:
iter(r_index)

### Значения `Series`

Доступ к значениям можно получить при помощи свойства

In [None]:
pd_series.values

`Pandas` `array` $-$ класс используемый `Pandas` для представления массивов. Является итератором.

In [None]:
pd_array = pd.array([1,2,3])

In [None]:
pd_array[1]

### Пример

`Series` ближайших к солнцу звёздных систем, звёзд и субзвёзд

In [None]:
stars_sys = pd.Series(
    [4.2421, 5.9630, 6.588, 7.18, 7.7825, 8.2905],
    index=['Альфа Центавра', 'Звезда Барнарда', 'Луман 16', 'WISE 0855–0714', 'Вольф 359', 'Лаланд 21185']
)
stars_sys

In [None]:
stars_sys.index

`Index` $-$ класс используемый `Pandas` для индексации, представляющий собой последовательности объектов различных типов

### Индексация `Series`

In [None]:
pd_series

Получение значения по индексу:

In [None]:
pd_series[4]

Возврат объекта `Series` по списку индексов:

In [None]:
pd_series[[4, 3]]
# ind = [4]; pd_series[ind]


In [None]:
stars_sys

In [None]:
stars_sys['Звезда Барнарда']

In [None]:
stars_sys[['Звезда Барнарда', 'Лаланд 21185']]

In [None]:
stars_sys['Звезда Барнарда'] = -1

In [None]:
stars_sys

In [None]:
stars_sys[['Луман 16', 'WISE 0855–0714', 'Лаланд 21185']] = 0
stars_sys

Фильтрация данных в объектах `Series`

In [None]:
stars_sys[(stars_sys > 0)]

In [None]:
stars_sys = pd.Series(
    [4.2421, 5.9630, 6.588, 7.18, 7.7825, 8.2905],
    index=['Альфа Центавра', 'Звезда Барнарда', 'Луман 16', 'WISE 0855–0714', 'Вольф 359', 'Лаланд 21185'])
stars_sys

#### Строковое описание значений и индексов `Series`

In [None]:
stars_sys.name = 'Расстояния [световых лет]'
stars_sys.index.name = 'Звёзды, звёздные системы и субзвёзды'
stars_sys

## `Pandas` `DataFrame`

Объекты класса `DataFrame` лучше всего представлять себе в виде обычной таблицы и это правильно, ведь `DataFrame` является табличной структурой данных. В любой таблице всегда присутствуют строки и столбцы. Столбцами в объекте `DataFrame` выступают объекты `Series`, строки которых являются их непосредственными элементами.

In [None]:
df = pd.DataFrame({
        'country': ['Kazakhstan', 'Russia', 'Belarus', 'Ukraine'],
        'population': [17.04, 143.5, 9.5, 45.5],
        'square': [2724902, 17125191, 207600, 603628]
    })
df

In [None]:
df.population

In [None]:
type(df.population)

In [None]:
df.index

In [None]:
df.index = ['KZ', 'RU', 'BY', 'UA']
df

In [None]:
df.index.name = 'country_code'

In [None]:
df

### Доступ к строкам

Доступ к строкам по индексатору возможен несколькими способами:

- `.loc` - используется для доступа по строковой метке
- `.iloc` - используется для доступа по числовому значению (начиная от $0$)

#### Индексация по одному индексу

In [None]:
df.loc['KZ']

In [None]:
type(df.loc['KZ'])

In [None]:
df.iloc[0]

#### Индексация по двум индексам

Доступ к элементу `DataFrame`

In [None]:
df.loc['KZ', 'population']

Получение `DataFrame` из элементов, находящихся на пересечении списка строк и столбцов

In [None]:
df.loc[['KZ', 'RU'], ['population', 'square']]

#### Замечание
При работе с `.loc` и `.iloc` надо запомнить, что первый аргумент индексатора относится к строкам, второй $-$ к столбцам.

In [None]:
df.iloc[[0,1],[1]]

### Доступ к столбцам

Получение столбца `Series` по его индексу:

In [None]:
df['country']

Получение объекта `DataFrame` по списку индексов:

In [None]:
df[['country']]

### Фильтрация записей по значениям полей

In [None]:
df[df.population > 10]

In [None]:
df[df.population > 10][['country', 'square']]

In [None]:
#более сложное условие
df[(df.square > 70000) & (df.country == 'Russia')][['country','population']]

In [None]:
# Или так
filters = (df.country == 'Russia')
df[filters]

In [None]:
# Создаем новую колонку 
df['density'] = df['population'] / df['square'] * 1000000
df

#### Удаление столбцов

При удалении столбцов `DataFrame` возможны две ситуации:

- создается копия объекта, в которой удаляются столбцы, отвечает значение аргумента *inplace* = **False** (по умолчанию);
- изменяется состояние объекта `DataFrame`, *inplace* = **True**.

In [None]:
df_new = df.drop(['density'], axis = 1)

В результате выполнения метода возвращается новый объект `DataFrame`

In [None]:
df_new

Исходный объект остался без изменения

In [None]:
df

При передаче аргумента *inplace* = **True**, новый объект не сосздается

In [None]:
df_new = df.drop(['density'], axis='columns', inplace = True)

In [None]:
print(df_new)

Состояние исходного объекта изменилось

In [None]:
df

### Получение наименований столбцов

Свойство `df.columns` возвращает коллекцию наименований столбцов `Index`

In [None]:
df

In [None]:
df.columns

#### Переименование столбцов

In [None]:
df = df.rename(columns={'country': 'country_name'})
df

#### Получение `DataFrame` из строк с наименьшими (наибольшими) значениями показателя

In [None]:
df.nlargest(3,'population')

In [None]:
df.nsmallest(2,'square')

## Работа с данными с помощью Pandas

Источник данных - https://www.kaggle.com/nasa/meteorite-landings.

### Импорт данных

In [None]:
# pd.read_csv('filename')
# pd.read_excel('filename')
# pd.read_sql(query,connection_object) 
# pd.read_table(filename)
# pd.read_json(json_string)
# pd.read_html(url) 
# pd.read_clipboard()
# pd.DataFrame(dict)

In [None]:
ml = pd.read_csv(r'files\meteorite-landings.csv', sep = ',')
ml.tail()

In [None]:
yaru = pd.read_html('https://ya.ru/')

In [None]:
yaru

Отдельно стоит упомянуть про возможность работы в `Pandas` с большими файлами, которые могут не помещаться в оперативную память компьютера. Для этого мы можем читать файл небольшими кусками (*chunck*).

In [None]:
c_size = 10000 

for ml_chunk in pd.read_csv('files/meteorite-landings.csv', sep = ',',chunksize=c_size):
    print(ml_chunk.shape)

### Экспорт данных

In [None]:
# df.to_csv(filename) 
# df.to_excel(filename) 
# df.to_sql(table_name, connection_object)
# df.to_json(filename)
# df.to_html(filename)
# df.to_clipboard()

In [None]:
df = pd.read_csv('files/meteorite-landings.csv', sep = ',')

In [None]:
df.to_csv('files/meteorite-landings-output.csv', index = False)

### Первые строки  файла

In [None]:
df.head() # 5 строк, по умолчанию

### Последние строки файла

In [None]:
df.tail(10)

### Опции вывода `DataFrame`

In [None]:
df.iloc[0:30]

По умолчанию, выводится не более $20$ столбцов и $60$ строк. Если строк в `DataFrame` больше, то выводятся `.tail()`, `.head()` и троеточия между ними. При превышении количества столбцов выводится $20$ столбцов и троеточия между ними. 

Максимальное количество отображаемых строк и столбцов можно изменить, воспользовавшись методом `.set_option()`:

In [None]:
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 20)

In [None]:
df

In [None]:
pd.set_option('display.max_columns', 20)#значение по умолчанию

А таким образом можно задать количество цифр, выводимых после запятой

In [None]:
pd.set_option('display.precision',3)

In [None]:
df

### Размер `DataFrame`

In [None]:
df.shape

In [None]:
df.shape[0]

### Общая информация по `DataFrame`

Для просмотра числовых статистик можно воспользоваться методом `describe()`:

In [None]:
df.describe()

Здесь

- **count** $-$ количество элементов;
- **mean** $-$ среднее арифметическое;
- **std** $-$ стандартное отклонение;
- **min**, **max** $-$ минимальное и максимальное значения соответственно;
- **25%**, **50%**, **75%** $-$ 25, 50 и 75 процентные перцентили.

Вывод описания только числовых статистик исключительно для строковых столбцов

In [None]:
df.describe(include=[object])

Здесь

- **count** $-$ количество элементов;
- **unique** $-$ количество уникальных элементов;
- **top**, **freq** $-$ наиболее часто встречающийся элемент и его частота, соответственно.

Также по нечисловым признакам можно изучить распределение:

In [None]:
df.recclass.value_counts()[:5]

#### Получение информации о столбцах

Последовательность наименований столбцов

In [None]:
df.columns

Информация о столбцах `DataFrame`:

In [None]:
print(df.info())

При работе с большими *датасетами* необходимо контролировать занимаемую память на системном уровне:

In [None]:
for dtype in ['float','int','object']:
    #DataFrame состоящий из столбцов с данными типа dtype
    df_selected_dtype = df.select_dtypes(include=[dtype])
    #Получение объема памяти для DaraFrame, если deep=True,
    #тогда объем таблицы в памяти данных вычисляется,
    #объем памяти объектов на предмет потребления памяти на системном уровне
    mean_usage_b = df_selected_dtype.memory_usage(deep=True).mean()
    #разделить на объем мегабайта в байтах 1024**2
    mean_usage_mb = mean_usage_b / 1024 ** 2
    print("Average memory usage for {} columns: {:03.2f} MB".format(dtype,mean_usage_mb))

### Изменение типа столбцов, при необходтмости

In [None]:
df['mass'] = df['mass'].astype('float32')

In [None]:
print(df.info())

#### Замечание

Обратите внимание, как изменился размер занимаемой памяти объектом `DataFrame`

### Категориальный тип данных

*Категориальные данные* преставляют собой данные с ограниченным числом уникальных значений или категорий (например, *пол* или *религия*). Категориальные переменные могут быть текстовыми или числовыми, в которых категории закодированы числовыми кодами (например, 0 = Женский , а 1 = Мужской ).

Для эффективной работы с *категориальными* признаками в `Pandas` присутствует специальный *категориальный* тип данных.

Рассмотрим на примере, какие данные целесообразно представлять в категориальной форме и какие от этого можно получить преимущества.

In [None]:
df['mass'].nunique()

In [None]:
from operator import itemgetter

sorted(
        [(col, df[col].nunique()) for col in df.columns],
        key = itemgetter(1)
    )

Класс метеорита (*recclass*) $-$ прекрасно подходит для преобразования к категориальным данным.

In [None]:
df_with_cat = df.copy()#копия DataFrame
df_with_cat['recclass'] = df_with_cat['recclass'].astype('category')
#преобразование типа поля в категориальный

После преобразования к категориальному типу данные занимают несколько меньший объем.

In [None]:
df.info()

In [None]:
df_with_cat.info()

С первого взгляда операции над данными выполняются аналогично.

In [None]:
df.groupby('recclass')['mass'].mean().to_frame()

In [None]:
df_with_cat.groupby('recclass')['mass'].mean().to_frame()

Однако, анализ производительности демонстрирует ощутимый прирост.

In [None]:
%%timeit
df_with_cat.groupby('recclass')['mass'].mean().to_frame()

In [None]:
%%timeit
df.groupby('recclass')['mass'].mean().to_frame()

В итоге, категориальные признаки производительнее и занимают меньше памяти.

### Часто применяемые методы 

#### Сортировка

In [None]:
df.sort_values(
        by=['recclass', 'mass'],
        ascending=[True, False]
    ).head(2)

#### Извлечение записей по их индексам

In [None]:
df.loc[0:5]#df.loc[0:5,:]

#### Извлечение значений полей

In [None]:
df[df['name'] == 'Abee']['mass'].mean()

#### Получение количества различных значений поля

In [None]:
df.fall.value_counts()

#### Применение функции к каждой записи `DataFrame`

In [None]:
df[['mass', 'year']]

In [None]:
df[['mass', 'year']].apply(np.max)

#### Метод `.map()`

Отображает все значения полей (объекты `Series`), образующих `DataFrame`, в соответствии с аргументом *arg*.

Используется для замены каждого значения из `Series` новым значением, которое может быть получено преобразованием, определенным функцией, **dict** или `Series`.

Если *arg* представляет собой функцию, то она применяется ко всем элементам `Series`.

Когда *arg* является словарем (**dict**), значения из `Series`, которые отстуствуют в словаре (как ключи), преобразуются в **NaN**. Однако, если передать объект производного класса от **dict**, который определяет \_\_missing\_\_ (т.е. предоставляет метод для значений по умолчанию), то вместо **NaN** используется это значение.

In [None]:
#d = {'Found' : 1, 'Fell': 0}
#df['status'] = df['fall'].map(d)
df['status'] = df['fall'].map(lambda x : 1 if x=='Found' else 0)
df.tail(2)

#### Группировка данных

Общая форма вызова метода `.groupby()` осуществляющему группировку данных в `Pandas`

In [None]:
df.groupby(by=grouping_columns)[columns_to_show].function()

In [None]:
df.groupby(by = 'fall')['mass'].max()

Групповая агрегация позволяет получить `DataFrame` составленный из результатов группировки и применения функций к группированным данным.

In [None]:
df.groupby(by = 'fall')['mass'].agg([np.mean, np.std, np.min, np.max])

#### Перекрестная таблица

Вычисление простой перекрестной таблицы двух (или более) факторов. По умолчанию вычисляет частотную таблицу факторов.

In [None]:
pd.crosstab(df['fall'], df['nametype'])

При выборе *normalize* = **True** получаем таблицу относительных частот.

In [None]:
pd.crosstab(df['fall'], df['nametype'], normalize = True)

## Объединение таблиц в `Pandas`

Классическая статья из документации Pandas - http://pandas.pydata.org/pandas-docs/stable/merging.html

Если вы работали с `sql`, то знаете, что для объединения таблиц используется операция `join`. В библиотеке `Pandas` также предусмотрен `join`, но помимо него, есть еще такие функции объединения, как `merge` и `concatenate`.

Из трех операций объединения датафреймов `join` является наиболее простым и предлагает минимум гибкости при объединения таблиц.

Он объединит все столбцы из двух таблиц с общими столбцами. Способ объединения строк из двух таблиц определяется с помощью *how* = \['left','right','inner','outer'\] аналогично `sql`. Визуализировать понимание соединения таблиц всеми этими способами могут схемы:

<img width = '480px' src="img/679_1.jpg">

Аналогично методу `.join()` функция `merge()` также объединяет все столбцы из двух таблиц с общими столбцами. Но, в отличие от `.join()`, `merge()` уже предлагает три способа организации построчного выравнивания. Первый способ заключается в использовании *on* = column_to_merge, в этом случае столбец должен быть общим столбцом в обеих таблицах. Второй способ $-$ использовать *left_on* = left_table_column_to_merge и right_on = right_table_column_to_merge. Такой способ позволяет объединить две таблицы, используя два разных столбца. Третий способ $-$ использовать *left_index* = **True** и *right_index* = **True**, в данном случае таблицы будут объединены по индексам.

### Присоединение по индексу

In [None]:
left = pd.DataFrame(
        {
            "A": ["A0", "A1", "A2"],
            "B": ["B0", "B1", "B2"]
        },
        index=["K0", "K1", "K2"]
    )

right = pd.DataFrame(
        {
            "C": ["C0", "C2", "C3"],
            "D": ["D0", "D2", "D3"]
        },
        index=["K0", "K2", "K3"]
    )

result = left.join(right) # синоним left.join(right, how='left')

In [None]:
result

<img width = '800px' src="img/merging_join.png">

И с *how* = outer

In [None]:
result = left.join(right, how="outer")

In [None]:
result

<img width = '800px' src="img/merging_join_outer.png">

Аналогичный результат можно получить используя функцию `merge()`

In [None]:
result = pd.merge(
        left, right,
        left_index=True, right_index=True,
        how="outer"
    )

In [None]:
result

<img width = '800px' src="img/merging_merge_index_outer.png">

### Объединение по ключу и индексу

`.join()` принимает необязательный аргумент *on*, который может быть столбцом или несколькими именами столбцов, который указывает, что `DataFrame` `right` должен быть выровнен по значениям этого столбца c `DataFrame` `left`.

In [None]:
left = pd.DataFrame(
        {
            "A": ["A0", "A1", "A2", "A3"],
            "B": ["B0", "B1", "B2", "B3"],
            "key": ["K0", "K1", "K0", "K1"],
        }
    )
right = pd.DataFrame(
            {
                "C": ["C0", "C1"],
                "D": ["D0", "D1"]
            },
            index=["K0", "K1"]
        )
result = left.join(right, on="key")

In [None]:
result

<img width = '800px' src="img/merging_join_key_columns.png">

Эквивалентный результат можно получить с помощью функции `merge()`

In [None]:
result = pd.merge(
        left, right,
        left_on="key", right_index=True,
        how="left"
    )

In [None]:
result

<img width = '800px' src="img/merging_merge_key_columns.png">

### Конкатенация таблиц

Функция `concat()` предназначена для выполнения операций конкатенации объектов `DataFrame`. Перед погружением в детали, начнем с простого примера объединения таблиц по вертикальной оси параметр *axis* = 0 (по умолчанию).

In [None]:
df1 = pd.DataFrame(
        {
            "A": ["A0", "A1", "A2", "A3"],
            "B": ["B0", "B1", "B2", "B3"],
            "C": ["C0", "C1", "C2", "C3"],
            "D": ["D0", "D1", "D2", "D3"],
        },
        index=[0, 1, 2, 3],
    )


df2 = pd.DataFrame(
        {
            "A": ["A4", "A5", "A6", "A7"],
            "B": ["B4", "B5", "B6", "B7"],
            "C": ["C4", "C5", "C6", "C7"],
            "D": ["D4", "D5", "D6", "D7"],
        },
        index=[4, 5, 6, 7],
    )

df3 = pd.DataFrame(
        {
            "A": ["A8", "A9", "A10", "A11"],
            "B": ["B8", "B9", "B10", "B11"],
            "C": ["C8", "C9", "C10", "C11"],
            "D": ["D8", "D9", "D10", "D11"],
        },
        index=[8, 9, 10, 11],
    )

result = pd.concat([df1, df2, df3])

In [None]:
result

<img width = '400px' src="img/merging_concat_basic.png">

Теперь рассмотрим объединение таблиц вдоль горизонтальной оси *axis* = 1

In [None]:
df4 = pd.DataFrame(
        {
            "B": ["B2", "B3", "B6", "B7"],
            "D": ["D2", "D3", "D6", "D7"],
            "F": ["F2", "F3", "F6", "F7"],
        },
        index=[2, 3, 6, 7],
    )

result = pd.concat([df1, df4], axis=1)

In [None]:
result

<img width = '800px' src="img/merging_concat_axis1.png">

Конкатенация `df1` и `df4` с *join* = 'inner' представляет собой `DataFrame`, в котором каждая запись имеет совпадающие значения в полях `df1` и `df4`.

In [None]:
result = pd.concat([df1, df4], axis=1, join="inner")

In [None]:
result

<img width = '800px' src="img/merging_concat_axis1_inner.png">

Частный случай функции `.сoncat()` с параметрами (*axis*=0, *join*='outer') по причине частого использования оформлен в отдельный метод `.append()` объектов `DataFrame`.

In [None]:
result = df1.append(df2)

In [None]:
result

<img width = '480px' src="img/merging_append1.png">

Строки с одинаковыми индексами не пересекаются, а добавляются в результирующий `DataFrame`

In [None]:
result = df1.append(df4)

In [None]:
result

<img width = '480px' src="img/merging_append2.png">