<!-- dom:TITLE: Введение в библиотеку `pandas` -->
# Введение в библиотеку `pandas`
<!-- dom:AUTHOR: С.В. Лемешевский Email:sergey.lemeshevsky@gmail.com at Институт математики НАН Беларуси -->
<!-- Author: -->  
**С.В. Лемешевский** (email: `sergey.lemeshevsky@gmail.com`), Институт математики НАН Беларуси

Date: **Mar 31, 2020**

Библиотека `pandas` содержит структуры данных и инструменты
управления данными, предназначенные для очистки данных и быстрого и
простого анализа данных в Python. Библиотека `pandas` часто
используется в тандеме с инструментами для численных расчетов, такими
как NumPy и SciPy, библиотеками для анализа данных, такими как
`statmodels` и `scikit-learn`, и библиотеками для визуализации, такими
как `matplotlib`.

Ниже будем использовать следующее соглашение для импорта библиотеки
`pandas`:

In [1]:
import pandas as pd

ModuleNotFoundError: No module named 'pandas'

In [None]:
import numpy as np

<!-- Common Mako variable and functions -->
<!-- -*- coding: utf-8 -*- -->



# Структуры данных в `pandas`
<div id="pandas:data-struct"></div>

Чтобы начать работать с `pandas`, рассмотрим две основные структуры:
`Series` и `DataFrame`. Они не являются универсальными решениями любых
задач, однако эти структуры предоставляют прочный легкий в
использовании фундамент для большинства приложений.

## Класс `Series`
<div id="pandas:data-struct:series"></div>

`Series` (*ряд*) — объект, типа одномерного массива, содержащий
последовательность значений (типов, аналогичных типам NumPy) и
связанный с ним массив меток данных,
называемых *индексами*. Создадим простейший объект типа `Series`
только из массива данных:

In [9]:
obj = pd.Series([4, 7, -5, 3])

In [10]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

Строковое представление объекта `Series` в интерактивном режиме
отображает индексы слева, а данные справа. Так как мы не определили
индексы, то по умолчанию индексы содержат целые числа от `0` до `N-1`
(где `N` — длина массива данных). Можно получить представление в виде
массива и индексы ряда с помощью атрибутов `values` и `index`:

In [11]:
obj.values

array([ 4,  7, -5,  3])

In [12]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Часто желательно создать ряд с индексами, идентифицирующими каждую
точку данный с меткой:

In [13]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])

In [14]:
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [None]:
obj2.index

В отличие от массивов NumPy, можно использовать метки при индексации
при выборе отдельных значений или набора значений:

In [None]:
obj2['a']

In [None]:
obj2['d'] = 6

In [None]:
obj2[['c', 'a', 'd']]

Использование функций NumPy или операций подобных NumPy, таких как
фильтрация с помощью булевых массивов, умножение на скаляр или
вычисление математических функций, сохраняет значения индексов:

In [None]:
obj2[obj2 > 0]

In [None]:
obj2 * 2

In [None]:
np.exp(obj2)

Ряды можно рассматривать как словари фиксированной длины:

In [None]:
'b' in obj2

In [None]:
'e' in obj2

Если имеются данные, содержащиеся в словаре, можно создать ряд из
него:

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

In [None]:
obj3 = pd.Series(sdata)

In [None]:
obj3

Если передается только словарь, то индексами ряда будут ключи словаря
в том порядке, в котором были при создании словаря. Можно изменить
порядок индекса передавая ключи словаря в порядке, который нужен:

In [None]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

In [None]:
obj4 = pd.Series(sdata, index=states)

In [None]:
obj4

Здесь три значения, найденные в `sdata`, были размещены в
соответствующих местах, но так как не было найдено значение для
`'California'`, оно отображается как `NaN` (не число), которое в
`pandas` используется для обозначение пропущенных значений или
значений «NA» (*not available*). Поскольку `'Юта'` не была включена в `states`,
этот элемент исключается из результирующего объекта. Функции `isnull`
и `notnull` в `pandas` используются для обнаружения отсутствующих
данных:

In [None]:
pd.isnull(obj4)

In [None]:
pd.notnull(obj4)

Класс `Series` также имеет эти методы:

In [None]:
obj4.isnull()

Полезное свойство `Series` заключается в том, что она автоматически
происходит выравнивание по индексам в арифметических операциях:

In [None]:
obj3

In [None]:
obj4

In [None]:
obj3 + obj4

Как объекты `Series`, так и из индексы имеют атрибут `name`:

In [None]:
obj4.name = 'population'

In [None]:
obj4.index.name = 'state'

In [None]:
obj4

Можно изменять индексы рядов присваиванием:

In [None]:
obj

In [None]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']

In [None]:
obj

## Класс `DataFrame`
<div id="pandas:data-struct:df"></div>

`DataFrame` представляет собой прямоугольную таблицу данных и содержит
упорядоченную коллекцию столбцов, каждый из которых может иметь
различный тип значения (числовой, строковый, логический и
т.д.). `DataFrame` имеет индексы столбцов и строк.

Есть много способов создания объекта `DataFrame`, хотя один из
наиболее распространенных — это использование списков, словарей или
массивов NumPy:

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

In [None]:
frame = pd.DataFrame(data)

Полученный в результате `DataFrame` получит автоматически индексацию
для строк (как в `Series`), а индексом столбцов будут ключи словаря:

In [None]:
frame

Если используется блокнот Jupyter, объекты `DataFrame` будут
отображаться в виде более удобной для просмотра HTML-таблицы.

Для больших DataFrames метод head выбирает только первые пять строк:

In [None]:
frame.head()

Можно задавать другой порядок столбцов:

In [None]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Если передать столбец, который не содержится в словаре, то в
результате будет столбец с отсутствующими значениями:

In [None]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], index=['one', 'two', 'three', 'four', 'five', 'six'])

In [None]:
frame2

In [None]:
frame2.columns

К столбцу `DataFrame` можно получить доступ как к ряду с помощью
нотацией подобной словарю или через атрибут:

In [None]:
frame2['state']

In [None]:
frame2.year

> **Замечание.**
>
> IPython предоставлет доступ по атрибуту (например, `frame2.year`)
> по автодополнению с помощью клавиши <TAB>.
>
> Вариант `frame2[column]` работает для любых имен столбцов, в то время
> как `frame2.column` работает только если имя столбца является
> допустимым в Python именем переменной.





К строкам можно получить доступ по позиции или с помощью специального
атрибута `loc`:

In [None]:
frame2.loc['three']

Можно менять значения столбцов. Например, пустой столбцу `debt` можно
присвоить скалярное значение или массив:

In [None]:
frame2['debt'] = 16.5

In [None]:
frame2

In [None]:
frame2['debt'] = np.arange(6.)

In [None]:
frame2

При присваивании столбцу списка или массива, их длина должна быть той
же, что и длина `DataFrame`. Если присваивать объект `Series`, то его
метки будут выровнены по индексу `DataFrame`, при этом будут
вставляться отсутствующие значения для любых «дыр»:

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])

In [None]:
frame2['debt'] = val

In [None]:
frame2

При присваивании отсутствующего столбца в объекте `DataFrame`
добавится новый столбец. Ключевое слово `del` удаляет столбец, как и
для словарей:

In [None]:
frame2['eastern'] = frame2.state == 'Ohio'

In [None]:
frame2

> **Предупреждение.**
>
> Новый столбец не может быть добавлен с помощью синтаксиса `frame2.eastern`.

In [None]:
del frame2['eastern']

In [None]:
frame2.columns

> **Предупреждение.**
>
> Столбец, возвращаемый при индексации `DataFrame`, является
> представлением данных, а не копией. Таким образом, любые
> изменения в объекте `Series` будут отражены в объекте
> `DataFrame`. Столбец можно явно скопировать с помощью метода
> `Series.copy`.





Другой распространенной формой представления данных является вложенный
словарь словарей:

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9}, 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

Если вложенный словарь передать в конструктор `DataFrame`, `pandas`
интерпретирует ключи внешнего словаря как столбцы, а внутренние ключи
— как индексы:

In [None]:
frame3 = pd.DataFrame(pop)

In [None]:
frame3

Можно транспонировать `DataFrame`:

In [None]:
frame3.T

Можно задать порядок индексов:

In [None]:
pd.DataFrame(pop, index=[2001, 2002, 2003])

Словари рядов обрабатываются практически также:

In [None]:
pdata = {'Ohio': frame3['Ohio'][:-1], 'Nevada': frame3['Nevada'][:2]}

In [None]:
pd.DataFrame(pdata)

Полный список параметров, которые можно передавать в конструктор
`DataFrame`, можно найти в таблице [pandas:data-struct:tbl:1](#pandas:data-struct:tbl:1).

Если для индекса и столбцов DataFrame установлены атрибуты `name`, они
также будут отображены:

In [None]:
frame3.index.name = 'year'; frame3.columns.name = 'state'

In [None]:
frame3

Как и в случае `Series`, атрибут `values` возвращает данные,
содержащиеся в `DataFrame`, в виде двумерного массива:

In [None]:
frame3.values

## Таблица 1 : Возможные входные данные для конструктора `DataFrame` <div id="pandas:data-struct:tbl:1"></div>




<table border="1">
<thead>
<tr><th align="left">                        Тип                        </th> <th align="left">                                                                         Примечания                                                                        </th> </tr>
</thead>
<tbody>
<tr><td align="left">   Двумерный <code>ndarray</code>                                    </td> <td align="left">   Матрица данных, передающаяся с необязательными метками строк и столбцов                                                                                        </td> </tr>
<tr><td align="left">   <code>dict</code> массивов, <code>list</code>, <code>tuple</code>                       </td> <td align="left">   Каждая последовательность становится столбцом в <code>DataFrame</code>. Все последовательности должны быть одинаковой длины                                               </td> </tr>
<tr><td align="left">   Структурированный массив (или массив записей) NumPy    </td> <td align="left">   Обрабатывается как предыдущий случай                                                                                                                           </td> </tr>
<tr><td align="left">   <code>dict</code> объектов типа <code>Series</code>                          </td> <td align="left">   Каждое значение становится столбцом. Индексы из каждой серии объединяются вместе, чтобы сформировать индекс строки результата, если не передан явный индекс    </td> </tr>
<tr><td align="left">   <code>dict</code> объектов типа <code>dict</code>                            </td> <td align="left">   Каждый внутренний словарь становится столбцом. Ключи объединяются для формирования индекса строки, как в предыдущем случае                                     </td> </tr>
<tr><td align="left">   <code>list</code> объектов <code>dict</code> или <code>Series</code>                    </td> <td align="left">   Каждый элемент становится строкой в <code>DataFrame</code>. Оббъединение ключей <code>dict</code> или индексов <code>Series</code> становится метками столбцов <code>DataFrame</code>                      </td> </tr>
<tr><td align="left">   <code>list</code> объектов <code>list</code> или <code>tuple</code>                     </td> <td align="left">   Обрабатывается как случай двумерного массива                                                                                                                   </td> </tr>
<tr><td align="left">   <code>DataFrame</code>                                            </td> <td align="left">   Используются индексы <code>DataFrame</code> , если не переданы другие                                                                                                     </td> </tr>
<tr><td align="left">   маскированный массив NumPy                             </td> <td align="left">   Как случай двумерного массива, за исключением того, что маскированные значения становятся пропущенными (NA) значениями в итоговом <code>DataFrame</code>                  </td> </tr>
</tbody>
</table>


## Объекты типа `Index`
<div id="pandas:data-struct:index"></div>

Объекты типа `Index` в `pandas` отвечают за хранение меток осей и
других метаданных (таких как имя или имя оси).

Любой массив или другая последовательность меток, которые используются
при создании `Series` или `DataFrame`, преобразуется в `Index`:

In [None]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])

In [None]:
index = obj.index

In [None]:
index

In [None]:
index[1:]

Объекты `Index` — неизменяемый тип и не может изменяться
пользователем:

In [None]:
index[1] = 'd'

Неизменяемость делает более безопасным совместное использование объектов
`Index`:

In [None]:
labels = pd.Index(np.arange(3))

In [None]:
labels

In [None]:
obj2 = pd.Series([1.5, -2.5, 0], index=lables)

In [None]:
obj2

In [None]:
obj2.index is lables

С объектами `Index` можно работать как с массивами фиксированного
размера:

In [None]:
frame3

In [None]:
frame3.columns

In [None]:
'Ohio' in frame3.columns

In [None]:
2003 in frame3.index

В отличие от множеств Python объекты `Index` могут содержать
повторяющиеся метки:

In [None]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])

In [None]:
dup_labels

Каждый объект `Index` имеет ряд методов и свойств. Некоторые полезные
из них приведены в таблице [pandas:data-struct:tbl:2](#pandas:data-struct:tbl:2).

## Таблица 2 : Некоторые методы и свойства `Index` <div id="pandas:data-struct:tbl:2"></div>


<table border="1">
<thead>
<tr><th align="left">    Метод     </th> <th align="left">                                            Описание                                           </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>append</code>          </td> <td align="left">   Добавляет дополнительные объекты <code>Index</code>, создавая новый объект <code>Index</code>                            </td> </tr>
<tr><td align="left">   <code>difference</code>      </td> <td align="left">   Возвращает разность множеств как <code>Index</code>                                                           </td> </tr>
<tr><td align="left">   <code>intersection</code>    </td> <td align="left">   Возвращает пересечение множеств                                                                    </td> </tr>
<tr><td align="left">   <code>union</code>           </td> <td align="left">   Возвращает объединение множеств                                                                    </td> </tr>
<tr><td align="left">   <code>isin</code>            </td> <td align="left">   Возвращает логический массив, указывающий, содержится ли каждое значение в переданной коллекции    </td> </tr>
<tr><td align="left">   <code>delete</code>          </td> <td align="left">   Возвращает новый объект <code>Index</code> с удаленным элементом по индексу <code>i</code>                               </td> </tr>
<tr><td align="left">   <code>drop</code>            </td> <td align="left">   Возвращает новый объект <code>Index</code>, удаляя переданные значения                                        </td> </tr>
<tr><td align="left">   <code>insert</code>          </td> <td align="left">   Возвращает новый объект <code>Index</code>, вставляя по индексу <code>i</code> элемент                                   </td> </tr>
<tr><td align="left">   <code>is_monotonic</code>    </td> <td align="left">   Возвращает <code>True</code>, если каждый элемент больше либо равен предыдущего                               </td> </tr>
<tr><td align="left">   <code>is_unique</code>       </td> <td align="left">   Возвращает <code>True</code>, если объект <code>Index</code> не содержит дупликатов                                      </td> </tr>
<tr><td align="left">   <code>unique</code>          </td> <td align="left">   Возвращает массив уникальных занчений в объекте <code>Index</code>                                            </td> </tr>
</tbody>
</table>




<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "pandas" -->
<!-- doconce-section-nickname: "data-struct" -->
<!-- End: -->


# Основная функциональность
<div id="pandas:functionality"></div>

Приведем основные подходы к работе с данными, содержащимися в `Series`
и `DataFrame`.

## Переиндексация
<div id="pandas:functionality:reindex"></div>

Важный метод в объектах `pandas` — это `reindex`, который создает
новый объект с данными, согласованными с новым индексом. Рассмотрим
пример:

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])

In [None]:
obj

Вызов `reindex` в объекте `Series` переупорядочивает данные в
соответствии с новым индексом, вводя пропущенные значения, если
какие-либо значения индекса еще не присутствовали:

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

In [None]:
obj2

ля упорядоченных данных, таких как временные ряды, может быть
желательно выполнить некоторую интерполяцию или заполнение значений
при переиндексации. Аргумент `method` позволяет нам сделать это,
используя метод такой как `ffill` (forward-fill), который заполняет
«вперед» значениями ряд:

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])

In [None]:
obj3

In [None]:
obj3.reindex(range(6), method='ffill')

В объектах `DataFrame` метод `reindex` может изменять либо индекс
(строки), столбцы, либо и то и то. Когда передается только одна
последовательность, то переиндексируются строки:

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])

In [None]:
frame2

In [None]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])

In [None]:
frame2

Столбцы переиндексируются с помощью аргумента `columns`:

In [None]:
states = ['Texas', 'Utah', 'California']

In [None]:
frame.reindex(columns=states)

В таблице [pandas:functionality:tbl:1](#pandas:functionality:tbl:1) представлены аргументы
функции `reindex`.

## Таблица 3 : Аргументы функции `reindex` <div id="pandas:functionality:tbl:1"></div>


<table border="1">
<thead>
<tr><th align="left">  Аргумент  </th> <th align="left">                                                                  Описание                                                                  </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>index</code>         </td> <td align="left">   Новая последовательность для использования в качестве индекса. Может быть экземпляром <code>Index</code> или любой последовательности Python               </td> </tr>
<tr><td align="left">   <code>method</code>        </td> <td align="left">   Метод интерполяции (заполнения): <code>ffil</code> (forward-fill) — прямое заполнение, <code>bfill</code> (backward-fill) — обратное заполнение                       </td> </tr>
<tr><td align="left">   <code>fill_value</code>    </td> <td align="left">   Подставляется это значения при заполнении пропущенных данных, которые появляются при переиндексации                                             </td> </tr>
<tr><td align="left">   <code>limit</code>         </td> <td align="left">   При заполнении задает максимальный размер шага (по количеству элементов) заполнения                                                             </td> </tr>
<tr><td align="left">   <code>tolerance</code>     </td> <td align="left">   При заполнении задает максимальный размер шага (в абсолютном числовом расстоянии) для заполнения неточных совпадений                            </td> </tr>
<tr><td align="left">   <code>level</code>         </td> <td align="left">   Сопоставляет простой <code>Index</code> на уровне <code>MultiIndex</code>; в противном случае выбирает подмножество                                                   </td> </tr>
<tr><td align="left">   <code>copy</code>          </td> <td align="left">   Если <code>True</code>, всегда копирует данные, даже если новый индекс эквивалентен старому; если <code>False</code> не копирует данные, если индексы эквивалентны    </td> </tr>
</tbody>
</table>


## Удаление записей с оси
<div id="pandas:functionality:drop"></div>

Удалить одну или несколько записей легко, если имеется массив или
список индексов, которые не содержат эти записи. Поскольку это может
потребовать некоторых операций над множествами, метод `drop`
возвращает новый объект с указанными значениями, удаленными с оси:

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])

In [None]:
obj

In [None]:
new_obj = obj.drop('c')

In [None]:
obj.drop(['d', 'c'])

В `DataFrame` значения индекса могут быть удалены с любой оси:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)), index=['Ohio', 'Colorado', 'Utah', 'New York'], columns=['one', 'two', 'three', 'four'])

Вызов `drop` с последовательностью меток удаляет значения из меток
строк (ось `0`):

In [None]:
data.drop(['Colorado', 'Ohio'])

Удалить значения в столбцах можно передавая параметр `axis=1` или
`axis=columns`:

In [None]:
data.drop('two', axis=1)

In [None]:
data.drop(['two', 'four'], axis='columns')

Многие функции, такие как `drop`, которые изменяют размер или форму
`Series` или `DataFrame`, могут изменять сам объект (*in-place*) без
создания нового объекта:

In [None]:
obj.drop('c', inplace=True)

In [None]:
obj

> **Предупреждение.**
>
> Будьте осторожны с параметром `inplace`, так как происходит **удаление**
> данных.


## Арифметические операции и выравнивание данных
<div id="pandas:functionality:arithm"></div>

Важной особенностью `pandas` для некоторых приложений является поведение
арифметических операций между объектами с разными индексами. При
сложении объекты в случае, когда любые пары индексов отличаются,
соответствующий индекс в результате является объединением исходных
индексов:

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])

In [None]:
s1

In [None]:
s2

In [None]:
s1 + s2

Выравнивание данных вводит пропущенные значения в местах
меток, которые не пересекаются. Пропущенные значения будут
распространяться в дальнейших арифметических вычислениях.

В случае `DataFrame` выравнивание осуществляется как для строк, так и
для столбцов:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
      	           index=['Ohio', 'Texas', 'Colorado'])

In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
               	   index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
df1

In [None]:
df2

Сумма введенных объектов вернет новый объект `DataFrame`, чьи индексы
и столбцы являются объединениями индексов и столбцов двух складываемых
объектов:

In [None]:
df1 + df2

Так как столбцы `'c'` и `'e'` не находятся одновременно в обоих
объектах `DataFrame`, в результате они содержат отсутствующие
значения. Такое же происходит и со строками.

Если сложить объекты `DataFrame` без общих меток столбцов или строк,
результат будет содержать все отсутствующие значения:

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})

In [None]:
df2 = pd.DataFrame({'B': [3, 4]})

In [None]:
df1

In [None]:
df2

In [None]:
df1 - df2

### Арифметические методы с заполнением значений

<div id="pandas:functionality:aritm:fill"></div>

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)), columns=list('abcd'))

In [None]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)), columns=list('abcde'))

In [None]:
df2.loc[1, 'b'] = np.nan

In [None]:
df1

In [None]:
df2

Сложение этих объектов приводит к значениям NA в местах, которые не
перекрываются:

In [None]:
df1 + df2

Для заполнения отсутствующих значений можно воспользоваться функцией
`add` с дополнительным аргументом `fill_value`:

In [None]:
df1.add(df2, fill_value=0)

В таблице [pandas:functionality:tbl:2](#pandas:functionality:tbl:2) представлены методы для
арифметических операций. У каждого из них есть аналог, начинающийся с
буквы `r`, у которого переставлены  аргументы. Приведенные ниже
примеры эквивалентны:

In [None]:
1 / df1

In [None]:
df1.rdiv(1)

Соответственно, при переиндексации `Series` или `DataFrame` вы также
можете указать другое значение заполнения:

In [None]:
df1.reindex(columns=df2.columns, fill_value=0)

## Таблица 4 : Гибкие арифметические методы <div id="pandas:functionality:tbl:2"></div>


<table border="1">
<thead>
<tr><th align="left">         Метод         </th> <th align="left">          Описание          </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>add</code>, <code>radd</code>              </td> <td align="left">   Сложение (<code>+</code>)                  </td> </tr>
<tr><td align="left">   <code>sub</code>, <code>rsub</code>              </td> <td align="left">   Вычитание (<code>-</code>)                 </td> </tr>
<tr><td align="left">   <code>div</code>, <code>rdiv</code>              </td> <td align="left">   Деление (<code>/</code>)                   </td> </tr>
<tr><td align="left">   <code>floordiv</code>, <code>rfloordiv</code>    </td> <td align="left">   Целочисленное деление (<code>//</code>)    </td> </tr>
<tr><td align="left">   <code>mul</code>, <code>rmul</code>              </td> <td align="left">   Умножение (<code>*</code>)                 </td> </tr>
<tr><td align="left">   <code>pow</code>, <code>rpow</code>              </td> <td align="left">   Возведение в степень (<code>**</code>)     </td> </tr>
</tbody>
</table>


## Операции между объектами `DataFrame` и `Series`
<div id="pandas:functionality:df-s"></div>

Как и для массивов NumPy разной размерности, существуют арифметические
операции между объектами `DataFrame` и `Series`. В качестве примера
рассмотрим разность между двумерным массивом и одной из его строк:

In [None]:
arr = np.arange(12.).reshape((3, 4))

In [None]:
arr

In [None]:
arr[0]

In [None]:
arr - arr[0]

При вычитании `arr[0]` из `arr`, операция осуществляется для каждой
строки. Операции между `DataFrame` и `Series` производятся аналогично.

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
series = frame.iloc[0]

In [None]:
frame

In [None]:
series

По умолчанию арифметические операции между `DataFrame` и `Series`
приводят индексы объекта `Series` к столбцам объекта `DataFrame`,
распространяя операцию по строкам:

In [None]:
frame - series

Если значение индекса не найдено ни в столбцах `DataFrame`, ни в индексе
`Series`, объекты будут переиндексированы для формирования
объединения:

In [None]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])

In [None]:
frame + series2

Если вместо согласования по столбцам нужно согласовывать операцию по
строкам, нужно использовать арифметический метод:

In [None]:
series3 = frame['d']

In [None]:
frame

In [None]:
series3

In [None]:
frame.sub(series3, axis='index')

## Применение функций и отображение
<div id="pandas:functionality:fuc"></div>

Универсальные функции NumPy также работают с объектами `pandas`:

In [None]:
frame = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'), index=['Utah', 'Ohio', 'Texas', 'Oregon'])

In [None]:
frame

In [None]:
np.abs(frame)

Другой частой операцией является применение функции к одномерным
массивам для каждого столбца или строки. Метод `apply` объекта
`DataFrame` выполняет это:

In [None]:
f = lambda x: x.max() - x.min()

In [None]:
frame.apply(f)

В результате мы получили объект `Series`, у которого индекс совпадает
со столбцами объекта `DataFrame`.

Если задать параметр `axis = 'columns'` в функции `apply`, функция
будет применяться к строкам:

In [None]:
frame.apply(f, axis='columns')

Многие из наиболее распространенных статистических методов
(например, `sum` и `mean`) являются методами `DataFrame`, поэтому
использование `apply` не обязательно.

Функция, передаваемая в `apply`, не обязана возвращать скалярное
значение, она может также возвращать объект `Series`:

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])

In [None]:
frame.apply(f)

Также можно использовать поэлементные функции. Предположим, нужно
получить форматированную строку для каждого значения в объекте
`frame`. Это можно реализовать с помощью функции `applymap`:

In [None]:
format = lambda x: '%.2f' % x

In [None]:
frame.applymap(format)

В функции `applymap` используется метод `map` класса `Series`:

In [None]:
frame['e'].map(format)

## Сортировка и ранжирование
<div id="pandas:functionality:sorting"></div>

Одна из важных встроенных операций — это сортировка данных. Для того,
чтобы выполнить лексикографическую сортировку по индексам строк или
столбцов, можно использовать функцию `sort_index`, которая возвращает
новый отсортированный объект:

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])

In [None]:
obj.sort_index()

Объект `DataFrame` можно сортировать по индексам на любой оси:

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)), index=['three', 'one'], columns=['d', 'a', 'b', 'c'])

In [None]:
frame.sort_index()

In [None]:
frame.sort_index(axis=1)

Данные сортируются по возрастанию по умолчанию, но могут быть
отсортированы также по убыванию:

In [None]:
frame.sort_index(axis=1, ascending=False)

Для сортировки объекта `Series` по значениям используется метод
`sort_values`:

In [None]:
obj = pd.Series([4, 7, -3, 2])

In [None]:
obj.sort_values()

Все пропущенные значения по умолчанию сортируются в конец объекта
`Series`:

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])

In [None]:
obj.sort_values()

При сортировке объекта `DataFrame` можно использовать данные в одном
или нескольких столбцах в качестве ключей для сортировки. Чтобы
выполнить это, необходимо передать имя одного или нескольких столбцов
параметру `by` метода `sort_vlues`:

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})

In [None]:
frame

In [None]:
frame.sort_values(by='b')

Для сортировки по нескольким столбцам, необходимо передать список
имен столбцов:

In [None]:
frame.sort_values(by=['a', 'b'])

*Ранжирование* заключается в присвоении *ранга* от единицы до числа значений в
массиве. Объекты `Series` и `DataFrame` имеют метод `rank`, который по
умолчанию разрывает связи, присваивая каждой группе среднее значение
ранга:

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])

In [None]:
obj.rank()

Ранги также могут быть назначены в соответствии с порядком, в котором
они наблюдаются в данных:

In [None]:
obj.rank(method='first')

Здесь вместо использования среднего ранга $6.5$ для записей с
индексами `0` и `2` они вместо этого были установлены на $6$ и $7$,
потому что метка $0$ предшествует метке $2$ в данных.

В таблице [pandas:functionality:tbl:3](#pandas:functionality:tbl:3) представлен перечень методов
построения ранга.

Объект `DataFrame` может вычислять ранги по строкам или по столбцам:

In [None]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], 'c': [-2, 5, 8, -2.5]})

In [None]:
frame

In [None]:
frame.rank(axis='columns')

## Таблица 5 : Методы ранжирования <div id="pandas:functionality:tbl:3"></div>


<table border="1">
<thead>
<tr><th align="left">  Метод  </th> <th align="left">                                                       Описание                                                      </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>average</code>    </td> <td align="left">   Используется по умолчанию. Присваивает среднее значение ранга каждому значению в группе                                  </td> </tr>
<tr><td align="left">   <code>min</code>        </td> <td align="left">   Использует минимальный ранг для всей группы                                                                              </td> </tr>
<tr><td align="left">   <code>max</code>        </td> <td align="left">   Использует максимальный ранг для всей группы                                                                             </td> </tr>
<tr><td align="left">   <code>first</code>      </td> <td align="left">   Присваивает ранги в порядке появления значений в данных                                                                  </td> </tr>
<tr><td align="left">   <code>dense</code>      </td> <td align="left">   Как <code>method = 'min'</code>, но ранги между группами всегда увеличиваются на 1, а не на количество равных элементов в группе    </td> </tr>
</tbody>
</table>



## Индексация с повторяющимися метками
<div id="pandas:functionality:dupl"></div>

В рассматриваемых выше примерах индексы имели единственные значения,
без повторений. Хотя многие функции библиотеки `pandas` (например,
`reindex`) требуют, чтобы метки были уникальными, это не
обязательно. Рассмотрим ряд с повторяющимися индексами:

In [None]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])

In [None]:
obj

У объекта `Index` есть атрибут `is_unique`, который дает информацию
являются ли метки индекса уникальными:

In [None]:
obj.index.is_unique

В случае, когда несколько данных имеют одинаковые метки, обращение по
этому индексу вернет объект `Series`, в то время как для меток без
дублирования возвращается скалярное значение:

In [None]:
obj['a']

In [None]:
obj['c']

Та же логика распространяется и на индексирование строк в `DataFrame`:

In [None]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])

In [None]:
df

In [None]:
df.loc['b']

<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "pandas" -->
<!-- doconce-section-nickname: "functionality" -->
<!-- End: -->

# Описательная и сводная статистика
<div id="pandas:statistics"></div>

Объекты	`pandas` оснащены набором общих математических и
статистических методов. Большинство из них попадают в категорию
сводной статистики. В отличие от соответствующих методов массивов
NumPy методы объектов `pandas` имеют встроенную обработку  пропущенных
значений. Рассмотрим небольшой объект `DataFrame`:

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5], [np.nan, np.nan], [0.75, -1.3]], index=['a', 'b', 'c', 'd'], columns=['one', 'two'])

In [None]:
df

Вызов метода `sum` возвращает суммы значений по столбцам:

In [None]:
df.sum()

Чтобы получить суммы значений по строкам нужно передать параметр
`axis='columns'` или `axis=1`:

In [None]:
df.sum(axis='columns')

Значения NA исключаются, если только весь срез (в данном случае строка
или столбец) не равен NA. Это поведение можно изменить с помощью
параметра `skipna`:

In [None]:
df.mean(axis='columns', skipna=False)

Некоторые методы, такие как `idxmin` и `idxmax`, возвращают косвенную
статистику, такую как значение индекса, где достигаются минимальные
или максимальные значения:

In [None]:
df.idxmax()

Есть методы являются аккумулирующими:

In [None]:
df.cumsum()

Метод `describe` возвращает множественную суммарную статистику:

In [None]:
df.describe()

На нечисловых данных метод `describe` возвращает следующую информацию:

In [None]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)

In [None]:
obj.describe()

В таблице [pandas:statistics:tbl:1](#pandas:statistics:tbl:1) представлен полный список
методов сводной статистики и связанных с этим методов:



## Таблица 6 : Описательная и сводная статистика <div id="pandas:statistics:tbl:1"></div>


<table border="1">
<thead>
<tr><th align="left">      Метод       </th> <th align="left">                                       Описание                                       </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>count</code>               </td> <td align="left">   Количество нечисловых значений                                                            </td> </tr>
<tr><td align="left">   <code>describe</code>            </td> <td align="left">   Вычисляет сводную статистику для ряда или для каждого столбца объекта <code>DataFrame</code>         </td> </tr>
<tr><td align="left">   <code>min</code>, <code>max</code>          </td> <td align="left">   Вычисляет минимальное и максимальное значение                                             </td> </tr>
<tr><td align="left">   <code>argmin</code>, <code>argmax</code>    </td> <td align="left">   Возвращают индекс (целое число), где расположено минимальное или максимальное значение    </td> </tr>
<tr><td align="left">   <code>idxmin</code>, <code>idxmax</code>    </td> <td align="left">   Возвращают метку индекса, где расположено минимальное или максимальное значение           </td> </tr>
<tr><td align="left">   <code>quantile</code>            </td> <td align="left">   Вычисляет квантиль выборки от 0 до 1                                                      </td> </tr>
<tr><td align="left">   <code>sum</code>                 </td> <td align="left">   Сумма значений                                                                            </td> </tr>
<tr><td align="left">   <code>mean</code>                </td> <td align="left">   Среднее значение                                                                          </td> </tr>
<tr><td align="left">   <code>median</code>              </td> <td align="left">   Медиана (50-процентная квантиль) значений                                                 </td> </tr>
<tr><td align="left">   <code>mad</code>                 </td> <td align="left">   Среднее абсолютное отклонение от среднего значения                                        </td> </tr>
<tr><td align="left">   <code>prod</code>                </td> <td align="left">   Произведение значений                                                                     </td> </tr>
<tr><td align="left">   <code>var</code>                 </td> <td align="left">   Дисперсия множества выборки значений                                                      </td> </tr>
<tr><td align="left">   <code>std</code>                 </td> <td align="left">   Стандартное отклонение выборки значений                                                   </td> </tr>
<tr><td align="left">   <code>skew</code>                </td> <td align="left">   Асимметрия (третий момент) выборки значений                                               </td> </tr>
<tr><td align="left">   <code>kurt</code>                </td> <td align="left">   Эксцесс (четвертый момент) выборки значений                                               </td> </tr>
<tr><td align="left">   <code>cumsum</code>              </td> <td align="left">   Накопленная сумма значений                                                                </td> </tr>
<tr><td align="left">   <code>cummin</code>, <code>cummax</code>    </td> <td align="left">   Совокупный минимум и максимум                                                             </td> </tr>
<tr><td align="left">   <code>cumprod</code>             </td> <td align="left">   Накопленное произведение значений                                                         </td> </tr>
<tr><td align="left">   <code>diff</code>                </td> <td align="left">   Вычисляет первую арифметическую разность (полезно для временных рядов)                    </td> </tr>
<tr><td align="left">   <code>pct_change</code>          </td> <td align="left">   Вычисляет процентные изменения                                                            </td> </tr>
</tbody>
</table>





<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "pandas" -->
<!-- doconce-section-nickname: "statistics" -->
<!-- End: -->



# Чтение и запись данных
<div id="pandas:rwdata"></div>

В библиотеке `pandas` реализованы функции чтения табличных данных в
объект `DataFrame`. В таблице [pandas:rwdata:tbl:1](#pandas:rwdata:tbl:1) представлены
некоторые из таких функций.


## Таблица 7 : Функции чтения данных <div id="pandas:rwdata:tbl:1"></div>


<table border="1">
<thead>
<tr><th align="left">    Функция     </th> <th align="left">                                                                Описание                                                               </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>read_csv</code>          </td> <td align="left">   Загружает разделенные значения из файла или файлоподобного объекта; в качестве разделителя по умолчанию используется запятая               </td> </tr>
<tr><td align="left">   <code>read_table</code>        </td> <td align="left">   Загружает разделенные значения из файла или файлоподобного объекта; в качестве разделителя по умолчанию используется табуляция (<code>'\t'</code>)    </td> </tr>
<tr><td align="left">   <code>read_fwf</code>          </td> <td align="left">   Читает данные в формате со столбцами фиксированной длины (без разделителей)                                                                </td> </tr>
<tr><td align="left">   <code>read_clipboard</code>    </td> <td align="left">   Версия функции <code>read_table</code>, которая читает данные из буфера обмена                                                                        </td> </tr>
<tr><td align="left">   <code>read_excel</code>        </td> <td align="left">   Читает данные из файлов формата <code>.xls</code> или <code>.xlsx</code>                                                                                         </td> </tr>
<tr><td align="left">   <code>read_hdf</code>          </td> <td align="left">   Читает файлы вормата HDF5, записанные с помощью библиотеки <code>pandas</code>                                                                        </td> </tr>
<tr><td align="left">   <code>read_html</code>         </td> <td align="left">   Читает все таблицы из заданного документа HTML                                                                                             </td> </tr>
<tr><td align="left">   <code>read_json</code>         </td> <td align="left">   Читает данные из JSON (JavsScript Object Notation)                                                                                         </td> </tr>
<tr><td align="left">   <code>read_msgpack</code>      </td> <td align="left">   Читает данные <code>pandas</code> закодированные с помощью двоичного формата MessagePack                                                              </td> </tr>
<tr><td align="left">   <code>read_pickle</code>       </td> <td align="left">   Читает любой объект, сохраненный в формате Python pickle                                                                                   </td> </tr>
<tr><td align="left">   <code>read_sas</code>          </td> <td align="left">   Читает набор данных SAS, хранящийся в одном из пользовательских форматов хранения системы SAS                                              </td> </tr>
<tr><td align="left">   <code>read_sql</code>          </td> <td align="left">   Читает результат запроса SQL (используя SQLAlchemy) как объект <code>DataFrame</code>                                                                 </td> </tr>
</tbody>
</table>


Библиотека `pandas` поддерживает нативную работу со многими
реляционными БД.

Можно не только загружать данные из локальных файлов, но и из
Интернета — достаточно вместо адреса на локальном компьютере указать
прямю ссылку на файл.

Также существует дополнительный пакет, который называется
`pandas_datareader`. Если он не установлен, его можно установить через
`conda` или `pip`. Он загружает данные из некоторых
источников. Загрузим с помощью `pandas_datareader` некоторые данные
для некоторых биржевых тикеров:

In [None]:
import pandas_datareader.data as web

all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker: data['Adj Close']
                      for ticker, data in all_data.items()})
volume = pd.DataFrame({ticker: data['Volume']
                       for ticker, data in all_data.items()})

Вычислим изменение процентные изменения цен:

In [None]:
returns = price.pct_change()

In [None]:
returns.tail()

Метод `corr` объекта `Series` вычисляет корреляцию перекрывающихся,
выровненных по индексу значений в двух объектах
`Series`. Соответственно `cov` вычисляет ковариацию:

In [None]:
returns['MSFT'].corr(returns['IBM'])

In [None]:
returns['MSFT'].cov(returns['IBM'])

Поскольку `MSFT` является допустимым атрибутом Python, мы также можем
выбрать эти столбцы, используя более краткий синтаксис

In [None]:
returns.MSFT.corr(returns.IBM)

Методы `corr` и `cov` объекта `DataFrame` возвращают полные матрицы
корреляции или ковариации:

In [None]:
returns.corr()

In [None]:
returns.cov()

Используя метод `corrwith` объекта `DataFrame`, можно вычислять попарные
корреляции между столбцами или строками `DataFrame` с другими
объектами `Series` или `DataFrame`. Передача в качестве аргумента ряда
возвращает ряд со значением корреляции, вычисленным для каждого
столбца:

In [None]:
returns.corrwith(returns.IBM)

<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "pandas" -->
<!-- doconce-section-nickname: "rwdata" -->
<!-- End: -->

# Задания
<div id="pandas:exer"></div>


Предлагается поработать с
[набором данных](https://data.lacity.org/A-Safe-City/Crime-Data-from-2010-to-2019/63jg-8b9z)
о преступности в Лос-Анджелесе.

Результат работы должен быть в виде блокнота Jupyter. Все задачи в
одном блокноте, например, `pandas-da-ans.ipynb`.

Для построения графических данных смотрите главу [Графическая
визуализация данных](visual.ipynb)



## Быстрый анализ данных
<div id="pandas:exer:1"></div>

* Загрузите [случайную выборку](src-pandas/la-crimes-sample.csv.zip) из этого набора.

* Сколько строк и столбцов в таблице?

* Каковы названия столбцов?

* Какие типы данных у столбцов?

* Сколько в каждом из них уникальных значений?

* Сколько пропущенных значений?

* Постройте распределения числовых переменных?

## Жертвы
<div id="pandas:exer:2"></div>

В наборе данных имеется информация о Возрасте, Поле, и Происхождении
каждой жертвы. Есть ли связь между этими признаками?

* Верно ли, что женщины чаще оказываются жертвами по сравнению с мужчинами?



## Преступления, пол и возраст
<div id="pandas:exer:3"></div>

* Изучите распределение количества преступлений по возрасту. Какова тенденция? Люди какого возраста чаще всего подвергаются преступлениям? Есть ли локальные минимумы? Используйте типы графиков `hist` и `density`.

* Как различается вероятность женщин и мужчин стать жертвой в зависимости от возраста? Постройте визуализацию. В каком возрастном промежутке мужчины чаще становятся жетрвами преступлений?

* Определите 10 самых распространенных преступлений в Лос-Анджелесе. Постройте график.

* От каких преступлений чаще старадют женщины, а от каких мужчины?


## Происхождение
<div id="pandas:exer:4"></div>


## Таблица 8


<table border="1">
<thead>
<tr><th align="left">Символ</th> <th align="left">        Происхождение         </th> </tr>
</thead>
<tbody>
<tr><td align="left">   <code>'A'</code>     </td> <td align="left">   Other Asian                       </td> </tr>
<tr><td align="left">   <code>'B'</code>     </td> <td align="left">   Black                             </td> </tr>
<tr><td align="left">   <code>'C'</code>     </td> <td align="left">   Chinese                           </td> </tr>
<tr><td align="left">   <code>'D'</code>     </td> <td align="left">   Cambodian                         </td> </tr>
<tr><td align="left">   <code>'F'</code>     </td> <td align="left">   Filipino                          </td> </tr>
<tr><td align="left">   <code>'G'</code>     </td> <td align="left">   Guamanian                         </td> </tr>
<tr><td align="left">   <code>'H'</code>     </td> <td align="left">   Hispanic/Latin/Mexican            </td> </tr>
<tr><td align="left">   <code>'I'</code>     </td> <td align="left">   American Indian/Alaskan Native    </td> </tr>
<tr><td align="left">   <code>'J'</code>     </td> <td align="left">   Japanesea                         </td> </tr>
<tr><td align="left">   <code>'K'</code>     </td> <td align="left">   Korean                            </td> </tr>
<tr><td align="left">   <code>'L'</code>     </td> <td align="left">   Laotian                           </td> </tr>
<tr><td align="left">   <code>'O'</code>     </td> <td align="left">   Other                             </td> </tr>
<tr><td align="left">   <code>'P'</code>     </td> <td align="left">   Pacific Islander                  </td> </tr>
<tr><td align="left">   <code>'S'</code>     </td> <td align="left">   Samoan                            </td> </tr>
<tr><td align="left">   <code>'U'</code>     </td> <td align="left">   Hawaiian                          </td> </tr>
<tr><td align="left">   <code>'V'</code>     </td> <td align="left">   Vietnamese                        </td> </tr>
<tr><td align="left">   <code>'W'</code>     </td> <td align="left">   White                             </td> </tr>
<tr><td align="left">   <code>'X'</code>     </td> <td align="left">   Unknown                           </td> </tr>
<tr><td align="left">   <code>'Z'</code>     </td> <td align="left">   Asian Indian                      </td> </tr>
</tbody>
</table>


* Люди какого происхождения чаще всего подвергаются преступлениям?


## Место проишествия
<div id="pandas:exer:5"></div>

* Отсортируйте районы, по количеству преступлений. Постройте график, показывающий самые безопасный и опасный районы.

* Люди какого происхождения чаще всего страдают от преступлений в каждом из районов? Не забудьте нормировать на общее количество жертв.
<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "pandas" -->
<!-- doconce-section-nickname: "exer" -->
<!-- End: -->
<!-- Local Variables: -->
<!-- doconce-chapter-nickname: "pandas" -->
<!-- End: -->