# Введение в pandas

Библиотека pandas содержит высокоуровневые структуры данных и средства манипуляции ими,
спроектированные так, чтобы обеспечить простоту и высокую скорость анализа данных на Python. Эта библиотека построена поверх NumPy, поэтому ей легко пользоваться в приложениях, ориентированных на NumPy.

In [1]:
import pandas as pd

In [2]:
from pandas import Series, DataFrame

Таким образом, увидев в коде строку pd., знайте, что это ссылка на pandas. Объекты Series и DataFrame используются так часто, что полезно импортировать их в локальное пространство имен.
Чтобы начать работу с pandas, необходимо освоить две основные структуры данных: Series и DataFrame. Они, конечно, не являются универсальным решением любой задачи, но все же образуют основу большинства приложений.

### Объект Series

Series – одномерный объект - контейнер, содержащий набор данных (любого типа, поддерживаемого NumPy) и ассоциированный с ним массив меток,
который называется индексом. Простейший объект Series состоит только из массива данных:

In [3]:
obj = pd.Series([4, 7, -5, 3])
print(obj)

0    4
1    7
2   -5
3    3
dtype: int64


В строковом представлении Series, отображаемом в интерактивном режиме, индекс находится слева, а значения справа. Поскольку мы не задали индекс для данных, то по умолчанию создается индекс, состоящий из целых чисел от 0 до N – 1
(где N – длина массива данных). Имея объект Series, получить представление самого массива и его индекса можно с помощью атрибутов values и index соответственно:

In [4]:
print(obj.values)
print(obj.index)  

[ 4  7 -5  3]
RangeIndex(start=0, stop=4, step=1)


Индекс объекта Series также можно изменить на месте с помощью присваивания.

In [5]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64


Часто желательно создавать объект Series с осмысленными индексами, идентифицирующими каждый элемент данных

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=['four', 'seven', 'minus five', 'three'])
print(obj2)
print(obj2.index)

В отличие от обычного массива NumPy, для выборки одного или нескольких
элементов из объекта Series можно использовать значения индекса:

In [None]:
print(obj2['seven'])
print(obj2[['seven', 'four', 'minus five']])

Операции с массивом NumPy, например фильтрация с помощью булева массива, скалярное умножение или применение математических функций, сохраняют связь между индексом и значением:

In [None]:
print(obj2[obj2 > 0], '\n') # фильтрация 

print(obj2 * 2, '\n')  # скалярное умножение 

print(np.exp(obj2)) # применение функции np.exp()

Объект Series можно также представлять себе как упорядоченный словарь фиксированной длины, поскольку он отображает индекс на данные. Его можно передавать многим функциям, ожидающим получить словарь:

In [None]:
print('b' in obj2)
print('four' in obj2)

Если имеется словарь Python, содержащий данные, то из него можно создать
объект Series:

In [None]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
print(obj3)

Для распознавания отсутствующих данных в pandas следует использовать функции isnull и notnull:

In [None]:
print(pd.isnull(obj3), '\n')
print(pd.notnull(obj3))

И у самого объекта Series, и у его индекса имеется атрибут name, тесно связанный с другими частями функциональности pandas.

In [None]:
obj3.name = 'population'
obj3.index.name = 'state'
print(obj3)

In [None]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
print(obj)

### Объект DataFrame

Объект DataFrame представляет табличную структуру данных, состоящую из
упорядоченной коллекции столбцов, причем типы значений (числовой, строковый, булев и т. д.) в разных столбцах могут различаться. В объекте DataFrame
хранятся два индекса: по строкам и по столбцам. Можно считать, что это словарь
объектов Series.
Есть много способов сконструировать объект DataFrame, один из самых распространенных – на основе словаря списков одинаковой длины или массивов NumPy

In [None]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

Для получившегося DataFrame автоматически будет построен индекс, как и в
случае Series, и столбцы расположатся по порядку

In [None]:
frame

Если задать последовательность столбцов, то столбцы DataFrame расположатся строго в указанном порядке:

In [None]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Если запросить столбец, которого нет в data, то он будет
заполнен значениями NaN:

In [None]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four','five', 'six'])
print(frame2, '\n')
print(frame2.columns)

Столбец DataFrame можно извлечь как объект Series, воспользовавшись нотацией словарей, или с помощью атрибута.


In [None]:
print(frame2['state'], '\n')
print(frame2.year)

Строки также можно извлечь, для чего есть метод loc:

In [None]:
print(frame2.loc['three'])

Столбцы можно модифицировать путем присваивания. Например, пустому
столбцу 'debt' можно было бы присвоить скалярное значение или массив значений:

In [None]:
import numpy as np
frame2['debt'] = 16.5
print(frame2, '\n')
frame2['debt'] = np.arange(6.)
print(frame2)

Когда столбцу присваивается список или массив, длина значения должна совпадать с длиной DataFrame. Если же присваивается объект Series, то он будет
точно согласован с индексом DataFrame, а в пустые места будут вставлены значения
NA:

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
print(frame2)

Присваивание несуществующему столбцу приводит к созданию нового столбца. Для удаления столбцов служит ключевое слово del, как и в обычном словаре:

In [None]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

In [None]:
del frame2['eastern']
print(frame2.columns, '\n')
print(frame2)

Еще одна распространенная форма данных – словарь словарей:

In [None]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

Если передать его конструктору DataFrame, то ключи внешнего словаря будут интерпретированы как столбцы, а ключи внутреннего словаря – как индексы
строк:

In [None]:
frame3 = pd.DataFrame(pop)
frame3

Разумеется, результат можно транспонировать:

In [None]:
frame3.T

Словари объектов Series интерпретируются очень похоже:

In [None]:
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
pd.DataFrame(pdata)

Если у объектов, возвращаемых при обращении к атрибутам index и columns
объекта DataFrame, установлен атрибут name, то он также выводится:

In [None]:
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

Как и в случае Series, атрибут values возвращает данные, хранящиеся в
DataFrame, в виде двумерного массива ndarray

In [None]:
frame3.values

In [None]:
frame2.values

### Индексные объекты

В индексных объектах pandas хранятся метки вдоль осей и прочие метаданные
(например, имена осей). Любой массив или иная последовательность меток, указанная при конструировании Series или DataFrame, преобразуется в объект Index:

In [None]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
index = obj.index
print(index)
print(index[1:])

Индексные объекты неизменяемы, т. е. пользователь не может их модифицировать. Неизменяемость важна для того, чтобы несколько структур данных могли совместно использовать один и тот же индексный объект, не опасаясь его повредить:

In [None]:
labels = pd.Index(np.arange(3))
print(labels, '\n')
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
print(obj2,'\n')
print(obj2.index == labels, '\n')
print(obj2.index is labels)

У любого объекта Index есть ряд свойств и методов для ответа на типичные вопросы о хранящихся в нем данных. Они перечислены в официальной документации.

## Базовая функциональность

Рассмотрим фундаментальные основы взаимодействия с данными, хранящимися в объектах Series и DataFrame.

### Переиндексация

Для объектов pandas критически важен метод reindex, т. е. возможность создания нового объекта, данные в котором согласуются с новым индексом. Рассмотрим простой пример

In [None]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

Если вызвать reindex для этого объекта Series, то данные будут реорганизованы в соответствии с новым индексом, а если каких-то из имеющихся в этом индексе значений раньше не было, то вместо них будут подставлены отсутствующие
значения

In [None]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

Для упорядоченных данных, например временных рядов, иногда желательнпроизвести интерполяцию, или восполнение отсутствующих значений в процессе переиндексации. Это позволяет сделать параметр method; так, если задать для
него значение ffill, то будет произведено прямое восполнение значений. Если задать значение bfill, то будет произведено обратное восполнение значений.

In [None]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3,'\n')
obj3=obj3.reindex(range(6), method='ffill')
print(obj3)

В случае объекта DataFrame функция reindex может изменять строки, столбцы
или то и другое. Если ей передать просто последовательность, то в результирующем объекте переиндексируются строки

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
print(frame, '\n')
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
print(frame2)

Столбцы можно переиндексировать, задав ключевое слово columns. Список аргументов функции reindex можно посмотреть в оф. документации.

In [None]:
states = ['Texas', 'Utah', 'California']
frame.reindex(columns=states)

### Удаление элементов из оси

Удалить один или несколько элементов из оси просто, если имеется индексный
массив или список, не содержащий этих значений. Метод drop возвращает новый
объект, в котором указанные значения удалены из оси:

In [None]:
obj = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
print(obj, '\n')
new_obj = obj.drop('c')
print(new_obj, '\n')
print(obj.drop(['d', 'c']))

В случае DataFrame указанные в индексе значения можно удалить из любой
оси:

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data

In [None]:
data.drop(['Colorado', 'Ohio'])

In [None]:
data.drop('two', axis='columns')


In [None]:
data.drop(['two', 'four'], axis='columns')

### Доступ по индексу, выборка и фильтрация

Доступ по индексу к объекту Series (obj[...]) работает так же, как для массивов NumPy с тем отличием, что индексами могут быть не только целые, но любые
значения из индекса объекта Series. Вот несколько примеров:

In [None]:
obj = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
print(obj,'\n')
print('obj[\'b\']=' , obj['b'],'\n')
print('obj[1]=',obj[1],'\n')
print(obj[2:4],'\n')
print(obj[['b', 'a', 'd']],'\n')
print(obj[[1, 3]],'\n')
print(obj[obj < 2])

Вырезание с помощью меток отличается от обычного вырезания в Python тем,
что конечная точка включается

In [None]:
obj['b':'c']

Установка с помощью этих методов работает ожидаемым образом:

In [None]:
obj['b':'c'] = 5
obj

Как мы уже видели, доступ по индексу к DataFrame применяется для извлечения одного или нескольких столбцов путем задания единственного значения или
последовательности

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
print(data,'\n')
print(data['two'], '\n')
print(data[['three', 'one']])

У доступа по индексу есть несколько частных случаев. Во-первых, выборка
строк с помощью вырезания или булева массива:

In [None]:
print(data[:2],'\n')
print(data[data['three'] > 5])

Такой синтаксис может показаться непоследовательным, но он был выбран исключительно из практических соображений. Еще одна
возможность – доступ по индексу с помощью булева DataFrame, например порожденного в результате скалярного сравнения:

In [None]:
print(data < 5,'\n')
data[data < 5] = 0
print(data)

Идея в том, чтобы сделать DataFrame синтаксически более похожим на ndarray
в данном частном случае. Таким образом, существует много способов выборки и реорганизации данных,
содержащихся в объекте pandas. Все существующие методы и варинты доступа по индексам можно найти в оф. документации.

### Арифметические операции и выравнивание данных

Одна из важных черт pandas – поведение арифметических операций для
объектов с разными индексами. Если при сложении двух объектов обнаруживаются различные пары индексов, 
то результирующий индекс будет объединением
индексов. Рассмотрим простой пример:

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s1

In [None]:
s2

Сложение этих объектов дает:

In [None]:
s1 + s2

Вследствие внутреннего выравнивания данных образуются отсутствующие
значения в позициях, для которых не нашлось соответственной пары. Отсутствующие значения распространяются на последующие операции.
В случае DataFrame выравнивание производится как для строк, так и для столбцов:

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df1

In [None]:
df2

При сложении этих объектов получается DataFrame, индекс и столбцы которого являются объединениями индексов и столбцов слагаемых:

In [None]:
df1 + df2

#### Операции между DataFrame и Series

Как и в случае массивов NumPy, арифметические операции между DataFrame
и Series корректно определены. В качестве пояснительного примера рассмотрим
вычисление разности между двумерным массивом и одной из его строк:

In [None]:
arr = np.arange(12.).reshape((3, 4))
print(arr, '\n')
print(arr[0], '\n')
print(arr - arr[0])

Операции
между DataFrame и Series аналогичны:

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
series = frame.iloc[0]
print(frame, '\n')
print(series)

По умолчанию при выполнении арифметических операций между DataFrame
и Series индекс Series сопоставляется со столбцами DataFrame, а укладываются
строки:

In [None]:
print(frame - series)

Если какой-нибудь индекс не найден либо в столбцах DataFrame, либо в индексе Series, то объекты переиндексируются для образования объединения:

In [None]:
series2 = pd.Series(range(3), index=['b', 'e', 'f'])
print(series2, '\n')
frame + series2

Если вы хотите вместо этого сопоставлять строки, а укладывать столбцы, то
должны будете воспользоваться каким-нибудь арифметическим методом. Например

In [None]:
series3 = frame['d']
print(frame,'\n')
print(series3,'\n')
frame.sub(series3, axis='index')

### Сортировка и ранжирование

Сортировка набора данных по некоторому критерию – еще одна важная встроенная операция. Для лексикографической сортировки по индексу служит метод
sort_index, который возвращает новый отсортированный объект:

In [None]:
obj = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj.sort_index()

В случае DataFrame можно сортировать по индексу, ассоциированному с любой
осью:

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()

In [None]:
frame.sort_index(axis=1)

По умолчанию данные сортируются в порядке возрастания, но можно отсортировать их и в порядке убывания

In [None]:
frame.sort_index(axis=1, ascending=False)

Для сортировки Series по значениям служит метод order:

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

Отсутствующие значения по умолчанию оказываются в конце Series:

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()

Объект DataFrame можно сортировать по значениям в одном или нескольких
столбцах. Для этого имена столбцов следует передать в качестве значения параметра by

In [None]:
frame = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame

In [None]:
frame.sort_values(by='b')

Для сортировки по нескольким столбцам следует передать список имен

In [None]:
frame.sort_values(by=['a', 'b'])

Ранжирование тесно связано с сортировкой, заключается оно в присваивании
рангов – от единицы до числа присутствующих в массиве элементов. Это аналогично косвенным индексам, порождаемым методом numpy.argsort, с тем отличием, что существует правило обработки связанных рангов. Для ранжирования
применяется метод rank объектов Series и DataFrame; по умолчанию rank обрабатывает связанные ранги, присваивая каждой группе средний ранг:

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()

Ранги можно также присваивать в соответствии с порядком появления в данных:

In [None]:
obj.rank(method='first')

DataFrame
умеет вычислять ранги как по строкам, так и по столбцам

In [None]:
frame = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame

In [None]:
frame.rank(axis='columns')

In [None]:
frame.rank(axis='rows')

### Индексы по осям с повторяющимися значениями

Во всех рассмотренных до сих пор примерах метки на осях (значения индекса)
были уникальны. Хотя для многих функций pandas (например, reindex) требуется уникальность меток, в общем случае это необязательно. Рассмотрим небольшой объект Series с повторяющимися значениями в индексе

In [None]:
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

О том, являются значения уникальными или нет, можно узнать, опросив свойство is_unique:

In [None]:
obj.index.is_unique

Выборка данных – одна из основных операций, поведение которых меняется
в зависимости от наличия или отсутствия дубликатов. При доступе по индексу,
встречающемуся несколько раз, возвращается объект Series; если же индекс одиночный, то скалярное значение

In [None]:
obj['a']

In [None]:
obj['c']

Такое же правило действует и для доступа к строкам в DataFrame:

In [None]:
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

In [None]:
df.loc['b']

## Редукция и вычисление описательных статистик

Объекты pandas оснащены набором стандартных математических и статистических методов. Большая их часть попадает в категорию редукций, или сводных статистик – методов, которые вычисляют единственное значение (например, сумму
или среднее) для Series или объект Series – для строк либо столбцов DataFrame.
По сравнению с эквивалентными методами массивов NumPy, все они игнорируют
отсутствующие значения. Рассмотрим небольшой объект DataFrame

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

Метод sum объекта DataFrame возвращает Series, содержащий суммы по столбцам:

In [None]:
df.sum()

Если передать параметр  то суммирование будет производиться по строкам:

In [None]:
df.sum(axis='columns')

Отсутствующие значения исключаются, если только не является отсутствующим весь срез (в данном случае строка или столбец). Это можно подавить, задав
параметр skipna

In [None]:
df.mean(axis='columns', skipna=False)

Некоторые методы, например idxmin и idxmax, возвращают косвенные статистики, скажем, индекс, при котором достигается минимум или максимум

In [None]:
df.idxmax()

Есть также аккумулирующие методы

In [None]:
df.cumsum()

Наконец, существуют методы, не относящиеся ни к редуцирующим, ни к аккумулирующим. Примером может служить метод describe, который возвращает
несколько сводных статистик за одно обращение

In [None]:
df.describe()

В случае нечисловых данных describe возвращает другие сводные статистики

In [None]:
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj.describe()

Полный список сводных статистик и родственных методов приведен в оф. документации.

### Уникальные значения, счетчики значений и членство

Еще один класс методов служит для извлечения информации о значениях, хранящихся в одномерном объекте Series. Для иллюстрации рассмотрим пример

In [None]:
obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

Метод unique возвращает массив уникальных значений в Series:

In [None]:
uniques = obj.unique()
uniques

Уникальные значения необязательно возвращаются в отсортированном порядке, но могут быть отсортированы впоследствии, если это необходимо (uniques.
sort()). Метод value_counts вычисляет объект Series, содержащий частоты встречаемости значений

In [None]:
obj.value_counts()

Метод isin вычисляет булев вектор членства в множестве и может
быть полезен для фильтрации набора данных относительно подмножества значений в объекте Series или столбце DataFrame

In [None]:
print(obj,'\n')
mask = obj.isin(['b', 'c'])
print(mask,'\n')
print(obj[mask])