<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/быстрое%20введение%20в%20pandas/Pandas%20за%2010%20минут.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

# Pandas за 10 минут

<a href="https://t.me/init_python"><img src="https://dfedorov.spb.ru/pandas/logo-telegram.png" width="35" height="35" alt="telegram" align="left"></a>

Это короткое введение в мир pandas, ориентированное в основном на новых пользователей. Более сложные рецепты можно найти в [Поваренной книге](https://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html#cookbook).

Обычно импорт выглядит так и к нему все привыкли:

In [None]:
import numpy as np
import pandas as pd

## Создание объекта

Подробнее см. [Введение в структуры данных pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dsintro)

Создание `Серии` ([`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)) путем передачи питоновского списка позволет pandas создать целочисленный индекс по умолчанию:

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

Создание `Кадра данных` ([`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame)) путем передачи массива NumPy с временнЫм индексом и помеченными столбцами:

In [None]:
# указываем начало временнОго периода и число повторений (дни по умолчанию)
dates = pd.date_range('20130101', periods=6) 
dates

In [None]:
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
df

Создать [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) можно путем передачи питоновского словаря объектов, которые можно преобразовать в серию.

In [None]:
df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'), # временнАя метка
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'), # Серия на основе списка
                    'D': np.array([3] * 4, dtype='int32'), # массив целых чисел NumPy 
                    'E': pd.Categorical(["test", "train", "test", "train"]), # категории
                    'F': 'foo'})
df2

Столбцы итогового [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) имеют разные [типы данных](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-dtypes).

In [None]:
df2.dtypes

Если вы используете `IPython` или `Jupyter (Lab) Notebook (Colab)`, то по нажатию TAB после точки отобразятся публичные атрибуты объекта (в данном случае `DataFrame`): 

In [None]:
# Попробуйте убрать комментарий и нажать TAB
# df2.<TAB>  

## Просмотр данных

Подробнее см. [Документацию по базовой функциональности](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics).

Просмотрим верхние и нижние строки полученного кадра данных:

In [None]:
df.head()

In [None]:
df.tail(3) # вывести последние три строки

Отобразим индекс и столбцы:

In [None]:
df.index

In [None]:
df.columns

Метод [`DataFrame.to_numpy()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy) представляет данные в виде массива NumPy, на котором строится DataFrame. 

In [None]:
df.to_numpy()

Обратите внимание, что эта операция может занять много времени, если ваш `DataFrame` имеет столбцы с разными типами данных, что сводится к фундаментальному различию между pandas и `NumPy`: массивы `NumPy` имеют один тип данных для всего массива, тогда как `DataFrames` в pandas имеет один тип данных для каждого столбца. Когда вы вызываете `DataFrame.to_numpy()`, pandas определит тип данных `NumPy`, который может содержать все типы данных `DataFrame`. Этот тип данных может в конечном итоге оказаться объектом (`object`, т.е. строкой), что потребует приведения каждого значения к объекту Python.

Наш `DataFrame` содержит значения с плавающей точкой, поэтому `DataFrame.to_numpy()` сработает быстро и не требует копирования данных.

Для df2, который содержит несколько типов данных, вызов `DataFrame.to_numpy()` является относительно дорогостоящим:

In [None]:
df2.to_numpy()

Обратите внимание, что `DataFrame.to_numpy()` не включает в вывод метки индекса или столбцов.

Метод [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html#pandas.DataFrame.describe) показывает краткую статистическую сводку для данных:

In [None]:
df.describe()

Транспонируем данные:

In [None]:
df.T

Сортировка по столбцам, см. [`sort_index()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html):

In [None]:
df.sort_index(axis=1, ascending=False) # по умолчанию axis=0, т.е. сортировка по строкам

Сортировка по значениям, см. [`sort_values()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values):

In [None]:
df.sort_values(by='B') # по умолчанию сортировка по индексу, выбрали столбец 'B'

## Выбор

Рекомендуем использовать оптимизированные методы pandas для доступа к данным: `.at`, `.iat`, `.loc` и `.iloc`.

Подробнее см. [Документацию по индексированию и выбору данных](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing) и [Мультииндексу](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced).

### Получение

Выбор столбца, который возвращает [`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series), эквивалентно `df.A`:

In [None]:
df['A']

Выбор с помощью `[ ]`, вырезает строки:

In [None]:
df[0:3]

In [None]:
df['20130102':'20130104']

### Выбор по метке

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-label)

Для получения строки с помощью метки:

In [None]:
df.loc[dates[0]] # метка индекса Timestamp('2013-01-01 00:00:00', freq='D')

Выбор по нескольким осям:

In [None]:
df.loc[:, ['A', 'B']]

При отображении срезов меток включаются обе конечные точки:

In [None]:
df.loc['20130102':'20130104', ['A', 'B']]

Уменьшение размерности возвращаемого объекта:

In [None]:
df.loc['20130102', ['A', 'B']]

Для получения скалярного значения:

In [None]:
df.loc[dates[0], 'A']

Для получения быстрого доступа к скаляру (эквивалентно предыдущему методу):

In [None]:
df.at[dates[0], 'A']

### Выбор по позиции

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-integer)

Выбор позиции с помощью целых чисел:

In [None]:
df.iloc[3]

По целочисленным срезам, действующим аналогично NumPy / Python, т.е. правое граничное значение не включается:

In [None]:
df.iloc[3:5, 0:2]

По спискам целочисленных позиций, аналогично стилю NumPy / Python:

In [None]:
df.iloc[[1, 2, 4], [0, 2]]

Для явного создания среза строк:

In [None]:
df.iloc[1:3, :]

Для явного создания среза столбцов:

In [None]:
df.iloc[:, 1:3]

Для явного получения значений:

In [None]:
df.iloc[1, 1]

Для получения быстрого доступа к скаляру (эквивалентно предыдущему методу):

In [None]:
df.iat[1, 1]

### Булево индексирование

Использование значений одного столбца для выбора данных:

In [None]:
df[df['A'] > 0]

Выбор значений из `DataFrame`, для которых выполняется логическое условие:

In [None]:
df[df > 0]

Использование метода [`isin()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isin.html#pandas.Series.isin) для фильтрации:

In [None]:
df2 = df.copy() # создаем копию исходгого кадра данных

In [None]:
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three'] # добавляем столбец
df2

In [None]:
df2[df2['E'].isin(['two', 'four'])] # фильтруем

### Установка значений

При добавлении нового столбца данные автоматически выравниваются по индексам:

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))
s1

In [None]:
df['F'] = s1 # отсутствующие значения после выравнивания заменились NaN
df

Установка значений по метке:

In [None]:
df.iat[0, 1] = 0
df

Установка значений путем присвоения массива NumPy:

In [None]:
df.loc[:, 'D'] = np.array([5] * len(df))
df

Операция [`where`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.where.html) с помощью присвоения:

In [None]:
df2 = df.copy() # копируем кадр данных
df2

In [None]:
df2[df2 > 0] = -df2 # все положительные превращаем в отрицательные
df2

## Отсутствующие данные

pandas в основном использует значение [`np.nan`](https://numpy.org/doc/stable/user/misc.html) для представления отсутствующих данных. По умолчанию они не включается в вычисления, см. подробнее в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data)

Повторное индексирование позволяет изменить/добавить/удалить индекс по указанной оси. Метод возвращает копию данных.

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1

In [None]:
df1.loc[dates[0]:dates[1], 'E'] = 1
df1

Чтобы удалить строки, в которых отсутствуют данные, см. [`dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html):

In [None]:
df1.dropna() # how='any', axis=0 по умолчанию, т.е. удаляются все строки с пропущенными данными

Заполнение недостающих данных:

In [None]:
df1.fillna(value=5)

Чтобы получить логическую маску, в которой значениями являются nan.

In [None]:
pd.isna(df1)

## Операции

См. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-binop)

### Статистика

Операции в целом исключают пропущенные данные.

Выполнение описательной статистики:

In [None]:
df.mean()

Та же операция на другой оси:

In [None]:
df.mean(1)

Операции с объектами разной размерности требуют выравнивания. pandas автоматически [транслируют](https://numpy.org/doc/stable/user/basics.broadcasting.html) по указанному измерению.

In [None]:
s = pd.Series([1, 3, 5, np.nan, 6, 8], index=dates).shift(2) # сдвигаем индекс
s

In [None]:
df

In [None]:
df.sub(s, axis=0) # https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sub.html

### Apply

Применение функций к данным:

In [None]:
df.apply(np.cumsum)

In [None]:
df.apply(lambda x: x.max() - x.min())

### Гистограмма

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-discretization)

In [None]:
s = pd.Series(np.random.randint(0, 7, size=10))
s

In [None]:
s.value_counts()

### Строковые методы

Series оснащен набором методов в атрибуте `str` для обработки строк, которые упрощают работу с каждым элементом массива. Обратите внимание, что сопоставление с образцом (pattern-matching) в `str` обычно использует [регулярные выражения](https://docs.python.org/3/library/re.html) по умолчанию (а в некоторых случаях всегда использует их), см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#text-string-methods).

In [None]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s

In [None]:
s.str.lower()

## Объединение (Merge)

### Concat

pandas предоставляет различные средства для простого объединения объектов `Series` и `DataFrame` с различными видами логики множеств для индексов и функциональности реляционной алгебры в случае операций типа соединения (`join`) / слияния (`merge`), см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging).

Объединение объектов pandas вместе с помощью [`concat()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html#pandas.concat):

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
df

In [None]:
pieces = [df[:3], df[3:7], df[7:]] # разбиваем на части

In [None]:
pd.concat(pieces)

Добавление столбца в [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) выполняется относительно быстро. Однако для добавления строки требуется создание копии, и это может стать трудозтратной операцией. Рекомендуем передавать предварительно созданный список записей в конструктор `DataFrame` вместо создания `DataFrame` путем итеративного добавления к нему записей. Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging-concatenation).

### Присоединение (Join)

Слияние в стиле `SQL`, см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#merging-join).

In [None]:
left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
left

In [None]:
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
right

In [None]:
pd.merge(left, right, on='key')

Другой пример, который можно привести:

In [None]:
left = pd.DataFrame({'key': ['foo', 'bar'], 'lval': [1, 2]})
left

In [None]:
right = pd.DataFrame({'key': ['foo', 'bar'], 'rval': [4, 5]})
right

In [None]:
pd.merge(left, right, on='key')

## Группировка

Под группировкой (`"group by"`) понимаем процесс, включающий один или несколько следующих шагов: 

- Разделение (`Splitting`) данных на группы по некоторым критериям.
- Независимое применение (`Applying`) функции к каждой группе.
- Объединение (`Combining`) результатов в структуру данных.

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby)

In [None]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                         'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                         'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})
df

Группировка, а затем применение функции [`sum()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.core.groupby.GroupBy.sum.html#pandas.core.groupby.GroupBy.sum) к полученным группам.

In [None]:
df.groupby('A').sum()

Группировка по нескольким столбцам образует иерархический (мультииндекс) индекс, и мы снова можем применить функцию `sum()`.

In [None]:
df.groupby(['A', 'B']).sum()

## Изменение формы

См. Документацию про [иерархическую индексацию](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced-hierarchical) и [изменение формы](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-stacking).

### Stack

In [None]:
tuples = list(zip(*[['bar', 'bar', 'baz', 'baz',
                     'foo', 'foo', 'qux', 'qux'],
                    ['one', 'two', 'one', 'two',
                     'one', 'two', 'one', 'two']]))
tuples

In [None]:
index = pd.MultiIndex.from_tuples(tuples, names=['first', 'second'])
index

In [None]:
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=['A', 'B'])
df

In [None]:
df2 = df[:4]
df2

Метод [`stack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html#pandas.DataFrame.stack) "сжимает" уровень в столбцах DataFrame.

In [None]:
stacked = df2.stack()
stacked

С "уложенными" (`"stacked"`) DataFrame или Series (имеющими MultiIndex в качестве индекса) обратная операция - [`unstack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html#pandas.DataFrame.unstack), которая по умолчанию распаковывает последний уровень:

In [None]:
stacked.unstack()

In [None]:
stacked.unstack(1)

In [None]:
stacked.unstack(0)

### Сводные таблицы (Pivot tables)

См. секцию [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-pivot)

In [None]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                   'B': ['A', 'B', 'C'] * 4,
                   'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D': np.random.randn(12),
                   'E': np.random.randn(12)})
df

Мы можем очень легко создать сводные таблицы из этих данных:

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

## Временные ряды

pandas имеет простые, мощные и эффективные функции для выполнения операций передискретизации во время преобразования частоты (например, преобразование секундных данных в 5-минутные данные). См. [документацию по временным рядам](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries).

In [None]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
rng[:10]

In [None]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts[:10]

In [None]:
ts.resample('5Min').sum()

Представление часового пояса:

In [None]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
rng

In [None]:
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

In [None]:
ts

In [None]:
ts_utc = ts.tz_localize('UTC')
ts_utc

Преобразование в другой часовой пояс:

In [None]:
ts_utc.tz_convert('US/Eastern')

Преобразование между представлениями промежутка времени:

In [None]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
rng

In [None]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

In [None]:
ps = ts.to_period()
ps

In [None]:
ps.to_timestamp()

Преобразование между периодом и меткой времени позволяет использовать некоторые удобные арифметические функции. В следующем примере мы преобразуем ежеквартальную частоту с годом, заканчивающимся в ноябре, в 9 утра конца месяца, следующего за концом квартала:

In [None]:
prng = pd.period_range('1990Q1', '2000Q4', freq='Q-NOV')
prng

In [None]:
ts = pd.Series(np.random.randn(len(prng)), prng)
ts[:10]

In [None]:
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
ts[:10]

In [None]:
ts.head()

## Категории

pandas могут включать категориальные данные в `DataFrame`, см. [введение в категории](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical) и [документацию по API](https://pandas.pydata.org/pandas-docs/stable/reference/arrays.html#api-arrays-categorical).

In [None]:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6], 
                   "raw_grade": ['a', 'b', 'b', 'a', 'a', 'e']})

Преобразуйте необработанные оценки в категориальный тип данных.

In [None]:
df["grade"] = df["raw_grade"].astype("category")
df["grade"]

Переименуйте категории в более выразительные имена (присвоение [`Series.cat.categories()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.cat.categories.html#pandas.Series.cat.categories) на месте!)

In [None]:
df["grade"] = df["grade"].cat.set_categories(["very bad", "bad", "medium", "good", "very good"])
df["grade"]

Сортировка осуществляется по категориям, а не в лексическом порядке.

In [None]:
df.sort_values(by="grade")

При группировке по столбцу категорий также отображаются пустые категории.

In [None]:
df.groupby("grade").size()

## Plotting

Подробнее в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html#visualization)

Используем стандартное соглашение для ссылки на `API matplotlib`:

In [None]:
import matplotlib.pyplot as plt

In [None]:
ts = pd.Series(np.random.randn(1000), 
               index=pd.date_range('1/1/2000', periods=1000))
ts

In [None]:
ts = ts.cumsum()
ts

In [None]:
ts.plot();

В `DataFrame` метод [`plot()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html#pandas.DataFrame.plot) удобен для построения всех столбцов с метками:

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])
df.head()

In [None]:
df = df.cumsum()
df.head()

In [None]:
df.plot(legend='best');

## Получение и записаь данных

### CSV

см. [про запись в csv файлы](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-store-in-csv)

In [None]:
df.to_csv('foo.csv')

см. [про чтенеи csv файлов](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table)

In [None]:
pd.read_csv('foo.csv')

### HDF5

см. про чтение и запись в [`HDFStores`](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-hdf5)

Запись в `HDF5` хранилище:

In [None]:
df.to_hdf('foo.h5', 'df')

Чтение из `HDF5` хранилища:

In [None]:
pd.read_hdf('foo.h5', 'df')

### Excel

см. [про чтение и запись в MS Excel](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-excel)

Запись в excel файл:

In [None]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')

Чтение из excel файла:

In [None]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

## Подсказки (Gotchas)

Если пытаетесь выполнить операцию, то можете увидеть исключение, например:

In [None]:
if pd.Series([False, True, False]):
    print("I was true")

Для объяснения см. ["Сравнения"](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-compare).

См. также ["Подсказки"](https://pandas.pydata.org/pandas-docs/stable/user_guide/gotchas.html#gotchas).

# Дополнительно:
    
- Видео от автора pandas: [Wes McKinney: pandas in 10 minutes](https://youtu.be/_T8LGqJtuGc)
- [Оригинал статьи](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)

<a href="https://t.me/init_python"><img src="https://dfedorov.spb.ru/pandas/logo-telegram.png" width="35" height="35" alt="telegram" align="left"></a>