


# Pandas



Pandas — пакет для статистической обработки данных, по функциональности близкий к SQL и R. Включает в себя функциональность работы с базами данных и таблицами Excel.

Обычно импорт выглядит так и к нему все привыкли:

In [56]:
!pip install pandas -q

In [57]:
import numpy as np
import pandas as pd

## Создание объекта

Создание `Серии` ([`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)) путем передачи списка позволет pandas создать целочисленный индекс по умолчанию:

In [58]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [59]:
s.index

RangeIndex(start=0, stop=6, step=1)

In [60]:
type(s)

Создание `DataFrame` ([`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame)) путем передачи массива NumPy :

In [61]:
# указываем начало временнОго периода и число повторений (дни по умолчанию)
dates = pd.date_range('20130101', periods=600,freq='M')
dates

DatetimeIndex(['2013-01-31', '2013-02-28', '2013-03-31', '2013-04-30',
               '2013-05-31', '2013-06-30', '2013-07-31', '2013-08-31',
               '2013-09-30', '2013-10-31',
               ...
               '2062-03-31', '2062-04-30', '2062-05-31', '2062-06-30',
               '2062-07-31', '2062-08-31', '2062-09-30', '2062-10-31',
               '2062-11-30', '2062-12-31'],
              dtype='datetime64[ns]', length=600, freq='M')

In [62]:
data = np.random.randn(600, 4)
data

array([[-1.39213842, -1.45055073,  0.07097967, -0.25392559],
       [-0.05500256,  0.58146434, -0.70265342, -0.17188145],
       [-0.45621072,  0.64031715, -0.64675337,  1.00940899],
       ...,
       [ 1.47422062, -0.30193236, -1.41074021,  0.810391  ],
       [ 0.53599751,  1.4309772 ,  1.60230261, -0.03866235],
       [ 0.90566499, -0.57552385, -0.5148428 ,  0.20224233]])

In [63]:
df = pd.DataFrame(data, index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-05-31,-0.193654,0.062058,0.182474,0.844510
...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433
2062-09-30,0.451145,-0.791287,1.415210,-0.427119
2062-10-31,1.474221,-0.301932,-1.410740,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662


In [64]:
type(df)

In [65]:
df.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

Включение категориальных данных в `DataFrame`, см. [введение в категории](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical)

Тип данных category в pandas используется для хранения данных с ограниченным количеством уникальных значений. Его основные преимущества:

- Экономия памяти: Значения хранятся как числовые коды, что уменьшает использование памяти.
- Ускорение вычислений: Операции с числовыми кодами выполняются быстрее, чем с текстовыми строками.
- Контроль данных: Можно задать все возможные категории заранее.


In [66]:
pd.Categorical(["red", "green", "blue", "red"])

['red', 'green', 'blue', 'red']
Categories (3, object): ['blue', 'green', 'red']

In [67]:
dict_py = {'A': 1.,
          'B': pd.Timestamp('20130102'), # временнАя метка
          'C': pd.Series(1, index=list(range(4)), dtype='float32'), # Серия на основе списка
          'D': np.array([3] * 4, dtype='int32'), # массив целых чисел NumPy
          'E': pd.Categorical(["red", "green", "blue", "red"]), # категории
          'F': 'foobar'}

dict_py

{'A': 1.0,
 'B': Timestamp('2013-01-02 00:00:00'),
 'C': 0    1.0
 1    1.0
 2    1.0
 3    1.0
 dtype: float32,
 'D': array([3, 3, 3, 3], dtype=int32),
 'E': ['red', 'green', 'blue', 'red']
 Categories (3, object): ['blue', 'green', 'red'],
 'F': 'foobar'}

Создать [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) можно путем передачи словаря объектов.

In [68]:
df2 = pd.DataFrame(dict_py)
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,red,foobar
1,1.0,2013-01-02,1.0,3,green,foobar
2,1.0,2013-01-02,1.0,3,blue,foobar
3,1.0,2013-01-02,1.0,3,red,foobar


Столбцы итогового [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) имеют разные [типы данных](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-dtypes).

In [69]:
df2.dtypes

A           float64
B    datetime64[ns]
C           float32
D             int32
E          category
F            object
dtype: object

## Просмотр данных

Просмотрим верхние и нижние строки полученного DataFrame:

In [70]:
df.head(10) # вывести первые 10 строк

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.07098,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-05-31,-0.193654,0.062058,0.182474,0.84451
2013-06-30,-0.204668,1.240077,1.918804,-1.668098
2013-07-31,-1.454505,-0.243544,-0.22469,-0.22909
2013-08-31,-0.428154,-0.851808,1.779479,-1.157731
2013-09-30,-0.112034,-0.713441,0.479196,0.806451
2013-10-31,-1.067181,1.022234,1.805326,-0.080798


In [71]:
df.tail(3) # вывести последние три строки

Unnamed: 0,A,B,C,D
2062-10-31,1.474221,-0.301932,-1.41074,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662
2062-12-31,0.905665,-0.575524,-0.514843,0.202242


Отобразим индекс и названия столбцов:

In [72]:
df.index

DatetimeIndex(['2013-01-31', '2013-02-28', '2013-03-31', '2013-04-30',
               '2013-05-31', '2013-06-30', '2013-07-31', '2013-08-31',
               '2013-09-30', '2013-10-31',
               ...
               '2062-03-31', '2062-04-30', '2062-05-31', '2062-06-30',
               '2062-07-31', '2062-08-31', '2062-09-30', '2062-10-31',
               '2062-11-30', '2062-12-31'],
              dtype='datetime64[ns]', length=600, freq='M')

In [73]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

In [74]:
df.columns = ['col_a', 'B', 'C', 'D']

In [75]:
df

Unnamed: 0,col_a,B,C,D
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-05-31,-0.193654,0.062058,0.182474,0.844510
...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433
2062-09-30,0.451145,-0.791287,1.415210,-0.427119
2062-10-31,1.474221,-0.301932,-1.410740,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662


In [76]:
df.columns = ['A', 'B', 'C', 'D']
df

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-05-31,-0.193654,0.062058,0.182474,0.844510
...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433
2062-09-30,0.451145,-0.791287,1.415210,-0.427119
2062-10-31,1.474221,-0.301932,-1.410740,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662


Метод [`DataFrame.to_numpy()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy) представляет данные в виде массива NumPy, на котором строится DataFrame.

In [77]:
df.to_numpy()

array([[-1.39213842, -1.45055073,  0.07097967, -0.25392559],
       [-0.05500256,  0.58146434, -0.70265342, -0.17188145],
       [-0.45621072,  0.64031715, -0.64675337,  1.00940899],
       ...,
       [ 1.47422062, -0.30193236, -1.41074021,  0.810391  ],
       [ 0.53599751,  1.4309772 ,  1.60230261, -0.03866235],
       [ 0.90566499, -0.57552385, -0.5148428 ,  0.20224233]])

Обратите внимание, что эта операция может занять много времени, если ваш `DataFrame` имеет столбцы с разными типами данных, что сводится к фундаментальному различию между pandas и `NumPy`: массивы `NumPy` имеют один тип данных для всего массива, тогда как `DataFrames` в pandas имеет один тип данных для каждого столбца. Когда вы вызываете `DataFrame.to_numpy()`, pandas определит тип данных `NumPy`, который может содержать все типы данных `DataFrame`. Этот тип данных может в конечном итоге оказаться объектом (`object`, т.е. строкой), что потребует приведения каждого значения к объекту Python.

Наш `DataFrame` содержит значения с плавающей точкой, поэтому `DataFrame.to_numpy()` сработает быстро и не требует копирования данных.

Для df2, который содержит несколько типов данных, вызов `DataFrame.to_numpy()` является относительно дорогостоящим:

In [78]:
df2.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'red', 'foobar'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'green', 'foobar'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'blue', 'foobar'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'red', 'foobar']],
      dtype=object)

Транспонируем данные:

In [79]:
df_copy = df.T

In [80]:
df_copy

Unnamed: 0,2013-01-31,2013-02-28,2013-03-31,2013-04-30,2013-05-31,2013-06-30,2013-07-31,2013-08-31,2013-09-30,2013-10-31,...,2062-03-31,2062-04-30,2062-05-31,2062-06-30,2062-07-31,2062-08-31,2062-09-30,2062-10-31,2062-11-30,2062-12-31
A,-1.392138,-0.055003,-0.456211,1.056963,-0.193654,-0.204668,-1.454505,-0.428154,-0.112034,-1.067181,...,1.346766,-0.61193,-3.074637,0.168478,0.110925,1.099657,0.451145,1.474221,0.535998,0.905665
B,-1.450551,0.581464,0.640317,0.023424,0.062058,1.240077,-0.243544,-0.851808,-0.713441,1.022234,...,0.703843,-0.072172,-1.543839,-0.107983,-0.264614,-0.249886,-0.791287,-0.301932,1.430977,-0.575524
C,0.07098,-0.702653,-0.646753,-1.227374,0.182474,1.918804,-0.22469,1.779479,0.479196,1.805326,...,-0.977137,-1.647303,0.622843,-1.947697,-0.503492,0.657064,1.41521,-1.41074,1.602303,-0.514843
D,-0.253926,-0.171881,1.009409,0.232905,0.84451,-1.668098,-0.22909,-1.157731,0.806451,-0.080798,...,-2.187769,-1.831929,0.652116,-0.508971,-0.282427,-1.347433,-0.427119,0.810391,-0.038662,0.202242


In [81]:
df

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-05-31,-0.193654,0.062058,0.182474,0.844510
...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433
2062-09-30,0.451145,-0.791287,1.415210,-0.427119
2062-10-31,1.474221,-0.301932,-1.410740,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662


Сортировка по столбцам, см. [`sort_index()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html):

In [82]:
df.sort_index(axis=1, ascending=False) # по умолчанию axis=0, т.е. сортировка по строкам

Unnamed: 0,D,C,B,A
2013-01-31,-0.253926,0.070980,-1.450551,-1.392138
2013-02-28,-0.171881,-0.702653,0.581464,-0.055003
2013-03-31,1.009409,-0.646753,0.640317,-0.456211
2013-04-30,0.232905,-1.227374,0.023424,1.056963
2013-05-31,0.844510,0.182474,0.062058,-0.193654
...,...,...,...,...
2062-08-31,-1.347433,0.657064,-0.249886,1.099657
2062-09-30,-0.427119,1.415210,-0.791287,0.451145
2062-10-31,0.810391,-1.410740,-0.301932,1.474221
2062-11-30,-0.038662,1.602303,1.430977,0.535998


Сортировка по значениям, см. [`sort_values()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values):

In [83]:
df.sort_values(by=['A','C'])

Unnamed: 0,A,B,C,D
2062-05-31,-3.074637,-1.543839,0.622843,0.652116
2024-09-30,-2.581625,0.241627,-1.110018,0.308494
2037-03-31,-2.543168,0.605248,0.476055,-0.588104
2054-04-30,-2.534236,-0.379454,-0.342686,1.582165
2035-12-31,-2.521294,0.858503,-0.291590,-0.415829
...,...,...,...,...
2052-12-31,2.589887,0.626308,0.174625,-0.152411
2043-04-30,2.608924,-1.515549,1.015811,0.286064
2034-11-30,2.718869,-0.763242,-0.135575,-0.238434
2055-07-31,2.740794,0.663749,0.537123,-0.091636


## Выбор элементов

Методы:  `.ix`, `.loc` и `.iloc`.

### Получение

Выбор столбца, который возвращает [`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series), эквивалентно `df.A`:

In [84]:
type(df['A'])

In [85]:
type(df['A'])

In [86]:
type(df[['A']])

Выбор с помощью `[ ]`, вырезает строки:

In [87]:
df[:'2013-04-30']

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.07098,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905


In [88]:
df_test = df.reset_index()
df_test

Unnamed: 0,index,A,B,C,D
0,2013-01-31,-1.392138,-1.450551,0.070980,-0.253926
1,2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2,2013-03-31,-0.456211,0.640317,-0.646753,1.009409
3,2013-04-30,1.056963,0.023424,-1.227374,0.232905
4,2013-05-31,-0.193654,0.062058,0.182474,0.844510
...,...,...,...,...,...
595,2062-08-31,1.099657,-0.249886,0.657064,-1.347433
596,2062-09-30,0.451145,-0.791287,1.415210,-0.427119
597,2062-10-31,1.474221,-0.301932,-1.410740,0.810391
598,2062-11-30,0.535998,1.430977,1.602303,-0.038662


In [89]:
df_test.loc[:3]

Unnamed: 0,index,A,B,C,D
0,2013-01-31,-1.392138,-1.450551,0.07098,-0.253926
1,2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2,2013-03-31,-0.456211,0.640317,-0.646753,1.009409
3,2013-04-30,1.056963,0.023424,-1.227374,0.232905


In [90]:
df['2013-01-02':'2013-02-03']

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.07098,-0.253926


### Выбор по метке

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-label)

Для получения строки с помощью метки:

In [91]:
df.loc['2013-11-30','A']

0.1361824538026991

In [92]:
df.at['2013-11-30', 'A']

0.1361824538026991

Если вам нужно получить или установить значение одного конкретного элемента, используйте `df.at`. Это будет быстрее и эффективнее.
Если вам нужно получить или установить значения для среза данных или использовать сложные условия, используйте `df.loc`.

Выбор по нескольким осям:

In [93]:
df.loc['2013-11-30', ['A', 'B']]

A    0.136182
B    2.568138
Name: 2013-11-30 00:00:00, dtype: float64

При отображении срезов меток включаются обе конечные точки:

In [94]:
df.loc['2013-01-02':'2014-01-04', ['C', 'B']]

Unnamed: 0,C,B
2013-01-31,0.07098,-1.450551
2013-02-28,-0.702653,0.581464
2013-03-31,-0.646753,0.640317
2013-04-30,-1.227374,0.023424
2013-05-31,0.182474,0.062058
2013-06-30,1.918804,1.240077
2013-07-31,-0.22469,-0.243544
2013-08-31,1.779479,-0.851808
2013-09-30,0.479196,-0.713441
2013-10-31,1.805326,1.022234


In [95]:
df

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-05-31,-0.193654,0.062058,0.182474,0.844510
...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433
2062-09-30,0.451145,-0.791287,1.415210,-0.427119
2062-10-31,1.474221,-0.301932,-1.410740,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662


In [96]:
df.loc['2013-01-02':'2014-01-04', 'A':'C']

Unnamed: 0,A,B,C
2013-01-31,-1.392138,-1.450551,0.07098
2013-02-28,-0.055003,0.581464,-0.702653
2013-03-31,-0.456211,0.640317,-0.646753
2013-04-30,1.056963,0.023424,-1.227374
2013-05-31,-0.193654,0.062058,0.182474
2013-06-30,-0.204668,1.240077,1.918804
2013-07-31,-1.454505,-0.243544,-0.22469
2013-08-31,-0.428154,-0.851808,1.779479
2013-09-30,-0.112034,-0.713441,0.479196
2013-10-31,-1.067181,1.022234,1.805326


### Выбор по позиции

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-integer)

Выбор позиции с помощью целых чисел:

In [97]:
df

Unnamed: 0,A,B,C,D
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-05-31,-0.193654,0.062058,0.182474,0.844510
...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433
2062-09-30,0.451145,-0.791287,1.415210,-0.427119
2062-10-31,1.474221,-0.301932,-1.410740,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662


In [98]:
df.iloc[1]

A   -0.055003
B    0.581464
C   -0.702653
D   -0.171881
Name: 2013-02-28 00:00:00, dtype: float64

По целочисленным срезам, действующим аналогично NumPy / Python, т.е. правое граничное значение не включается:

In [99]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2013-04-30,1.056963,0.023424
2013-05-31,-0.193654,0.062058


По спискам целочисленных позиций, аналогично стилю NumPy / Python:

In [100]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2013-02-28,-0.055003,-0.702653
2013-03-31,-0.456211,-0.646753
2013-05-31,-0.193654,0.182474


Для явного создания среза строк:

In [101]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409


Для явного создания среза столбцов:

In [102]:
df.iloc[:, 0:3]

Unnamed: 0,A,B,C
2013-01-31,-1.392138,-1.450551,0.070980
2013-02-28,-0.055003,0.581464,-0.702653
2013-03-31,-0.456211,0.640317,-0.646753
2013-04-30,1.056963,0.023424,-1.227374
2013-05-31,-0.193654,0.062058,0.182474
...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064
2062-09-30,0.451145,-0.791287,1.415210
2062-10-31,1.474221,-0.301932,-1.410740
2062-11-30,0.535998,1.430977,1.602303


Для явного получения значений:

In [103]:
df.iloc[1, 1]

0.5814643436675738

Для получения быстрого доступа к скаляру (эквивалентно предыдущему методу):

In [104]:
df.iat[1, 1]

0.5814643436675738

### Булево индексирование

Использование значений столбца для выбора данных:

In [105]:
df[(df['A'] > 0) | ((df['B'] > 0) & ( df['C'] < 0))]

Unnamed: 0,A,B,C,D
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881
2013-03-31,-0.456211,0.640317,-0.646753,1.009409
2013-04-30,1.056963,0.023424,-1.227374,0.232905
2013-11-30,0.136182,2.568138,1.183841,1.032888
2013-12-31,0.805492,-0.002406,0.149661,0.209229
...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433
2062-09-30,0.451145,-0.791287,1.415210,-0.427119
2062-10-31,1.474221,-0.301932,-1.410740,0.810391
2062-11-30,0.535998,1.430977,1.602303,-0.038662


Выбор значений из `DataFrame`, для которых выполняется логическое условие:

In [106]:
df[df > 0]

Unnamed: 0,A,B,C,D
2013-01-31,,,0.070980,
2013-02-28,,0.581464,,
2013-03-31,,0.640317,,1.009409
2013-04-30,1.056963,0.023424,,0.232905
2013-05-31,,0.062058,0.182474,0.844510
...,...,...,...,...
2062-08-31,1.099657,,0.657064,
2062-09-30,0.451145,,1.415210,
2062-10-31,1.474221,,,0.810391
2062-11-30,0.535998,1.430977,1.602303,


Использование метода [`isin()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isin.html#pandas.Series.isin) для фильтрации:

In [107]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,red,foobar
1,1.0,2013-01-02,1.0,3,green,foobar
2,1.0,2013-01-02,1.0,3,blue,foobar
3,1.0,2013-01-02,1.0,3,red,foobar


In [108]:
df2[df2['E'].isin(['green', 'blue'])] # фильтруем

Unnamed: 0,A,B,C,D,E,F
1,1.0,2013-01-02,1.0,3,green,foobar
2,1.0,2013-01-02,1.0,3,blue,foobar


In [109]:
df2[~df2['E'].isin(['green', 'blue'])] # фильтруем

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,red,foobar
3,1.0,2013-01-02,1.0,3,red,foobar


## Изменение / добавление значений

In [110]:
df['E'] = ['one', 'one', 'two', 'three', 'four', 'three']*100 # добавляем столбец
df

Unnamed: 0,A,B,C,D,E
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926,one
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881,one
2013-03-31,-0.456211,0.640317,-0.646753,1.009409,two
2013-04-30,1.056963,0.023424,-1.227374,0.232905,three
2013-05-31,-0.193654,0.062058,0.182474,0.844510,four
...,...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433,one
2062-09-30,0.451145,-0.791287,1.415210,-0.427119,two
2062-10-31,1.474221,-0.301932,-1.410740,0.810391,three
2062-11-30,0.535998,1.430977,1.602303,-0.038662,four


При добавлении нового столбца данные автоматически выравниваются по индексам:

In [111]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130228', periods=6,freq='M'))
s1

2013-02-28    1
2013-03-31    2
2013-04-30    3
2013-05-31    4
2013-06-30    5
2013-07-31    6
Freq: M, dtype: int64

In [112]:
df['F'] = s1 # отсутствующие значения после выравнивания заменились NaN
df

Unnamed: 0,A,B,C,D,E,F
2013-01-31,-1.392138,-1.450551,0.070980,-0.253926,one,
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881,one,1.0
2013-03-31,-0.456211,0.640317,-0.646753,1.009409,two,2.0
2013-04-30,1.056963,0.023424,-1.227374,0.232905,three,3.0
2013-05-31,-0.193654,0.062058,0.182474,0.844510,four,4.0
...,...,...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433,one,
2062-09-30,0.451145,-0.791287,1.415210,-0.427119,two,
2062-10-31,1.474221,-0.301932,-1.410740,0.810391,three,
2062-11-30,0.535998,1.430977,1.602303,-0.038662,four,


Установка значений по метке:

In [113]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,E,F
2013-01-31,-1.392138,0.000000,0.070980,-0.253926,one,
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881,one,1.0
2013-03-31,-0.456211,0.640317,-0.646753,1.009409,two,2.0
2013-04-30,1.056963,0.023424,-1.227374,0.232905,three,3.0
2013-05-31,-0.193654,0.062058,0.182474,0.844510,four,4.0
...,...,...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433,one,
2062-09-30,0.451145,-0.791287,1.415210,-0.427119,two,
2062-10-31,1.474221,-0.301932,-1.410740,0.810391,three,
2062-11-30,0.535998,1.430977,1.602303,-0.038662,four,


In [114]:
df.loc['2013-01-31', 'D'] = 111
df

Unnamed: 0,A,B,C,D,E,F
2013-01-31,-1.392138,0.000000,0.070980,111.000000,one,
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881,one,1.0
2013-03-31,-0.456211,0.640317,-0.646753,1.009409,two,2.0
2013-04-30,1.056963,0.023424,-1.227374,0.232905,three,3.0
2013-05-31,-0.193654,0.062058,0.182474,0.844510,four,4.0
...,...,...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433,one,
2062-09-30,0.451145,-0.791287,1.415210,-0.427119,two,
2062-10-31,1.474221,-0.301932,-1.410740,0.810391,three,
2062-11-30,0.535998,1.430977,1.602303,-0.038662,four,


Установка значений путем присвоения массива NumPy:

In [115]:
df['G'] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,E,F,G
2013-01-31,-1.392138,0.000000,0.070980,111.000000,one,,5
2013-02-28,-0.055003,0.581464,-0.702653,-0.171881,one,1.0,5
2013-03-31,-0.456211,0.640317,-0.646753,1.009409,two,2.0,5
2013-04-30,1.056963,0.023424,-1.227374,0.232905,three,3.0,5
2013-05-31,-0.193654,0.062058,0.182474,0.844510,four,4.0,5
...,...,...,...,...,...,...,...
2062-08-31,1.099657,-0.249886,0.657064,-1.347433,one,,5
2062-09-30,0.451145,-0.791287,1.415210,-0.427119,two,,5
2062-10-31,1.474221,-0.301932,-1.410740,0.810391,three,,5
2062-11-30,0.535998,1.430977,1.602303,-0.038662,four,,5


In [116]:
df_numeric = df._get_numeric_data()
df_numeric[df_numeric > 0] = - df_numeric # все положительные превращаем в отрицательные
df_numeric

Unnamed: 0,A,B,C,D,F,G
2013-01-31,-1.392138,0.000000,-0.070980,-111.000000,,-5
2013-02-28,-0.055003,-0.581464,-0.702653,-0.171881,-1.0,-5
2013-03-31,-0.456211,-0.640317,-0.646753,-1.009409,-2.0,-5
2013-04-30,-1.056963,-0.023424,-1.227374,-0.232905,-3.0,-5
2013-05-31,-0.193654,-0.062058,-0.182474,-0.844510,-4.0,-5
...,...,...,...,...,...,...
2062-08-31,-1.099657,-0.249886,-0.657064,-1.347433,,-5
2062-09-30,-0.451145,-0.791287,-1.415210,-0.427119,,-5
2062-10-31,-1.474221,-0.301932,-1.410740,-0.810391,,-5
2062-11-30,-0.535998,-1.430977,-1.602303,-0.038662,,-5


In [117]:
np.sin(df_numeric)

Unnamed: 0,A,B,C,D,F,G
2013-01-31,-0.984083,0.000000,-0.070920,0.864551,,0.958924
2013-02-28,-0.054975,-0.549248,-0.646245,-0.171036,-0.841471,0.958924
2013-03-31,-0.440550,-0.597450,-0.602599,-0.846517,-0.909297,0.958924
2013-04-30,-0.870867,-0.023422,-0.941608,-0.230806,-0.141120,0.958924
2013-05-31,-0.192446,-0.062019,-0.181463,-0.747646,0.756802,0.958924
...,...,...,...,...,...,...
2062-08-31,-0.891052,-0.247293,-0.610795,-0.975158,,0.958924
2062-09-30,-0.435996,-0.711258,-0.987921,-0.414250,,0.958924
2062-10-31,-0.995340,-0.297366,-0.987218,-0.724557,,0.958924
2062-11-30,-0.510699,-0.990241,-0.999504,-0.038653,,0.958924


### Применение функций к данным (apply)

Метод apply() — это инструмент для преобразования объекта DataFrame, его можно применять как к одному столбцу, так и к нескольким.

In [118]:
df[['A', 'B']]

Unnamed: 0,A,B
2013-01-31,-1.392138,0.000000
2013-02-28,-0.055003,-0.581464
2013-03-31,-0.456211,-0.640317
2013-04-30,-1.056963,-0.023424
2013-05-31,-0.193654,-0.062058
...,...,...
2062-08-31,-1.099657,-0.249886
2062-09-30,-0.451145,-0.791287
2062-10-31,-1.474221,-0.301932
2062-11-30,-0.535998,-1.430977


In [119]:
# Функция numpy.cumsum() возвращает кумулятивную сумму элементов по заданной оси
df[['A', 'B']].apply(np.cumsum)

Unnamed: 0,A,B
2013-01-31,-1.392138,0.000000
2013-02-28,-1.447141,-0.581464
2013-03-31,-1.903352,-1.221781
2013-04-30,-2.960314,-1.245205
2013-05-31,-3.153969,-1.307264
...,...,...
2062-08-31,-510.264044,-470.936244
2062-09-30,-510.715189,-471.727531
2062-10-31,-512.189410,-472.029463
2062-11-30,-512.725407,-473.460440


Можно применить лямбда-функции, которые полезны в том случае, когда нужна одноразовая функция. Такие функции еще называют анонимными.

`lambda arguments: expression`

In [120]:
df[['A', 'B']].apply(lambda x: x.max() - x.min())

A    3.155761
B    3.963250
dtype: float64

In [121]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 600 entries, 2013-01-31 to 2062-12-31
Freq: M
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       600 non-null    float64
 1   B       600 non-null    float64
 2   C       600 non-null    float64
 3   D       600 non-null    float64
 4   E       600 non-null    object 
 5   F       6 non-null      float64
 6   G       600 non-null    int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 53.7+ KB


In [122]:
df['new_column'] = df.apply(lambda x: x['A']+x['B'], axis=1)

In [123]:
df['new_column_2'] = df.apply(lambda x: x['B'] if x['A']>0.5 else x['C'], axis = 1 )

In [124]:
df

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2
2013-01-31,-1.392138,0.000000,-0.070980,-111.000000,one,,-5,-1.392138,-0.070980
2013-02-28,-0.055003,-0.581464,-0.702653,-0.171881,one,-1.0,-5,-0.636467,-0.702653
2013-03-31,-0.456211,-0.640317,-0.646753,-1.009409,two,-2.0,-5,-1.096528,-0.646753
2013-04-30,-1.056963,-0.023424,-1.227374,-0.232905,three,-3.0,-5,-1.080387,-1.227374
2013-05-31,-0.193654,-0.062058,-0.182474,-0.844510,four,-4.0,-5,-0.255713,-0.182474
...,...,...,...,...,...,...,...,...,...
2062-08-31,-1.099657,-0.249886,-0.657064,-1.347433,one,,-5,-1.349542,-0.657064
2062-09-30,-0.451145,-0.791287,-1.415210,-0.427119,two,,-5,-1.242431,-1.415210
2062-10-31,-1.474221,-0.301932,-1.410740,-0.810391,three,,-5,-1.776153,-1.410740
2062-11-30,-0.535998,-1.430977,-1.602303,-0.038662,four,,-5,-1.966975,-1.602303


In [125]:
df['new_column_3'] = df['A'].map(lambda x: 1 if x>0 else 2)

In [126]:
df

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2,new_column_3
2013-01-31,-1.392138,0.000000,-0.070980,-111.000000,one,,-5,-1.392138,-0.070980,2
2013-02-28,-0.055003,-0.581464,-0.702653,-0.171881,one,-1.0,-5,-0.636467,-0.702653,2
2013-03-31,-0.456211,-0.640317,-0.646753,-1.009409,two,-2.0,-5,-1.096528,-0.646753,2
2013-04-30,-1.056963,-0.023424,-1.227374,-0.232905,three,-3.0,-5,-1.080387,-1.227374,2
2013-05-31,-0.193654,-0.062058,-0.182474,-0.844510,four,-4.0,-5,-0.255713,-0.182474,2
...,...,...,...,...,...,...,...,...,...,...
2062-08-31,-1.099657,-0.249886,-0.657064,-1.347433,one,,-5,-1.349542,-0.657064,2
2062-09-30,-0.451145,-0.791287,-1.415210,-0.427119,two,,-5,-1.242431,-1.415210,2
2062-10-31,-1.474221,-0.301932,-1.410740,-0.810391,three,,-5,-1.776153,-1.410740,2
2062-11-30,-0.535998,-1.430977,-1.602303,-0.038662,four,,-5,-1.966975,-1.602303,2


In [127]:
df['E'].unique()

array(['one', 'two', 'three', 'four'], dtype=object)

In [128]:
dict_e = {'one':1, 'two':2, 'three':3, 'four':4}

In [129]:
df['E_int'] = df['E'].map(dict_e)

In [130]:
df

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2,new_column_3,E_int
2013-01-31,-1.392138,0.000000,-0.070980,-111.000000,one,,-5,-1.392138,-0.070980,2,1
2013-02-28,-0.055003,-0.581464,-0.702653,-0.171881,one,-1.0,-5,-0.636467,-0.702653,2,1
2013-03-31,-0.456211,-0.640317,-0.646753,-1.009409,two,-2.0,-5,-1.096528,-0.646753,2,2
2013-04-30,-1.056963,-0.023424,-1.227374,-0.232905,three,-3.0,-5,-1.080387,-1.227374,2,3
2013-05-31,-0.193654,-0.062058,-0.182474,-0.844510,four,-4.0,-5,-0.255713,-0.182474,2,4
...,...,...,...,...,...,...,...,...,...,...,...
2062-08-31,-1.099657,-0.249886,-0.657064,-1.347433,one,,-5,-1.349542,-0.657064,2,1
2062-09-30,-0.451145,-0.791287,-1.415210,-0.427119,two,,-5,-1.242431,-1.415210,2,2
2062-10-31,-1.474221,-0.301932,-1.410740,-0.810391,three,,-5,-1.776153,-1.410740,2,3
2062-11-30,-0.535998,-1.430977,-1.602303,-0.038662,four,,-5,-1.966975,-1.602303,2,4


### Строковые методы

Series оснащен набором методов в атрибуте `str` для обработки строк, которые упрощают работу с каждым элементом массива, подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#text-string-methods).

In [131]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object

In [132]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

In [133]:
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

## Обработка пропусков в данных

pandas в основном использует значение [`np.nan`](https://numpy.org/doc/stable/user/misc.html) для представления отсутствующих данных. По умолчанию они не включается в вычисления, см. подробнее в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data)

### Обнаружение пропусков

Метод `info()` соотносит максимальное количество записей в датафрейме с количеством записей в каждом столбце:

In [134]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 600 entries, 2013-01-31 to 2062-12-31
Freq: M
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   A             600 non-null    float64
 1   B             600 non-null    float64
 2   C             600 non-null    float64
 3   D             600 non-null    float64
 4   E             600 non-null    object 
 5   F             6 non-null      float64
 6   G             600 non-null    int64  
 7   new_column    600 non-null    float64
 8   new_column_2  600 non-null    float64
 9   new_column_3  600 non-null    int64  
 10  E_int         600 non-null    int64  
dtypes: float64(7), int64(3), object(1)
memory usage: 72.4+ KB


In [55]:
df.shape

(600, 4)

Можно последовательно использовать методы `isna()` и `sum()`:

In [137]:
df.isna().sum().sort_values()

A                 0
B                 0
C                 0
D                 0
E                 0
G                 0
new_column        0
new_column_2      0
new_column_3      0
E_int             0
F               594
dtype: int64

In [67]:
# .isna() выдает True или 1, если есть пропуск, .sum() суммирует единицы по столбцам
df.isna().sum()

A                 0
B                 0
C                 0
D                 0
E                 0
F               594
G                 0
new_column        0
new_column_2      0
new_column_3      0
E_int             0
dtype: int64

Также не сложно посчитать процент пропущенных значений:

In [68]:
# для этого разделим сумму пропусков в каждом столбце на количество наблюдений,
# округлим результат и умножим его на 100
df.isna().sum() / len(df.round(4)) * 100

A                0.0
B                0.0
C                0.0
D                0.0
E                0.0
F               99.0
G                0.0
new_column       0.0
new_column_2     0.0
new_column_3     0.0
E_int            0.0
dtype: float64

In [138]:
df.isna().sum() / df.shape[0] * 100

A                0.0
B                0.0
C                0.0
D                0.0
E                0.0
F               99.0
G                0.0
new_column       0.0
new_column_2     0.0
new_column_3     0.0
E_int            0.0
dtype: float64

In [69]:
df.isna().mean() * 100

A                0.0
B                0.0
C                0.0
D                0.0
E                0.0
F               99.0
G                0.0
new_column       0.0
new_column_2     0.0
new_column_3     0.0
E_int            0.0
dtype: float64

In [139]:
df.isnull()

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2,new_column_3,E_int
2013-01-31,False,False,False,False,False,True,False,False,False,False,False
2013-02-28,False,False,False,False,False,False,False,False,False,False,False
2013-03-31,False,False,False,False,False,False,False,False,False,False,False
2013-04-30,False,False,False,False,False,False,False,False,False,False,False
2013-05-31,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
2062-08-31,False,False,False,False,False,True,False,False,False,False,False
2062-09-30,False,False,False,False,False,True,False,False,False,False,False
2062-10-31,False,False,False,False,False,True,False,False,False,False,False
2062-11-30,False,False,False,False,False,True,False,False,False,False,False


### Удаление пропусков

Чтобы удалить строки, в которых отсутствуют данные, см. [`dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html):

In [70]:
df.dropna()

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2,new_column_3,E_int
2013-02-28,-0.214462,-0.184216,-0.206954,-0.627185,one,-1.0,-5,-0.398679,-0.206954,2,1
2013-03-31,-0.869693,-0.611163,-1.472482,-1.623429,two,-2.0,-5,-1.480856,-1.472482,2,2
2013-04-30,-0.72524,-0.531225,-0.715911,-0.145302,three,-3.0,-5,-1.256466,-0.715911,2,3
2013-05-31,-0.451233,-0.786659,-0.293158,-1.402254,four,-4.0,-5,-1.237893,-0.293158,2,4
2013-06-30,-0.71641,-0.447945,-1.607215,-0.083077,three,-5.0,-5,-1.164355,-1.607215,2,3
2013-07-31,-0.652902,-1.420498,-1.17154,-0.275418,one,-6.0,-5,-2.073401,-1.17154,2,1


In [71]:
df.isna().sum()

A                 0
B                 0
C                 0
D                 0
E                 0
F               594
G                 0
new_column        0
new_column_2      0
new_column_3      0
E_int             0
dtype: int64

Если в одном из столбцов большой процент пропусков, построчное удаление просто оставит нас без данных. В этом случае, если мы выбираем стратегию удаления данных, разумнее удалить сам столбец.

In [72]:
df.dropna().isna().sum()

A               0
B               0
C               0
D               0
E               0
F               0
G               0
new_column      0
new_column_2    0
new_column_3    0
E_int           0
dtype: int64

In [73]:
# передадим в параметр columns тот столбец, который хотим удалить
df.drop(columns = ['F'])

Unnamed: 0,A,B,C,D,E,G,new_column,new_column_2,new_column_3,E_int
2013-01-31,-0.589505,0.000000,-0.270346,-111.000000,one,-5,-0.589505,-0.270346,2,1
2013-02-28,-0.214462,-0.184216,-0.206954,-0.627185,one,-5,-0.398679,-0.206954,2,1
2013-03-31,-0.869693,-0.611163,-1.472482,-1.623429,two,-5,-1.480856,-1.472482,2,2
2013-04-30,-0.725240,-0.531225,-0.715911,-0.145302,three,-5,-1.256466,-0.715911,2,3
2013-05-31,-0.451233,-0.786659,-0.293158,-1.402254,four,-5,-1.237893,-0.293158,2,4
...,...,...,...,...,...,...,...,...,...,...
2062-08-31,-0.881971,-1.464152,-0.746244,-0.339616,one,-5,-2.346123,-0.746244,2,1
2062-09-30,-0.609539,-0.805296,-0.043935,-0.473005,two,-5,-1.414835,-0.043935,2,2
2062-10-31,-0.609672,-0.775691,-1.431335,-0.024324,three,-5,-1.385363,-1.431335,2,3
2062-11-30,-1.309734,-0.229822,-1.955675,-0.822608,four,-5,-1.539556,-1.955675,2,4


### Заполнение пропусков

Пропуски в числовых признаках можно заполнить средним арифметическим или медианой:

In [74]:
df.head(10)

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2,new_column_3,E_int
2013-01-31,-0.589505,0.0,-0.270346,-111.0,one,,-5,-0.589505,-0.270346,2,1
2013-02-28,-0.214462,-0.184216,-0.206954,-0.627185,one,-1.0,-5,-0.398679,-0.206954,2,1
2013-03-31,-0.869693,-0.611163,-1.472482,-1.623429,two,-2.0,-5,-1.480856,-1.472482,2,2
2013-04-30,-0.72524,-0.531225,-0.715911,-0.145302,three,-3.0,-5,-1.256466,-0.715911,2,3
2013-05-31,-0.451233,-0.786659,-0.293158,-1.402254,four,-4.0,-5,-1.237893,-0.293158,2,4
2013-06-30,-0.71641,-0.447945,-1.607215,-0.083077,three,-5.0,-5,-1.164355,-1.607215,2,3
2013-07-31,-0.652902,-1.420498,-1.17154,-0.275418,one,-6.0,-5,-2.073401,-1.17154,2,1
2013-08-31,-0.097049,-0.131009,-0.582127,-0.37966,one,,-5,-0.228058,-0.582127,2,1
2013-09-30,-1.086974,-0.387845,-0.443458,-0.815818,two,,-5,-1.474818,-0.443458,2,2
2013-10-31,-0.755135,-0.707765,-0.111649,-0.97453,three,,-5,-1.4629,-0.111649,2,3


In [75]:
# сделаем копию датафрейма
fillna_median = df.copy()

# заполним пропуски в столбце F медианным значением,
# можно заполнить и средним арифметическим через метод .mean()
fillna_median.F.fillna(fillna_median.F.median(), inplace = True)

# убедимся, что пропусков не осталось
fillna_median.F.isna().sum()

0

У такого простого и понятного подхода тем не менее есть ряд недостатков:

- когда в данных появляется большое количество одинаковых близких к среднему значений, мы снижаем ценную вариативность в данных;
- кроме того, такое заполнение пропусков может быть некорректно. Например, если заполнить пропуски в столбце «Стаж» средним значением или медианой, молодой сотрудник может получить больший стаж, чем у него есть на самом деле, а сотрудник в возрасте, меньший.

Также популярно заполнение значениями из предшествующей (аргумент method='bfill') либо последующей записи (method='ffill'):

In [76]:
df.fillna(method='bfill')

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2,new_column_3,E_int
2013-01-31,-0.589505,0.000000,-0.270346,-111.000000,one,-1.0,-5,-0.589505,-0.270346,2,1
2013-02-28,-0.214462,-0.184216,-0.206954,-0.627185,one,-1.0,-5,-0.398679,-0.206954,2,1
2013-03-31,-0.869693,-0.611163,-1.472482,-1.623429,two,-2.0,-5,-1.480856,-1.472482,2,2
2013-04-30,-0.725240,-0.531225,-0.715911,-0.145302,three,-3.0,-5,-1.256466,-0.715911,2,3
2013-05-31,-0.451233,-0.786659,-0.293158,-1.402254,four,-4.0,-5,-1.237893,-0.293158,2,4
...,...,...,...,...,...,...,...,...,...,...,...
2062-08-31,-0.881971,-1.464152,-0.746244,-0.339616,one,,-5,-2.346123,-0.746244,2,1
2062-09-30,-0.609539,-0.805296,-0.043935,-0.473005,two,,-5,-1.414835,-0.043935,2,2
2062-10-31,-0.609672,-0.775691,-1.431335,-0.024324,three,,-5,-1.385363,-1.431335,2,3
2062-11-30,-1.309734,-0.229822,-1.955675,-0.822608,four,,-5,-1.539556,-1.955675,2,4


Следует отметить, что для аналогичных действий имеются специальные методы с названиями bfill и ffill:

In [77]:
df.ffill()

Unnamed: 0,A,B,C,D,E,F,G,new_column,new_column_2,new_column_3,E_int
2013-01-31,-0.589505,0.000000,-0.270346,-111.000000,one,,-5,-0.589505,-0.270346,2,1
2013-02-28,-0.214462,-0.184216,-0.206954,-0.627185,one,-1.0,-5,-0.398679,-0.206954,2,1
2013-03-31,-0.869693,-0.611163,-1.472482,-1.623429,two,-2.0,-5,-1.480856,-1.472482,2,2
2013-04-30,-0.725240,-0.531225,-0.715911,-0.145302,three,-3.0,-5,-1.256466,-0.715911,2,3
2013-05-31,-0.451233,-0.786659,-0.293158,-1.402254,four,-4.0,-5,-1.237893,-0.293158,2,4
...,...,...,...,...,...,...,...,...,...,...,...
2062-08-31,-0.881971,-1.464152,-0.746244,-0.339616,one,-6.0,-5,-2.346123,-0.746244,2,1
2062-09-30,-0.609539,-0.805296,-0.043935,-0.473005,two,-6.0,-5,-1.414835,-0.043935,2,2
2062-10-31,-0.609672,-0.775691,-1.431335,-0.024324,three,-6.0,-5,-1.385363,-1.431335,2,3
2062-11-30,-1.309734,-0.229822,-1.955675,-0.822608,four,-6.0,-5,-1.539556,-1.955675,2,4


## Описательная статистика

Метод [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html#pandas.DataFrame.describe) показывает краткую статистическую сводку для данных:

In [78]:
df.describe()

Unnamed: 0,A,B,C,D,F,G,new_column,new_column_2,new_column_3,E_int
count,600.0,600.0,600.0,600.0,6.0,600.0,600.0,600.0,600.0,600.0
mean,-0.768299,-0.844659,-0.807977,-1.007785,-3.5,-5.0,-1.612958,-0.807977,2.0,2.333333
std,0.610816,0.608027,0.618484,4.543026,1.870829,0.0,0.81976,0.618484,0.0,1.106464
min,-3.956041,-3.578211,-3.228161,-111.0,-6.0,-5.0,-4.769656,-3.228161,2.0,1.0
25%,-1.09741,-1.238917,-1.178057,-1.2271,-4.75,-5.0,-2.139262,-1.178057,2.0,1.0
50%,-0.626243,-0.72648,-0.664846,-0.697252,-3.5,-5.0,-1.541756,-0.664846,2.0,2.5
75%,-0.289081,-0.342064,-0.331174,-0.335468,-2.25,-5.0,-0.970158,-0.331174,2.0,3.0
max,-7.9e-05,0.0,-0.003518,-0.004011,-1.0,-5.0,-0.087956,-0.003518,2.0,4.0


Вычисление квантилей (для числовых признаков):

In [79]:
df_numeric.quantile(.1)

A   -1.599601
B   -1.732601
C   -1.710332
D   -1.681298
F   -5.500000
G   -5.000000
Name: 0.1, dtype: float64

Вычисление медианы (для числовых признаков):

In [80]:
df_numeric.median()

A   -0.626243
B   -0.726480
C   -0.664846
D   -0.697252
F   -3.500000
G   -5.000000
dtype: float64

Та же операция на другой оси (т.е. по строкам):

In [81]:
df_numeric.median(axis=1)

2013-01-31   -0.589505
2013-02-28   -0.420824
2013-03-31   -1.547955
2013-04-30   -0.720576
2013-05-31   -1.094457
                ...   
2062-08-31   -0.881971
2062-09-30   -0.609539
2062-10-31   -0.775691
2062-11-30   -1.309734
2062-12-31   -0.987113
Freq: M, Length: 600, dtype: float64

Вычисление моды (для категориальных признаков):

In [82]:
numerical_columns = df_numeric.columns
all_columns = df.columns
cat_columns = list(set(all_columns) - set(numerical_columns))
df[cat_columns].mode()

Unnamed: 0,new_column,E,new_column_3,new_column_2,E_int
0,-4.769656,one,2.0,-3.228161,1.0
1,-4.204435,three,,-3.023811,3.0
2,-4.002542,,,-2.755517,
3,-3.748941,,,-2.703531,
4,-3.528505,,,-2.698045,
...,...,...,...,...,...
595,-0.202413,,,-0.011903,
596,-0.175206,,,-0.011222,
597,-0.121161,,,-0.006870,
598,-0.089642,,,-0.006131,


## Объединение таблиц

### Concat

Соединение таблиц вдоль выбранной оси

`pd.concat(objs, axis=0, join='outer', ignore_index=False, copy=True, ...)`

* `objs` &mdash; объединяемые таблицы;
* `axis` : {`0` или `'index'`, `1` или `'columns'`} &mdash; ось индексов или ось колонок, иными словами соединение по вертикали или по горизонтали;
* `join` : {`'inner'`, `'outer'`} &mdash; тип объединения &mdash; пересечение или объединение индексов/колонок;
* `ignore_index` &mdash; сохранить индексы или определить и как $0, ..., n-1$;
* `copy` &mdash; копировать данные или нет.


In [83]:
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
print('df1:\n', df1)
df2 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']],
                   columns=['letter', 'number', 'animal'])
print('df2:\n', df2)
pd.concat([df1, df2])
# pd.concat([df1, df2], ignore_index=True)

df1:
   letter  number
0      a       1
1      b       2
df2:
   letter  number animal
0      c       3    cat
1      d       4    dog


Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,cat
1,d,4,dog


### Merge

Слияние таблиц по вертикали путем выполнения операций слияния баз данных в стиле SQL.

`pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, suffixes=('_x', '_y'), ...)`


In [84]:
# В обеих таблицах ключи повторяются

left = pd.DataFrame({'key': ['A', 'A'],
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'A'],
                      'rval': [4, 5]})

In [85]:
left

Unnamed: 0,key,lval
0,A,1
1,A,2


In [86]:
right

Unnamed: 0,key,rval
0,A,4
1,A,5


In [87]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,A,1,5
2,A,2,4
3,A,2,5


В результате объединения получаем 4 строки &mdash; для каждой строки из левой таблице есть две строки из правой таблицы с таким же ключом.

In [88]:
# В таблицах ключи не повторяются
left = pd.DataFrame({'key': ['A', 'B'],
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'B'],
                      'rval': [4, 5]})

In [89]:
left

Unnamed: 0,key,lval
0,A,1
1,B,2


In [90]:
right

Unnamed: 0,key,rval
0,A,4
1,B,5


In [91]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,B,2,5


В результате объединения получаем 2 строки &mdash; для каждой строки из левой таблице есть только одна строка из правой таблицы с таким же ключом.

Рассмотрим различные типы объединения. Сооздадим и напечатаем две таблицы.

In [92]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],
                     'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],
                      'value': range(4, 8)})

In [93]:
left

Unnamed: 0,lkey,value
0,A,0
1,B,1
2,C,2
3,A,3


In [94]:
right

Unnamed: 0,rkey,value
0,A,4
1,B,5
2,D,6
3,B,7


**Внешнее слияние** &mdash; используются ключи из объединения списков ключей. Иначе говоря, используются ключи, которые есть хотя бы в одной из таблиц. Если в другой таблице таких ключей нет, то ставятся пропуски.

In [95]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='outer')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4.0
1,A,3.0,A,4.0
2,B,1.0,B,5.0
3,B,1.0,B,7.0
4,C,2.0,,
5,,,D,6.0


**Внутреннее слияние** &mdash; используются ключи из пересечения списков ключей. Иначе говоря, используются ключи, которые присутствуют в обеих таблицах.

In [96]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='inner')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4
1,A,3,A,4
2,B,1,B,5
3,B,1,B,7


**Объединение по ключам левой таблицы.** Не используются ключи, которые есть в правой таблицы, но которых нет в левой. Если в правой таблице каких-то ключей нет, то ставятся пропуски.

In [97]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='left')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4.0
1,B,1,B,5.0
2,B,1,B,7.0
3,C,2,,
4,A,3,A,4.0


**Объединение по ключам правой таблицы.** Не используются ключи, которые есть в левой таблицы, но которых нет в правой. Если в левой таблице каких-то ключей нет, то ставятся пропуски.

In [98]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='right')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4
1,A,3.0,A,4
2,B,1.0,B,5
3,,,D,6
4,B,1.0,B,7


Выполним внутреннее объединение и установим ключ качестве индекса

In [99]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='inner') \
        .set_index('lkey')[['value_x', 'value_y']]

Unnamed: 0_level_0,value_x,value_y
lkey,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
A,3,4
B,1,5
B,1,7


## Группировка и сводные таблицы

Под группировкой (`"group by"`) понимаем процесс, включающий один или несколько следующих шагов:

- Разделение (`Splitting`) данных на группы по некоторым критериям.
- Независимое применение (`Applying`) функции к каждой группе.
- Объединение (`Combining`) результатов в структуру данных.

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby)

Группировка выполняется функцией

`df.groupby(by=None, axis=0, level=None, sort=True, ...)`

Результатом группировки является объект, состоящий из пар (имя группы, подтаблица). Имя группы соответствует значению, по которому произведена группировка. К объекту-результату группировки применимы, например, следующие операции:

* `for name, group in groupped: ... ` &mdash; цикл по группам;
* `get_group(name)` &mdash; получить таблицу, соответствующую группе с именем `name`;
* `groups` &mdash; получить все группы в виде словаря имя-подтаблица;
* `count()` &mdash; количество значений в группах, исключая пропуски;
* `size()` &mdash; размер групп;
* `sum()`, `max()`, `min()`;
* `mean()`, `median()`, `var()`, `std()`, `corr()`, `quantile(q)`;
* `describe()` &mdash; вывод описательных статистик;
* `aggregate(func)` &mdash; применение функции (или списка функций) `func` к группам.

In [100]:
df = pd.DataFrame({
    'Животное' : ['Котик', 'Песик', 'Котик', 'Песик',
                  'Котик', 'Песик', 'Котик', 'Песик'],
    'Цвет шерсти' : ['белый', 'белый', 'коричневый', 'черный',
                     'коричневый', 'коричневый', 'белый', 'черный'],
    'Рост' : np.random.normal(5, 3, size=8),
    'Длина хвостика' : np.random.normal(10, 5, size=8)
})

df

Unnamed: 0,Животное,Цвет шерсти,Рост,Длина хвостика
0,Котик,белый,8.41877,3.626311
1,Песик,белый,2.945126,12.218647
2,Котик,коричневый,5.326087,14.45609
3,Песик,черный,5.528554,10.105047
4,Котик,коричневый,1.738089,9.499034
5,Песик,коричневый,4.382812,13.341113
6,Котик,белый,4.309147,11.912809
7,Песик,черный,5.438682,-0.164375


In [101]:
# Группировка, а затем применение функции mean() к полученным группам
# df.groupby('Животное').mean()

In [102]:
df.groupby('Животное').describe()

Unnamed: 0_level_0,Рост,Рост,Рост,Рост,Рост,Рост,Рост,Рост,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Животное,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Котик,4.0,4.948023,2.7629,1.738089,3.666382,4.817617,6.099258,8.41877,4.0,9.873561,4.630569,3.626311,8.030853,10.705921,12.548629,14.45609
Песик,4.0,4.573794,1.20397,2.945126,4.02339,4.910747,5.46115,5.528554,4.0,8.875108,6.173855,-0.164375,7.537692,11.161847,12.499264,13.341113


In [103]:
# Группировка по двум колонкам и последующее применение операции суммирования
df.groupby(['Животное', 'Цвет шерсти']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Рост,Длина хвостика
Животное,Цвет шерсти,Unnamed: 2_level_1,Unnamed: 3_level_1
Котик,белый,12.727917,15.53912
Котик,коричневый,7.064176,23.955124
Песик,белый,2.945126,12.218647
Песик,коричневый,4.382812,13.341113
Песик,черный,10.967237,9.940672


Полученная таблица имеет мультииндекс

In [104]:
df.groupby(['Животное', 'Цвет шерсти']).sum().index

MultiIndex([('Котик',      'белый'),
            ('Котик', 'коричневый'),
            ('Песик',      'белый'),
            ('Песик', 'коричневый'),
            ('Песик',     'черный')],
           names=['Животное', 'Цвет шерсти'])

In [105]:
df

Unnamed: 0,Животное,Цвет шерсти,Рост,Длина хвостика
0,Котик,белый,8.41877,3.626311
1,Песик,белый,2.945126,12.218647
2,Котик,коричневый,5.326087,14.45609
3,Песик,черный,5.528554,10.105047
4,Котик,коричневый,1.738089,9.499034
5,Песик,коричневый,4.382812,13.341113
6,Котик,белый,4.309147,11.912809
7,Песик,черный,5.438682,-0.164375


Метод [`stack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html#pandas.DataFrame.stack) "сжимает" уровень в столбцах DataFrame.

In [106]:
stacked = df.stack()
stacked

0  Животное               Котик
   Цвет шерсти            белый
   Рост                 8.41877
   Длина хвостика      3.626311
1  Животное               Песик
   Цвет шерсти            белый
   Рост                2.945126
   Длина хвостика     12.218647
2  Животное               Котик
   Цвет шерсти       коричневый
   Рост                5.326087
   Длина хвостика      14.45609
3  Животное               Песик
   Цвет шерсти           черный
   Рост                5.528554
   Длина хвостика     10.105047
4  Животное               Котик
   Цвет шерсти       коричневый
   Рост                1.738089
   Длина хвостика      9.499034
5  Животное               Песик
   Цвет шерсти       коричневый
   Рост                4.382812
   Длина хвостика     13.341113
6  Животное               Котик
   Цвет шерсти            белый
   Рост                4.309147
   Длина хвостика     11.912809
7  Животное               Песик
   Цвет шерсти           черный
   Рост                5.438682
   Длина

С "уложенными" (`"stacked"`) DataFrame или Series (имеющими MultiIndex в качестве индекса) обратная операция - [`unstack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html#pandas.DataFrame.unstack), которая по умолчанию распаковывает последний уровень:

In [107]:
stacked.unstack()

Unnamed: 0,Животное,Цвет шерсти,Рост,Длина хвостика
0,Котик,белый,8.41877,3.626311
1,Песик,белый,2.945126,12.218647
2,Котик,коричневый,5.326087,14.45609
3,Песик,черный,5.528554,10.105047
4,Котик,коричневый,1.738089,9.499034
5,Песик,коричневый,4.382812,13.341113
6,Котик,белый,4.309147,11.912809
7,Песик,черный,5.438682,-0.164375


### Сводные таблицы (Pivot tables)

См. секцию [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-pivot)

In [108]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                   'B': ['A', 'B', 'C'] * 4,
                   'C': ['red', 'red', 'red', 'blue', 'blue', 'blue'] * 2,
                   'D': np.random.randn(12),
                   'E': np.random.randn(12)})
df

Unnamed: 0,A,B,C,D,E
0,one,A,red,-0.371118,0.916477
1,one,B,red,-1.208756,0.574189
2,two,C,red,-0.718471,0.834066
3,three,A,blue,0.210622,-1.068383
4,one,B,blue,0.90645,-0.369177
5,one,C,blue,0.445416,1.047149
6,two,A,red,0.106277,1.481154
7,three,B,red,-0.332018,-0.105547
8,one,C,red,-0.077449,0.249065
9,one,A,blue,-0.592422,0.154133


Мы можем очень легко создать сводные таблицы из этих данных:

In [109]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,blue,red
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.592422,-0.371118
one,B,0.90645,-1.208756
one,C,0.445416,-0.077449
three,A,0.210622,
three,B,,-0.332018
three,C,0.205123,
two,A,,0.106277
two,B,-0.424176,
two,C,,-0.718471


## Временные ряды

pandas имеет простые, мощные и эффективные функции для выполнения операций передискретизации во время преобразования частоты (например, преобразование секундных данных в 5-минутные данные). См. [документацию по временным рядам](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries).

In [110]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
rng[:10]

DatetimeIndex(['2012-01-01 00:00:00', '2012-01-01 00:00:01',
               '2012-01-01 00:00:02', '2012-01-01 00:00:03',
               '2012-01-01 00:00:04', '2012-01-01 00:00:05',
               '2012-01-01 00:00:06', '2012-01-01 00:00:07',
               '2012-01-01 00:00:08', '2012-01-01 00:00:09'],
              dtype='datetime64[ns]', freq='S')

In [111]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts[:10]

2012-01-01 00:00:00    254
2012-01-01 00:00:01     58
2012-01-01 00:00:02    368
2012-01-01 00:00:03     22
2012-01-01 00:00:04    229
2012-01-01 00:00:05    113
2012-01-01 00:00:06     67
2012-01-01 00:00:07    462
2012-01-01 00:00:08    119
2012-01-01 00:00:09    341
Freq: S, dtype: int64

In [112]:
ts.resample('5Min').sum()

2012-01-01    23719
Freq: 5T, dtype: int64

Представление часового пояса:

In [113]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
rng

DatetimeIndex(['2012-03-06', '2012-03-07', '2012-03-08', '2012-03-09',
               '2012-03-10'],
              dtype='datetime64[ns]', freq='D')

In [114]:
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

2012-03-06    0.858540
2012-03-07    0.149316
2012-03-08    0.006023
2012-03-09    0.039128
2012-03-10    1.596366
Freq: D, dtype: float64

In [115]:
ts

2012-03-06    0.858540
2012-03-07    0.149316
2012-03-08    0.006023
2012-03-09    0.039128
2012-03-10    1.596366
Freq: D, dtype: float64

In [116]:
ts_utc = ts.tz_localize('UTC')
ts_utc

2012-03-06 00:00:00+00:00    0.858540
2012-03-07 00:00:00+00:00    0.149316
2012-03-08 00:00:00+00:00    0.006023
2012-03-09 00:00:00+00:00    0.039128
2012-03-10 00:00:00+00:00    1.596366
Freq: D, dtype: float64

Преобразование в другой часовой пояс:

In [117]:
ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00    0.858540
2012-03-06 19:00:00-05:00    0.149316
2012-03-07 19:00:00-05:00    0.006023
2012-03-08 19:00:00-05:00    0.039128
2012-03-09 19:00:00-05:00    1.596366
Freq: D, dtype: float64

Преобразование между представлениями промежутка времени:

In [118]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
rng

DatetimeIndex(['2012-01-31', '2012-02-29', '2012-03-31', '2012-04-30',
               '2012-05-31'],
              dtype='datetime64[ns]', freq='M')

In [119]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2012-01-31    1.207000
2012-02-29    0.437448
2012-03-31   -1.122573
2012-04-30    0.208158
2012-05-31   -1.558771
Freq: M, dtype: float64

In [120]:
ps = ts.to_period()
ps

2012-01    1.207000
2012-02    0.437448
2012-03   -1.122573
2012-04    0.208158
2012-05   -1.558771
Freq: M, dtype: float64

In [121]:
ps.to_timestamp()

2012-01-01    1.207000
2012-02-01    0.437448
2012-03-01   -1.122573
2012-04-01    0.208158
2012-05-01   -1.558771
Freq: MS, dtype: float64

Преобразование между периодом и меткой времени позволяет использовать некоторые удобные арифметические функции. В следующем примере мы преобразуем ежеквартальную частоту с годом, заканчивающимся в ноябре, в 9 утра конца месяца, следующего за концом квартала:

In [122]:
prng = pd.period_range('2022Q1', '2023Q4', freq='Q-NOV')
prng

PeriodIndex(['2022Q1', '2022Q2', '2022Q3', '2022Q4', '2023Q1', '2023Q2',
             '2023Q3', '2023Q4'],
            dtype='period[Q-NOV]')

In [123]:
ts = pd.Series(np.random.randn(len(prng)), prng)
ts[:10]

2022Q1    0.062065
2022Q2    0.579477
2022Q3    1.309117
2022Q4    0.518093
2023Q1   -0.742612
2023Q2    0.279778
2023Q3    0.495955
2023Q4    0.891115
Freq: Q-NOV, dtype: float64

In [124]:
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
ts[:10]

2022-03-01 09:00    0.062065
2022-06-01 09:00    0.579477
2022-09-01 09:00    1.309117
2022-12-01 09:00    0.518093
2023-03-01 09:00   -0.742612
2023-06-01 09:00    0.279778
2023-09-01 09:00    0.495955
2023-12-01 09:00    0.891115
Freq: H, dtype: float64

In [125]:
ts.head()

2022-03-01 09:00    0.062065
2022-06-01 09:00    0.579477
2022-09-01 09:00    1.309117
2022-12-01 09:00    0.518093
2023-03-01 09:00   -0.742612
Freq: H, dtype: float64

## Новая и улучшенная агрегатная функция

## Новая и улучшенная агрегатная функция

В pandas 0.20.0 была добавлена функция [`agg`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html), которая значительно упрощает суммирование данных аналогично groupby.

Чтобы проиллюстрировать ее функциональность, предположим, что нам нужно получить сумму в столбцах `D` и `E`, а также среднее значение столбца `E`.

Процесс не очень удобный:

In [126]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,red,-0.371118,0.916477
1,one,B,red,-1.208756,0.574189
2,two,C,red,-0.718471,0.834066
3,three,A,blue,0.210622,-1.068383
4,one,B,blue,0.90645,-0.369177
5,one,C,blue,0.445416,1.047149
6,two,A,red,0.106277,1.481154
7,three,B,red,-0.332018,-0.105547
8,one,C,red,-0.077449,0.249065
9,one,A,blue,-0.592422,0.154133


In [127]:
df[["D", "E"]].sum()

D   -1.850523
E    4.202645
dtype: float64

In [128]:
df["E"].mean()

0.3502204077265561

Это работает, но нужно дополнительно пояснять что было сделано.

Новый `agg` упрощает процесс и на выходе таблица со значениями.

In [129]:
df[["D", "E"]].agg(['sum', 'mean'])

Unnamed: 0,D,E
sum,-1.850523,4.202645
mean,-0.15421,0.35022


Другая запись будет выглядеть следующим образом. Укажем для столбцов явно какие столбцы в `agg` и укажем, какие операции применять к каждому столбцу.

In [130]:
df.agg({'E': ['sum', 'mean'], 'D': ['sum']})

Unnamed: 0,E,D
sum,4.202645,-1.850523
mean,0.35022,


Чтобы агрегировать данные и использовать функцию `mode` по работе с текстом, применим лямбда-функцию, которая использует `value_counts`:

In [131]:
get_max = lambda x: x.value_counts(dropna=False)

Затем, включить наиболее часто используемые  значения в сводную таблицу:

In [132]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,red,-0.371118,0.916477
1,one,B,red,-1.208756,0.574189
2,two,C,red,-0.718471,0.834066
3,three,A,blue,0.210622,-1.068383
4,one,B,blue,0.90645,-0.369177
5,one,C,blue,0.445416,1.047149
6,two,A,red,0.106277,1.481154
7,three,B,red,-0.332018,-0.105547
8,one,C,red,-0.077449,0.249065
9,one,A,blue,-0.592422,0.154133


In [133]:
df.agg({'D': ['sum', 'mean'], 'E': ['sum', 'mean'], 'A': [get_max]})

Unnamed: 0_level_0,D,E,A
Unnamed: 0_level_1,D,E,<lambda>
sum,-1.850523,4.202645,
mean,-0.15421,0.35022,
one,,,6.0
two,,,3.0
three,,,3.0


In [134]:
get_max.__name__ = "most frequent"

Но в этом подходе: в столбце написано `<lambda>`.

В идеале указать `most frequent` (*наиболее часто*). Можно явно поменять название функции:

In [135]:
get_max.__name__ = "most frequent"

Теперь, агрегирование:

In [136]:
df.agg({'D': ['sum', 'mean'], 'E': ['sum', 'mean'], 'A': [get_max]})

Unnamed: 0_level_0,D,E,A
Unnamed: 0_level_1,D,E,most frequent
sum,-1.850523,4.202645,
mean,-0.15421,0.35022,
one,,,6.0
two,,,3.0
three,,,3.0


В качестве завершения финальный бонус.

Агрегатная (aggregate) функция, использующая словарь, полезна, но проблема заключается в том, что она не сохраняет порядок.

Если необходимо убедиться, что столбцы расположены в определенном порядке, можно использовать [`OrderedDict`](https://docs.python.org/3/library/collections.html#collections.OrderedDict):

In [137]:
import collections
f = collections.OrderedDict([('A', [get_max]), ('D', ['sum', 'mean']), ('E', ['sum', 'mean'])])
df.agg(f)

Unnamed: 0_level_0,A,D,E
Unnamed: 0_level_1,most frequent,D,E
one,6.0,,
two,3.0,,
three,3.0,,
sum,,-1.850523,4.202645
mean,,-0.15421,0.35022


## Получение и запись данных

### CSV

см. [про запись в csv файлы](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-store-in-csv)

In [138]:
df.to_csv('foo.csv')

см. [про чтенеи csv файлов](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table)

In [139]:
pd.read_csv('foo.csv')

Unnamed: 0.1,Unnamed: 0,A,B,C,D,E
0,0,one,A,red,-0.371118,0.916477
1,1,one,B,red,-1.208756,0.574189
2,2,two,C,red,-0.718471,0.834066
3,3,three,A,blue,0.210622,-1.068383
4,4,one,B,blue,0.90645,-0.369177
5,5,one,C,blue,0.445416,1.047149
6,6,two,A,red,0.106277,1.481154
7,7,three,B,red,-0.332018,-0.105547
8,8,one,C,red,-0.077449,0.249065
9,9,one,A,blue,-0.592422,0.154133


### HDF5

см. про чтение и запись в [`HDFStores`](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-hdf5)

Запись в `HDF5` хранилище:

In [140]:
df.to_hdf('foo.h5', 'df')

Чтение из `HDF5` хранилища:

In [141]:
pd.read_hdf('foo.h5', 'df')

Unnamed: 0,A,B,C,D,E
0,one,A,red,-0.371118,0.916477
1,one,B,red,-1.208756,0.574189
2,two,C,red,-0.718471,0.834066
3,three,A,blue,0.210622,-1.068383
4,one,B,blue,0.90645,-0.369177
5,one,C,blue,0.445416,1.047149
6,two,A,red,0.106277,1.481154
7,three,B,red,-0.332018,-0.105547
8,one,C,red,-0.077449,0.249065
9,one,A,blue,-0.592422,0.154133


### Excel

см. [про чтение и запись в MS Excel](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-excel)

Запись в excel файл:

In [142]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')

Чтение из excel файла:

In [143]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Unnamed: 0.1,Unnamed: 0,A,B,C,D,E
0,0,one,A,red,-0.371118,0.916477
1,1,one,B,red,-1.208756,0.574189
2,2,two,C,red,-0.718471,0.834066
3,3,three,A,blue,0.210622,-1.068383
4,4,one,B,blue,0.90645,-0.369177
5,5,one,C,blue,0.445416,1.047149
6,6,two,A,red,0.106277,1.481154
7,7,three,B,red,-0.332018,-0.105547
8,8,one,C,red,-0.077449,0.249065
9,9,one,A,blue,-0.592422,0.154133
