


# Pandas



Pandas — пакет для статистической обработки данных, по функциональности близкий к SQL и R. Включает в себя функциональность работы с базами данных и таблицами Excel.

Обычно импорт выглядит так и к нему все привыкли:

In [2]:
import numpy as np
import pandas as pd

## Создание объекта

Создание `Серии` ([`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series)) путем передачи списка позволет pandas создать целочисленный индекс по умолчанию:

In [3]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

Создание `DataFrame` ([`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame)) путем передачи массива NumPy :

In [5]:
# указываем начало временнОго периода и число повторений (дни по умолчанию)
dates = pd.date_range('20120101', periods=600,freq='ME')
dates

DatetimeIndex(['2012-01-31', '2012-02-29', '2012-03-31', '2012-04-30',
               '2012-05-31', '2012-06-30', '2012-07-31', '2012-08-31',
               '2012-09-30', '2012-10-31',
               ...
               '2061-03-31', '2061-04-30', '2061-05-31', '2061-06-30',
               '2061-07-31', '2061-08-31', '2061-09-30', '2061-10-31',
               '2061-11-30', '2061-12-31'],
              dtype='datetime64[ns]', length=600, freq='ME')

In [6]:
np.random.randn(600, 4)

array([[-0.50198798,  0.25683516, -0.5624825 , -0.04570283],
       [ 0.82403425,  0.94331152, -0.75182539,  1.00400931],
       [ 0.69922836,  0.72079433,  0.60113938, -0.34076555],
       ...,
       [-0.80929547,  0.18428169, -0.3992605 , -1.04074592],
       [ 0.50724163, -1.20935232, -2.00745899,  0.10164013],
       [ 0.07657722, -1.19383747,  0.76720203, -0.15285805]])

In [7]:
df = pd.DataFrame(np.random.randn(600, 4), index=dates, columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
2012-01-31,-0.311412,0.667208,1.717706,-1.847369
2012-02-29,0.248808,0.044664,0.625272,1.730853
2012-03-31,0.804578,-0.081503,0.553259,-0.262377
2012-04-30,0.476569,-1.458649,-1.171720,-1.773515
2012-05-31,-0.001478,-0.996307,0.367370,0.140001
...,...,...,...,...
2061-08-31,0.314799,-0.082635,-0.249399,1.087080
2061-09-30,-2.012953,0.601205,-1.177553,1.591242
2061-10-31,-1.242894,-1.331563,-0.762655,0.825453
2061-11-30,-1.192910,0.329820,-0.181624,-0.949195


In [16]:
numbers_01 = np.arange(2, 12, 0.5, dtype=np.float32)
print(len(numbers_01))

series_num_01 = pd.Series(numbers_01)
print(series_num_01)

20
0      2.0
1      2.5
2      3.0
3      3.5
4      4.0
5      4.5
6      5.0
7      5.5
8      6.0
9      6.5
10     7.0
11     7.5
12     8.0
13     8.5
14     9.0
15     9.5
16    10.0
17    10.5
18    11.0
19    11.5
dtype: float32


In [17]:
numbers_02 = np.arange(2, 22, 0.5, dtype=np.float32)
print(len(numbers_02))
series_num_02 = pd.Series(numbers_02)
print(series_num_02)

40
0      2.0
1      2.5
2      3.0
3      3.5
4      4.0
5      4.5
6      5.0
7      5.5
8      6.0
9      6.5
10     7.0
11     7.5
12     8.0
13     8.5
14     9.0
15     9.5
16    10.0
17    10.5
18    11.0
19    11.5
20    12.0
21    12.5
22    13.0
23    13.5
24    14.0
25    14.5
26    15.0
27    15.5
28    16.0
29    16.5
30    17.0
31    17.5
32    18.0
33    18.5
34    19.0
35    19.5
36    20.0
37    20.5
38    21.0
39    21.5
dtype: float32


In [19]:
series_num_01 + series_num_02 # при сложении series разной длины, всё что сверх длины короткого Series, заполнится Nan

0      4.0
1      5.0
2      6.0
3      7.0
4      8.0
5      9.0
6     10.0
7     11.0
8     12.0
9     13.0
10    14.0
11    15.0
12    16.0
13    17.0
14    18.0
15    19.0
16    20.0
17    21.0
18    22.0
19    23.0
20     NaN
21     NaN
22     NaN
23     NaN
24     NaN
25     NaN
26     NaN
27     NaN
28     NaN
29     NaN
30     NaN
31     NaN
32     NaN
33     NaN
34     NaN
35     NaN
36     NaN
37     NaN
38     NaN
39     NaN
dtype: float32

In [20]:
df.dtypes

A    float64
B    float64
C    float64
D    float64
dtype: object

Включение категориальных данных в `DataFrame`, см. [введение в категории](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html#categorical)

In [21]:
pd.Categorical(["red", "green", "blue", "red"])

['red', 'green', 'blue', 'red']
Categories (3, object): ['blue', 'green', 'red']

In [22]:
dict_py = {'A': 1.,
            'B': pd.Timestamp('20130102'), # временнАя метка
            'C': pd.Series(1, index=list(range(4)), dtype='float32'), # Серия на основе списка
            'D': np.array([3] * 4, dtype='int32'), # массив целых чисел NumPy
            'E': pd.Categorical(["red", "green", "blue", "red"]), # категории
            'F': 'foobar'}

dict_py

{'A': 1.0,
 'B': Timestamp('2013-01-02 00:00:00'),
 'C': 0    1.0
 1    1.0
 2    1.0
 3    1.0
 dtype: float32,
 'D': array([3, 3, 3, 3], dtype=int32),
 'E': ['red', 'green', 'blue', 'red']
 Categories (3, object): ['blue', 'green', 'red'],
 'F': 'foobar'}

Создать [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) можно путем передачи словаря объектов.

In [23]:
df2 = pd.DataFrame(dict_py)
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,red,foobar
1,1.0,2013-01-02,1.0,3,green,foobar
2,1.0,2013-01-02,1.0,3,blue,foobar
3,1.0,2013-01-02,1.0,3,red,foobar


Столбцы итогового [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html#pandas.DataFrame) имеют разные [типы данных](https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-dtypes).

In [24]:
df2.dtypes

A          float64
B    datetime64[s]
C          float32
D            int32
E         category
F           object
dtype: object

## Просмотр данных

Просмотрим верхние и нижние строки полученного DataFrame:

In [26]:
df.head(15) # вывести первые 10 строк

Unnamed: 0,A,B,C,D
2012-01-31,-0.311412,0.667208,1.717706,-1.847369
2012-02-29,0.248808,0.044664,0.625272,1.730853
2012-03-31,0.804578,-0.081503,0.553259,-0.262377
2012-04-30,0.476569,-1.458649,-1.17172,-1.773515
2012-05-31,-0.001478,-0.996307,0.36737,0.140001
2012-06-30,1.585082,0.067398,0.1491,1.23653
2012-07-31,0.606025,0.288407,0.004997,1.208718
2012-08-31,-1.783629,-0.692394,-1.253129,0.472508
2012-09-30,0.469248,-1.174504,0.198428,-0.308379
2012-10-31,0.575168,-0.337926,0.378607,1.549686


In [27]:
df.tail(15) # вывести последние три строки

Unnamed: 0,A,B,C,D
2060-10-31,1.564791,0.727158,1.141835,2.821416
2060-11-30,0.412623,0.179233,-0.703159,-0.154326
2060-12-31,0.280233,-0.684128,0.050076,-0.734925
2061-01-31,-1.709198,1.416804,0.626682,0.645801
2061-02-28,0.196612,1.450873,0.712775,0.635733
2061-03-31,1.760953,1.026578,1.879497,0.570918
2061-04-30,0.091172,-0.633736,-0.74592,-0.659835
2061-05-31,-2.060853,-0.31644,-0.324916,1.397315
2061-06-30,0.270393,-1.469325,1.197017,0.587816
2061-07-31,0.268553,-0.601572,-2.080317,-0.779178


Отобразим индекс и названия столбцов:

In [28]:
df.index

DatetimeIndex(['2012-01-31', '2012-02-29', '2012-03-31', '2012-04-30',
               '2012-05-31', '2012-06-30', '2012-07-31', '2012-08-31',
               '2012-09-30', '2012-10-31',
               ...
               '2061-03-31', '2061-04-30', '2061-05-31', '2061-06-30',
               '2061-07-31', '2061-08-31', '2061-09-30', '2061-10-31',
               '2061-11-30', '2061-12-31'],
              dtype='datetime64[ns]', length=600, freq='ME')

In [29]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

Метод [`DataFrame.to_numpy()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_numpy.html#pandas.DataFrame.to_numpy) представляет данные в виде массива NumPy, на котором строится DataFrame.

In [32]:
num_arr = df.to_numpy()
num_arr

array([[-0.31141236,  0.66720815,  1.71770558, -1.84736925],
       [ 0.24880839,  0.04466423,  0.62527174,  1.73085341],
       [ 0.80457767, -0.08150252,  0.55325914, -0.26237725],
       ...,
       [-1.24289423, -1.33156308, -0.762655  ,  0.82545307],
       [-1.19290984,  0.32982012, -0.18162357, -0.94919525],
       [ 0.87829494, -0.03989714,  0.86924736,  0.21894361]])

In [36]:
df.to_list()

AttributeError: 'DataFrame' object has no attribute 'to_list'

In [38]:
df.to_numpy().flatten()

array([-0.31141236,  0.66720815,  1.71770558, ..., -0.03989714,
        0.86924736,  0.21894361])

In [40]:
df.to_dict()

{'A': {Timestamp('2012-01-31 00:00:00'): -0.31141236301659725,
  Timestamp('2012-02-29 00:00:00'): 0.24880839036409702,
  Timestamp('2012-03-31 00:00:00'): 0.8045776741791452,
  Timestamp('2012-04-30 00:00:00'): 0.47656882150960644,
  Timestamp('2012-05-31 00:00:00'): -0.0014782057329237718,
  Timestamp('2012-06-30 00:00:00'): 1.5850820616986345,
  Timestamp('2012-07-31 00:00:00'): 0.6060252812910359,
  Timestamp('2012-08-31 00:00:00'): -1.78362879448501,
  Timestamp('2012-09-30 00:00:00'): 0.4692478912799219,
  Timestamp('2012-10-31 00:00:00'): 0.5751684025563769,
  Timestamp('2012-11-30 00:00:00'): -0.2579318089378089,
  Timestamp('2012-12-31 00:00:00'): -0.7065097335002044,
  Timestamp('2013-01-31 00:00:00'): 0.06222924490621912,
  Timestamp('2013-02-28 00:00:00'): 0.1523407260175863,
  Timestamp('2013-03-31 00:00:00'): 1.7570024152267363,
  Timestamp('2013-04-30 00:00:00'): -1.1616086920487436,
  Timestamp('2013-05-31 00:00:00'): 1.0680482362427735,
  Timestamp('2013-06-30 00:00:00

In [43]:
df.to_json('test_df_to.json')

In [46]:
df.to_csv('test_df_to.csv', index=False)

In [47]:
num_arr.tolist()

[[-0.31141236301659725,
  0.6672081549258488,
  1.717705577810777,
  -1.847369249602086],
 [0.24880839036409702,
  0.04466423042135691,
  0.6252717370432854,
  1.7308534073508526],
 [0.8045776741791452,
  -0.08150251970000674,
  0.5532591421611422,
  -0.26237724572934956],
 [0.47656882150960644,
  -1.458649008780931,
  -1.1717204452748284,
  -1.7735153177457166],
 [-0.0014782057329237718,
  -0.9963074681185808,
  0.36736999245223817,
  0.1400013115859814],
 [1.5850820616986345,
  0.06739843899428061,
  0.1491002517080361,
  1.2365299860546946],
 [0.6060252812910359,
  0.28840673683876106,
  0.004997279011274257,
  1.2087177815366],
 [-1.78362879448501,
  -0.6923941603304775,
  -1.2531291612175828,
  0.47250816535697093],
 [0.4692478912799219,
  -1.1745042208744816,
  0.19842787651696367,
  -0.30837899677364783],
 [0.5751684025563769,
  -0.3379262089334958,
  0.37860739263839055,
  1.5496860242356907],
 [-0.2579318089378089,
  -1.8697896744279086,
  0.07563523560401077,
  -0.81071600034

Обратите внимание, что эта операция может занять много времени, если ваш `DataFrame` имеет столбцы с разными типами данных, что сводится к фундаментальному различию между pandas и `NumPy`: массивы `NumPy` имеют один тип данных для всего массива, тогда как `DataFrames` в pandas имеет один тип данных для каждого столбца. Когда вы вызываете `DataFrame.to_numpy()`, pandas определит тип данных `NumPy`, который может содержать все типы данных `DataFrame`. Этот тип данных может в конечном итоге оказаться объектом (`object`, т.е. строкой), что потребует приведения каждого значения к объекту Python.

Наш `DataFrame` содержит значения с плавающей точкой, поэтому `DataFrame.to_numpy()` сработает быстро и не требует копирования данных.

Для df2, который содержит несколько типов данных, вызов `DataFrame.to_numpy()` является относительно дорогостоящим:

In [48]:
df2.to_numpy()

array([[1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'red', 'foobar'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'green', 'foobar'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'blue', 'foobar'],
       [1.0, Timestamp('2013-01-02 00:00:00'), 1.0, 3, 'red', 'foobar']],
      dtype=object)

Транспонируем данные:

In [49]:
df_copy = df.T

In [50]:
df_copy

Unnamed: 0,2012-01-31,2012-02-29,2012-03-31,2012-04-30,2012-05-31,2012-06-30,2012-07-31,2012-08-31,2012-09-30,2012-10-31,...,2061-03-31,2061-04-30,2061-05-31,2061-06-30,2061-07-31,2061-08-31,2061-09-30,2061-10-31,2061-11-30,2061-12-31
A,-0.311412,0.248808,0.804578,0.476569,-0.001478,1.585082,0.606025,-1.783629,0.469248,0.575168,...,1.760953,0.091172,-2.060853,0.270393,0.268553,0.314799,-2.012953,-1.242894,-1.19291,0.878295
B,0.667208,0.044664,-0.081503,-1.458649,-0.996307,0.067398,0.288407,-0.692394,-1.174504,-0.337926,...,1.026578,-0.633736,-0.31644,-1.469325,-0.601572,-0.082635,0.601205,-1.331563,0.32982,-0.039897
C,1.717706,0.625272,0.553259,-1.17172,0.36737,0.1491,0.004997,-1.253129,0.198428,0.378607,...,1.879497,-0.74592,-0.324916,1.197017,-2.080317,-0.249399,-1.177553,-0.762655,-0.181624,0.869247
D,-1.847369,1.730853,-0.262377,-1.773515,0.140001,1.23653,1.208718,0.472508,-0.308379,1.549686,...,0.570918,-0.659835,1.397315,0.587816,-0.779178,1.08708,1.591242,0.825453,-0.949195,0.218944


In [51]:
df_copy

Unnamed: 0,2012-01-31,2012-02-29,2012-03-31,2012-04-30,2012-05-31,2012-06-30,2012-07-31,2012-08-31,2012-09-30,2012-10-31,...,2061-03-31,2061-04-30,2061-05-31,2061-06-30,2061-07-31,2061-08-31,2061-09-30,2061-10-31,2061-11-30,2061-12-31
A,-0.311412,0.248808,0.804578,0.476569,-0.001478,1.585082,0.606025,-1.783629,0.469248,0.575168,...,1.760953,0.091172,-2.060853,0.270393,0.268553,0.314799,-2.012953,-1.242894,-1.19291,0.878295
B,0.667208,0.044664,-0.081503,-1.458649,-0.996307,0.067398,0.288407,-0.692394,-1.174504,-0.337926,...,1.026578,-0.633736,-0.31644,-1.469325,-0.601572,-0.082635,0.601205,-1.331563,0.32982,-0.039897
C,1.717706,0.625272,0.553259,-1.17172,0.36737,0.1491,0.004997,-1.253129,0.198428,0.378607,...,1.879497,-0.74592,-0.324916,1.197017,-2.080317,-0.249399,-1.177553,-0.762655,-0.181624,0.869247
D,-1.847369,1.730853,-0.262377,-1.773515,0.140001,1.23653,1.208718,0.472508,-0.308379,1.549686,...,0.570918,-0.659835,1.397315,0.587816,-0.779178,1.08708,1.591242,0.825453,-0.949195,0.218944


Сортировка по столбцам, см. [`sort_index()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html):

In [52]:
df.sort_index(axis=0, ascending=False) # по умолчанию axis=0, т.е. сортировка по строкам

Unnamed: 0,A,B,C,D
2061-12-31,0.878295,-0.039897,0.869247,0.218944
2061-11-30,-1.192910,0.329820,-0.181624,-0.949195
2061-10-31,-1.242894,-1.331563,-0.762655,0.825453
2061-09-30,-2.012953,0.601205,-1.177553,1.591242
2061-08-31,0.314799,-0.082635,-0.249399,1.087080
...,...,...,...,...
2012-05-31,-0.001478,-0.996307,0.367370,0.140001
2012-04-30,0.476569,-1.458649,-1.171720,-1.773515
2012-03-31,0.804578,-0.081503,0.553259,-0.262377
2012-02-29,0.248808,0.044664,0.625272,1.730853


Сортировка по значениям, см. [`sort_values()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_values.html#pandas.DataFrame.sort_values):

In [53]:
df.sort_values(by=['A','C']) # по умолчанию сортировка по индексу, выбрали столбец 'B'

Unnamed: 0,A,B,C,D
2017-12-31,-3.886403,-1.466020,-0.022690,0.593622
2043-09-30,-2.826097,-0.772263,0.308189,-0.275274
2042-10-31,-2.642154,-1.231598,1.137054,-0.240391
2037-04-30,-2.527121,0.672354,-1.507424,0.306174
2029-07-31,-2.236027,-0.049455,1.161386,-0.361761
...,...,...,...,...
2013-10-31,2.439012,-2.041659,-0.169398,1.065935
2025-12-31,2.593098,0.615974,-0.905918,0.203194
2050-06-30,2.735801,-1.415964,-0.199138,-0.201553
2025-03-31,2.746208,0.023216,0.689347,0.062712


## Выбор элементов

Рекомендуем использовать оптимизированные методы pandas для доступа к данным:  `.ix`, `.loc` и `.iloc`.

### Получение

Выбор столбца, который возвращает [`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html#pandas.Series), эквивалентно `df.A`:

In [54]:
df['A']

2012-01-31   -0.311412
2012-02-29    0.248808
2012-03-31    0.804578
2012-04-30    0.476569
2012-05-31   -0.001478
                ...   
2061-08-31    0.314799
2061-09-30   -2.012953
2061-10-31   -1.242894
2061-11-30   -1.192910
2061-12-31    0.878295
Freq: ME, Name: A, Length: 600, dtype: float64

Выбор с помощью `[ ]`, вырезает строки:

In [55]:
df[:'2013-04-30']

Unnamed: 0,A,B,C,D
2012-01-31,-0.311412,0.667208,1.717706,-1.847369
2012-02-29,0.248808,0.044664,0.625272,1.730853
2012-03-31,0.804578,-0.081503,0.553259,-0.262377
2012-04-30,0.476569,-1.458649,-1.17172,-1.773515
2012-05-31,-0.001478,-0.996307,0.36737,0.140001
2012-06-30,1.585082,0.067398,0.1491,1.23653
2012-07-31,0.606025,0.288407,0.004997,1.208718
2012-08-31,-1.783629,-0.692394,-1.253129,0.472508
2012-09-30,0.469248,-1.174504,0.198428,-0.308379
2012-10-31,0.575168,-0.337926,0.378607,1.549686


In [56]:
df['2013-01-02':'2013-02-03']

Unnamed: 0,A,B,C,D
2013-01-31,0.062229,-0.898127,-0.051427,1.077788


### Выбор по метке

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-label)

Для получения строки с помощью метки:

In [57]:
df.loc['2013-11-30','A'] # метка индекса Timestamp('2013-01-01 00:00:00', freq='D')

np.float64(-0.5147734294564702)

In [61]:
df.loc['2013-11-30','A'] = 10.30 # переприсваивание объекта к срезу

In [62]:
df.loc['2013-11-30','A']

np.float64(10.3)

In [65]:
df[df['A'] == np.float64(10.3)] # ячейка поменяла значения (не делать, если не необходимо)

Unnamed: 0,A,B,C,D
2013-11-30,10.3,-1.057012,-0.23714,1.216853


Выбор по нескольким осям:

In [58]:
df.loc['2013-11-30', ['A', 'B']]

A   -0.514773
B   -1.057012
Name: 2013-11-30 00:00:00, dtype: float64

При отображении срезов меток включаются обе конечные точки:

In [59]:
df.loc['2013-01-02':'2014-01-04', ['C', 'B']]

Unnamed: 0,C,B
2013-01-31,-0.051427,-0.898127
2013-02-28,-1.287939,-0.400381
2013-03-31,0.366139,0.932732
2013-04-30,-0.691394,-0.689216
2013-05-31,0.477091,0.842597
2013-06-30,1.355888,-1.369857
2013-07-31,-0.486616,-1.731272
2013-08-31,0.965656,1.520072
2013-09-30,-0.825309,-0.899919
2013-10-31,-0.169398,-2.041659


Для получения скалярного значения:

In [60]:
df.at[dates[3], 'A'] #одиночное значение по индексу

np.float64(0.47656882150960644)

### Выбор по позиции

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#indexing-integer)

Выбор позиции с помощью целых чисел:

In [66]:
df

Unnamed: 0,A,B,C,D
2012-01-31,-0.311412,0.667208,1.717706,-1.847369
2012-02-29,0.248808,0.044664,0.625272,1.730853
2012-03-31,0.804578,-0.081503,0.553259,-0.262377
2012-04-30,0.476569,-1.458649,-1.171720,-1.773515
2012-05-31,-0.001478,-0.996307,0.367370,0.140001
...,...,...,...,...
2061-08-31,0.314799,-0.082635,-0.249399,1.087080
2061-09-30,-2.012953,0.601205,-1.177553,1.591242
2061-10-31,-1.242894,-1.331563,-0.762655,0.825453
2061-11-30,-1.192910,0.329820,-0.181624,-0.949195


In [67]:
df.iloc[1]

A    0.248808
B    0.044664
C    0.625272
D    1.730853
Name: 2012-02-29 00:00:00, dtype: float64

По целочисленным срезам, действующим аналогично NumPy / Python, т.е. правое граничное значение не включается:

In [68]:
df.iloc[3:5, 0:2]

Unnamed: 0,A,B
2012-04-30,0.476569,-1.458649
2012-05-31,-0.001478,-0.996307


По спискам целочисленных позиций, аналогично стилю NumPy / Python:

In [69]:
df.iloc[[1, 2, 4], [0, 2]]

Unnamed: 0,A,C
2012-02-29,0.248808,0.625272
2012-03-31,0.804578,0.553259
2012-05-31,-0.001478,0.36737


Для явного создания среза строк:

In [70]:
df.iloc[1:3, :]

Unnamed: 0,A,B,C,D
2012-02-29,0.248808,0.044664,0.625272,1.730853
2012-03-31,0.804578,-0.081503,0.553259,-0.262377


Для явного создания среза столбцов:

In [71]:
df.iloc[:, 1:3]

Unnamed: 0,B,C
2012-01-31,0.667208,1.717706
2012-02-29,0.044664,0.625272
2012-03-31,-0.081503,0.553259
2012-04-30,-1.458649,-1.171720
2012-05-31,-0.996307,0.367370
...,...,...
2061-08-31,-0.082635,-0.249399
2061-09-30,0.601205,-1.177553
2061-10-31,-1.331563,-0.762655
2061-11-30,0.329820,-0.181624


Для явного получения значений:

In [72]:
df.iloc[1, 1]

np.float64(0.04466423042135691)

Для получения быстрого доступа к скаляру (эквивалентно предыдущему методу):

In [73]:
df.iat[1, 1]

np.float64(0.04466423042135691)

### Булево индексирование

Использование значений столбца для выбора данных:

In [74]:
df[(df['A'] > 0) | (df['B'] > 0) & ( df['C'] < 0)]

Unnamed: 0,A,B,C,D
2012-02-29,0.248808,0.044664,0.625272,1.730853
2012-03-31,0.804578,-0.081503,0.553259,-0.262377
2012-04-30,0.476569,-1.458649,-1.171720,-1.773515
2012-06-30,1.585082,0.067398,0.149100,1.236530
2012-07-31,0.606025,0.288407,0.004997,1.208718
...,...,...,...,...
2061-07-31,0.268553,-0.601572,-2.080317,-0.779178
2061-08-31,0.314799,-0.082635,-0.249399,1.087080
2061-09-30,-2.012953,0.601205,-1.177553,1.591242
2061-11-30,-1.192910,0.329820,-0.181624,-0.949195


Выбор значений из `DataFrame`, для которых выполняется логическое условие:

In [75]:
df[df > 0]

Unnamed: 0,A,B,C,D
2012-01-31,,0.667208,1.717706,
2012-02-29,0.248808,0.044664,0.625272,1.730853
2012-03-31,0.804578,,0.553259,
2012-04-30,0.476569,,,
2012-05-31,,,0.367370,0.140001
...,...,...,...,...
2061-08-31,0.314799,,,1.087080
2061-09-30,,0.601205,,1.591242
2061-10-31,,,,0.825453
2061-11-30,,0.329820,,


Использование метода [`isin()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.isin.html#pandas.Series.isin) для фильтрации:

In [76]:
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,red,foobar
1,1.0,2013-01-02,1.0,3,green,foobar
2,1.0,2013-01-02,1.0,3,blue,foobar
3,1.0,2013-01-02,1.0,3,red,foobar


In [78]:
df2['E'].isin(['green', 'blue'])

0    False
1     True
2     True
3    False
Name: E, dtype: bool

In [79]:
~df2['E'].isin(['green', 'blue'])

0     True
1    False
2    False
3     True
Name: E, dtype: bool

In [80]:
df2[~df2['E'].isin(['green', 'blue'])] # фильтруем

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,red,foobar
3,1.0,2013-01-02,1.0,3,red,foobar


## Изменение / добавление значений

In [None]:
df['E'] = ['one', 'one', 'two', 'three', 'four', 'three']*100 # добавляем столбец
df

Unnamed: 0,A,B,C,D,E
2013-01-31,-2.065810,0.500734,0.363846,0.066299,one
2013-02-28,0.348288,-1.535217,-0.211007,-0.091686,one
2013-03-31,0.508579,-1.424744,1.767825,1.360248,two
2013-04-30,-0.576584,-0.529803,0.251141,0.094734,three
2013-05-31,0.192248,1.020445,0.812392,0.351854,four
...,...,...,...,...,...
2062-08-31,-0.922229,2.214785,1.755481,-1.343570,one
2062-09-30,-0.353849,-0.170232,0.114496,0.495401,two
2062-10-31,-2.533816,-0.057073,0.021984,-0.759623,three
2062-11-30,2.399247,-0.729486,-0.135819,-1.375543,four


При добавлении нового столбца данные автоматически выравниваются по индексам:

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130228', periods=6,freq='M'))
s1

2013-02-28    1
2013-03-31    2
2013-04-30    3
2013-05-31    4
2013-06-30    5
2013-07-31    6
Freq: M, dtype: int64

In [None]:
df['F'] = s1 # отсутствующие значения после выравнивания заменились NaN
df

Unnamed: 0,A,B,C,D,E,F
2013-01-31,-2.065810,0.500734,0.363846,0.066299,one,
2013-02-28,0.348288,-1.535217,-0.211007,-0.091686,one,1.0
2013-03-31,0.508579,-1.424744,1.767825,1.360248,two,2.0
2013-04-30,-0.576584,-0.529803,0.251141,0.094734,three,3.0
2013-05-31,0.192248,1.020445,0.812392,0.351854,four,4.0
...,...,...,...,...,...,...
2062-08-31,-0.922229,2.214785,1.755481,-1.343570,one,
2062-09-30,-0.353849,-0.170232,0.114496,0.495401,two,
2062-10-31,-2.533816,-0.057073,0.021984,-0.759623,three,
2062-11-30,2.399247,-0.729486,-0.135819,-1.375543,four,


Установка значений по метке:

In [None]:
df.iat[0, 1] = 0
df

Unnamed: 0,A,B,C,D,E,F
2013-01-31,-2.065810,0.000000,0.363846,0.066299,one,
2013-02-28,0.348288,-1.535217,-0.211007,-0.091686,one,1.0
2013-03-31,0.508579,-1.424744,1.767825,1.360248,two,2.0
2013-04-30,-0.576584,-0.529803,0.251141,0.094734,three,3.0
2013-05-31,0.192248,1.020445,0.812392,0.351854,four,4.0
...,...,...,...,...,...,...
2062-08-31,-0.922229,2.214785,1.755481,-1.343570,one,
2062-09-30,-0.353849,-0.170232,0.114496,0.495401,two,
2062-10-31,-2.533816,-0.057073,0.021984,-0.759623,three,
2062-11-30,2.399247,-0.729486,-0.135819,-1.375543,four,


In [None]:
df.loc['2013-01-31', 'D'] = 111
df

Unnamed: 0,A,B,C,D,E,F
2013-01-31,-2.065810,0.000000,0.363846,111.000000,one,
2013-02-28,0.348288,-1.535217,-0.211007,-0.091686,one,1.0
2013-03-31,0.508579,-1.424744,1.767825,1.360248,two,2.0
2013-04-30,-0.576584,-0.529803,0.251141,0.094734,three,3.0
2013-05-31,0.192248,1.020445,0.812392,0.351854,four,4.0
...,...,...,...,...,...,...
2062-08-31,-0.922229,2.214785,1.755481,-1.343570,one,
2062-09-30,-0.353849,-0.170232,0.114496,0.495401,two,
2062-10-31,-2.533816,-0.057073,0.021984,-0.759623,three,
2062-11-30,2.399247,-0.729486,-0.135819,-1.375543,four,


Установка значений путем присвоения массива NumPy:

In [None]:
df['G'] = np.array([5] * len(df))
df

Unnamed: 0,A,B,C,D,E,F,G
2013-01-31,-2.065810,0.000000,0.363846,111.000000,one,,5
2013-02-28,0.348288,-1.535217,-0.211007,-0.091686,one,1.0,5
2013-03-31,0.508579,-1.424744,1.767825,1.360248,two,2.0,5
2013-04-30,-0.576584,-0.529803,0.251141,0.094734,three,3.0,5
2013-05-31,0.192248,1.020445,0.812392,0.351854,four,4.0,5
...,...,...,...,...,...,...,...
2062-08-31,-0.922229,2.214785,1.755481,-1.343570,one,,5
2062-09-30,-0.353849,-0.170232,0.114496,0.495401,two,,5
2062-10-31,-2.533816,-0.057073,0.021984,-0.759623,three,,5
2062-11-30,2.399247,-0.729486,-0.135819,-1.375543,four,,5


In [None]:
df_numeric = df._get_numeric_data()
df_numeric[df_numeric > 0] = -df_numeric # все положительные превращаем в отрицательные
df_numeric

Unnamed: 0,A,B,C,D,F,G
2013-01-31,-2.065810,0.000000,-0.363846,-111.000000,,-5
2013-02-28,-0.348288,-1.535217,-0.211007,-0.091686,-1.0,-5
2013-03-31,-0.508579,-1.424744,-1.767825,-1.360248,-2.0,-5
2013-04-30,-0.576584,-0.529803,-0.251141,-0.094734,-3.0,-5
2013-05-31,-0.192248,-1.020445,-0.812392,-0.351854,-4.0,-5
...,...,...,...,...,...,...
2062-08-31,-0.922229,-2.214785,-1.755481,-1.343570,,-5
2062-09-30,-0.353849,-0.170232,-0.114496,-0.495401,,-5
2062-10-31,-2.533816,-0.057073,-0.021984,-0.759623,,-5
2062-11-30,-2.399247,-0.729486,-0.135819,-1.375543,,-5


In [None]:
np.sin(df_numeric)

Unnamed: 0,A,B,C,D,F,G
2013-01-31,-0.879962,0.000000,-0.355871,0.864551,,0.958924
2013-02-28,-0.341289,-0.999367,-0.209444,-0.091558,-0.841471,0.958924
2013-03-31,-0.486937,-0.989353,-0.980653,-0.977916,-0.909297,0.958924
2013-04-30,-0.545163,-0.505364,-0.248509,-0.094592,-0.141120,0.958924
2013-05-31,-0.191066,-0.852341,-0.725934,-0.344638,0.756802,0.958924
...,...,...,...,...,...,...
2062-08-31,-0.796950,-0.799707,-0.982994,-0.974295,,0.958924
2062-09-30,-0.346511,-0.169411,-0.114246,-0.475385,,0.958924
2062-10-31,-0.571044,-0.057042,-0.021982,-0.688648,,0.958924
2062-11-30,-0.676018,-0.666487,-0.135402,-0.980999,,0.958924


### Применение функций к данным (apply)

Метод apply() — это инструмент для преобразования объекта DataFrame, его можно применять как к одному столбцу, так и к нескольким.

In [None]:
# Функция numpy.cumsum() возвращает кумулятивную сумму элементов по заданной оси
df[['A', 'B']].apply(np.cumsum)

Unnamed: 0,A,B
2013-01-31,-2.065810,0.000000
2013-02-28,-2.414098,-1.535217
2013-03-31,-2.922677,-2.959962
2013-04-30,-3.499261,-3.489765
2013-05-31,-3.691509,-4.510210
...,...,...
2062-08-31,-505.031380,-452.881064
2062-09-30,-505.385229,-453.051296
2062-10-31,-507.919045,-453.108369
2062-11-30,-510.318292,-453.837855


Можно применить лямбда-функции, которые полезны в том случае, когда нужна одноразовая функция. Такие функции еще называют анонимными.

`lambda arguments: expression`

In [None]:
df_numeric.apply(lambda x: x.max() - x.min())

A      3.165183
B      2.845246
C      3.461340
D    110.999821
F      5.000000
G      0.000000
dtype: float64

### Строковые методы

Series оснащен набором методов в атрибуте `str` для обработки строк, которые упрощают работу с каждым элементом массива, подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#text-string-methods).

In [None]:
s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
s

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object

In [None]:
s.str.lower()

0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

In [None]:
s.str.upper()

0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

## Обработка пропусков в данных

pandas в основном использует значение [`np.nan`](https://numpy.org/doc/stable/user/misc.html) для представления отсутствующих данных. По умолчанию они не включается в вычисления, см. подробнее в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data)

### Обнаружение пропусков

Метод `info()` соотносит максимальное количество записей в датафрейме с количеством записей в каждом столбце:

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 600 entries, 2013-01-31 to 2062-12-31
Freq: M
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       600 non-null    float64
 1   B       600 non-null    float64
 2   C       600 non-null    float64
 3   D       600 non-null    float64
 4   E       600 non-null    object 
 5   F       6 non-null      float64
 6   G       600 non-null    int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 53.7+ KB


Можно последовательно использовать методы `isna()` и `sum()`:

In [None]:
# .isna() выдает True или 1, если есть пропуск, .sum() суммирует единицы по столбцам
df.isna().sum()

A      0
B      0
C      0
D      0
E      0
F    594
G      0
dtype: int64

Также не сложно посчитать процент пропущенных значений:

In [None]:
# для этого разделим сумму пропусков в каждом столбце на количество наблюдений,
# округлим результат и умножим его на 100
df.isna().sum() / len(df.round(4)) * 100

A     0.0
B     0.0
C     0.0
D     0.0
E     0.0
F    99.0
G     0.0
dtype: float64

### Удаление пропусков

Чтобы удалить строки, в которых отсутствуют данные, см. [`dropna()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html):

In [None]:
df.dropna() # how='any', axis=0 по умолчанию, т.е. удаляются все строки с пропущенными данными

Unnamed: 0,A,B,C,D,E,F,G
2013-02-28,-0.348288,-1.535217,-0.211007,-0.091686,one,-1.0,-5
2013-03-31,-0.508579,-1.424744,-1.767825,-1.360248,two,-2.0,-5
2013-04-30,-0.576584,-0.529803,-0.251141,-0.094734,three,-3.0,-5
2013-05-31,-0.192248,-1.020445,-0.812392,-0.351854,four,-4.0,-5
2013-06-30,-1.509585,-0.730217,-0.730922,-0.148052,three,-5.0,-5
2013-07-31,-0.928314,-1.522277,-0.608694,-0.389239,one,-6.0,-5


Если в одном из столбцов большой процент пропусков, построчное удаление просто оставит нас без данных. В этом случае, если мы выбираем стратегию удаления данных, разумнее удалить сам столбец.

In [None]:
# передадим в параметр columns тот столбец, который хотим удалить
df.drop(columns = ['F'])

Unnamed: 0,A,B,C,D,E,G
2013-01-31,-2.065810,0.000000,-0.363846,-111.000000,one,-5
2013-02-28,-0.348288,-1.535217,-0.211007,-0.091686,one,-5
2013-03-31,-0.508579,-1.424744,-1.767825,-1.360248,two,-5
2013-04-30,-0.576584,-0.529803,-0.251141,-0.094734,three,-5
2013-05-31,-0.192248,-1.020445,-0.812392,-0.351854,four,-5
...,...,...,...,...,...,...
2062-08-31,-0.922229,-2.214785,-1.755481,-1.343570,one,-5
2062-09-30,-0.353849,-0.170232,-0.114496,-0.495401,two,-5
2062-10-31,-2.533816,-0.057073,-0.021984,-0.759623,three,-5
2062-11-30,-2.399247,-0.729486,-0.135819,-1.375543,four,-5


### Заполнение пропусков

Пропуски в числовых признаках можно заполнить средним арифметическим или медианой:

In [None]:
df.head(10)

Unnamed: 0,A,B,C,D,E,F,G
2013-01-31,-2.06581,0.0,-0.363846,-111.0,one,,-5
2013-02-28,-0.348288,-1.535217,-0.211007,-0.091686,one,-1.0,-5
2013-03-31,-0.508579,-1.424744,-1.767825,-1.360248,two,-2.0,-5
2013-04-30,-0.576584,-0.529803,-0.251141,-0.094734,three,-3.0,-5
2013-05-31,-0.192248,-1.020445,-0.812392,-0.351854,four,-4.0,-5
2013-06-30,-1.509585,-0.730217,-0.730922,-0.148052,three,-5.0,-5
2013-07-31,-0.928314,-1.522277,-0.608694,-0.389239,one,-6.0,-5
2013-08-31,-0.879384,-1.607191,-1.247258,-0.485029,one,,-5
2013-09-30,-0.495681,-0.162004,-0.760876,-0.232103,two,,-5
2013-10-31,-0.320099,-0.499259,-0.433996,-1.191528,three,,-5


In [None]:
# сделаем копию датафрейма
fillna_median = df.copy()

# заполним пропуски в столбце F медианным значением,
# можно заполнить и средним арифметическим через метод .mean()
fillna_median.F.fillna(fillna_median.F.median(), inplace = True)

# убедимся, что пропусков не осталось
fillna_median.F.isna().sum()

0

У такого простого и понятного подхода тем не менее есть ряд недостатков:

- когда в данных появляется большое количество одинаковых близких к среднему значений, мы снижаем ценную вариативность в данных;
- кроме того, такое заполнение пропусков может быть некорректно. Например, если заполнить пропуски в столбце «Стаж» средним значением или медианой, молодой сотрудник может получить больший стаж, чем у него есть на самом деле, а сотрудник в возрасте, меньший.

Также популярно заполнение значениями из предшествующей (аргумент method='bfill') либо последующей записи (method='ffill'):

In [None]:
df.fillna(method='bfill')

Unnamed: 0,A,B,C,D,E,F,G
2013-01-31,-2.065810,0.000000,-0.363846,-111.000000,one,-1.0,-5
2013-02-28,-0.348288,-1.535217,-0.211007,-0.091686,one,-1.0,-5
2013-03-31,-0.508579,-1.424744,-1.767825,-1.360248,two,-2.0,-5
2013-04-30,-0.576584,-0.529803,-0.251141,-0.094734,three,-3.0,-5
2013-05-31,-0.192248,-1.020445,-0.812392,-0.351854,four,-4.0,-5
...,...,...,...,...,...,...,...
2062-08-31,-0.922229,-2.214785,-1.755481,-1.343570,one,,-5
2062-09-30,-0.353849,-0.170232,-0.114496,-0.495401,two,,-5
2062-10-31,-2.533816,-0.057073,-0.021984,-0.759623,three,,-5
2062-11-30,-2.399247,-0.729486,-0.135819,-1.375543,four,,-5


Следует отметить, что для аналогичных действий имеются специальные методы с названиями bfill и ffill:

In [None]:
df.ffill()

Unnamed: 0,A,B,C,D,E,F,G
2013-01-31,-2.065810,0.000000,-0.363846,-111.000000,one,,-5
2013-02-28,-0.348288,-1.535217,-0.211007,-0.091686,one,-1.0,-5
2013-03-31,-0.508579,-1.424744,-1.767825,-1.360248,two,-2.0,-5
2013-04-30,-0.576584,-0.529803,-0.251141,-0.094734,three,-3.0,-5
2013-05-31,-0.192248,-1.020445,-0.812392,-0.351854,four,-4.0,-5
...,...,...,...,...,...,...,...
2062-08-31,-0.922229,-2.214785,-1.755481,-1.343570,one,-6.0,-5
2062-09-30,-0.353849,-0.170232,-0.114496,-0.495401,two,-6.0,-5
2062-10-31,-2.533816,-0.057073,-0.021984,-0.759623,three,-6.0,-5
2062-11-30,-2.399247,-0.729486,-0.135819,-1.375543,four,-6.0,-5


## Описательная статистика

Метод [`describe()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html#pandas.DataFrame.describe) показывает краткую статистическую сводку для данных:

In [None]:
df.describe()

Unnamed: 0,A,B,C,D,F,G
count,600.0,600.0,600.0,600.0,6.0,600.0
mean,-0.851589,-0.756812,-0.788894,-1.006383,-3.5,-5.0
std,0.625234,0.567575,0.584924,4.542093,1.870829,0.0
min,-3.184246,-2.845246,-3.461886,-111.0,-6.0,-5.0
25%,-1.184371,-1.089441,-1.13998,-1.219287,-4.75,-5.0
50%,-0.722379,-0.648769,-0.696077,-0.688548,-3.5,-5.0
75%,-0.355033,-0.325918,-0.319679,-0.316519,-2.25,-5.0
max,-0.019063,0.0,-0.000546,-0.000179,-1.0,-5.0


Вычисление квантилей (для числовых признаков):

In [None]:
df_numeric.quantile(.1)

A   -1.778458
B   -1.523740
C   -1.598365
D   -1.702961
F   -5.500000
G   -5.000000
Name: 0.1, dtype: float64

Вычисление медианы (для числовых признаков):

In [None]:
df_numeric.median()

A   -0.722379
B   -0.648769
C   -0.696077
D   -0.688548
F   -3.500000
G   -5.000000
dtype: float64

Та же операция на другой оси (т.е. по строкам):

In [None]:
df_numeric.median(axis=1)

2013-01-31   -2.065810
2013-02-28   -0.674144
2013-03-31   -1.596285
2013-04-30   -0.553194
2013-05-31   -0.916419
                ...   
2062-08-31   -1.755481
2062-09-30   -0.353849
2062-10-31   -0.759623
2062-11-30   -1.375543
2062-12-31   -0.981285
Freq: M, Length: 600, dtype: float64

Вычисление моды (для категориальных признаков):

In [None]:
numerical_columns = df_numeric.columns
all_columns = df.columns
cat_columns = list(set(all_columns) - set(numerical_columns))
df[cat_columns].mode()

Unnamed: 0,E
0,one
1,three


## Объединение таблиц

### Concat

Соединение таблиц вдоль выбранной оси

`pd.concat(objs, axis=0, join='outer', ignore_index=False, copy=True, ...)`

* `objs` &mdash; объединяемые таблицы;
* `axis` : {`0` или `'index'`, `1` или `'columns'`} &mdash; ось индексов или ось колонок, иными словами соединение по вертикали или по горизонтали;
* `join` : {`'inner'`, `'outer'`} &mdash; тип объединения &mdash; пересечение или объединение индексов/колонок;
* `ignore_index` &mdash; сохранить индексы или определить и как $0, ..., n-1$;
* `copy` &mdash; копировать данные или нет.


In [81]:
df1 = pd.DataFrame([['a', 1], ['b', 2]],
                   columns=['letter', 'number'])
print('df1:\n', df1)
df2 = pd.DataFrame([['c', 3, 'cat'], ['d', 4, 'dog']],
                   columns=['letter', 'number', 'animal'])
print('df2:\n', df2)
pd.concat([df1, df2])
# pd.concat([df1, df2], ignore_index=True)

df1:
   letter  number
0      a       1
1      b       2
df2:
   letter  number animal
0      c       3    cat
1      d       4    dog


Unnamed: 0,letter,number,animal
0,a,1,
1,b,2,
0,c,3,cat
1,d,4,dog


### Merge

Слияние таблиц по вертикали путем выполнения операций слияния баз данных в стиле SQL.

`pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, suffixes=('_x', '_y'), ...)`


In [82]:
# В обеих таблицах ключи повторяются

left = pd.DataFrame({'key': ['A', 'A'],
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'A'],
                      'rval': [4, 5]})

In [83]:
left

Unnamed: 0,key,lval
0,A,1
1,A,2


In [84]:
right

Unnamed: 0,key,rval
0,A,4
1,A,5


In [85]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,A,1,5
2,A,2,4
3,A,2,5


В результате объединения получаем 4 строки &mdash; для каждой строки из левой таблице есть две строки из правой таблицы с таким же ключом.

In [87]:
# В таблицах ключи не повторяются
left = pd.DataFrame({'key': ['A', 'B'],
                     'lval': [1, 2]})
right = pd.DataFrame({'key': ['A', 'B'],
                      'rval': [4, 5]})

In [88]:
left

Unnamed: 0,key,lval
0,A,1
1,B,2


In [89]:
right

Unnamed: 0,key,rval
0,A,4
1,B,5


In [90]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,A,1,4
1,B,2,5


В результате объединения получаем 2 строки &mdash; для каждой строки из левой таблице есть только одна строка из правой таблицы с таким же ключом.

Рассмотрим различные типы объединения. Сооздадим и напечатаем две таблицы.

In [91]:
left = pd.DataFrame({'lkey': ['A', 'B', 'C', 'A'],
                     'value': range(4)})
right = pd.DataFrame({'rkey': ['A', 'B', 'D', 'B'],
                      'value': range(4, 8)})

In [92]:
left

Unnamed: 0,lkey,value
0,A,0
1,B,1
2,C,2
3,A,3


In [93]:
right

Unnamed: 0,rkey,value
0,A,4
1,B,5
2,D,6
3,B,7


**Внешнее слияние** &mdash; используются ключи из объединения списков ключей. Иначе говоря, используются ключи, которые есть хотя бы в одной из таблиц. Если в другой таблице таких ключей нет, то ставятся пропуски.

In [94]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='outer')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4.0
1,A,3.0,A,4.0
2,B,1.0,B,5.0
3,B,1.0,B,7.0
4,C,2.0,,
5,,,D,6.0


**Внутреннее слияние** &mdash; используются ключи из пересечения списков ключей. Иначе говоря, используются ключи, которые присутствуют в обеих таблицах.

In [95]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='inner')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4
1,B,1,B,5
2,B,1,B,7
3,A,3,A,4


**Объединение по ключам левой таблицы.** Не используются ключи, которые есть в правой таблицы, но которых нет в левой. Если в правой таблице каких-то ключей нет, то ставятся пропуски.

In [96]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='left')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0,A,4.0
1,B,1,B,5.0
2,B,1,B,7.0
3,C,2,,
4,A,3,A,4.0


**Объединение по ключам правой таблицы.** Не используются ключи, которые есть в левой таблицы, но которых нет в правой. Если в левой таблице каких-то ключей нет, то ставятся пропуски.

In [97]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='right')

Unnamed: 0,lkey,value_x,rkey,value_y
0,A,0.0,A,4
1,A,3.0,A,4
2,B,1.0,B,5
3,,,D,6
4,B,1.0,B,7


Выполним внутреннее объединение и установим ключ качестве индекса

In [98]:
pd.merge(left, right,
         left_on='lkey', right_on='rkey', how='inner') \
        .set_index('lkey')[['value_x', 'value_y']]

Unnamed: 0_level_0,value_x,value_y
lkey,Unnamed: 1_level_1,Unnamed: 2_level_1
A,0,4
B,1,5
B,1,7
A,3,4


## Группировка и сводные таблицы

Под группировкой (`"group by"`) понимаем процесс, включающий один или несколько следующих шагов:

- Разделение (`Splitting`) данных на группы по некоторым критериям.
- Независимое применение (`Applying`) функции к каждой группе.
- Объединение (`Combining`) результатов в структуру данных.

Подробнее см. в [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#groupby)

Группировка выполняется функцией

`df.groupby(by=None, axis=0, level=None, sort=True, ...)`

Результатом группировки является объект, состоящий из пар (имя группы, подтаблица). Имя группы соответствует значению, по которому произведена группировка. К объекту-результату группировки применимы, например, следующие операции:

* `for name, group in groupped: ... ` &mdash; цикл по группам;
* `get_group(name)` &mdash; получить таблицу, соответствующую группе с именем `name`;
* `groups` &mdash; получить все группы в виде словаря имя-подтаблица;
* `count()` &mdash; количество значений в группах, исключая пропуски;
* `size()` &mdash; размер групп;
* `sum()`, `max()`, `min()`;
* `mean()`, `median()`, `var()`, `std()`, `corr()`, `quantile(q)`;
* `describe()` &mdash; вывод описательных статистик;
* `aggregate(func)` &mdash; применение функции (или списка функций) `func` к группам.

In [None]:
df = pd.DataFrame({
    'Животное' : ['Котик', 'Песик', 'Котик', 'Песик',
                  'Котик', 'Песик', 'Котик', 'Песик'],
    'Цвет шерсти' : ['белый', 'белый', 'коричневый', 'черный',
                     'коричневый', 'коричневый', 'белый', 'черный'],
    'Рост' : np.random.normal(5, 3, size=8),
    'Длина хвостика' : np.random.normal(10, 5, size=8)
})

df

Unnamed: 0,Животное,Цвет шерсти,Рост,Длина хвостика
0,Котик,белый,4.964573,9.798898
1,Песик,белый,5.755154,20.015283
2,Котик,коричневый,-0.399278,8.070953
3,Песик,черный,8.007278,10.494533
4,Котик,коричневый,1.823567,3.331647
5,Песик,коричневый,0.152815,7.909495
6,Котик,белый,1.155659,10.52267
7,Песик,черный,10.696467,14.815434


In [None]:
# Группировка, а затем применение функции mean() к полученным группам
# df.groupby('Животное').mean()

In [None]:
df.groupby('Животное').describe()

Unnamed: 0_level_0,Рост,Рост,Рост,Рост,Рост,Рост,Рост,Рост,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика,Длина хвостика
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Животное,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Котик,4.0,1.88613,2.253694,-0.399278,0.766925,1.489613,2.608819,4.964573,4.0,7.931042,3.234163,3.331647,6.886126,8.934925,9.979841,10.52267
Песик,4.0,6.152928,4.481143,0.152815,4.354569,6.881216,8.679575,10.696467,4.0,13.308686,5.301555,7.909495,9.848273,12.654983,16.115396,20.015283


In [None]:
# Группировка по двум колонкам и последующее применение операции суммирования
df.groupby(['Животное', 'Цвет шерсти']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Рост,Длина хвостика
Животное,Цвет шерсти,Unnamed: 2_level_1,Unnamed: 3_level_1
Котик,белый,6.120232,20.321568
Котик,коричневый,1.424289,11.4026
Песик,белый,5.755154,20.015283
Песик,коричневый,0.152815,7.909495
Песик,черный,18.703745,25.309966


Полученная таблица имеет мультииндекс

In [None]:
df.groupby(['Животное', 'Цвет шерсти']).sum().index

MultiIndex([('Котик',      'белый'),
            ('Котик', 'коричневый'),
            ('Песик',      'белый'),
            ('Песик', 'коричневый'),
            ('Песик',     'черный')],
           names=['Животное', 'Цвет шерсти'])

Метод [`stack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html#pandas.DataFrame.stack) "сжимает" уровень в столбцах DataFrame.

In [None]:
stacked = df.stack()
stacked

0  Животное               Котик
   Цвет шерсти            белый
   Рост                4.964573
   Длина хвостика      9.798898
1  Животное               Песик
   Цвет шерсти            белый
   Рост                5.755154
   Длина хвостика     20.015283
2  Животное               Котик
   Цвет шерсти       коричневый
   Рост               -0.399278
   Длина хвостика      8.070953
3  Животное               Песик
   Цвет шерсти           черный
   Рост                8.007278
   Длина хвостика     10.494533
4  Животное               Котик
   Цвет шерсти       коричневый
   Рост                1.823567
   Длина хвостика      3.331647
5  Животное               Песик
   Цвет шерсти       коричневый
   Рост                0.152815
   Длина хвостика      7.909495
6  Животное               Котик
   Цвет шерсти            белый
   Рост                1.155659
   Длина хвостика      10.52267
7  Животное               Песик
   Цвет шерсти           черный
   Рост               10.696467
   Длина

С "уложенными" (`"stacked"`) DataFrame или Series (имеющими MultiIndex в качестве индекса) обратная операция - [`unstack()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.unstack.html#pandas.DataFrame.unstack), которая по умолчанию распаковывает последний уровень:

In [None]:
stacked.unstack()

Unnamed: 0,Животное,Цвет шерсти,Рост,Длина хвостика
0,Котик,белый,4.964573,9.798898
1,Песик,белый,5.755154,20.015283
2,Котик,коричневый,-0.399278,8.070953
3,Песик,черный,8.007278,10.494533
4,Котик,коричневый,1.823567,3.331647
5,Песик,коричневый,0.152815,7.909495
6,Котик,белый,1.155659,10.52267
7,Песик,черный,10.696467,14.815434


### Сводные таблицы (Pivot tables)

См. секцию [Документации](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html#reshaping-pivot)

In [None]:
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                   'B': ['A', 'B', 'C'] * 4,
                   'C': ['red', 'red', 'red', 'blue', 'blue', 'blue'] * 2,
                   'D': np.random.randn(12),
                   'E': np.random.randn(12)})
df

Unnamed: 0,A,B,C,D,E
0,one,A,red,-0.589847,0.605587
1,one,B,red,-0.16909,0.293492
2,two,C,red,-0.860891,0.223029
3,three,A,blue,1.583754,-1.831923
4,one,B,blue,-0.528759,0.157143
5,one,C,blue,-1.25166,1.206033
6,two,A,red,-1.549921,-0.381358
7,three,B,red,-0.512406,0.048252
8,one,C,red,0.066463,-0.781041
9,one,A,blue,-1.433407,-0.598688


Мы можем очень легко создать сводные таблицы из этих данных:

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

Unnamed: 0_level_0,C,blue,red
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-1.433407,-0.589847
one,B,-0.528759,-0.16909
one,C,-1.25166,0.066463
three,A,1.583754,
three,B,,-0.512406
three,C,-1.606957,
two,A,,-1.549921
two,B,-0.370832,
two,C,,-0.860891


## Временные ряды

pandas имеет простые, мощные и эффективные функции для выполнения операций передискретизации во время преобразования частоты (например, преобразование секундных данных в 5-минутные данные). См. [документацию по временным рядам](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#timeseries).

In [None]:
rng = pd.date_range('1/1/2012', periods=100, freq='S')
rng[:10]

DatetimeIndex(['2012-01-01 00:00:00', '2012-01-01 00:00:01',
               '2012-01-01 00:00:02', '2012-01-01 00:00:03',
               '2012-01-01 00:00:04', '2012-01-01 00:00:05',
               '2012-01-01 00:00:06', '2012-01-01 00:00:07',
               '2012-01-01 00:00:08', '2012-01-01 00:00:09'],
              dtype='datetime64[ns]', freq='S')

In [None]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts[:10]

2012-01-01 00:00:00    244
2012-01-01 00:00:01    344
2012-01-01 00:00:02    429
2012-01-01 00:00:03    450
2012-01-01 00:00:04    242
2012-01-01 00:00:05    393
2012-01-01 00:00:06    253
2012-01-01 00:00:07    228
2012-01-01 00:00:08    319
2012-01-01 00:00:09     95
Freq: S, dtype: int64

In [None]:
ts.resample('5Min').sum()

2012-01-01    25068
Freq: 5T, dtype: int64

Представление часового пояса:

In [None]:
rng = pd.date_range('3/6/2012 00:00', periods=5, freq='D')
rng

DatetimeIndex(['2012-03-06', '2012-03-07', '2012-03-08', '2012-03-09',
               '2012-03-10'],
              dtype='datetime64[ns]', freq='D')

In [None]:
ts = pd.Series(np.random.randn(len(rng)), rng)
ts

2012-03-06    1.749809
2012-03-07   -0.221322
2012-03-08   -0.446608
2012-03-09   -1.309222
2012-03-10    1.074737
Freq: D, dtype: float64

In [None]:
ts

2012-03-06    1.749809
2012-03-07   -0.221322
2012-03-08   -0.446608
2012-03-09   -1.309222
2012-03-10    1.074737
Freq: D, dtype: float64

In [None]:
ts_utc = ts.tz_localize('UTC')
ts_utc

2012-03-06 00:00:00+00:00    1.749809
2012-03-07 00:00:00+00:00   -0.221322
2012-03-08 00:00:00+00:00   -0.446608
2012-03-09 00:00:00+00:00   -1.309222
2012-03-10 00:00:00+00:00    1.074737
Freq: D, dtype: float64

Преобразование в другой часовой пояс:

In [None]:
ts_utc.tz_convert('US/Eastern')

2012-03-05 19:00:00-05:00    1.749809
2012-03-06 19:00:00-05:00   -0.221322
2012-03-07 19:00:00-05:00   -0.446608
2012-03-08 19:00:00-05:00   -1.309222
2012-03-09 19:00:00-05:00    1.074737
Freq: D, dtype: float64

Преобразование между представлениями промежутка времени:

In [None]:
rng = pd.date_range('1/1/2012', periods=5, freq='M')
rng

DatetimeIndex(['2012-01-31', '2012-02-29', '2012-03-31', '2012-04-30',
               '2012-05-31'],
              dtype='datetime64[ns]', freq='M')

In [None]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2012-01-31    0.423445
2012-02-29    0.579950
2012-03-31    0.055710
2012-04-30   -1.367287
2012-05-31   -0.634377
Freq: M, dtype: float64

In [None]:
ps = ts.to_period()
ps

2012-01    0.423445
2012-02    0.579950
2012-03    0.055710
2012-04   -1.367287
2012-05   -0.634377
Freq: M, dtype: float64

In [None]:
ps.to_timestamp()

2012-01-01    0.423445
2012-02-01    0.579950
2012-03-01    0.055710
2012-04-01   -1.367287
2012-05-01   -0.634377
Freq: MS, dtype: float64

Преобразование между периодом и меткой времени позволяет использовать некоторые удобные арифметические функции. В следующем примере мы преобразуем ежеквартальную частоту с годом, заканчивающимся в ноябре, в 9 утра конца месяца, следующего за концом квартала:

In [None]:
prng = pd.period_range('2022Q1', '2023Q4', freq='Q-NOV')
prng

PeriodIndex(['2022Q1', '2022Q2', '2022Q3', '2022Q4', '2023Q1', '2023Q2',
             '2023Q3', '2023Q4'],
            dtype='period[Q-NOV]')

In [None]:
ts = pd.Series(np.random.randn(len(prng)), prng)
ts[:10]

2022Q1    0.202924
2022Q2    0.932022
2022Q3    0.147423
2022Q4    1.064807
2023Q1   -1.028559
2023Q2    0.038347
2023Q3   -0.765529
2023Q4    0.138185
Freq: Q-NOV, dtype: float64

In [None]:
ts.index = (prng.asfreq('M', 'e') + 1).asfreq('H', 's') + 9
ts[:10]

2022-03-01 09:00    0.202924
2022-06-01 09:00    0.932022
2022-09-01 09:00    0.147423
2022-12-01 09:00    1.064807
2023-03-01 09:00   -1.028559
2023-06-01 09:00    0.038347
2023-09-01 09:00   -0.765529
2023-12-01 09:00    0.138185
Freq: H, dtype: float64

In [None]:
ts.head()

2022-03-01 09:00    0.202924
2022-06-01 09:00    0.932022
2022-09-01 09:00    0.147423
2022-12-01 09:00    1.064807
2023-03-01 09:00   -1.028559
Freq: H, dtype: float64

## Новая и улучшенная агрегатная функция

## Новая и улучшенная агрегатная функция

В pandas 0.20.0 была добавлена функция [`agg`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.agg.html), которая значительно упрощает суммирование данных аналогично groupby.

Чтобы проиллюстрировать ее функциональность, предположим, что нам нужно получить сумму в столбцах `D` и `E`, а также среднее значение столбца `E`.

Процесс не очень удобный:

In [None]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,red,-0.589847,0.605587
1,one,B,red,-0.16909,0.293492
2,two,C,red,-0.860891,0.223029
3,three,A,blue,1.583754,-1.831923
4,one,B,blue,-0.528759,0.157143
5,one,C,blue,-1.25166,1.206033
6,two,A,red,-1.549921,-0.381358
7,three,B,red,-0.512406,0.048252
8,one,C,red,0.066463,-0.781041
9,one,A,blue,-1.433407,-0.598688


In [None]:
df[["D", "E"]].sum()

D   -7.223554
E   -3.245641
dtype: float64

In [None]:
df["E"].mean()

-0.27047010427720863

Это работает, но нужно дополнительно пояснять что было сделано.

Новый `agg` упрощает процесс и на выходе таблица со значениями.

In [None]:
df[["D", "E"]].agg(['sum', 'mean'])

Unnamed: 0,D,E
sum,-7.223554,-3.245641
mean,-0.601963,-0.27047


Другая запись будет выглядеть следующим образом. Укажем для столбцов явно какие столбцы в `agg` и укажем, какие операции применять к каждому столбцу.

In [None]:
df.agg({'E': ['sum', 'mean'], 'D': ['sum']})

Unnamed: 0,E,D
sum,-3.245641,-7.223554
mean,-0.27047,


Чтобы агрегировать данные и использовать функцию `mode` по работе с текстом, применим лямбда-функцию, которая использует `value_counts`:

In [None]:
get_max = lambda x: x.value_counts(dropna=False)

Затем, включить наиболее часто используемые  значения в сводную таблицу:

In [None]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,red,-0.589847,0.605587
1,one,B,red,-0.16909,0.293492
2,two,C,red,-0.860891,0.223029
3,three,A,blue,1.583754,-1.831923
4,one,B,blue,-0.528759,0.157143
5,one,C,blue,-1.25166,1.206033
6,two,A,red,-1.549921,-0.381358
7,three,B,red,-0.512406,0.048252
8,one,C,red,0.066463,-0.781041
9,one,A,blue,-1.433407,-0.598688


In [None]:
df.agg({'D': ['sum', 'mean'], 'E': ['sum', 'mean'], 'A': [get_max]})

Unnamed: 0_level_0,D,E,A
Unnamed: 0_level_1,D,E,<lambda>
sum,-7.223554,-3.245641,
mean,-0.601963,-0.27047,
one,,,6.0
two,,,3.0
three,,,3.0


In [None]:
get_max.__name__ = "most frequent"

Но в этом подходе: в столбце написано `<lambda>`.

В идеале указать `most frequent` (*наиболее часто*). Можно явно поменять название функции:

In [None]:
get_max.__name__ = "most frequent"

Теперь, агрегирование:

In [None]:
df.agg({'D': ['sum', 'mean'], 'E': ['sum', 'mean'], 'A': [get_max]})

Unnamed: 0_level_0,D,E,A
Unnamed: 0_level_1,D,E,most frequent
sum,-7.223554,-3.245641,
mean,-0.601963,-0.27047,
one,,,6.0
two,,,3.0
three,,,3.0


В качестве завершения финальный бонус.

Агрегатная (aggregate) функция, использующая словарь, полезна, но проблема заключается в том, что она не сохраняет порядок.

Если необходимо убедиться, что столбцы расположены в определенном порядке, можно использовать [`OrderedDict`](https://docs.python.org/3/library/collections.html#collections.OrderedDict):

In [None]:
import collections
f = collections.OrderedDict([('A', [get_max]), ('D', ['sum', 'mean']), ('E', ['sum', 'mean'])])
df.agg(f)

Unnamed: 0_level_0,A,D,E
Unnamed: 0_level_1,most frequent,D,E
one,6.0,,
two,3.0,,
three,3.0,,
sum,,-7.223554,-3.245641
mean,,-0.601963,-0.27047


## Получение и запись данных

### CSV

см. [про запись в csv файлы](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-store-in-csv)

In [None]:
df.to_csv('foo.csv')

см. [про чтенеи csv файлов](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table)

In [None]:
pd.read_csv('foo.csv')

Unnamed: 0.1,Unnamed: 0,A,B,C,D,E
0,0,one,A,red,-1.858931,-0.573762
1,1,one,B,red,-2.479307,1.908843
2,2,two,C,red,-0.337012,-0.075287
3,3,three,A,blue,1.969856,-0.597402
4,4,one,B,blue,0.245826,-0.264284
5,5,one,C,blue,0.725448,0.417956
6,6,two,A,red,-0.265341,-1.036288
7,7,three,B,red,-0.441735,-1.119077
8,8,one,C,red,-0.471247,0.846928
9,9,one,A,blue,0.384062,0.242129


### HDF5

см. про чтение и запись в [`HDFStores`](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-hdf5)

Запись в `HDF5` хранилище:

In [None]:
df.to_hdf('foo.h5', 'df')

Чтение из `HDF5` хранилища:

In [None]:
pd.read_hdf('foo.h5', 'df')

Unnamed: 0,A,B,C,D,E
0,one,A,red,-1.858931,-0.573762
1,one,B,red,-2.479307,1.908843
2,two,C,red,-0.337012,-0.075287
3,three,A,blue,1.969856,-0.597402
4,one,B,blue,0.245826,-0.264284
5,one,C,blue,0.725448,0.417956
6,two,A,red,-0.265341,-1.036288
7,three,B,red,-0.441735,-1.119077
8,one,C,red,-0.471247,0.846928
9,one,A,blue,0.384062,0.242129


### Excel

см. [про чтение и запись в MS Excel](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-excel)

Запись в excel файл:

In [None]:
df.to_excel('foo.xlsx', sheet_name='Sheet1')

Чтение из excel файла:

In [None]:
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

Unnamed: 0.1,Unnamed: 0,A,B,C,D,E
0,0,one,A,red,-1.858931,-0.573762
1,1,one,B,red,-2.479307,1.908843
2,2,two,C,red,-0.337012,-0.075287
3,3,three,A,blue,1.969856,-0.597402
4,4,one,B,blue,0.245826,-0.264284
5,5,one,C,blue,0.725448,0.417956
6,6,two,A,red,-0.265341,-1.036288
7,7,three,B,red,-0.441735,-1.119077
8,8,one,C,red,-0.471247,0.846928
9,9,one,A,blue,0.384062,0.242129
