In [1]:
import numpy as np
import pandas as pd
pd.__version__

'1.0.5'

## Объект series

Это одномерный массив индексированных данных

In [2]:
some_data = [1, 2, 3, 4, 5]
data = pd.Series(some_data)
data

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [3]:
# значения из массива Series
data.values

array([1, 2, 3, 4, 5])

In [4]:
# индекс из массива Series
data.index

RangeIndex(start=0, stop=5, step=1)

In [5]:
# Обращение по индексу доступно
data[1:3]

1    2
2    3
dtype: int64

Фактически серия в pandas инициализирует одномерный массив pandas с той лишь разницей, что к ниму добавляется явно описанный объект index, связанные со значениями массива. Это позволяет, в отличии от numpy использовать не только целые числа в качестве индекса, но и любые объекты, которыми нам удобно индексировать.

In [6]:
data = pd.Series(some_data, index=['a', 'b', 'c', 'd', 'e'])
data

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [7]:
data['a']

1

Объект Series - "специализированный словарь", структура, задающая соответствие типизированных ключей набору типизированных значений. В отличае от словаря, серия поддерживает типичные для среза операции, например срезы.

In [8]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

a    1111
b    2222
c    3333
d    4444
e    5555
dtype: int64

In [9]:
data['a':'c']

a    1111
b    2222
c    3333
dtype: int64

#### Создание серий

ожидаемый синтаксис 

```python
pd.Series(data, index=index)
```

index не обязателен

data может быть словарем, тогда ключи становятся индексом

data может быть списком или массивом numpy, тогда index не обязателен 

data может быть скаляром, который будет скопирован по индексу

В любом случае индекс можно указать вручную.

In [10]:
pd.Series(5, index=[1, 2, 3, 4, 5])

1    5
2    5
3    5
4    5
5    5
dtype: int64

In [11]:
pd.Series({1: 'a', 2: 'b', 3: 'c'}, index=[1, 2])

1    a
2    b
dtype: object

## Объект DataFrame

Аналог двумерного массива numpy, где у строк и столбцов есть явные обобщенные индексы для доступа к данным. Его можно рассматривать как упорядоченную последовательность выровненных (использующих один и тот же индекс) серий.

In [12]:
some_data = {
    'a': 1111,
    'b': 2222,
    'c': 3333,
    'd': 4444,
    'e': 5555
}
data = pd.Series(some_data)
data

a    1111
b    2222
c    3333
d    4444
e    5555
dtype: int64

In [13]:
some_data_1 = {
    'a': 1000,
    'b': 2000,
    'c': 3000,
    'd': 4000,
    'e': 5000
}
data_1 = pd.Series(some_data_1)
data_1

a    1000
b    2000
c    3000
d    4000
e    5000
dtype: int64

In [14]:
# сконструируем из этого фрейм
frame = pd.DataFrame({'some_data': some_data, 'some_data_1': some_data_1})
frame

Unnamed: 0,some_data,some_data_1
a,1111,1000
b,2222,2000
c,3333,3000
d,4444,4000
e,5555,5000


In [15]:
# объект индекса строк
frame.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [16]:
# объект индекса стролбцов
frame.columns

Index(['some_data', 'some_data_1'], dtype='object')

DataFrame - специализированный словарь, где задано соответствие имени столбца объекту серии с данными этого столбца.

In [17]:
# доступ к сериям
frame.some_data

a    1111
b    2222
c    3333
d    4444
e    5555
Name: some_data, dtype: int64

In [18]:
frame['some_data']

a    1111
b    2222
c    3333
d    4444
e    5555
Name: some_data, dtype: int64

#### Создание dataframe

In [19]:
# из одиночного объекта серии
pd.DataFrame(data, columns=['data'])

Unnamed: 0,data
a,1111
b,2222
c,3333
d,4444
e,5555


In [20]:
# из списка словарей
data = [{'a': i, 'b': 2 * i} for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [21]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [22]:
# при отсутствии некоторых ключей проставляется специальный оюъект Pandas NaN (с приведением во флот)
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [23]:
# из словаря объектов серий
data_1 = pd.Series(some_data)
data_2 = pd.Series(some_data_1)
pd.DataFrame({'data_1': data_1, 'data_2': data_2})

Unnamed: 0,data_1,data_2
a,1111,1000
b,2222,2000
c,3333,3000
d,4444,4000
e,5555,5000


In [24]:
# из двумерного массива NumPy
pd.DataFrame(np.random.rand(3, 3), columns=['this', 'that', 'where'], index=['a', 'b', 'c'])

Unnamed: 0,this,that,where
a,0.692117,0.240147,0.531711
b,0.525026,0.746961,0.012201
c,0.740815,0.047246,0.733502


In [25]:
# из структурированного массива NumPy
struct = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
struct

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [26]:
pd.DataFrame(struct)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## Объект Index

Все серии и датафреймы содерат индекс, который можно рассматривать как незименяемый массив или как упорядоченное множество, которое может содержать повторяющиеся значения.

In [27]:
ind = pd.Index([2, 3, 5, 7, 9, 12])
ind

Int64Index([2, 3, 5, 7, 9, 12], dtype='int64')

In [28]:
# обхект index ведет себя как массив, его можно индексировать или применять к нему срезы
ind[1]

3

In [29]:
ind[1:3]

Int64Index([3, 5], dtype='int64')

In [30]:
# обекту index доступны аттрибуты массивов NumPy
print(ind.size, ind.shape, ind.ndim, ind.dtype)

6 (6,) 1 int64


In [31]:
# index является множеством. Доступны все лог.операции над множествами
pd.Index([1, 2, 3, 5, 6]) & pd.Index([1, 2, 3, 4, 5])

Int64Index([1, 2, 3, 5], dtype='int64')

In [32]:
pd.Index([1, 2, 3, 5, 6]) | pd.Index([1, 2, 3, 4, 5])

Int64Index([1, 2, 3, 4, 5, 6], dtype='int64')

## Индексация и выборка данных

### Выборка данных из Series

#### Series как словарь

In [33]:
data = pd.Series([0.25, 0.5, 0.75, 1], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [34]:
data['b']

0.5

In [35]:
'a' in data

True

In [36]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [37]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [38]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

#### Series как одномерный массив

In [39]:
# срех через явный индекс
data['a': 'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [40]:
# срез через неявный индекс
data[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

**<span class="burk">При явном срезе последнее значение включается в срез, а пре неявном - нет!</span>**

In [41]:
# использование маски
data[(data > 0.3) & (data < 1)]

b    0.50
c    0.75
dtype: float64

In [42]:
# индексация через массив индексов
data[['a', 'c']]

a    0.25
c    0.75
dtype: float64

#### Индексаторы loc, iloc, ix

Индексация через срезы может вызвать путаницу, когда у серии индекс числовой, что делает его похожим на неявный индекс. Чтобы устранить путаницу хорошей практикойявляется использование специальных индексирующих атрибутов

In [43]:
# атрибут .loc - индексация с явным индексом
data.loc['a']

0.25

In [44]:
data.loc['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [45]:
# атрибут .iloc - индексация с неявным индексом
data.iloc[0]

0.25

In [46]:
data.iloc[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

атрибут .ix deprecated с 20.0

### Выборка данных из DatFrame

#### DataFrame  как словарь

In [47]:
data_1 = pd.Series(some_data)
data_2 = pd.Series(some_data_1)
data = pd.DataFrame({'data_1': data_1, 'data_2': data_2})
data

Unnamed: 0,data_1,data_2
a,1111,1000
b,2222,2000
c,3333,3000
d,4444,4000
e,5555,5000


In [48]:
data['data_1']

a    1111
b    2222
c    3333
d    4444
e    5555
Name: data_1, dtype: int64

In [49]:
data.data_1

a    1111
b    2222
c    3333
d    4444
e    5555
Name: data_1, dtype: int64

In [50]:
data.data_1 is data['data_1']

True

Обращаться через атрибут возможно не всегда - иногда название столбца может конфликтовать с методами объекта DataFrame или не быть строкой. Также нежелательно присваивать значения через атрибуты

In [51]:
data['data_3'] = data['data_1'] / data['data_2']
data

Unnamed: 0,data_1,data_2,data_3
a,1111,1000,1.111
b,2222,2000,1.111
c,3333,3000,1.111
d,4444,4000,1.111
e,5555,5000,1.111


#### DataFrame как двумерный массив NumPy

In [52]:
data.values

array([[1.111e+03, 1.000e+03, 1.111e+00],
       [2.222e+03, 2.000e+03, 1.111e+00],
       [3.333e+03, 3.000e+03, 1.111e+00],
       [4.444e+03, 4.000e+03, 1.111e+00],
       [5.555e+03, 5.000e+03, 1.111e+00]])

In [53]:
data.T

Unnamed: 0,a,b,c,d,e
data_1,1111.0,2222.0,3333.0,4444.0,5555.0
data_2,1000.0,2000.0,3000.0,4000.0,5000.0
data_3,1.111,1.111,1.111,1.111,1.111


<span class="burk">Указание отдельного индекса для массива означает доступ к строке, а указание отдельного индекса для объекта DataFrame - доступ к столбцу</span>

In [54]:
data.values[0]

array([1111.   , 1000.   ,    1.111])

In [55]:
data['data_1']

a    1111
b    2222
c    3333
d    4444
e    5555
Name: data_1, dtype: int64

<span class="burk">Чтобы индексировать DataFrame необходим еще один тип индекса:</span>

.iloc индексирует с помощью неявного индекса

.loc с помощью явного

.ix deprecated с 20.0

In [56]:
data.iloc[3, 2]

1.111

In [57]:
data.iloc[0:3, 0:3]

Unnamed: 0,data_1,data_2,data_3
a,1111,1000,1.111
b,2222,2000,1.111
c,3333,3000,1.111


In [58]:
data.loc['a', 'data_1']

1111

In [59]:
data.loc['a':'c', 'data_1':'data_2']

Unnamed: 0,data_1,data_2
a,1111,1000
b,2222,2000
c,3333,3000


In [60]:
# в обоих атрибутах доступны все методы отбора данных и способы присваивания
data.loc['a', 'data_2'] = 5656
data

Unnamed: 0,data_1,data_2,data_3
a,1111,5656,1.111
b,2222,2000,1.111
c,3333,3000,1.111
d,4444,4000,1.111
e,5555,5000,1.111


#### другие возможности индексации

In [61]:
# Срезы DataFrame индексируют только строки
data['a':'b']

Unnamed: 0,data_1,data_2,data_3
a,1111,5656,1.111
b,2222,2000,1.111


In [62]:
# со столбцами не выйдет
data['data_1': 'data_2']

Unnamed: 0,data_1,data_2,data_3


In [63]:
# можно по неявному индексу
data[1:2]

Unnamed: 0,data_1,data_2,data_3
b,2222,2000,1.111


In [64]:
# можно через маску
data[data.data_1 > 2222]

Unnamed: 0,data_1,data_2,data_3
c,3333,3000,1.111
d,4444,4000,1.111
e,5555,5000,1.111


## Операции над данными

### Универсальные функции

In [65]:
rnd = np.random.RandomState(42)
ser = pd.Series(rnd.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [68]:
df = pd.DataFrame(rnd.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,1,7,5,1
1,4,0,9,5
2,8,0,9,2


In [69]:
# универсальные функции NumPy применяются, создается новый объект с сохранением индекса
np.exp(df)

Unnamed: 0,A,B,C,D
0,2.718282,1096.633158,148.413159,2.718282
1,54.59815,1.0,8103.083928,148.413159
2,2980.957987,1.0,8103.083928,7.389056


In [70]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [71]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,0.7071068,-0.707107,-0.707107,0.707107
1,1.224647e-16,0.0,0.707107,-0.707107
2,-2.449294e-16,0.0,0.707107,1.0


### Выравнивание индексов

#### Выравнивание индексов в сериях

Итоговый, в результате операций, массив будет включать объединение индексов исходных массивов, которые можно определить посредством стандартной арифметики python для этих массивов. Если определить нельзя - NaN

In [74]:
ser1 = pd.Series({
    'a': 1111,
    'b': 2222,
    'c': 3333
}, name='ser1')
ser2 = pd.Series({
    'a': 1111,
    'b': 2222,
    'e': 4444
}, name='ser2')
ser1 / ser2

a    1.0
b    1.0
c    NaN
e    NaN
dtype: float64

In [75]:
ser1.index | ser2.index

Index(['a', 'b', 'c', 'e'], dtype='object')

In [77]:
# можно заменить NaN другим значением, но придется использовать эквивалентные методы
# (вместо унарного + метод add() к примеру)
ser1.add(ser2, fill_value=0)

a    2222.0
b    4444.0
c    3333.0
e    4444.0
dtype: float64

#### Выравнивание индексов в DataFrame

во фреймах выравниваются столбцы и строки. Индексы сортируются перед объединением и <span class="burk">индексы в полученном объекте отсортированы</span>

In [81]:
A = pd.DataFrame(rnd.randint(0, 20, (2, 2)), columns=list('AB'))
B = pd.DataFrame(rnd.randint(0, 10, (3, 3)), columns=list('ACB'))
A

Unnamed: 0,A,B
0,8,1
1,19,14


In [82]:
B

Unnamed: 0,A,C,B
0,6,7,2
1,0,3,1
2,7,3,1


In [83]:
A + B

Unnamed: 0,A,B,C
0,14.0,3.0,
1,19.0,15.0,
2,,,


In [85]:
# можно сипользовать собственные значения вместо NaN
fill = A.stack().mean()
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,14.0,3.0,17.5
1,19.0,15.0,13.5
2,17.5,11.5,13.5


Соответствие между операторами

|Python Operator | Pandas Method(s)                      |
|-----------------|---------------------------------------|
| ``+``           | ``add()``                             |
| ``-``           | ``sub()``, ``subtract()``             |
| ``*``           | ``mul()``, ``multiply()``             |
| ``/``           | ``truediv()``, ``div()``, ``divide()``|
| ``//``          | ``floordiv()``                        |
| ``%``           | ``mod()``                             |
| ``**``          | ``pow()``                             |

#### Выполнение операций между Series и DataFrame

In [86]:
A = rnd.randint(10, size=(3, 4))
A

array([[5, 5, 9, 3],
       [5, 1, 9, 1],
       [9, 3, 7, 6]])

In [89]:
# в NumPy частая операция - разность двумерного массива и одной из его строк. Выполняется построчно
A - A[0]

array([[ 0,  0,  0,  0],
       [ 0, -4,  0, -2],
       [ 4, -2, -2,  3]])

In [90]:
# в Pandas тоже самое
df = pd.DataFrame(A, columns=list('QWGT'))
df

Unnamed: 0,Q,W,G,T
0,5,5,9,3
1,5,1,9,1
2,9,3,7,6


In [93]:
# необходимо указание измерения, в котором будет производиться операция. axis 1 - строки, axis 2 - столбцы
df.subtract(df['W'], axis=0)

Unnamed: 0,Q,W,G,T
0,0,0,4,-2
1,4,0,8,0
2,6,0,4,3


In [94]:
# выравнивание выполняется автоматически
df.subtract(df['W'], axis=1)

Unnamed: 0,0,1,2,G,Q,T,W
0,,,,,,,
1,,,,,,,
2,,,,,,,


In [99]:
# вычтем строку
df.subtract(df.loc[0], axis=1)

Unnamed: 0,Q,W,G,T
0,0,0,0,0
1,0,-4,0,-2
2,4,-2,-2,3


In [100]:
df.subtract(df.loc[0], axis=0)

Unnamed: 0,Q,W,G,T
0,,,,
1,,,,
2,,,,
G,,,,
Q,,,,
T,,,,
W,,,,


In [101]:
# без указания измерения, операция применяется ко всему массиву, естественно с сортировкой индексов
h = df.loc[0, ::2]
h

Q    5
G    9
Name: 0, dtype: int64

In [102]:
df - h

Unnamed: 0,G,Q,T,W
0,0.0,0.0,,
1,0.0,0.0,,
2,-2.0,4.0,,
