---

# Основные структуры в Pandas

---

Импортируем библиотеки $\mathsf{numpy}$, $\mathsf{pandas}$, а также класс $\mathsf{Series}$:

In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

---

### 1.3 | Обработка данных

---

Как и в $\mathsf{numpy}$, $\mathsf{pandas}$ поддерживает так называемые маски, которые можно получить следующим образом:

In [2]:
s = Series([-3, 0, 1, 4])
s

0   -3
1    0
2    1
3    4
dtype: int64

In [3]:
s > 0

0    False
1    False
2     True
3     True
dtype: bool

In [4]:
s[s > 0]

2    1
3    4
dtype: int64

Можно писать и более сложные условия фильтрации:

In [5]:
s[(s > 0) | (s == -3)]

0   -3
2    1
3    4
dtype: int64

In [6]:
s[(abs(s) > 0) & (s != 1)]

0   -3
3    4
dtype: int64

---

Также существуют такие методы, как $\mathsf{where}$ и $\mathsf{mask}$. Первый принимает маску, и те элементы, которые не попали под её условие, заменяет на значение $\mathsf{NaN}$. Второй делает наоборот: заменяет попавшие под условие элементы на $\mathsf{NaN}$, а остальные оставляет, как есть:

In [7]:
s

0   -3
1    0
2    1
3    4
dtype: int64

In [8]:
s.where(s > 0)

0    NaN
1    NaN
2    1.0
3    4.0
dtype: float64

In [9]:
s.mask(s > 0)

0   -3.0
1    0.0
2    NaN
3    NaN
dtype: float64

При этом, если вторым параметром при вызове метода подать какое-то значение, то вместо замены на $\mathsf{NaN}$ соответствующие элементы заменятся на это значение:

In [10]:
s.where(s > 0, -10)

0   -10
1   -10
2     1
3     4
dtype: int64

In [11]:
s.mask(s > 0, -10)

0    -3
1     0
2   -10
3   -10
dtype: int64

---

### 1.4 | Некоторые операции

---

Для замены $\mathsf{NaN}$ значений на другое значение существует метод $\mathsf{fillna}$:

In [12]:
s = Series([np.nan, 1, 2, np.nan, 4])
s

0    NaN
1    1.0
2    2.0
3    NaN
4    4.0
dtype: float64

In [13]:
s.fillna(0)

0    0.0
1    1.0
2    2.0
3    0.0
4    4.0
dtype: float64

---

Сами по себе фильтрующие методы не представляют ценности, потому что чаще нам нужно получить что-то, что реально описываем сами данные: среднее, медиану, дисперсию и т.п. Для этого существуют такие встроенные функции, как, например: $\mathsf{unique}$, $\mathsf{min}$, $\mathsf{max}$, $\mathsf{mean}$, $\mathsf{sum}$, $\mathsf{std}$ и т.д.:

In [14]:
s = s.fillna(0)
s

0    0.0
1    1.0
2    2.0
3    0.0
4    4.0
dtype: float64

In [15]:
s.unique()

array([0., 1., 2., 4.])

In [16]:
s.min(), s.max()

(0.0, 4.0)

In [17]:
s.mean(), s.median()

(1.4, 1.0)

In [18]:
s.sum(), s.std()

(7.0, 1.6733200530681511)

---

Для просмотра большей части этой информации есть метод $\mathsf{describe}$, который в том числе показывает нам квартили:

In [19]:
s.describe()

count    5.00000
mean     1.40000
std      1.67332
min      0.00000
25%      0.00000
50%      1.00000
75%      2.00000
max      4.00000
dtype: float64

---

Серии так же, как и $\mathsf{np.array}$, содержат поля, отвечающие за количество элементов и саму форму серии:

In [20]:
s.size

5

In [21]:
s.shape

(5,)

---

Абсолютно аналогично с $\mathsf{numpy}$ в $\mathsf{pandas}$ устроены операции над сериями, как сложение друг с другом, сложение с числом, умножение на число и т.п.:

In [22]:
s1 = Series([1, 2, 3, 4, 5])
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [23]:
s2 = Series([0, 13, 4, 0, 12])
s2

0     0
1    13
2     4
3     0
4    12
dtype: int64

In [24]:
s1 + s2

0     1
1    15
2     7
3     4
4    17
dtype: int64

In [25]:
s1 + 100

0    101
1    102
2    103
3    104
4    105
dtype: int64

In [26]:
s1 * 2

0     2
1     4
2     6
3     8
4    10
dtype: int64

In [27]:
s1 * s2

0     0
1    26
2    12
3     0
4    60
dtype: int64

In [28]:
s1 ** 2

0     1
1     4
2     9
3    16
4    25
dtype: int64

In [29]:
s1 ** s2

0            1
1         8192
2           81
3            1
4    244140625
dtype: int64