---

# Основные структуры в Pandas

---

Импортируем библиотеки $\mathsf{numpy}$, $\mathsf{pandas}$, а также класс $\mathsf{Series}$:

In [1]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

---

## 3 | Дополнительные возможности

---

### 3.1 | Сбор статистики

---

Если нам нужно узнать, удовлетворяют ли все или хотя бы один элемент условиям маски, то надо использовать методы $\mathsf{all}$ и $\mathsf{any}$ соответственно:

In [2]:
df = pd.DataFrame(
    [[-1, 2], [-3, -4], [-5, -6], [7, -8]], columns=['A', 'B'])
df

Unnamed: 0,A,B
0,-1,2
1,-3,-4
2,-5,-6
3,7,-8


In [3]:
df > 0

Unnamed: 0,A,B
0,False,True
1,False,False
2,False,False
3,True,False


In [4]:
(df > 0).any()

A    True
B    True
dtype: bool

In [5]:
(df > 0).all()

A    False
B    False
dtype: bool

In [6]:
(df > 0).any(axis=1)

0     True
1    False
2    False
3     True
dtype: bool

In [7]:
(df > 0).all(axis=1)

0    False
1    False
2    False
3    False
dtype: bool

---

Если нам нужно сравнить, содержат ли оба фрейма одинаковые значения, то надо использовать метод $\mathsf{equals}$:

In [8]:
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=['A', 'B'])
df1

Unnamed: 0,A,B
0,1,2
1,3,4


In [9]:
df2 = pd.DataFrame([[-5, -6], [-7, -8]], columns=['A', 'B'])
df2

Unnamed: 0,A,B
0,-5,-6
1,-7,-8


In [10]:
df1.equals(df2)

False

In [11]:
(df1 + 4).equals(-df2)

True

---

Помимо задач, где требуется дать положительный или отрицательный ответ, иногда нужно говорить что-то и о самих данных. Для этого существуют такие методы, как $\mathsf{mean}$, $\mathsf{sum}$, $\mathsf{std}$ и т.д., имеющие настраиваемые параметр $\mathsf{axis}$ и $\mathsf{skipna}$, задав который мы можем пропускать $\mathsf{NaN}$-значения:

In [12]:
df = pd.DataFrame([[1, 2], [3, np.NaN], [5, 6], [np.NaN, 8]], columns=['A', 'B'])
df

Unnamed: 0,A,B
0,1.0,2.0
1,3.0,
2,5.0,6.0
3,,8.0


In [13]:
df.mean(axis=0, skipna=False)

A   NaN
B   NaN
dtype: float64

In [14]:
df.mean(axis=0, skipna=True)

A    3.000000
B    5.333333
dtype: float64

In [15]:
df.mean(axis=1, skipna=False)

0    1.5
1    NaN
2    5.5
3    NaN
dtype: float64

In [16]:
df.mean(axis=1, skipna=True)

0    1.5
1    3.0
2    5.5
3    8.0
dtype: float64

---

И так же, как и у $\mathsf{Series}$, у датафреймов есть метод $\mathsf{describe}$:

In [17]:
df

Unnamed: 0,A,B
0,1.0,2.0
1,3.0,
2,5.0,6.0
3,,8.0


In [18]:
df.describe()

Unnamed: 0,A,B
count,3.0,3.0
mean,3.0,5.333333
std,2.0,3.05505
min,1.0,2.0
25%,2.0,4.0
50%,3.0,6.0
75%,4.0,7.0
max,5.0,8.0


---

Бывает также полезно узнать индексы первых вхождений минимальных и максимальных значений. Для этого есть методы $\mathsf{idxmin}$ и $\mathsf{idxmax}$:

In [19]:
df = pd.DataFrame([[1, 2], [3, 4], [8, 7], [6, 5]], columns=['A', 'B'])
df

Unnamed: 0,A,B
0,1,2
1,3,4
2,8,7
3,6,5


In [20]:
df.idxmax(axis=0)

A    2
B    2
dtype: int64

In [21]:
df.idxmax(axis=1)

0    B
1    B
2    A
3    A
dtype: object

In [22]:
df.idxmin(axis=0)

A    0
B    0
dtype: int64

In [23]:
df.idxmin(axis=1)

0    A
1    A
2    B
3    B
dtype: object

---

А для нахождения частоты встречаемости элементов есть метод $\mathsf{value\_counts}$, но он работает только для серий, что логично:

In [24]:
series = pd.Series([1, 2, 3, 4, 3, 2, 1, 1])
series

0    1
1    2
2    3
3    4
4    3
5    2
6    1
7    1
dtype: int64

In [25]:
series.value_counts()

1    3
2    2
3    2
4    1
dtype: int64

---

## 3.2 | Аггрегация

---

Иногда может потребоваться написать собственную функцию и иметь возможность применять ее вдоль конкретных осей. В таком случае нам поможет метод $\mathsf{apply}$:

In [26]:
min_max_scaler = lambda x: (x - x.min()) / (x.max() - x.min())
min_max_scaler(np.array([-10, 10, 0]))

array([0. , 1. , 0.5])

In [27]:
df = pd.DataFrame([[1, 2], [3, 4], [8, 7], [6, 5]],
                  columns=['A', 'B'])
df

Unnamed: 0,A,B
0,1,2
1,3,4
2,8,7
3,6,5


In [28]:
df.apply(min_max_scaler, axis=0)  # По умолчанию axis=0

Unnamed: 0,A,B
0,0.0,0.0
1,0.285714,0.4
2,1.0,1.0
3,0.714286,0.6


In [29]:
df.apply(min_max_scaler, axis=1)

Unnamed: 0,A,B
0,0.0,1.0
1,0.0,1.0
2,1.0,0.0
3,1.0,0.0


---

А для получения статистики по всем значениям колонки, мы можем использовать функцию $\mathsf{agg}$:

In [30]:
df

Unnamed: 0,A,B
0,1,2
1,3,4
2,8,7
3,6,5


In [31]:
df.agg(np.max)

A    8
B    7
dtype: int64

In [32]:
df.agg(np.mean)

A    4.5
B    4.5
dtype: float64


Можно аггрегировать по нескольким функциям сразу:

In [33]:
interval_len = lambda x: x.max() - x.min()

In [34]:
df.agg([np.max, np.min, interval_len])

Unnamed: 0,A,B
amax,8,7
amin,1,2
<lambda>,7,5


---

Чаще бывает так, что нам нужно аггрегировать не все колонки за раз, а лишь конкретные. Тогда в функцию аггрегирования надо подать словарь:

In [35]:
aggregated = df.agg({'A': ['min', 'max'], 'B': [np.mean]})
aggregated

Unnamed: 0,A,B
min,1.0,
max,8.0,
mean,,4.5


---

А если нам нужно поменять строки и столбцы местами, то тут, как и в случае с $\mathsf{np.array}$ надо использовать поле $\mathsf{T}$:

In [36]:
aggregated.T

Unnamed: 0,min,max,mean
A,1.0,8.0,
B,,,4.5
