Один из важнейших плюсов NumPy - это его быстрота и эффективность при поэлементных  <br/>
операциях. Эта возможность частично перекочевала и в Pandas. При этом Pandas        <br/>
добавляет несколько своих полезных трюков - а именно то, что результат операций     <br/>
не забывает, что он Pandas, а значит метки строк и столбцов остаются при нём.       <br/>
Ещё важно то, что при бинарных операциях, например, сложении, Pandas будет          <br/>
автоматически ***выравнивать индексы***, т.е. ты защищён от возможных ошибок при        <br/>
передаче и объединении данных, взятых с различных источников.

In [4]:
import pandas as pd
import numpy as np

%xmode Minimal
%autosave 0

Exception reporting mode: Minimal


Autosave disabled


## Универсальные функции: сохранение индекса

Т.к. библиотека Pandas предназначена для работы с библиотекой    <br/>
NumPy, абсолютно все универсальные функции NumPy будут работать  <br/>
с объектами Series и DataFrame библиотеки Pandas.

In [5]:
rng = np.random.RandomState(42)
df = pd.DataFrame(rng.randint(0, 10, (2, 4)),    # или rng.randint(low=0, high=10, size=(2,4))
                  columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,3,7,4
1,6,9,2,6


Результатом применением универсальных функций будет другой Pandas-объект.

In [6]:
np.sin(df * np.pi / 4)  # имена индексов и столбцов сохраняются

Unnamed: 0,A,B,C,D
0,-1.0,0.707107,-0.707107,1.224647e-16
1,-1.0,0.707107,1.0,-1.0


## Универсальные функции: выравнивание индексов

При бинарных операциях над объектами DataFrame или Series библиотека Pandas  <br/>
будет выравнивать индексы в процессе. Это очень удобно при неполных данных.

### Выравнивание индексов в объектах Series

Допустим, ты откопал различные данные о штатах США.

In [7]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,
                  'California': 423967}, name='area')  # да, имена тоже можно давать
population = pd.Series({'California': 38332521, 'Texas': 26448193,
                        'New York': 19651127}, name='population')

Вот незадача ... данные о штатах не симметричны. Посмотрим что  <br/>
выйдет, если попробовать подсчитать плотность населения.

In [8]:
density = population / area  # здесь они тоже видут себя как массивы
density

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

К счастью нас никто не обругал. Pandas просто поставил `NaN` там, где нехватало  <br/>
данных. Мы даже можем определить штаты, о которых нам не хватает данных.

In [9]:
population.index ^ area.index  # штаты, о которых нам следует добыть побольше информации

Index(['Alaska', 'New York'], dtype='object')

Подобным образом Pandas всегда будет ставить `NaN` там, где чего-то  <br/>
не хватает. Если ты не хочешь, чтобы в выводе красовались `NaN`,     <br/>
то можешь задать свою замену для отсутствующих данных.

In [10]:
population.divide(area, fill_value=10000)  # Раз у нас нет населения Аляски - пусть оно будет 10000.
    # делается это атрибутом fill_value    # Площади Нью-Йорка тоже нет. Пусть тоже будет 10000.
    # в методах объектов Pandas

Alaska           0.005803
California      90.413926
New York      1965.112700
Texas           38.018740
dtype: float64

### Выравнивание индексов  в объектах DataFrame

При операциях над объектами DataFrame происходит то же    <br/>
самое выравнивание как для столбцов, так и для индексов.

In [11]:
data_A = pd.DataFrame(rng.randint(0, 10, (2, 2)),
                      columns=list('AB'))  # да, так тоже можно
data_A

Unnamed: 0,A,B
0,7,4
1,3,7


In [12]:
data_B = pd.DataFrame(rng.randint(0, 10, (3, 3)), 
                      columns=list('BAC'))
data_B

Unnamed: 0,B,A,C
0,7,2,5
1,4,1,7
2,5,1,4


In [20]:
data_A + data_B  # или data_A.add(data_B)

Unnamed: 0,A,B,C
0,9.0,11.0,
1,4.0,11.0,
2,,,


Как ты видишь, индексы выровнялись правильно, хотя и расположение     <br/>
у них было разное. В полученном результате они даже отсортированы.    <br/>
От `NaN` тоже можно избавиться, выставив свой заполнитель в методах.

In [14]:
fill = data_A.stack().mean()  # получаем среднее от элементов объекта data_A, предварительно
                         # выстроив значения data_A в один ряд. Можно было просто data_A.values.mean()
print('fill:', fill)
data_A.add(data_B, fill_value=fill)  # в качестве заполнителя используем среднее от data_A

fill: 5.25


Unnamed: 0,A,B,C
0,9.0,11.0,10.25
1,4.0,11.0,12.25
2,6.25,10.25,9.25


А вот и таблица операторов и эквивалентных методов объектов Pandas.  <br/>
Хм... Где это я уже видел... Да это же почти NumPy-методы!

**Оператор языка Python** | **Метод (-ы) библиотеки Pandas**
-----:|:-----
`+`   | `add()`
`-`   | `sub()`, `subtract()`
`*`   | `mul()`, `multiply()`
`\`   | `truediv()`, `div()`, `divide()`
`\\`  | `floordiv()`
`%`   | `mod()`
`**`  | `pow()`

## Универсальные функции: выполнение операций <br/> между объектами DataFrame и Series

Операции между DataFrame и Series походят на операции между двухмерным  <br/>
и одномерным массивов, и ты, наверное, понимаешь почему. Разница лишь   <br/>
в том, что транслирование идёт с поправкой на выравнивание. Рассмотрим  <br/>
часто встретяющуюся операцию - вычитание одной строки из массива.

In [22]:
A = rng.randint(0, 10, (3, 4))  # а вот и наш массив
A

array([[4, 1, 3, 6],
       [7, 2, 0, 3],
       [1, 7, 3, 1]])

In [23]:
A - A[0]  # вычитаем первую строку из всех строк

array([[ 0,  0,  0,  0],
       [ 3,  1, -3, -3],
       [-3,  6,  0, -5]])

То же самое происходит и с объектами Pandas.

In [24]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0]  # всё как NumPy завещал
            # можно было подумать, что вычитаться будут только объекты Series с общими метками строк.
            # И это правда, но только не здесь, когда у нас всего одна строка. Здесь происходит
            # полноценное транслирование. Если бы у тебя было несколько строк, то правила транслирования
            # бы не работали, и применялось выравнивание. Моя догадка.

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,3,1,-3,-3
2,-3,6,0,-5


Можно также выполнять операции и по столбцам, не зазыв указать `axis`.

In [28]:
df.subtract(df['R'], axis=0)  # по умолчанию вычитание бьёт по столбцам, ведь это же DataFrame.
                       # Но нам переключаем удар на строки, после чего происходит выравнивание
                       # по индексам строк и транслирование по всем стобцам. Это нужно представить.

Unnamed: 0,Q,R,S,T
0,3,0,2,5
1,5,0,-2,1
2,-6,0,-4,-6


Если ты читал комментарий, то понимаешь когда происходит выравнивание.

In [19]:
df.add(df.loc[[0, 2], ['R', 'S']], axis=0)

Unnamed: 0,Q,R,S,T
0,,18.0,10.0,
1,,,,
2,,16.0,4.0,


Такое распределение значений по меткам в Pandas всегда  <br/>
сохраняет контекс данных при проведении операций между  <br/>
неоднородными / неправельными / неодинаковыми данными.