In [72]:
import numpy as np
import pandas as pd

#### **Операции над данными**

**np.random.RandomState** - 

In [73]:
rng = np.random.RandomState(42)

In [74]:
ser = pd.Series(rng.randint(0, 10, 4))

In [75]:
ser

0    6
1    3
2    7
3    4
dtype: int32

In [76]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])

In [77]:
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


Универсальные функции из библиотеки **NumPy** поддерживаются любым объектом **Pandas**. \
Результатом будет другой объект **Pandas** *с сохранением индексов*

In [78]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [79]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


In [80]:
area = pd.Series({'Alaska': 1723337, 'Texas': 695662, 'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,'New York': 19651127}, name='population')

In [81]:
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

*Сопоставление индексов было реализовано подобно объединению множеств, отсутствующие значения получили аттрибут NaN*

In [82]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])

In [83]:
print(A, '\n')
print(B)

0    2
1    4
2    6
dtype: int64 

1    1
2    3
3    5
dtype: int64


In [84]:
# Сложение двух объектов Series аналогично сложению множеств, пустые значения - NaN
A+B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

method **add** - Реализация оператора "+" для объектов \
attribute **fill_value** - Значения заполнителя, подставит значения для всех пустых элементов

In [85]:
A.add(B, fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

#### **Выравнивание индексов**

При выполнении операций, индексы выравниваются правильно независимо от их расположения в двух объектах и индексы в полученном результате отсартированы. \
атрибут **fill_value** для заполнения пропусков также доступен в соответствующих методах

In [86]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))

In [87]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))

In [88]:
print(A)
print('----------')
print(B)

   A   B
0  1  11
1  5   1
----------
   B  A  C
0  4  0  9
1  5  8  0
2  9  2  6


In [89]:
A.add(B, fill_value=0) # Операция сложения доступная и через оператор +, но с методами

Unnamed: 0,A,B,C
0,1.0,15.0,9.0
1,13.0,6.0,0.0
2,2.0,9.0,6.0


**df.stack()** - Выстриавает значения фрейма в один столбец

In [90]:
A.stack()

0  A     1
   B    11
1  A     5
   B     1
dtype: int32

**Вычитание одномерного массива из двумерного**

In [91]:
A = rng.randint(10, size=(3, 4))

In [92]:
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [93]:
# Вычитание из массива NumPy первой строки из каждой
A-A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

*Аналогичный способ с фреймами*

In [94]:
df = pd.DataFrame(A, columns=list('QRST'))

In [95]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [96]:
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [97]:
# Операция по столбцам. Вычитание столбца из каждого столбца фрейма
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [98]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [99]:
halfrow = df.iloc[0, ::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [100]:
df-halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


#### **Обработка отсутствующих значений**

In [109]:
nanarr = np.array([1, np.nan, 3])

In [112]:
# Операции агрегирования над массивами, содержащими nan всегда возвращают nan
nanarr.sum(), nanarr.min()

(nan, nan)

In [116]:
# Для выполнения операций без учета nan-значений следуюет использовать nan-эквиволенты этих функций
np.nansum(nanarr), np.nanmin(nanarr)

(4.0, 1.0)

**NaN методы**

In [135]:
# В Pandas nan и None взаимозаменяемы, Pandas преобразует оба типа к NaN
ser = pd.Series([0, 1, np.nan, 2, None, 3])
print(ser)

0    0.0
1    1.0
2    NaN
3    2.0
4    NaN
5    3.0
dtype: float64


In [136]:
# Булева маска для отсутствующих значений.
ser.isnull()

0    False
1    False
2     True
3    False
4     True
5    False
dtype: bool

In [137]:
# Булева маска для присутствующих значений.(антипод isnull)
ser.notnull()

0     True
1     True
2    False
3     True
4    False
5     True
dtype: bool

In [138]:
# Замена nan значений
ser.fillna('empty')

0      0.0
1      1.0
2    empty
3      2.0
4    empty
5      3.0
dtype: object

In [139]:
# Возвращает отфильтрованный объект без nan-значений
ser.dropna()

0    0.0
1    1.0
3    2.0
5    3.0
dtype: float64

**NaN методы в фреймах**

стр 161
