## Операции над данными в библиотеке Pandas

In [1]:
import numpy as np
import pandas as pd

### Универсальные ф-ии: сохранение индекса

In [6]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))

In [7]:
ser

0    6
1    3
2    7
3    4
dtype: int32

In [8]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)),
                 columns=['A', 'B', 'C', 'D'])

In [9]:
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [10]:
# применение ф-ий NumPy к любому объекту Pandas даст объект Pandas с сохранением индексов
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [11]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


### Универсальные ф-ии: выравниванеи индексов
При бинарных операциях над двумя объектами Series или DataFrame - Pandas будет автоматически выравнивать индексы

In [12]:
area = pd.Series({
    'A': 172,
    'T': 695,
    'C': 423
}, name='area')

In [13]:
area

A    172
T    695
C    423
Name: area, dtype: int64

In [14]:
population = pd.Series({
    'C': 3833,
    'T': 2644,
    'N': 19651
}, name='population')

In [15]:
population

C     3833
T     2644
N    19651
Name: population, dtype: int64

In [16]:
population / area

A         NaN
C    9.061466
N         NaN
T    3.804317
dtype: float64

In [17]:
population + area

A       NaN
C    4256.0
N       NaN
T    3339.0
dtype: float64

##### Можно изменить поведение по умолчанию, и заменить NaN на иной заполнитель:

In [20]:
population.add(area, fill_value=-10000000)
# тоесть когда при выравнивании соответствующее значение партнер не находится, вместо него подставляется заполнитель, 
# и вычисление продолжается

A   -9999828.0
C       4256.0
N   -9980349.0
T       3339.0
dtype: float64

#### Выравнивание индексов в объектах DataFrame:
- При выполнении операций над объектом DataFrame происходит автоматическое выравнивание как столбцов так и индексов

In [21]:
A = pd.DataFrame(rng.randint(0, 20, (2,2)),
                columns=list('AB'))

In [22]:
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [23]:
B = pd.DataFrame(rng.randint(0, 10, (3,3)),
                columns=list('BAC'))

In [24]:
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [25]:
A + B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


In [28]:
fill = A.stack().mean() # вычислили среднее

In [29]:
fill

4.5

In [30]:
A.add(B, fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


In [32]:
A.add(B, fill_value=-100)

Unnamed: 0,A,B,C
0,1.0,15.0,-91.0
1,13.0,6.0,-100.0
2,-98.0,-91.0,-94.0


##### Перечень операторов и эквивалентных им методов Pandas:
    +    add()
    -    sub(), substract()
    *    mul(), multiply()
    /    truediv(), div(), divide()
    //   floordiv()
    %    mod()
    **   pow()

### Универсальные ф-ии: выполнение операций м/у объектами DataFrame и Series

In [33]:
A = rng.randint(10, size=(3,4))

In [34]:
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [35]:
A - A[0] # в соответствии с правилами транслирования, вычитание строки из массива происходит построчно

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

In [36]:
df = pd.DataFrame(A, columns=list('QRST'))

In [37]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [39]:
df.iloc[0]

Q    3
R    8
S    2
T    4
Name: 0, dtype: int32

In [38]:
df - df.iloc[0] # в Pandas вычитание строки так же происходит построчно, в соответствии с правилами транслирования

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


In [43]:
# если же мы хотим выполнить вычитание по столбцам:
df.subtract(df['R'], axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


In [44]:
df.subtract(df['R'])

Unnamed: 0,Q,R,S,T,0,1,2
0,,,,,,,
1,,,,,,,
2,,,,,,,


In [42]:
df.subtract(df['R'], axis=1)

Unnamed: 0,Q,R,S,T,0,1,2
0,,,,,,,
1,,,,,,,
2,,,,,,,


In [45]:
halfrow = df.iloc[0, ::2]

In [46]:
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [47]:
df - halfrow

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,-1.0,,2.0,
2,3.0,,1.0,


In [48]:
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8
