# Pandas

## Series

In [1]:
import pandas as pd

In [2]:
a = [1, 3, 5, 7, 2]
b = pd.Series(a)
b

0    1
1    3
2    5
3    7
4    2
dtype: int64

In [3]:
type(b)

pandas.core.series.Series

In [4]:
from datetime import date

In [5]:
index = [date(2019, 4, 1) for i in a]
c = pd.Series(a, index=index)
c

2019-04-01    1
2019-04-01    3
2019-04-01    5
2019-04-01    7
2019-04-01    2
dtype: int64

In [6]:
b.index = ['a', 'b', 'c', 'd', 'e']
b

a    1
b    3
c    5
d    7
e    2
dtype: int64

In [7]:
c.index

Index([2019-04-01, 2019-04-01, 2019-04-01, 2019-04-01, 2019-04-01], dtype='object')

In [8]:
c.index[0].month

4

In [9]:
c.index = pd.to_datetime(c.index)
c.index

DatetimeIndex(['2019-04-01', '2019-04-01', '2019-04-01', '2019-04-01',
               '2019-04-01'],
              dtype='datetime64[ns]', freq=None)

In [10]:
c.index.day

Index([1, 1, 1, 1, 1], dtype='int32')

In [11]:
d = pd.Series(a, index=[0, 1, 0, 1, 0])
d

0    1
1    3
0    5
1    7
0    2
dtype: int64

In [12]:
import numpy as np

In [13]:
e = pd.Series(a, dtype=np.float32)
e

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32

In [14]:
e = pd.Series(a)
e = e.astype(np.float32)
e

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32

In [15]:
dict_ = {'1st': 'a', '2nd': 'b', '3rd': 'c'}
f = pd.Series(dict_)
f

1st    a
2nd    b
3rd    c
dtype: object

In [16]:
type(f)

pandas.core.series.Series

In [17]:
f.values

array(['a', 'b', 'c'], dtype=object)

In [18]:
a = [1, 2, 3]
type(a)

list

In [19]:
a*4

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [20]:
b = np.array([1, 2, 3])
type(b)

numpy.ndarray

In [21]:
b*4

array([ 4,  8, 12])

**Series** - моссив, представляющий изменяемый словарь, в котором индексы могут повторяться

**DataFrame** - это таблица данных, в которой столбцами являются структурами типа Series

### Вывод структуры Serias

In [22]:
e.head(3)

0    1.0
1    3.0
2    5.0
dtype: float32

In [23]:
e.tail(3)

2    5.0
3    7.0
4    2.0
dtype: float32

In [24]:
e.describe()

count    5.000000
mean     3.600000
std      2.408319
min      1.000000
25%      2.000000
50%      3.000000
75%      5.000000
max      7.000000
dtype: float64

In [25]:
e.index

RangeIndex(start=0, stop=5, step=1)

In [26]:
e.shape

(5,)

In [27]:
e.info()

<class 'pandas.core.series.Series'>
RangeIndex: 5 entries, 0 to 4
Series name: None
Non-Null Count  Dtype  
--------------  -----  
5 non-null      float32
dtypes: float32(1)
memory usage: 148.0 bytes


### Фильтрация данных Serias

Фильтрацию данных Serias можно осуществлять с помощью:

- булевых выражений
- срезов

#### Фильтрация Булевыми выражениями

In [28]:
e[e>2]

1    3.0
2    5.0
3    7.0
dtype: float32

In [29]:
e > 2

0    False
1     True
2     True
3     True
4    False
dtype: bool

In [30]:
e[(e>2) & (e<6)]

1    3.0
2    5.0
dtype: float32

In [31]:
e[e>2] = -1
e

0    1.0
1   -1.0
2   -1.0
3   -1.0
4    2.0
dtype: float32

#### Срезы

In [32]:
e[[1, 3]] = 10
e

0     1.0
1    10.0
2    -1.0
3    10.0
4     2.0
dtype: float32

In [33]:
e[::2]

0    1.0
2   -1.0
4    2.0
dtype: float32

### Добавление и удаление данных Series

In [34]:
type(e)

pandas.core.series.Series

In [35]:
g = pd.concat([e, f]) # append is depricated use concat or _append
g

0       1.0
1      10.0
2      -1.0
3      10.0
4       2.0
1st       a
2nd       b
3rd       c
dtype: object

In [36]:
g = g._append(f)
g

0       1.0
1      10.0
2      -1.0
3      10.0
4       2.0
1st       a
2nd       b
3rd       c
1st       a
2nd       b
3rd       c
dtype: object

In [37]:
h = g.drop([0,'1st'])
h

1      10.0
2      -1.0
3      10.0
4       2.0
2nd       b
3rd       c
2nd       b
3rd       c
dtype: object

## DataFrame

**DataFrame** - это двухмерная таблица данных. Его можно создать с помощью словаря, где его:

- ключи - названия столбцов
- значения - списки, явлющиеся столбцами

In [38]:
a = {
    "col1": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    "col2": ["a", "b", "c", "d", "e", "f", "g", "h", "i", "j"]
}

b = pd.DataFrame(a)

b

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g
7,8,h
8,9,i
9,10,j


### Структура датафрейма

In [39]:
b.head(3)

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c


In [40]:
b.tail(3)

Unnamed: 0,col1,col2
7,8,h
8,9,i
9,10,j


In [41]:
b.shape

(10, 2)

In [42]:
b.columns

Index(['col1', 'col2'], dtype='object')

In [43]:
b.index

RangeIndex(start=0, stop=10, step=1)

In [44]:
b.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    10 non-null     int64 
 1   col2    10 non-null     object
dtypes: int64(1), object(1)
memory usage: 288.0+ bytes


In [45]:
b.describe()

Unnamed: 0,col1
count,10.0
mean,5.5
std,3.02765
min,1.0
25%,3.25
50%,5.5
75%,7.75
max,10.0


### Фильтрация данных DataFrame

#### Фильтрация с помощью (колонок) Series

In [46]:
b['col1']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: col1, dtype: int64

In [47]:
type(b['col1'])

pandas.core.series.Series

In [48]:
b[['col1', 'col2']]

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g
7,8,h
8,9,i
9,10,j


#### Фильтрация с помощью loc() и iloc()

In [49]:
b.loc[2] # вывод одной строки с индексом 2

col1    3
col2    c
Name: 2, dtype: object

In [50]:
b.loc[2, 'col2'] # выовод значения из колонки col2 в строке с индексом 2

'c'

In [51]:
b.iloc[2, 1] # аналогично предыдущему примеру, но вместо имени колонки можно использовать индекс iloc

'c'

##### В loc() и iloc() можно использовать несколько индексов, с помощью списка

In [52]:
b.loc[[2, 4, 6, 8]] # с помощью списка ищем несколько строк с индексами 2, 4, 6, 8

Unnamed: 0,col1,col2
2,3,c
4,5,e
6,7,g
8,9,i


In [53]:
b.iloc[[2, 4, 6, 8]] 

Unnamed: 0,col1,col2
2,3,c
4,5,e
6,7,g
8,9,i


#### Филтрация булевыми выражениями

In [54]:
b.loc[(b['col1'] > 3) | (b['col1'] == 1)] # вывод строк, где значение col1 больше 3 или равно 1

Unnamed: 0,col1,col2
0,1,a
3,4,d
4,5,e
5,6,f
6,7,g
7,8,h
8,9,i
9,10,j


In [55]:
b.loc[(b['col1'] > 3) | (b['col1'] == 1), 'col1'] # аналагично первому, но выводим только значения col1

0     1
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: col1, dtype: int64

#### Фильтрация c помощью встроенных методов

In [56]:
b.query('col1 > 3 | col1 == 1')['col1'] # аналогичная, но более короткая запись

0     1
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: col1, dtype: int64

In [57]:
b[b['col1'].between(4, 10) | (b['col1'] == 1)]['col1']

0     1
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: col1, dtype: int64

In [58]:
b[b.isin([1, 4, 5, 6, 7, 8, 9, 10])]['col1']

0     1.0
1     NaN
2     NaN
3     4.0
4     5.0
5     6.0
6     7.0
7     8.0
8     9.0
9    10.0
Name: col1, dtype: float64

In [59]:
b[3:]

Unnamed: 0,col1,col2
3,4,d
4,5,e
5,6,f
6,7,g
7,8,h
8,9,i
9,10,j


## Копирование и конвертирование структур Pandas

In [60]:
type(b)

pandas.core.frame.DataFrame

In [61]:
type(b['col1'])

pandas.core.series.Series

In [62]:
# из Seris в DataFrame
c = pd.Series([1, 2, 3, 4, 5]) 
d = pd.DataFrame(c)
d

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [63]:
f = d.copy() # создание копии
f

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


## Случайные значения из DataFrame

In [64]:
d.sample(frac=0.5, replace=True, random_state=1)

Unnamed: 0,0
3,4
4,5


In [65]:
d

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


## Запись и чтение файлов

### Файл pickle

In [66]:
h.to_pickle('h.pkl') # сохранение в файл объекта Series

In [67]:
k = pd.read_pickle('h.pkl') # загрузка из файл объекта Series
k

1      10.0
2      -1.0
3      10.0
4       2.0
2nd       b
3rd       c
2nd       b
3rd       c
dtype: object

In [68]:
b.to_csv("test.csv", sep=';', index=False)

In [69]:
b = pd.read_csv("test.csv", sep=';')
b

Unnamed: 0,col1,col2
0,1,a
1,2,b
2,3,c
3,4,d
4,5,e
5,6,f
6,7,g
7,8,h
8,9,i
9,10,j


## Работа с данными в Pandas

###  Соединение таблиц по столбцам

In [70]:
authors = pd.DataFrame({
    
    "author_id": [1, 2, 3],
    "author_name": ['Пушкин', 'Толстой', 'Достоевский̆']
})
authors

Unnamed: 0,author_id,author_name
0,1,Пушкин
1,2,Толстой
2,3,Достоевский̆


In [71]:
books = pd.DataFrame({
    'author_id': [2, 3, 3, 4],
    'book_title': ['Война и мир', 'Идиот', 'Преступление и наказание', 'Отцы и дети'],
})
books

Unnamed: 0,author_id,book_title
0,2,Война и мир
1,3,Идиот
2,3,Преступление и наказание
3,4,Отцы и дети


In [72]:
pd.merge(authors, books, on='author_id', how='inner') # inner - пересечение

Unnamed: 0,author_id,author_name,book_title
0,2,Толстой,Война и мир
1,3,Достоевский̆,Идиот
2,3,Достоевский̆,Преступление и наказание


In [73]:
merged_df = pd.merge(authors, books, on='author_id', how='outer') # outer - объединение
merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Пушкин,
1,2,Толстой,Война и мир
2,3,Достоевский̆,Идиот
3,3,Достоевский̆,Преступление и наказание
4,4,,Отцы и дети


In [74]:
pd.merge(authors, books, on='author_id', how='left') # left - слева

Unnamed: 0,author_id,author_name,book_title
0,1,Пушкин,
1,2,Толстой,Война и мир
2,3,Достоевский̆,Идиот
3,3,Достоевский̆,Преступление и наказание


In [75]:
pd.merge(authors, books, on='author_id', how='right') # right - справа

Unnamed: 0,author_id,author_name,book_title
0,2,Толстой,Война и мир
1,3,Достоевский̆,Идиот
2,3,Достоевский̆,Преступление и наказание
3,4,,Отцы и дети


### Объединение таблиц по столбцам

In [76]:
new_columns = pd.DataFrame(
{
    'new_column1': ['a', 'b', 'c', 'd', 'e'],
    'new_column2': ['а', 'б', 'в', 'г', 'д']
}
)

new_columns

Unnamed: 0,new_column1,new_column2
0,a,а
1,b,б
2,c,в
3,d,г
4,e,д


In [77]:
merged_col = pd.concat([merged_df, new_columns], axis=1, ignore_index=True)
merged_col

Unnamed: 0,0,1,2,3,4
0,1,Пушкин,,a,а
1,2,Толстой,Война и мир,b,б
2,3,Достоевский̆,Идиот,c,в
3,3,Достоевский̆,Преступление и наказание,d,г
4,4,,Отцы и дети,e,д


### Объединение таблиц по строкам

In [78]:
new_rows = pd.DataFrame(
{
    'author_id': [5, 6],
    'author_name': ['Носов', 'Булгаков'],
    'book_title': ['Незнайка', 'Мастер и Маргарита']
}
)
new_rows

Unnamed: 0,author_id,author_name,book_title
0,5,Носов,Незнайка
1,6,Булгаков,Мастер и Маргарита


In [79]:
merged_df = pd.concat([merged_df, new_rows], axis=0, ignore_index=True)
merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Пушкин,
1,2,Толстой,Война и мир
2,3,Достоевский̆,Идиот
3,3,Достоевский̆,Преступление и наказание
4,4,,Отцы и дети
5,5,Носов,Незнайка
6,6,Булгаков,Мастер и Маргарита


### Работа с пропусками

In [80]:
merged_df[merged_df["author_name"].isnull()]

Unnamed: 0,author_id,author_name,book_title
4,4,,Отцы и дети


In [81]:
merged_df[merged_df["book_title"].isnull()]

Unnamed: 0,author_id,author_name,book_title
0,1,Пушкин,


In [82]:
merged_df["book_title"] = merged_df["book_title"].fillna(0) # замена NaN на 0
merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Пушкин,0
1,2,Толстой,Война и мир
2,3,Достоевский̆,Идиот
3,3,Достоевский̆,Преступление и наказание
4,4,,Отцы и дети
5,5,Носов,Незнайка
6,6,Булгаков,Мастер и Маргарита


### Добавление столбца в DataFrame

In [83]:
merged_df["quantity_2"] = 0 # бродкаст в массив [0, 0, 0, 0, 0]
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2
0,1,Пушкин,0,0
1,2,Толстой,Война и мир,0
2,3,Достоевский̆,Идиот,0
3,3,Достоевский̆,Преступление и наказание,0
4,4,,Отцы и дети,0
5,5,Носов,Незнайка,0
6,6,Булгаков,Мастер и Маргарита,0


In [84]:
type(c)

pandas.core.series.Series

In [85]:
merged_df["from_series"] = c
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series
0,1,Пушкин,0,0,1.0
1,2,Толстой,Война и мир,0,2.0
2,3,Достоевский̆,Идиот,0,3.0
3,3,Достоевский̆,Преступление и наказание,0,4.0
4,4,,Отцы и дети,0,5.0
5,5,Носов,Незнайка,0,
6,6,Булгаков,Мастер и Маргарита,0,


In [86]:
merged_df["from_list"] = [1, 2, 3, 4, 5, 6, 7]
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,from_list
0,1,Пушкин,0,0,1.0,1
1,2,Толстой,Война и мир,0,2.0,2
2,3,Достоевский̆,Идиот,0,3.0,3
3,3,Достоевский̆,Преступление и наказание,0,4.0,4
4,4,,Отцы и дети,0,5.0,5
5,5,Носов,Незнайка,0,,6
6,6,Булгаков,Мастер и Маргарита,0,,7


In [87]:
merged_df["from_dict"] = {0: 1, 1: 2, 2: 3, 3: 4, 4: 5, 5: 6, 6: 7}
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,from_list,from_dict
0,1,Пушкин,0,0,1.0,1,1
1,2,Толстой,Война и мир,0,2.0,2,2
2,3,Достоевский̆,Идиот,0,3.0,3,3
3,3,Достоевский̆,Преступление и наказание,0,4.0,4,4
4,4,,Отцы и дети,0,5.0,5,5
5,5,Носов,Незнайка,0,,6,6
6,6,Булгаков,Мастер и Маргарита,0,,7,7


### Добавление строки в таблицу DataFrame

In [88]:
merged_df = merged_df._append(
{
    'author_id': 7,
    'author_name': 'Лермонтов',
    'book_title': 'Мцири',
    'quantity_2': 0
},
    ignore_index=True
)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,from_list,from_dict
0,1,Пушкин,0,0,1.0,1.0,1.0
1,2,Толстой,Война и мир,0,2.0,2.0,2.0
2,3,Достоевский̆,Идиот,0,3.0,3.0,3.0
3,3,Достоевский̆,Преступление и наказание,0,4.0,4.0,4.0
4,4,,Отцы и дети,0,5.0,5.0,5.0
5,5,Носов,Незнайка,0,,6.0,6.0
6,6,Булгаков,Мастер и Маргарита,0,,7.0,7.0
7,7,Лермонтов,Мцири,0,,,


#### Смена типа данных столбца (колонки)

In [89]:
merged_df["quantity_2"]

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
Name: quantity_2, dtype: int64

In [90]:
merged_df["quantity_2"] = merged_df["quantity_2"].astype(float)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,from_list,from_dict
0,1,Пушкин,0,0.0,1.0,1.0,1.0
1,2,Толстой,Война и мир,0.0,2.0,2.0,2.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0,3.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0,4.0
4,4,,Отцы и дети,0.0,5.0,5.0,5.0
5,5,Носов,Незнайка,0.0,,6.0,6.0
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0,7.0
7,7,Лермонтов,Мцири,0.0,,,


In [91]:
merged_df["quantity_2"]

0    0.0
1    0.0
2    0.0
3    0.0
4    0.0
5    0.0
6    0.0
7    0.0
Name: quantity_2, dtype: float64

#### Замена индексов в DataFrame

In [92]:
merged_df.set_index("author_id", inplace=True)
merged_df

Unnamed: 0_level_0,author_name,book_title,quantity_2,from_series,from_list,from_dict
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Пушкин,0,0.0,1.0,1.0,1.0
2,Толстой,Война и мир,0.0,2.0,2.0,2.0
3,Достоевский̆,Идиот,0.0,3.0,3.0,3.0
3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0,4.0
4,,Отцы и дети,0.0,5.0,5.0,5.0
5,Носов,Незнайка,0.0,,6.0,6.0
6,Булгаков,Мастер и Маргарита,0.0,,7.0,7.0
7,Лермонтов,Мцири,0.0,,,


#### Сброс индексов

In [93]:
merged_df.reset_index(inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,from_list,from_dict
0,1,Пушкин,0,0.0,1.0,1.0,1.0
1,2,Толстой,Война и мир,0.0,2.0,2.0,2.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0,3.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0,4.0
4,4,,Отцы и дети,0.0,5.0,5.0,5.0
5,5,Носов,Незнайка,0.0,,6.0,6.0
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0,7.0
7,7,Лермонтов,Мцири,0.0,,,


#### Переименование столбцов

In [94]:
merged_df.rename(columns={"from_list": "price"}, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,price,from_dict
0,1,Пушкин,0,0.0,1.0,1.0,1.0
1,2,Толстой,Война и мир,0.0,2.0,2.0,2.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0,3.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0,4.0
4,4,,Отцы и дети,0.0,5.0,5.0,5.0
5,5,Носов,Незнайка,0.0,,6.0,6.0
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0,7.0
7,7,Лермонтов,Мцири,0.0,,,


#### Удаление столбца (колонки)

In [95]:
merged_df.drop("from_dict", axis=1, inplace=True) # можно указать для удаления список
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,price
0,1,Пушкин,0,0.0,1.0,1.0
1,2,Толстой,Война и мир,0.0,2.0,2.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0
4,4,,Отцы и дети,0.0,5.0,5.0
5,5,Носов,Незнайка,0.0,,6.0
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0
7,7,Лермонтов,Мцири,0.0,,


#### Удаление строк

In [96]:
merged_df.drop(0, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,price
1,2,Толстой,Война и мир,0.0,2.0,2.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0
4,4,,Отцы и дети,0.0,5.0,5.0
5,5,Носов,Незнайка,0.0,,6.0
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0
7,7,Лермонтов,Мцири,0.0,,


### Сортировка

In [97]:
merged_df.sort_values("author_name", inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,price
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0
7,7,Лермонтов,Мцири,0.0,,
5,5,Носов,Незнайка,0.0,,6.0
1,2,Толстой,Война и мир,0.0,2.0,2.0
4,4,,Отцы и дети,0.0,5.0,5.0


In [103]:
merged_df.sort_index(inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,price,total
1,2,Толстой,Война и мир,0.0,2.0,2.0,4.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0,9.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0,16.0
4,4,,Отцы и дети,0.0,5.0,5.0,25.0
5,5,Носов,Незнайка,0.0,,6.0,
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0,
7,7,Лермонтов,Мцири,0.0,,,


#### Группировка

In [111]:
merged_df.groupby('author_id').sum()

Unnamed: 0_level_0,author_name,book_title,quantity_2,from_series,price,total
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2,Толстой,Война и мир,0.0,2.0,2.0,4.0
3,Достоевский̆Достоевский̆,ИдиотПреступление и наказание,0.0,7.0,7.0,25.0
4,0,Отцы и дети,0.0,5.0,5.0,25.0
5,Носов,Незнайка,0.0,0.0,6.0,0.0
6,Булгаков,Мастер и Маргарита,0.0,0.0,7.0,0.0
7,Лермонтов,Мцири,0.0,0.0,0.0,0.0


In [124]:
merged_df.agg({'price': 'max', 'total': 'count'})

price    7.0
total    4.0
dtype: float64

### Уникальные значения

In [99]:
merged_df['author_name'].unique()

array(['Толстой', 'Достоевский̆', nan, 'Носов', 'Булгаков', 'Лермонтов'],
      dtype=object)

### Математические операции

In [100]:
merged_df['total'] = merged_df['from_series'] * merged_df['price']
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity_2,from_series,price,total
1,2,Толстой,Война и мир,0.0,2.0,2.0,4.0
2,3,Достоевский̆,Идиот,0.0,3.0,3.0,9.0
3,3,Достоевский̆,Преступление и наказание,0.0,4.0,4.0,16.0
4,4,,Отцы и дети,0.0,5.0,5.0,25.0
5,5,Носов,Незнайка,0.0,,6.0,
6,6,Булгаков,Мастер и Маргарита,0.0,,7.0,
7,7,Лермонтов,Мцири,0.0,,,


### Примнение собственных функций к столбцам

In [102]:
merged_df['book_title'].apply(lambda x: x.upper())

1                 ВОЙНА И МИР
2                       ИДИОТ
3    ПРЕСТУПЛЕНИЕ И НАКАЗАНИЕ
4                 ОТЦЫ И ДЕТИ
5                    НЕЗНАЙКА
6          МАСТЕР И МАРГАРИТА
7                       МЦИРИ
Name: book_title, dtype: object

### Статистические методы

In [None]:
merged_df['price'].max()

In [None]:
merged_df['price'].min()

In [None]:
merged_df['price'].mean()

In [None]:
merged_df['price'].median()

In [None]:
merged_df['price'].std() # среднеквадратическое отклонение

In [None]:
merged_df['price'].var() # дисперсия

In [None]:
merged_df.nlargest(3, 'price')

In [None]:
merged_df.nsmallest(3, 'price')

In [None]:
merged_df['author_name'].value_counts()