# Работа с данными в Pandas

## Знакомство с Series

### Создание Series

In [None]:
import pandas as pd
import numpy as np

Создадим список с данным (также можно использовать массив numpy)

In [None]:
a = [2, 5, 7, 8, 3]

Создажим на основе этих данных объект Series

In [None]:
b = pd.Series(a)

Справа располагаются данные, слева - индексы

In [None]:
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

Можно задать индексы явно. Это м.б. числа:

In [None]:
b = pd.Series(a, index = [0, 1, 2, 3, 4])
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

Либо символы:

In [None]:
b = pd.Series(a, index = ['a', 'b', 'c', 'd', 'e'])
b

a    2
b    5
c    7
d    8
e    3
dtype: int64

Можно также использовать в качестве индексов дату:

In [None]:
from datetime import date

In [None]:
ind = [date(y, m, d) for y, m, d in [(2018, 1, 15), (2018, 1, 17), (2018, 1, 18), (2018, 1, 21), (2018, 1, 31)]]

In [None]:
b = pd.Series(a, index = ind)
b

2018-01-15    2
2018-01-17    5
2018-01-18    7
2018-01-21    8
2018-01-31    3
dtype: int64

In [None]:
b.index

Index([2018-01-15, 2018-01-17, 2018-01-18, 2018-01-21, 2018-01-31], dtype='object')

In [None]:
b.index[0].year

2018

In [None]:
b.index[0].month

1

In [None]:
b.index[0].day

15

In [None]:
b.index = pd.to_datetime(b.index, format = '%Y-%m-%d')

In [None]:
b.index

DatetimeIndex(['2018-01-15', '2018-01-17', '2018-01-18', '2018-01-21',
               '2018-01-31'],
              dtype='datetime64[ns]', freq=None)

In [None]:
b.index.year

Int64Index([2018, 2018, 2018, 2018, 2018], dtype='int64')

In [None]:
b.index.month

Int64Index([1, 1, 1, 1, 1], dtype='int64')

In [None]:
b.index.day

Int64Index([15, 17, 18, 21, 31], dtype='int64')

Индексы могут быть не уникальными:

In [None]:
b = pd.Series(a, index = [0, 1, 0, 2, 1])
b

0    2
1    5
0    7
2    8
1    3
dtype: int64

Можно поменять индексы:

In [None]:
b.index = [10, 11, 12, 13, 14]
b

10    2
11    5
12    7
13    8
14    3
dtype: int64

Задать тип данных:

In [None]:
b = pd.Series(a, dtype = np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

Или поменять тип данных позже с помощью astype:

In [None]:
b = pd.Series(a)
b = b.astype(np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

Создать Series из словаря (ключи становятся индексами, значения - данными):

In [None]:
d = {'1st':'a', '2nd':'b', '3rd':'c', '4th':'d', '5th':'e'}

In [None]:
b = pd.Series(d)
b

1st    a
2nd    b
3rd    c
4th    d
5th    e
dtype: object

In [None]:
b.index  # просмотр индексов

Index(['1st', '2nd', '3rd', '4th', '5th'], dtype='object')

In [None]:
b.values  # просмотр данных

array(['a', 'b', 'c', 'd', 'e'], dtype=object)

###Просмотр данных



In [None]:
b = pd.Series([2, 5, 7, 8, 3, 4, 7])

Просмотреть индексы

In [None]:
b.index  # если индексы явл-ся последовательностью чисел, будет показан их старт, стоп и шаг

RangeIndex(start=0, stop=7, step=1)

Просмотреть данные в виде массива Numpy (ndarray):

In [None]:
b.values

array([2, 5, 7, 8, 3, 4, 7])

Доступ к данным по индексу (аналогично словарю):

In [None]:
b

0    2
1    5
2    7
3    8
4    3
5    4
6    7
dtype: int64

In [None]:
b[0]

2

In [None]:
b[2]

7

In [None]:
# Доступ по списку индексов
b[[0, 3]]

0    2
3    8
dtype: int64

### Выбор данных их массива Series

Доступ с помощью head и tail:

In [None]:
# первые несколько элементов (по умолчанию - 5)
b.head()

0    2
1    5
2    7
3    8
4    3
dtype: int64

In [None]:
# покажет указанное число элементов с начала:
b.head(3)

0    2
1    5
2    7
dtype: int64

In [None]:
# последние несколько элементов (по умолчанию - 5)
b.tail()

2    7
3    8
4    3
5    4
6    7
dtype: int64

In [None]:
b.tail(1)

6    7
dtype: int64

Выборка по условию

In [None]:
b

0    2
1    5
2    7
3    8
4    3
5    4
6    7
dtype: int64

In [None]:
b[b > 5]

2    7
3    8
6    7
dtype: int64

In [None]:
# выборка по логическому условию "и"
b[(b > 5) & (b % 2 == 0)]

3    8
dtype: int64

In [None]:
# выборка по логическому условию "или"
b[(b > 5) | (b % 3 == 0)] 

2    7
3    8
4    3
6    7
dtype: int64

### Изменение элементов

In [None]:
b = pd.Series([2, 5, 7, 8, 3, 4, 7])
b

0    2
1    5
2    7
3    8
4    3
5    4
6    7
dtype: int64

In [None]:
b[0] = 4  # элементу с индексом 0 присваивается значение 4
b

0    4
1    5
2    7
3    8
4    3
5    4
6    7
dtype: int64

In [None]:
b[b < 5] = 0  # все числе в Series, которые меньше 5, приравниваются к 0
b

0    0
1    5
2    7
3    8
4    0
5    0
6    7
dtype: int64

In [None]:
b[[0, 1, 2]] = 1  # элементам под индексами 0, 1, 2 присаивается значение 1 
b

0    1
1    1
2    1
3    8
4    0
5    0
6    7
dtype: int64

### Добавление и удаление данных

**Добавление данных**

In [None]:
b = pd.Series([2, 5, 7, 8, 3, 4, 7])
b

0    2
1    5
2    7
3    8
4    3
5    4
6    7
dtype: int64

In [None]:
b = b.append(pd.Series({6:10, 7:11, 8:12, 9:13}))   # индексы м.б. одинаковыми
b

0     2
1     5
2     7
3     8
4     3
5     4
6     7
6    10
7    11
8    12
9    13
dtype: int64

**Удаление данных по индексу**

In [None]:
b = b.drop([0, 1, 2])
b

3     8
4     3
5     4
6     7
6    10
7    11
8    12
9    13
dtype: int64

###Запись и чтение файла

In [None]:
b.to_pickle('b.pkl')  # запись Series в файл с форматом pickle

In [None]:
b2 = pd.read_pickle('b.pkl')
b2

3     8
4     3
5     4
6     7
6    10
7    11
8    12
9    13
dtype: int64

##Структура данных DataFrame

### Создание DataFrame

In [None]:
df = pd.DataFrame({'col1': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'],
                   'col2': [1, 3, 5, 7, 9, 11, 13, 15]})
df

Unnamed: 0,col1,col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


### Просмотр информации о DataFrame

In [None]:
df.shape

(8, 2)

In [None]:
df.columns  # список столбцов

Index(['col1', 'col2'], dtype='object')

In [None]:
df.index

RangeIndex(start=0, stop=8, step=1)

In [None]:
df.info()  # покажет кол-во строк в столбце, тип данных

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    8 non-null      object
 1   col2    8 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 256.0+ bytes


In [None]:
df.describe()  # статистические хар-ки

Unnamed: 0,col2
count,8.0
mean,8.0
std,4.898979
min,1.0
25%,4.5
50%,8.0
75%,11.5
max,15.0


### Получение данных

In [None]:
df.head()  # просмотр нескольких первых строк DataFrame

Unnamed: 0,col1,col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9


In [None]:
df.head(3)

Unnamed: 0,col1,col2
0,a,1
1,b,3
2,c,5


In [None]:
df['col1'].head()   # вывод первых строк для отдельного столбца

0    a
1    b
2    c
3    d
4    e
Name: col1, dtype: object

In [None]:
df.col1.head()  # можно просто указать столбец через строчку

0    a
1    b
2    c
3    d
4    e
Name: col1, dtype: object

In [None]:
df.tail()  # выводит последние 5 значений DataFrame

Unnamed: 0,col1,col2
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


Изменение индекса

In [None]:
df.index = [2, 4, 6, 8, 10, 12, 14, 16]
df

Unnamed: 0,col1,col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


Выбор данных по индексу

In [None]:
df.loc[2, 'col1']  # указывается индекс строки и имя столбца

'a'

In [None]:
df.loc[4]  # если второй аргумент не указан, выбираются все столбцы

col1    b
col2    3
Name: 4, dtype: object

In [None]:
df.loc[2:4]  # срез по строкам, верхняя граница включена

Unnamed: 0,col1,col2
2,a,1
4,b,3


Выбор данных по позиции

In [None]:
df

Unnamed: 0,col1,col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [None]:
df.iloc[0]  # просмотр первой строки во всех столбцах

col1    a
col2    1
Name: 2, dtype: object

In [None]:
df.iloc[0:2]   # просмотр среза первых двух строк, верхняя граница не включена

Unnamed: 0,col1,col2
2,a,1
4,b,3


In [None]:
df.iloc[2:6, 0]   # для просмотра данных конкретного столбца указывается его индекс

6     c
8     d
10    e
12    f
Name: col1, dtype: object

Выбор по условию

In [None]:
df.loc[df['col1'] == 'b']  # выбираем те строки, в которых значение col1 = b

Unnamed: 0,col1,col2
4,b,3


In [None]:
df.loc[df['col1'] == 'b', 'col2']   # здесь результат такой же, но выводятся не все столбца, а только col2

4    3
Name: col2, dtype: int64

In [None]:
df.loc[df['col1'] == 'b', 'col2'].values    # также эти данные можно просмотреть в виде многомерного массива numpy

array([3])

In [None]:
df.loc[df['col2'] > 10, 'col1']   # просмотр тех строк, в которых значение col2 больше 10, при этом выводятся только значения col1

12    f
14    g
16    h
Name: col1, dtype: object

In [None]:
df.loc[(df['col2'] > 10) & (df['col1'] != 'g')]   # пример логического "и"

Unnamed: 0,col1,col2
12,f,11
16,h,15


In [None]:
df.loc[(df['col2'] > 10) | (df['col2'] % 9 == 0)]   # пример логического "или"

Unnamed: 0,col1,col2
10,e,9
12,f,11
14,g,13
16,h,15


In [None]:
df.loc[df['col2'].between(11,13)]  # указание отрезка, которому должен соответствовать столбец

Unnamed: 0,col1,col2
12,f,11
14,g,13


In [None]:
df.loc[df['col1'].isin(['a', 'b', 'c', 'd', 'e'])]   # можно указать конкретные элементы для значений столбца

Unnamed: 0,col1,col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9


In [None]:
df.loc[~df['col1'].isin(['a', 'b', 'c', 'd', 'e'])]   # указание строк, которые не соответствуют значениям в методе isin 

Unnamed: 0,col1,col2
12,f,11
14,g,13
16,h,15


Более короткий и удобный вид запроса с помощью метода .query

In [None]:
df

Unnamed: 0,col1,col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [None]:
df.query('col1 == "b"')  # название столбца можно писать без кавычек

Unnamed: 0,col1,col2
4,b,3


In [None]:
df.query('col2 > 10')

Unnamed: 0,col1,col2
12,f,11
14,g,13
16,h,15


**Столбец DataFrame в виде Series**

In [None]:
s = df['col1']
s

2     a
4     b
6     c
8     d
10    e
12    f
14    g
16    h
Name: col1, dtype: object

In [None]:
type(s)  # выбранный столбец имеет тип Series

pandas.core.series.Series

**Получение DataFrame из Series**

In [None]:
df2 = pd.DataFrame(s)
df2

Unnamed: 0,col1
2,a
4,b
6,c
8,d
10,e
12,f
14,g
16,h


**Копирование DataFrame**

In [None]:
df_copy = df.copy()
df_copy

Unnamed: 0,col1,col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


### Случайный выбор и перемешивание

Случайный выбор n-го количества строк

In [None]:
df.sample(n = 2)

Unnamed: 0,col1,col2
6,c,5
16,h,15


Случайный выбор доли от исходного DataFrame

In [None]:
df.sample(frac = 0.5)   # выборка половины (0,5) исходного DataFrame

Unnamed: 0,col1,col2
14,g,13
10,e,9
8,d,7
4,b,3


Случайный выбор с возвращением (строки могут повторяться)

In [None]:
df.sample(frac = 0.5, replace=True)

Unnamed: 0,col1,col2
10,e,9
14,g,13
2,a,1
10,e,9


Случайное перемешивание

In [None]:
# random_state - для повторения одной и той же случайной выборки (в скобках к-л число)
df.sample(frac = 1, random_state = 42)

Unnamed: 0,col1,col2
4,b,3
12,f,11
2,a,1
16,h,15
6,c,5
10,e,9
8,d,7
14,g,13


### Запись и чтение DataFrame из файлов

In [None]:
df.to_csv('Test.csv', sep = ';', index = False)  # разделитель по умолчанию ","

In [None]:
df_new = pd.read_csv('Test.csv', sep = ';')
df_new

Unnamed: 0,col1,col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


Запись в excel и pickle - с помощью методов to_excel, to_pickle. Чтение - read_excel, read_pickle

## Работа с данными DataFrame

### Слияние данных

In [None]:
authors = pd.DataFrame({
    'author_id': [1, 2, 3],
    'author_name': ['Pushkin', 'Tolstoy', 'Dostoevsky']
})

In [None]:
authors

Unnamed: 0,author_id,author_name
0,1,Pushkin
1,2,Tolstoy
2,3,Dostoevsky


In [None]:
books = pd.DataFrame({
    'author_id': [2, 3, 3, 4],
    'book_title': ['War and Peace', 'The Idiot', 'Crime and Punishment', 'Fathers and Sons']
})

In [None]:
books

Unnamed: 0,author_id,book_title
0,2,War and Peace
1,3,The Idiot
2,3,Crime and Punishment
3,4,Fathers and Sons


In [None]:
df1 = pd.merge(authors, books, on = 'author_id', how = 'inner')
df1

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The Idiot
2,3,Dostoevsky,Crime and Punishment


In [None]:
df2 = pd.merge(authors, books, on = 'author_id', how = 'left')
df2

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment


In [None]:
df3 = pd.merge(authors, books, on = 'author_id', how = 'right')
df3

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The Idiot
2,3,Dostoevsky,Crime and Punishment
3,4,,Fathers and Sons


In [None]:
df4 = pd.merge(authors, books, on = 'author_id', how = 'outer')
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


### Работа с пропущенными данными

In [None]:
df4.loc[df4['book_title'].isnull()]   # посмотрим строки df4, в которых название книги пропущено

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,


In [None]:
# альтернативный способ
df4[df4['book_title'].isnull()]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,


In [None]:
# просмотр строк, в которых не пропущено имя автора
df4[df4['author_name'].notnull()]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment


In [None]:
# заполнение пропущенных значений специальным текстом
df4['author_name'] = df4['author_name'].fillna('unknown')
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,unknown,Fathers and Sons


In [None]:
df4['book_title'] = df4['book_title'].fillna('unknown')
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,unknown
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,unknown,Fathers and Sons


### Добавление столбцов

In [None]:
df4.loc[(df4['author_name'] != 'unknown') & (df4['book_title'] != 'unknown'), 'quantity'] = 1
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,


In [None]:
df4['quantity'].fillna(0, inplace = True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The Idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,0.0


In [None]:
df4['quantity'] = df4['quantity'].astype(int)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


In [None]:
# сделаем столбец author_id индексом
df4.set_index('author_id', inplace = True)
df4

Unnamed: 0_level_0,author_name,book_title,quantity
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pushkin,unknown,0
2,Tolstoy,War and Peace,1
3,Dostoevsky,The Idiot,1
3,Dostoevsky,Crime and Punishment,1
4,unknown,Fathers and Sons,0


In [None]:
# сброс индекса
df4.reset_index(inplace = True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


### Удаление данных


In [None]:
# сначала добавим новый столбец
df4['price'] = 500
df4

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,unknown,0,500
1,2,Tolstoy,War and Peace,1,500
2,3,Dostoevsky,The Idiot,1,500
3,3,Dostoevsky,Crime and Punishment,1,500
4,4,unknown,Fathers and Sons,0,500


In [None]:
# удалим столбец
df4.drop('price', axis = 1, inplace = True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


In [None]:
# удалим строку (по значению индекса)
df4 = df4.drop(1, axis = 0)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


### Сортировка

In [None]:
# вернем удаленную строку
df4 = df4.append(
    {
        'author_id': 2,
        'author_name': 'Tolstoy',
        'book_title': 'War and Peace',
        'quantity': 1,
    },
    ignore_index = True,
)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,3,Dostoevsky,The Idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,0
4,2,Tolstoy,War and Peace,1


Отсортируем по столбцу author_id:

In [None]:
df4.sort_values(by='author_id', inplace=True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
4,2,Tolstoy,War and Peace,1
1,3,Dostoevsky,The Idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,0


Переустановим индекс:

In [None]:
df4.reset_index(drop=True, inplace=True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


### Соединение датафреймов

Конкатенация по оси 0 (добавление новых строк):

In [None]:
# сначала создадим новый DataFrame
df5 = pd.DataFrame({
    'author_id': [3, 5],
    'author_name': ['Dostoevsky', 'Chekhov'],
    'book_title': ['The Gambler', 'Three sisters'],
    'quantity': [2, 3],
})
df5

Unnamed: 0,author_id,author_name,book_title,quantity
0,3,Dostoevsky,The Gambler,2
1,5,Chekhov,Three sisters,3


In [None]:
df6 = pd.concat([df4, df5], axis=0, ignore_index=True)
df6


Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The Idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0
5,3,Dostoevsky,The Gambler,2
6,5,Chekhov,Three sisters,3


Конкатенация по оси 1 (добавление новых столбцов):

In [None]:
# создаем столбец
df7 = pd.DataFrame(
    {'price': [700, 450, 500, 400, 350]},
    index = [1, 2, 3, 5, 6],
)

In [None]:
df8 = pd.concat([df6, df7], axis=1)
df8

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,unknown,0,
1,2,Tolstoy,War and Peace,1,700.0
2,3,Dostoevsky,The Idiot,1,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0
4,4,unknown,Fathers and Sons,0,
5,3,Dostoevsky,The Gambler,2,400.0
6,5,Chekhov,Three sisters,3,350.0


### Применение функций и методов

In [None]:
df8['total'] = df8['quantity'] * df8['price']
df8

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
0,1,Pushkin,unknown,0,,
1,2,Tolstoy,War and Peace,1,700.0,700.0
2,3,Dostoevsky,The Idiot,1,450.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
4,4,unknown,Fathers and Sons,0,,
5,3,Dostoevsky,The Gambler,2,400.0,800.0
6,5,Chekhov,Three sisters,3,350.0,1050.0


In [None]:
df8['price'].max()

700.0

In [None]:
df8['price'].min()

350.0

In [None]:
df8['price'].mean()

480.0

In [None]:
df8['price'].median()

450.0

In [None]:
df8['price'].std()

135.09256086106296

In [None]:
df8['price'].var()

18250.0

In [None]:
# вывод нескольких наибольших значений
df8.nlargest(3, 'price')

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
1,2,Tolstoy,War and Peace,1,700.0,700.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
2,3,Dostoevsky,The Idiot,1,450.0,450.0


In [None]:
df8['author_name'].unique()  # уникальные значения заданного столбца

array(['Pushkin', 'Tolstoy', 'Dostoevsky', 'unknown', 'Chekhov'],
      dtype=object)

In [None]:
df8['author_name'].nunique()  # количество уникальных значепний

5

In [None]:
df8['author_name'].value_counts()  # сколько раз появляется уникальное значение в данном столбце

Dostoevsky    3
Pushkin       1
Tolstoy       1
unknown       1
Chekhov       1
Name: author_name, dtype: int64

Построчное применение функций и методов

In [None]:
df8['book_title'].apply(lambda x: x.upper())

0                 UNKNOWN
1           WAR AND PEACE
2               THE IDIOT
3    CRIME AND PUNISHMENT
4        FATHERS AND SONS
5             THE GAMBLER
6           THREE SISTERS
Name: book_title, dtype: object

### Группировка данных

1-й способ:

In [None]:
df8.groupby('author_name')['price'].max()

author_name
Chekhov       350.0
Dostoevsky    500.0
Pushkin         NaN
Tolstoy       700.0
unknown         NaN
Name: price, dtype: float64

2-й способ:

In [None]:
price_agg = df8.groupby('author_name').agg({'price': 'max'})
price_agg

Unnamed: 0_level_0,price
author_name,Unnamed: 1_level_1
Chekhov,350.0
Dostoevsky,500.0
Pushkin,
Tolstoy,700.0
unknown,


In [None]:
price_agg = price_agg.reset_index()
price_agg = price_agg.rename(columns={'price': 'max_price'})
price_agg

Unnamed: 0,author_name,max_price
0,Chekhov,350.0
1,Dostoevsky,500.0
2,Pushkin,
3,Tolstoy,700.0
4,unknown,
