In [1]:
import pandas as pd
import numpy as np

# Работа с Pandas

`Pandas` - это библиотека, которая позволяет удобно работать с таблицами. Как и в `numpy`, некоторые компоненты библиотеки `pandas` написаны на языке `C`, что ощутимо ускоряет работу с таблицами, содержащими большие объёмы данных.
Данную библиотеку начал разрабатывать американский датасаентист, Уэс Маккини, в 2008 г.

[Python и анализ данных. Второе издание](https://vk.com/doc44301783_570833604?hash=e5e5250d0459005063)

# Знакомство с Series
---
<ol>
    <li>Создание Series</li>
    <li>Просмотр данных</li>
    <li>Изменение элементов</li>
    <li>Добавление и удаление данных</li>
    <li>Запись и чтение данных из файла</li>
</ol>

#### Создание Series

In [2]:
a = [2,5,7,8,3]

In [3]:
b = pd.Series(a)
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

In [4]:
b = pd.Series(a, index = [1,2,3,4,5])
b

1    2
2    5
3    7
4    8
5    3
dtype: int64

In [5]:
b = pd.Series(a, index = ['a','b','c','d', 'e'])
b

a    2
b    5
c    7
d    8
e    3
dtype: int64

Использование даты в виде индексов:

In [6]:
from datetime import date

In [7]:
ind = [date(y, m, d) for y,m,d in [(2018, 1, 15), (2018, 1, 17), (2018, 1, 18), (2018, 1, 21), (2018, 1, 31)]]

In [8]:
b = pd.Series(a, index=ind)
b

2018-01-15    2
2018-01-17    5
2018-01-18    7
2018-01-21    8
2018-01-31    3
dtype: int64

In [9]:
# индексы в виде datetime, однако numpy все переводит в numpy.object. То есть datetime -> np.object
b.index

Index([2018-01-15, 2018-01-17, 2018-01-18, 2018-01-21, 2018-01-31], dtype='object')

In [10]:
b.index[0]

datetime.date(2018, 1, 15)

In [11]:
b.index[0].year

2018

In [12]:
b.index[0].month

1

In [13]:
b.index[0].day

15

In [14]:
# перевод из numpy.object -> datetime64
# делаем чтобы можно было просмотреть у каждого элемента года. Список годов. А не как выше только у одного элемента.
b.index = pd.to_datetime(b.index, format = '%Y-%m-%d')

In [15]:
# видно что dtype изменился на datetime64
b.index

DatetimeIndex(['2018-01-15', '2018-01-17', '2018-01-18', '2018-01-21',
               '2018-01-31'],
              dtype='datetime64[ns]', freq=None)

In [16]:
b.index.year

Int64Index([2018, 2018, 2018, 2018, 2018], dtype='int64')

In [17]:
b.index.month

Int64Index([1, 1, 1, 1, 1], dtype='int64')

In [18]:
b.index.day

Int64Index([15, 17, 18, 21, 31], dtype='int64')

Очень странная фишка: **Индексы могут быть не уникальными!** 

In [19]:
b = pd.Series(a, index=[0,1,0,2,1])
b

0    2
1    5
0    7
2    8
1    3
dtype: int64

In [20]:
b[0]

0    2
0    7
dtype: int64

Как поменять индексы:

In [21]:
b.index = [10,11,12,13,14]

In [22]:
b

10    2
11    5
12    7
13    8
14    3
dtype: int64

Задать тип данных:

In [23]:
b = pd.Series(a, dtype = np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

Смена с помощью astype:

In [24]:
b = pd.Series(a)
b

0    2
1    5
2    7
3    8
4    3
dtype: int64

In [25]:
b = b.astype(np.float64)
b

0    2.0
1    5.0
2    7.0
3    8.0
4    3.0
dtype: float64

Создать Series из словаря:

In [26]:
d = {'1st' : 'a', '2nd' : 'b', '3rd' : 'c', '4th' : 'd', '5th': 'e'}

In [27]:
b = pd.Series(d)
b

1st    a
2nd    b
3rd    c
4th    d
5th    e
dtype: object

#### Просмотр данных

In [28]:
b = pd.Series((5,2,6,1,6,8,7))

In [29]:
b.index

RangeIndex(start=0, stop=7, step=1)

In [30]:
b.values

array([5, 2, 6, 1, 6, 8, 7], dtype=int64)

In [31]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [32]:
b[0]

5

In [33]:
b[2]

6

In [34]:
# доступ по списку индексов
b[[0,6]]

0    5
6    7
dtype: int64

In [35]:
# по умолчанию первые 5
b.head()

0    5
1    2
2    6
3    1
4    6
dtype: int64

In [36]:
b.head(3)

0    5
1    2
2    6
dtype: int64

In [37]:
b.tail(2)

5    8
6    7
dtype: int64

In [38]:
# по умолчанию первые 5
b.tail()

2    6
3    1
4    6
5    8
6    7
dtype: int64

In [39]:
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

Булевы маски:

In [40]:
b[b>5]

2    6
4    6
5    8
6    7
dtype: int64

In [41]:
b[(b==7)|(b%3==0)]

2    6
4    6
6    7
dtype: int64

#### Изменение элементов

In [42]:
b = pd.Series([5,2,6,1,6,8,7])
b

0    5
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [43]:
b[0] = 4
b

0    4
1    2
2    6
3    1
4    6
5    8
6    7
dtype: int64

In [44]:
b[b < 5] = 0
b

0    0
1    0
2    6
3    0
4    6
5    8
6    7
dtype: int64

In [45]:
b[[0,1,2]] = 1
b

0    1
1    1
2    1
3    0
4    6
5    8
6    7
dtype: int64

#### Дабвление и удаление данных

**Добавление**

In [46]:
# Добавление данных append
b = b.append(pd.Series({6:10, 7:15, 8:11, 9:14}))
b

0     1
1     1
2     1
3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

**Удаление**

In [47]:
b = b.drop([0,1,2])
b

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

**Запись и чтение данных из файла**

In [48]:
# запись серии в файл
b.to_pickle('b.pkl')

In [49]:
# чтение серии из файла
b2 = pd.read_pickle('b.pkl')
b2

3     0
4     6
5     8
6     7
6    10
7    15
8    11
9    14
dtype: int64

In [50]:
type(b2)

pandas.core.series.Series

# Структура данных DataFrame
---
<ol>
<li>Создание DataFrame</li>
<li>Просмотр информации о DataFrame</li>
<li>Получение данных</li>
<li>Случайный выбор и перемешивание</li>
<li>Запись и чтение файлов</li>    
</ol>

**Создание DataFrame**

In [51]:
import numpy as np
import pandas as pd

In [52]:
df = pd.DataFrame({"Col1": ["a", "b", "c", "d", "e", "f", "g", "h"],
     "Col2": [1, 3, 5, 7, 9, 11, 13, 15]}, columns=['Col1', 'Col2'])

In [53]:
df

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


**Просмотр информации о DataFrame**

In [54]:
df.shape

(8, 2)

In [55]:
df.columns

Index(['Col1', 'Col2'], dtype='object')

In [56]:
df.index

RangeIndex(start=0, stop=8, step=1)

## ТОП

In [57]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Col1    8 non-null      object
 1   Col2    8 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 256.0+ bytes


In [58]:
# некоторые статистические значения
df.describe()

Unnamed: 0,Col2
count,8.0
mean,8.0
std,4.898979
min,1.0
25%,4.5
50%,8.0
75%,11.5
max,15.0


In [59]:
df.head()

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9


In [60]:
df.tail()

Unnamed: 0,Col1,Col2
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


In [61]:
df['Col1']

0    a
1    b
2    c
3    d
4    e
5    f
6    g
7    h
Name: Col1, dtype: object

In [62]:
df['Col1'].head()

0    a
1    b
2    c
3    d
4    e
Name: Col1, dtype: object

In [63]:
df.index = [2,4,6,8,10,12,14,16]
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


#### Выбор данных по индексу LOC[]

***LOC*** - указывается название столбца, а в ***ILOC*** указывается номер столбца (начиная с 0)

In [64]:
df.loc[2, 'Col1']

'a'

In [65]:
df.loc[2, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [66]:
# СРЕЗ РАБОТАЕТ ВКЛЮЧИТЕЛЬНО!!!!!
df.loc[2:8, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7


#### Выбор данных по позиции

In [67]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


`iloc`

In [68]:
df.iloc[0, :]

Col1    a
Col2    1
Name: 2, dtype: object

In [69]:
df.iloc[0:2, :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3


In [70]:
# смотрим столбец
df.iloc[0:2, 0]

2    a
4    b
Name: Col1, dtype: object

#### Выбор по условию

In [71]:
df.loc[df['Col1'] == 'b', :]

Unnamed: 0,Col1,Col2
4,b,3


In [72]:
# вывели только столбец Col2
df.loc[df['Col1'] == 'b', "Col2"]

4    3
Name: Col2, dtype: int64

In [73]:
# смотрим в виде массива arrray. Запомни це VALUES!!!
df.loc[df['Col1'] == 'b', "Col2"].values

array([3], dtype=int64)

In [74]:
df.loc[(df['Col2'] > 10) & (df['Col1'] != 'g'),:]

Unnamed: 0,Col1,Col2
12,f,11
16,h,15


#### Between (ВКЛЮЧИТЕЛЬНО!!!!!!!)

#### ISIN (ЕСТЬ ЛИ В СПИСКЕ, МАССИВЕ)

In [75]:
df.loc[df['Col2'].between(11,13), :]

Unnamed: 0,Col1,Col2
12,f,11
14,g,13


In [76]:
df.loc[df['Col1'].isin(['a', 'b', 'g']), :]

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
14,g,13


#### Метод query - для простых условий. Для сложных Loc

In [77]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


In [78]:
df.query('Col1 == "b"')

Unnamed: 0,Col1,Col2
4,b,3


In [79]:
df.query('Col2 > 10')

Unnamed: 0,Col1,Col2
12,f,11
14,g,13
16,h,15


**Столбец DataDrame в виде Series**

In [80]:
s = df['Col1']
s

2     a
4     b
6     c
8     d
10    e
12    f
14    g
16    h
Name: Col1, dtype: object

In [81]:
type(s)

pandas.core.series.Series

Наоборот:

In [82]:
df2 = pd.DataFrame(s)
df2

Unnamed: 0,Col1
2,a
4,b
6,c
8,d
10,e
12,f
14,g
16,h


**Копирование DataFrame**

In [83]:
df_copy = df.copy()
df_copy

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


#### Случайный выбор n-го количества строк

In [84]:
df.sample(n=2)

Unnamed: 0,Col1,Col2
14,g,13
4,b,3


**Случайный выбор доли от исходного датафрейма**

In [85]:
df.sample(frac = 0.5)

Unnamed: 0,Col1,Col2
14,g,13
16,h,15
6,c,5
10,e,9


#### Случайный выбор с возвращением (строки могут повторятся)

In [86]:
df.sample(frac=0.5, replace = True)

Unnamed: 0,Col1,Col2
8,d,7
4,b,3
14,g,13
14,g,13


**Случайное перемешивание**

In [87]:
# random_state - для воспроизводимости перемешивания
df.sample(frac = 1.0, random_state = 42)

Unnamed: 0,Col1,Col2
4,b,3
12,f,11
2,a,1
16,h,15
6,c,5
10,e,9
8,d,7
14,g,13


In [88]:
df

Unnamed: 0,Col1,Col2
2,a,1
4,b,3
6,c,5
8,d,7
10,e,9
12,f,11
14,g,13
16,h,15


**Запись и чтение DataFrame в csv**

In [89]:
# DataFrame = CSV, FALSE - чтобы индексы не записались.
df.to_csv('Test.csv', sep=',', index=False)

In [90]:
df_new = pd.read_csv('Test.csv', sep = ',')

In [91]:
df_new

Unnamed: 0,Col1,Col2
0,a,1
1,b,3
2,c,5
3,d,7
4,e,9
5,f,11
6,g,13
7,h,15


# Работа с данными в DataFrame
---
<ol>
    <li>Слияние данных</li>
    <li>Работа с пропущенными данными</li>
    <li>Добавление столбцов</li>
    <li>Удаление данных</li>
    <li>Сортировка</li>
    <li>Соединение датафреймов</li>
    <li>Применение функций и методов</li>
    <li>Группировка данных</li>
</ol>

In [92]:
import numpy as np
import pandas as pd

## Слияние данных

In [93]:
authors = pd.DataFrame({'author_id':[1,2,3],
                        'author_name':['Pushkin', 'Tolstoy', 'Dostoevsky']},
                       columns = ['author_id', 'author_name']
                      )

In [94]:
authors

Unnamed: 0,author_id,author_name
0,1,Pushkin
1,2,Tolstoy
2,3,Dostoevsky


In [95]:
books = pd.DataFrame({'author_id': [2,3,3,4], 
                      'book_title':['War and Peace', 'The idiot', 'Crime and Punishment', 'Fathers and Sons']})

In [96]:
books

Unnamed: 0,author_id,book_title
0,2,War and Peace
1,3,The idiot
2,3,Crime and Punishment
3,4,Fathers and Sons


**Merge**

18:12

In [98]:
#how = 'inner' - внутреннее слияние, то есть только те строки, которые слились, без NaN.
df1 = pd.merge(authors, books, on = 'author_id', how = 'inner')
df1

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The idiot
2,3,Dostoevsky,Crime and Punishment


#### Left Merge

In [105]:
df2 = pd.merge(authors, books, on = 'author_id', how = 'left')
df2
# Book_title = Nan

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The idiot
3,3,Dostoevsky,Crime and Punishment


#### Right Merge

In [108]:
df3 = pd.merge(authors, books, on = 'author_id', how = 'right')
df3
#authors = Nan

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The idiot
2,3,Dostoevsky,Crime and Punishment
3,4,,Fathers and Sons


#### Outer Merge

Все строки попадут в результирующий датафрейм :)

In [109]:
df4 = pd.merge(authors, books, on = 'author_id', how = 'outer')
df4
#all

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


#### Работа с пропущенными данными

In [110]:
df4.loc[df4['book_title'].isnull(), :]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,


In [111]:
df4.loc[df4['book_title'].notnull(), :]

Unnamed: 0,author_id,author_name,book_title
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


In [116]:
# заполнить Nan у книги
df4['book_title'] = df4['book_title'].fillna('unknown')
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,unknown
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


In [118]:
# если хотим сделать инплейс, то
df4['author_name'].fillna('unknown', inplace=True)
df4

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,unknown
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The idiot
3,3,Dostoevsky,Crime and Punishment
4,4,unknown,Fathers and Sons


#### Добавление столбцов 

Увеличение признакового пространства

In [120]:
df4.loc[(df4['author_name'] != 'unknown') & (df4['book_title'] != 'unknown'), 'quantity'] = 1

In [121]:
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,


In [122]:
df4['quantity'].fillna(0, inplace=True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0.0
1,2,Tolstoy,War and Peace,1.0
2,3,Dostoevsky,The idiot,1.0
3,3,Dostoevsky,Crime and Punishment,1.0
4,4,unknown,Fathers and Sons,0.0


In [123]:
df4['quantity'] = df4['quantity'].astype(int)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


In [132]:
# айдишник сделаем в виде AUTHOR_ID и обратно
df4.set_index('author_id', inplace=True)

In [133]:
df4

Unnamed: 0_level_0,author_name,book_title,quantity
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Pushkin,unknown,0
2,Tolstoy,War and Peace,1
3,Dostoevsky,The idiot,1
3,Dostoevsky,Crime and Punishment,1
4,unknown,Fathers and Sons,0


In [134]:
df4.reset_index(inplace=True)

In [135]:
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


#### Удаление данных

In [139]:
# создали новую колонку
df4['price'] = 500
df4

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,unknown,0,500
1,2,Tolstoy,War and Peace,1,500
2,3,Dostoevsky,The idiot,1,500
3,3,Dostoevsky,Crime and Punishment,1,500
4,4,unknown,Fathers and Sons,0,500


In [140]:
# удаление столбца
# axis - указываем к строке или столбцу принять метод
df4.drop('price', axis = 1, inplace=True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0


In [145]:
# удаление строки по значению индекса
df4.drop(5, axis = 0, inplace=True)
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,3,Dostoevsky,The idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,0
4,2,Tolstoy,War and Peace,1


#### Cортировка

добавляем снова строку

In [144]:
df4 = df4.append(pd.DataFrame({'author_id':[2],
                               'author_name':'Tolstoy',
                               'book_title':['War and Peace'],
                               'quantity':[1]},
                              columns=['author_id', 'author_name', 'book_title', 'quantity']),
                 ignore_index=True)

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,3,Dostoevsky,The idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,0
4,2,Tolstoy,War and Peace,1
5,2,Tolstoy,War and Peace,1


In [146]:
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,3,Dostoevsky,The idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,0
4,2,Tolstoy,War and Peace,1


**Сортировка по 'author_id'**

In [151]:
# заметим что сортировка сразу inplace...
df4 = df4.sort_values(by='author_id')
df4

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
4,2,Tolstoy,War and Peace,1
1,3,Dostoevsky,The idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,0


In [153]:
# переустановим индекс
df4.reset_index(drop = True)
df4
# Что означает drop? Старый индекс нужно удлить.

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
4,2,Tolstoy,War and Peace,1
1,3,Dostoevsky,The idiot,1
2,3,Dostoevsky,Crime and Punishment,1
3,4,unknown,Fathers and Sons,0


#### Соединение датафреймов

СЛИЯНИЕ НЕ РАВНО СОЕДИНЕНИЮ!!!

In [156]:
# сначала создадим новый датафрейм
df5 = pd.DataFrame({'author_id':[3,5],
                    'author_name':['Dostoevsky', 'Chekhov'],
                    'book_title':['The Gambler', 'Three Sisters'],
                    'quantity':[2, 3]},
                    columns=['author_id', 'author_name', 'book_title', 'quantity'])
df5

Unnamed: 0,author_id,author_name,book_title,quantity
0,3,Dostoevsky,The Gambler,2
1,5,Chekhov,Three Sisters,3


In [157]:
# осуществим соединение (конкатенацию)
df6 = pd.concat([df4, df5], axis = 0, ignore_index = True)

In [158]:
df6

Unnamed: 0,author_id,author_name,book_title,quantity
0,1,Pushkin,unknown,0
1,2,Tolstoy,War and Peace,1
2,3,Dostoevsky,The idiot,1
3,3,Dostoevsky,Crime and Punishment,1
4,4,unknown,Fathers and Sons,0
5,3,Dostoevsky,The Gambler,2
6,5,Chekhov,Three Sisters,3


Добавились новые строки :)

Теперь по столцбам

In [159]:
prices = pd.DataFrame({'price':[700,450,500,400,350]}, columns = ['price'], index = [1,2,3,5,6])
prices

Unnamed: 0,price
1,700
2,450
3,500
5,400
6,350


In [160]:
df7 = pd.concat([df6, prices], axis = 1)
df7

Unnamed: 0,author_id,author_name,book_title,quantity,price
0,1,Pushkin,unknown,0,
1,2,Tolstoy,War and Peace,1,700.0
2,3,Dostoevsky,The idiot,1,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0
4,4,unknown,Fathers and Sons,0,
5,3,Dostoevsky,The Gambler,2,400.0
6,5,Chekhov,Three Sisters,3,350.0


#### Применение функций и методов

Арифметика

In [162]:
# опять же добавили новый столбец. Сразу добавился после инициализации
df7['total'] = df7['quantity'] * df7['price']
df7

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
0,1,Pushkin,unknown,0,,
1,2,Tolstoy,War and Peace,1,700.0,700.0
2,3,Dostoevsky,The idiot,1,450.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
4,4,unknown,Fathers and Sons,0,,
5,3,Dostoevsky,The Gambler,2,400.0,800.0
6,5,Chekhov,Three Sisters,3,350.0,1050.0


In [164]:
df7['price'].max()

700.0

In [165]:
df7['price'].min()

350.0

In [166]:
df7['price'].mean()

480.0

In [167]:
df7['price'].std()

135.09256086106296

In [168]:
df7['price'].median()

450.0

Медиана - середина в ряде чисел, который упорядочены по возрастанию

In [169]:
df7['price'].var()

18250.0

In [170]:
df7.nlargest(3, 'price')

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
1,2,Tolstoy,War and Peace,1,700.0,700.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
2,3,Dostoevsky,The idiot,1,450.0,450.0


In [172]:
df7['author_name'].unique()

array(['Pushkin', 'Tolstoy', 'Dostoevsky', 'unknown', 'Chekhov'],
      dtype=object)

In [174]:
df7['author_name'].nunique()

5

In [175]:
df7['author_name'].value_counts()

Dostoevsky    3
unknown       1
Pushkin       1
Tolstoy       1
Chekhov       1
Name: author_name, dtype: int64

Построчное применение функций и методов:

In [176]:
df7['book_title'].apply(lambda x: x.upper())

0                 UNKNOWN
1           WAR AND PEACE
2               THE IDIOT
3    CRIME AND PUNISHMENT
4        FATHERS AND SONS
5             THE GAMBLER
6           THREE SISTERS
Name: book_title, dtype: object

In [177]:
df7

Unnamed: 0,author_id,author_name,book_title,quantity,price,total
0,1,Pushkin,unknown,0,,
1,2,Tolstoy,War and Peace,1,700.0,700.0
2,3,Dostoevsky,The idiot,1,450.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,500.0,500.0
4,4,unknown,Fathers and Sons,0,,
5,3,Dostoevsky,The Gambler,2,400.0,800.0
6,5,Chekhov,Three Sisters,3,350.0,1050.0


#### Группировка данных

1-й способ:

In [181]:
df7.groupby('author_name')['price'].max()

author_name
Chekhov       350.0
Dostoevsky    500.0
Pushkin         NaN
Tolstoy       700.0
unknown         NaN
Name: price, dtype: float64

2-й способ:

In [183]:
price_agg = df7.groupby('author_name').agg({'price':'max'})
price_agg

Unnamed: 0_level_0,price
author_name,Unnamed: 1_level_1
Chekhov,350.0
Dostoevsky,500.0
Pushkin,
Tolstoy,700.0
unknown,


In [184]:
type(price_agg)

pandas.core.frame.DataFrame

In [185]:
# после получения нового дата фрейма, логично переименовать столбец и пересобрать индексы
price_agg = price_agg.reset_index()
price_agg = price_agg.rename(columns = {'price': 'max_price'})
price_agg

Unnamed: 0,author_name,max_price
0,Chekhov,350.0
1,Dostoevsky,500.0
2,Pushkin,
3,Tolstoy,700.0
4,unknown,
