#**Работа с Pandas**

##**Series**

Series - это обна из структур данных библиотеки Pandas. Она представляет собой что-то вроде словаря, однако, является упорядоченной.



In [322]:
import pandas as pd

In [323]:
a  = [1, 3, 5, 7, 2]
b = pd.Series(a)
b

0    1
1    3
2    5
3    7
4    2
dtype: int64

In [324]:
type(b)

В результатае такой операции получается объект Series, содержащий элементы из списка а. Здесь справа располагаются элементы из списка **а**, слева - их индексы. Т.к. индексф для этих элементов мы явно не указали, то используются стандартные индексы.  
Индексы можно указывать явно, для этого нужно подать в качестве аргумента index список из индексов. Данный список должен быть такой же длины, что и список а.  
В качестве индексов можно использовать что угодно: числа, строки и пр. Например, проиндексируем наш список **а** объектами типа datetime.date

In [325]:
from datetime import date

In [326]:
index = [date(2024, 4, i) for i in a]
index

[datetime.date(2024, 4, 1),
 datetime.date(2024, 4, 3),
 datetime.date(2024, 4, 5),
 datetime.date(2024, 4, 7),
 datetime.date(2024, 4, 2)]

In [327]:
c = pd.Series(a, index=index)
c

2024-04-01    1
2024-04-03    3
2024-04-05    5
2024-04-07    7
2024-04-02    2
dtype: int64

Индексы можно задать сразу, а можно изменить позже (главное условие, чтобы кол-во индексов было = количеству элементов):  

In [328]:
b.index = ['a', 'b', 'c', 'd', 'e']
b

a    1
b    3
c    5
d    7
e    2
dtype: int64

Рассмотрим индексы объекта Series подробнее. Их можно получить с помощью атрибута c.index:

In [329]:
c.index

Index([2024-04-01, 2024-04-03, 2024-04-05, 2024-04-07, 2024-04-02], dtype='object')

Мы видим, что в качестве индексов здесь используются объекты типа **object**. Это тип объектов используется также в numpy. Он используется для объектов, для которых заранее не известно, сколько памяти он требуют(в отличие от, например numpy.int64, для которого заранее известно, сколько памяти под него нужно).  
Тип object в numpy и pundas присваетвается, например, строкам, а так же объектам из других библиотек. В массивы данных, состоящих из объектов типа object (например наш массив c.index), помещается не сами объекты, а лишь уазатели на них, а сами объекты храняться в спецально выделенном месте. Мы все еще можем использовать для этих объектов методы, присущие им ( например, для каждого индекса из массив c.index мы можем  посмотреть его год, месяц и день):

In [330]:
c.index[0].month

4

Однако это возможно делать лишь с отдельным элементом из индекса.  
В pandas, как и numpy, возможно выполнять различные операции с массиовом целиком, но лишь когда эти массивы содержат объекты типов, поддерживаемых numpy и pandas (вроде numpy.int32 или numpy.float64).  
Для работы с временем и датой в numpy также есть специальный тип: numpy.datetime64. Приведем элементы нашего индекса к этому типу и посмотрим, что это нам позволит делать. Это можно сделать с помощью функции pd.to_datetime, которая получает на вход массив и возвращает новый массив, элементы которого приведены к типу numpy.datetime64:

In [331]:
c.index = pd.to_datetime(c.index)
c.index

DatetimeIndex(['2024-04-01', '2024-04-03', '2024-04-05', '2024-04-07',
               '2024-04-02'],
              dtype='datetime64[ns]', freq=None)

Теперь мы можем посмотреть атрибут **day** у всех элементов индекса одновременно:

In [332]:
c.index.day

Index([1, 3, 5, 7, 2], dtype='int32')

Индексы в Series не обязаны быть уникальными

In [333]:
d = pd.Series(a, index=[0, 1, 0, 1, 0])
d

0    1
1    3
0    5
1    7
0    2
dtype: int64

Типи данных Series можно задать явно. Это можно сделать либо сразу же:

In [334]:
import numpy as np

In [335]:
e = pd.Series(a, dtype=np.float32)
e

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float32

либо позже с помощью метода astype():

In [336]:
e = pd.Series(a)
e = e.astype(np.float64)
e

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float64

Создать массив Series можно не только из списка, но и из словаря. В таком случа, ключи этого словаря становятся индексами, а соответствующие значения словаря - значениями массива:

In [337]:
# dict - зарезервированное слово, поэтому используем dict_
dict_ = {'1st': 'a',
         '2nd': 'b',
         '3rd': 'c'}
f = pd.Series(dict_)
f

1st    a
2nd    b
3rd    c
dtype: object

In [338]:
type(f)

Значение массивов Series модно получить с помощью атрибута .values  
Значение массива представлены как numpy.ndarray

In [339]:
f.values

array(['a', 'b', 'c'], dtype=object)

Так можно перевести Series в numpy array

In [340]:
type(f.values)

numpy.ndarray

Продемонтстрируем разницу между type list и numpy.ndarray



In [341]:
a = [1, 2, 3]
type(a)

list

In [342]:
# Увеличивается кол-во элементов
a*4

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

In [343]:
b = np.array([1, 2, 3])
type(b)

numpy.ndarray

In [344]:
# Производится операция умножения на каждый элемент
b*4

array([ 4,  8, 12])

##**Выбор данных из массива Series**  
Для получения значений массива Series по индексу используется тот же синтаксис, что и с массивом numpy:  
* Чтобы получить значение по одгому индексу, достаточно поставить этот индекс в квадратные скодки после массива: f['1st'].
* Если необходимо получить значения по нескольким индексам, в квадратные скобки массива подается список индексов: f[['1st', '3rd']].  
У массива Series также имеются методы .head и .tail, позволяющие просматривать, соответственно, первые несколько или последние несколько значений масива. В каждом из этих методов можно указать, сколько значений нужно вернуть. По умолчанию возвращается 5 значений.



In [345]:
e.head(3)

0    1.0
1    3.0
2    5.0
dtype: float64

Для массива Series, так же как и для numpy -массивов,доступна булева индексация. С помощью неё можно получать значения массива, которые удовлетворяют некоему условию:

In [346]:
e[e > 2]

1    3.0
2    5.0
3    7.0
dtype: float64

In [347]:
e

0    1.0
1    3.0
2    5.0
3    7.0
4    2.0
dtype: float64

In [348]:
# Вместо каждого элемента прошла булева операция
e > 2

0    False
1     True
2     True
3     True
4    False
dtype: bool

Можно делать более сложные выражения используя логический оператор 'и'(обозначается символом &), 'или'(символ |) и оператор отрицания 'не' (символ ~). При этом каждое условаие неоходимо поставиь в круглые скобки:

In [349]:
e[(e > 2) | (e == 1)]

0    1.0
1    3.0
2    5.0
3    7.0
dtype: float64

Изменять массив Series можно теми же способами, что при работе с обычным словарем. Например, команда e[2] = 4 заменит значение массива **e** с индексом 2 на 4.  
Однако, в массивах Series мы можем менять несколько значений одновременно. Например, с помощью тех же самых условий:

In [350]:
e[e > 2] = -1
e

0    1.0
1   -1.0
2   -1.0
3   -1.0
4    2.0
dtype: float64

In [351]:
# либо передать в массив какие-то конкретные индексы (мы передаем список индексов):
e[[1, 3]] = 10000
e

0        1.0
1    10000.0
2       -1.0
3    10000.0
4        2.0
dtype: float64

##**Добавление и удаление данных в Series**  
С помощью метода .append мы можем добавлять к одному массиву Series другой массив:
'Series' object has no attribute 'append' - данный метод был удален.  
In pd 2.0, append has been removed
Лучше использовать метод pd.concat([e, f]).

In [352]:
# Метода append уже не существует в pandas
g = e._append(f)
g

0          1.0
1      10000.0
2         -1.0
3      10000.0
4          2.0
1st          a
2nd          b
3rd          c
dtype: object

In [353]:
g = pd.concat([e, f])
g

0          1.0
1      10000.0
2         -1.0
3      10000.0
4          2.0
1st          a
2nd          b
3rd          c
dtype: object

С помощью метода **.drop** мы можем удалять из массиваэлементы с определенными индексами. Эти индексы мы подаем в метов в виде списка:

In [354]:
h = g.drop([0, 4, '2nd'])
h

1      10000.0
2         -1.0
3      10000.0
1st          a
3rd          c
dtype: object

Обратите внимание, что эти методы, в отличие от аналогичных методов из стандартных библиотек Python, не изменяют исходный массив, но возвращают новый.

In [355]:
e

0        1.0
1    10000.0
2       -1.0
3    10000.0
4        2.0
dtype: float64

In [356]:
g

0          1.0
1      10000.0
2         -1.0
3      10000.0
4          2.0
1st          a
2nd          b
3rd          c
dtype: object

##**Запись и чтение массивов Series из файла**  
Для массивов из Series в файлы используют формат файлов под названием picklt. Этот формат позволяет полностью сохранять питоновские объекты, а затем загружать их в неизменном виде.
Для записи массива Series в файл используют мето **.to_pickle**, а для чтения - функцию **np.read_pickle**

In [357]:
h.to_pickle('h.pkl')
h = pd.read_pickle('h.pkl')
h

1      10000.0
2         -1.0
3      10000.0
1st          a
3rd          c
dtype: object

##**DataFrame**
DataFrame - двумерная структура данных из библиотеки **pandas**, позволяющая работать с таблицами.  
Самый простой способ задать **DataFrame** - спомощью словаря, в котором ключ отвечает за столбец, а соответствующее значение - это список элементов данного столбца. **Эти списки должны иметь одинаковую длину.**

In [358]:
a = {
    'col1': [1, 2, 4, 5, 6, 7, 8],
    'col2': ['a', 'c', 'e', 'g', 'z', 'x', 'y']
}
b = pd.DataFrame(a)
b

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


С помощью атрибута **.shape** можно посмотреть форму массива DataFrame. Атрибут **.columns** содержит массив из столбцов, а **.index**, как и ранее содержит атрибут индексов

In [359]:
b.shape

(7, 2)

In [360]:
b.columns

Index(['col1', 'col2'], dtype='object')

In [361]:
b.index

RangeIndex(start=0, stop=7, step=1)

Общую информацию о массиве можно запросить с помощью метода **.info**. Нам вернется информация об индексах и столбцах данного массива, о том, какие типы данных храняться в каждом из столбцов, а так же информация о том, сколько памяти выделено под данный массив.

In [362]:
b.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   col1    7 non-null      int64 
 1   col2    7 non-null      object
dtypes: int64(1), object(1)
memory usage: 240.0+ bytes


С помощью метода **.describe** можно получить некоторые статистические характеристики по столбцам с числовыми значениями: среднее значение, средне квадратичное отклонение, максимум, минимум, квантиль и пр.

In [363]:
b.describe()

Unnamed: 0,col1
count,7.0
mean,4.714286
std,2.56348
min,1.0
25%,3.0
50%,5.0
75%,6.5
max,8.0


##**Выбор данных из массива DataFrame**  
Для получения данных из массива **DataFrame** используют тот же индекс, что и для **Series**. Например, с помощью методов **.head** и **.tail** можно получить несколько первых и несколько последних строк таблицы.  
Отдельный столбец можно получить, передав его название в [].

In [364]:
b['col1']

0    1
1    2
2    4
3    5
4    6
5    7
6    8
Name: col1, dtype: int64

In [365]:
type(b['col1'])

In [366]:
b.head(2)

Unnamed: 0,col1,col2
0,1,a
1,2,c


Каждый отдельный столбец массива **DataFrame** возвращается как массив типа Series.  
Если мы указать несколько столбцов, в квадратные скобки нужно подать список из столбцов. Тогда нам вернется подтаблица исходной таблицы в формате **DataFrame**.

In [367]:
b[['col1','col2']]

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


Получить данные из строк таблицы **DataFrame** можно с помощью атрибута **.loc**. Этот атрибут представляет собой что-то вроде двумерного массива. Конкретное значение (или несколько значений) этого массива можно получить, указав нужный индекс и название колонки:

In [368]:
# Указывем индекс 2 и колонку 'col2'. Получаем 'e'
b.loc[2, 'col2']

'e'

In [369]:
# Указали только индексы, а колонкин не указывали, поэтомы вышли все колонки
b.loc[[0, 2, 4]]

Unnamed: 0,col1,col2
0,1,a
2,4,e
4,6,z


При использованиии атрибута **.loc** мы должны указывать именно индекс нужной строки и название нужного столбца. Бывают ситуации, когда удобнее было бы получиь значение по позиции (т.е., например, элемент из третьей строки и второго столбца). Для этого можно использовать атрибуи **.iloc**

In [370]:
# Второй индекс, первый столбец (нумерация с нуля).
b.iloc[2, 1]

'e'

Как и в **Series**, в массивах **DataFrame** есть возможность есть возможность использовать булеву индексацию для указания строк. Причем, условия могут касаться любого столбца или набора столбцов. Условия можно комбинировать с помощью логических операторов.  
Например, получим значение из второго столбца у всех строк, значение первого столбца для которых больше 3 или равно 1:

In [371]:
b.loc[(b['col1'] > 3) | (b['col1'] ==1), 'col2']

0    a
2    e
3    g
4    z
5    x
6    y
Name: col2, dtype: object

In [372]:
(b['col1'] > 3) | (b['col1'] ==1)

0     True
1    False
2     True
3     True
4     True
5     True
6     True
Name: col1, dtype: bool

In [373]:
b

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


В **pandas** есть несколько методов, упрощающее булеву индексацию:
* b['col1'].between(3, 6) - все строки, для которых **значение** в первом столбще лежит между 3 и 6 (включая оба конца)  
* b['col2'].isin(['a', 'z']) - все строки, для которых значение второго столбца содержится в списке['a', 'z']  
Их так же можно использовать вместе с логическими операторами. Например, получим все строки из таблицы **b**, для которых значение первого столбца лежит между 3 и 6, а значение второго столбца не равно 'a' или 'z':

In [374]:
b['col1'].between(3, 6)

0    False
1    False
2     True
3     True
4     True
5    False
6    False
Name: col1, dtype: bool

In [375]:
~b['col2'].isin(['a', 'z'])

0    False
1     True
2     True
3     True
4    False
5     True
6     True
Name: col2, dtype: bool

In [376]:
(b['col1'].between(3, 6)) & (~b['col2'].isin(['a', 'z']))

0    False
1    False
2     True
3     True
4    False
5    False
6    False
dtype: bool

In [377]:
b[(b['col1'].between(3, 6)) & (~b['col2'].isin(['a', 'z']))]

Unnamed: 0,col1,col2
2,4,e
3,5,g


Более короткий и удобный функционал для таких запросов реализован методом **.query**. В него подается строка, содержащая булевы условия на значения столбцов. При этом, переменную массива мы уже не пишем, а к столбцам обращаемся без кавычек. В остальном, допускается тот же синтаксис с использованием булевых операторов:

In [378]:
# Своего рода синтаксический сахар
b.query('(col1 < 6) & (col2 > "c")')

Unnamed: 0,col1,col2
2,4,e
3,5,g


In [379]:
b

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


Выбирая один столбец из **DataFrame**, мы получаем массив **Series**. Если хочется получиить массив именно в виде **DataFrame**, можно запросить его, подавая не название столбца, а список содержащий только один этот столбец (такой трюк):

In [380]:
type(b['col1'])

In [381]:
# Туту список списков
type(b[['col1']])

В любом случае, конвертировать **Series** в **DataFrame** можно и явно:

In [382]:
c = pd.Series([1, 2, 3])
d = pd.DataFrame(c)
d

Unnamed: 0,0
0,1
1,2
2,3


Если требуется скопировать массив  **Series** или **DataFrame**, это можно сделать с помощью метода **.copy**:

In [383]:
e = d.copy()
e

Unnamed: 0,0
0,1
1,2
2,3


##**Случайный выбор значений из DataFrame**
Случайный выбор строк из массива DataFrame производится с помощью метода **.sample**. Вот несколько его важных параметров:
* frac - какую долю от общего числа стррок нужно вернуть (число от 0 до 1)
* n - сколько строк нужно вернуть (число от 0 до числа строк в массиве)
* replace - индикатор того, производится ли выбор с *возвращением*, т.е. с возможным повторением строк в выборке, или без возвражения (True Или False)  
Нельзя использовать параметры frac и n одновременно, нужно выбрать какой-то один.

In [384]:
b.sample(frac=0.5, replace=True)

Unnamed: 0,col1,col2
4,6,z
6,8,y
1,2,c
2,4,e


Если требуется просто перемешать всю выборку, это также можно выполнить с помощью метода .sample, передав в него параметр frac=1.

##**Запись и чтение DataFrame из файла  
Для хранения таблиц широко используется формат файлов **.csv**.  
Сохранить массив в файл можно с помощью метода **.to_csv**. Вот несколько важных параметоров этого метода:
* sep - символ, который нужно использовать для разделения значения столбцов между собой. По умолчанию это "," но можно также использовать ";", "\t" и др.  
* index - булево значение, индикатор того, нужно ли в файл сохранять также столбец индексов.

In [385]:
b.to_csv("test.csv", sep=";", index=False)
# b.to_excel("test.csv")

Прочитать массив из файла можно с помощью функции **pd.read_csv**. Здесь также можно указать разделитель столбцов в параметре **sep**

In [386]:
b = pd.read_csv('test.csv', sep=";")
b

Unnamed: 0,col1,col2
0,1,a
1,2,c
2,4,e
3,5,g
4,6,z
5,7,x
6,8,y


У данных команд для сохранения и чтения таблиц есть множество других важных и полезных параметров, поэтому рекомендуем также изучить их документацию:  [to_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html), [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html#pandas-read-csv)
В **pandas** также имеются аналогичные команды для сохранения и записи таблич как excel и pickle.

#**Работа с дандами в Pandas**
##**Слияние данных**
Рассмотрим следующий пример. Допустим мы работаем с небольшим отделом книжного магазина, в котором продается классическая литература на английском языке. Наша задача систематизировать ассортимент отдела.  
У нас есть таблица **authors**, содержащая данные об авторах: их индентификаторы (author_id) и имена (author_name):

In [387]:
authors = pd.DataFrame({
    "author_id": [1, 2, 3],
    "author_name": ['Pushkin', 'Tolstoy', 'Dostoevsky']
})
authors

Unnamed: 0,author_id,author_name
0,1,Pushkin
1,2,Tolstoy
2,3,Dostoevsky


Кроме того у нас есть таблица books, содержащая информацию о книгах этих авторов. В этой таблице есть колонка author_id, а также колонка book_title, содержащая название книги:

In [388]:
books = pd.DataFrame({
   "author_id": [2, 3, 3, 4],
    "book_title": ['War and Peace', 'The Idiot', 'Crime and Punishment', 'Fathers and Sons']
})
books

Unnamed: 0,author_id,book_title
0,2,War and Peace
1,3,The Idiot
2,3,Crime and Punishment
3,4,Fathers and Sons


Мы хотим сопоставить название книги именам их авторов. Для этого используем функцию **pd.merge**: в эту функцию помещаются те таблицы, которые мы хотим соединить, а так же несколько других важных аргументов:
* on - параметр, отвечающий за то, какой параметр мы будем испоьлзовать для слияния
* how - каким образом производить слияние  

**Опишем подробнее, какие параметры может принимать параметр how:**

* inner - внутреннее слияние. В этом случае учавствуют только те строки, которые присутствуют в обоих таблицах
* left - в слияние учавсивуют все строки из левой таблицы
* right - то же самое, но для правой таблицы
* outer - внешнее слияние, соединяются все строки как из левой, так и из правой таблицы

In [389]:
pd.merge(authors, books, on='author_id', how='inner')

Unnamed: 0,author_id,author_name,book_title
0,2,Tolstoy,War and Peace
1,3,Dostoevsky,The Idiot
2,3,Dostoevsky,Crime and Punishment


Если мы выбираем 'left', 'right' или 'outer', может случиться так, что строку из одной таблицы будет невозможно соединить со второй. Например, мы видим, что в нашей таблице books нет произведений Пушкина (его id равен 1). В свою очередь, в твблице books есть книга, для которой author_id равен 4, хотя, в таблице authors нет записи с таким author_id. Рассмотрм внешнее слияние таких таблиц:

In [390]:
merged_df = pd.merge(authors, books, on='author_id', how='outer')
merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,,Fathers and Sons


В получившейся таблице присутствуют пропущенные значения (NaN).

##**Работа с пропущенными данными**
Пропущенные значения в **Series** или **DataFrame** можно получить с помощью метода .isnull. Наоборот, все имеющиеся непустые значения можно получиь с помощью метода **.notnull**

In [391]:
merged_df[merged_df['author_name'].isnull()]
# merged_df['author_name'].isnull()

Unnamed: 0,author_id,author_name,book_title
4,4,,Fathers and Sons


In [392]:
merged_df[merged_df['author_name'].notnull()]

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment


Заполнить пропущенные значения каким-то своим значением можно с помощью метода **.fillna()**

In [393]:
merged_df['author_name'] = merged_df['author_name'].fillna("unknown")
merged_df

Unnamed: 0,author_id,author_name,book_title
0,1,Pushkin,
1,2,Tolstoy,War and Peace
2,3,Dostoevsky,The Idiot
3,3,Dostoevsky,Crime and Punishment
4,4,unknown,Fathers and Sons


##**Добавление столбцов в DataFrame**
Допустим, каждая из наших кних имеется в единственном экземпляре. Мы хотим создать в таблице merged_df столбец quantity, который бы содержал количество экзкмпляров каждой книги.  
Создание нового столбца в таблице **DataFrame** происходит аналогично созданию нового значения в словаре dict. Достаточно просто объявить значение merged_df["quantity"]. Если подать в это значение какое-нибуть число или строку, то все значения в данном столбце приравняются к этому числу или строке. Также можно подать сюда список, тогда значение из этого списка поступят в соответствующие строки этого столбца. В этом случае длина списка обязана совпадать с числом строк таблицы.  
Итак, выберем все строки с непустыми значениями поля **book_title**, и для них запишем в столбец **quantity** число 1. Это можно сделать с помощью атрибута **.loc**

In [394]:
merged_df['quantity'] = 1
merged_df['quantity_2'] = 0
merged_df.loc[0, 'quantity'] = None
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,,0
1,2,Tolstoy,War and Peace,1.0,0
2,3,Dostoevsky,The Idiot,1.0,0
3,3,Dostoevsky,Crime and Punishment,1.0,0
4,4,unknown,Fathers and Sons,1.0,0


In [395]:
# Фильтрация
merged_df[merged_df['author_id'] < 3]
# merged_df['author_id'] < 3

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,,0
1,2,Tolstoy,War and Peace,1.0,0


In [396]:
# Вставляем quantity = 1, для которых book_title не пустой
merged_df.loc[merged_df["book_title"].notnull(), "quantity"] = 1
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,,0
1,2,Tolstoy,War and Peace,1.0,0
2,3,Dostoevsky,The Idiot,1.0,0
3,3,Dostoevsky,Crime and Punishment,1.0,0
4,4,unknown,Fathers and Sons,1.0,0


Теперь заполним все пропуски в этом столбце числом 0.
inplace - отвечает за замену значений в самом DataFrame.  
inplace=True - меняются значения в исходном DataFrame, а не только вывод на печать

In [397]:
merged_df['quantity'].fillna(0, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0.0,0
1,2,Tolstoy,War and Peace,1.0,0
2,3,Dostoevsky,The Idiot,1.0,0
3,3,Dostoevsky,Crime and Punishment,1.0,0
4,4,unknown,Fathers and Sons,1.0,0


Наконец, приведем значение в этом столбце к типу int16. (Это сделать невозможно, если в столбце содержатся пропуски)

In [398]:
merged_df['quantity'] = merged_df['quantity'].astype('Int16')
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0
1,2,Tolstoy,War and Peace,1,0
2,3,Dostoevsky,The Idiot,1,0
3,3,Dostoevsky,Crime and Punishment,1,0
4,4,unknown,Fathers and Sons,1,0


In [399]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   author_id    5 non-null      int64 
 1   author_name  5 non-null      object
 2   book_title   4 non-null      object
 3   quantity     5 non-null      Int16 
 4   quantity_2   5 non-null      int64 
dtypes: Int16(1), int64(2), object(2)
memory usage: 303.0+ bytes


В **DataFrame** можно использовать индексы по умолчанию, а можно назначить и свои. Например, в качестве индексов можно использовать какой-нибудь из столбцов:

In [400]:
merged_df.set_index("author_id", inplace=True)
merged_df

Unnamed: 0_level_0,author_name,book_title,quantity,quantity_2
author_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Pushkin,,0,0
2,Tolstoy,War and Peace,1,0
3,Dostoevsky,The Idiot,1,0
3,Dostoevsky,Crime and Punishment,1,0
4,unknown,Fathers and Sons,1,0


In [401]:
# Так как индексы совпадают, то выводятся 2 значения
merged_df.loc[3, "book_title"]

author_id
3               The Idiot
3    Crime and Punishment
Name: book_title, dtype: object

In [402]:
merged_df.iloc[3, 1]

'Crime and Punishment'

Индексы всегда можно сбросить. Тогда, текущие индексы становятся столбцом:

In [403]:
merged_df.reset_index(inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0
1,2,Tolstoy,War and Peace,1,0
2,3,Dostoevsky,The Idiot,1,0
3,3,Dostoevsky,Crime and Punishment,1,0
4,4,unknown,Fathers and Sons,1,0


##**Удаление данных**  
Для удаления данных из **DataFrame** используется метод **.drop**. В этот метод подается метка элемента, который необходимо удалить (индекс строки или название столбца), а так же ось axis. При axis=0 удаляется строка, при axis=1 - столбец

In [404]:
merged_df['price'] = 500
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price
0,1,Pushkin,,0,0,500
1,2,Tolstoy,War and Peace,1,0,500
2,3,Dostoevsky,The Idiot,1,0,500
3,3,Dostoevsky,Crime and Punishment,1,0,500
4,4,unknown,Fathers and Sons,1,0,500


In [405]:
merged_df.drop('price', axis=1, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0
1,2,Tolstoy,War and Peace,1,0
2,3,Dostoevsky,The Idiot,1,0
3,3,Dostoevsky,Crime and Punishment,1,0
4,4,unknown,Fathers and Sons,1,0


In [406]:
# Удаляем строку с индексом 1
merged_df.drop(1, axis=0, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0
2,3,Dostoevsky,The Idiot,1,0
3,3,Dostoevsky,Crime and Punishment,1,0
4,4,unknown,Fathers and Sons,1,0


In [407]:
merged_df = merged_df._append(
    {
        "author_id": 2,
        "author_name": "Tolstoy",
        "book_title": "War and Peace",
        "quantity": 1
    },
    ignore_index=True
)

merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0.0
1,3,Dostoevsky,The Idiot,1,0.0
2,3,Dostoevsky,Crime and Punishment,1,0.0
3,4,unknown,Fathers and Sons,1,0.0
4,2,Tolstoy,War and Peace,1,


Параметр ignore_index=True подается сюда, чтобы индексы соединяемых таблиц не учитывались. В результирующей таблице будут использованы стандартные последовательные индексы, начинающиеся с 0.

Отсортируем эту таблицу по столбцу **author_id**. Это делается с помощью метода **.sort_values**

In [408]:
merged_df.sort_values(by="author_id", inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0.0
4,2,Tolstoy,War and Peace,1,
1,3,Dostoevsky,The Idiot,1,0.0
2,3,Dostoevsky,Crime and Punishment,1,0.0
3,4,unknown,Fathers and Sons,1,0.0


Чтобы сбросить индексы, воспользуемся уже известным методом **.reset_index**. В нашем слочае, стоит в него подать аргумент **drop=True**, который означает, что текущий столбец из индексов не нужно сохранять в таблице, а можно удалить.

In [409]:
merged_df.reset_index(drop=True, inplace=True)
merged_df

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0.0
1,2,Tolstoy,War and Peace,1,
2,3,Dostoevsky,The Idiot,1,0.0
3,3,Dostoevsky,Crime and Punishment,1,0.0
4,4,unknown,Fathers and Sons,1,0.0


##**Соединение таблиц**
Для соединения таблиц можно использовать функцию **pd.concat**. С этой функцией мы уже знакомились, когда изучали библиотеку **numpy**. Здесь эта функция работает аналогичным образом: соединяет 2 таблицы вертикально (если указан параметр axis=0), либо горизонтально (если axis=1).
Соединение происходит с сохранением индексов, если не указан параметр **ignore_index=True**.

In [410]:
df1 = pd.DataFrame({
    "author_id": [3, 5],
    "author_name": ["Dostoevsky", "Chekhov"],
    "book_title": ["Gambler", "Three Sister"],
    "quantity": [2, 3]
})
df2 =pd.concat([merged_df, df1], axis=0, ignore_index=True)
df2

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2
0,1,Pushkin,,0,0.0
1,2,Tolstoy,War and Peace,1,
2,3,Dostoevsky,The Idiot,1,0.0
3,3,Dostoevsky,Crime and Punishment,1,0.0
4,4,unknown,Fathers and Sons,1,0.0
5,3,Dostoevsky,Gambler,2,
6,5,Chekhov,Three Sister,3,


In [411]:
df3 = pd.DataFrame(
    {'price': [700, 450, 500, 400, 350]},
    index=[1, 2, 3, 5, 6])
df4 = pd.concat([df2, df3], axis=1)
df4

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price
0,1,Pushkin,,0,0.0,
1,2,Tolstoy,War and Peace,1,,700.0
2,3,Dostoevsky,The Idiot,1,0.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,0.0,500.0
4,4,unknown,Fathers and Sons,1,0.0,
5,3,Dostoevsky,Gambler,2,,400.0
6,5,Chekhov,Three Sister,3,,350.0


##**Операции над таблицами**
Как и ранее с массивами **numpy** и **Series**, с таблицами DataFrame можно производить различные матеватические операции. Например, значения различных столбцов можно поэлементно перемножать, складывать и пр.

In [412]:
df4['total'] = df4['quantity'] * df4['price']
df4

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price,total
0,1,Pushkin,,0,0.0,,
1,2,Tolstoy,War and Peace,1,,700.0,700.0
2,3,Dostoevsky,The Idiot,1,0.0,450.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,0.0,500.0,500.0
4,4,unknown,Fathers and Sons,1,0.0,,
5,3,Dostoevsky,Gambler,2,,400.0,800.0
6,5,Chekhov,Three Sister,3,,350.0,1050.0


С помощью следующих методов можно посчитать основные статистики по желаемым стобцам:
* df4["price"].max() - максимум
* df4['price'].min() - минимум
* df4['price'].mean() - среднее
* df4['price'].median() - медиана
* df4['price'].std() - средне квадратичное отклонение
* df4['price'].var() - дисперсия  

С помощью метода **.nlargest** можно вывести несколько наибольших значений. Указывается то, сколько значений надо вернуть, а также то, по какому именно значению нужно сортировать:


In [413]:
# Выводим самые крупные значения в столбце price
df4.nlargest(3, "price")

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price,total
1,2,Tolstoy,War and Peace,1,,700.0,700.0
3,3,Dostoevsky,Crime and Punishment,1,0.0,500.0,500.0
2,3,Dostoevsky,The Idiot,1,0.0,450.0,450.0


Имеется аналогичный метод **.nsmallest**.  

С помощью метода **.unique** можно получить уникальные значения заданного столбца:

In [414]:
df4['author_name'].unique()

array(['Pushkin', 'Tolstoy', 'Dostoevsky', 'unknown', 'Chekhov'],
      dtype=object)

Если нужно получить не уникальные значения, а лишь их количество, используют метод **.nunique**

In [415]:
df4['author_name'].nunique()

5

С помощью метода **.value_count** можно получить информацию о том, сколько раз каждое уникальное значение появляется в данном столбце:

In [416]:
df4['author_name'].value_counts()

author_name
Dostoevsky    3
Pushkin       1
Tolstoy       1
unknown       1
Chekhov       1
Name: count, dtype: int64

К значениям таблицы можно применять и функции, которые не имеются в библиотеках **pandas** и **numpy**. Делается это с помощью метода **.apply**

In [417]:
df4['author_name'].apply(lambda x: x.upper())

0       PUSHKIN
1       TOLSTOY
2    DOSTOEVSKY
3    DOSTOEVSKY
4       UNKNOWN
5    DOSTOEVSKY
6       CHEKHOV
Name: author_name, dtype: object

In [418]:
df4

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price,total
0,1,Pushkin,,0,0.0,,
1,2,Tolstoy,War and Peace,1,,700.0,700.0
2,3,Dostoevsky,The Idiot,1,0.0,450.0,450.0
3,3,Dostoevsky,Crime and Punishment,1,0.0,500.0,500.0
4,4,unknown,Fathers and Sons,1,0.0,,
5,3,Dostoevsky,Gambler,2,,400.0,800.0
6,5,Chekhov,Three Sister,3,,350.0,1050.0


In [419]:
df4['author_name_2'] = df4['author_name'].apply(lambda x: x.upper())
df4

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price,total,author_name_2
0,1,Pushkin,,0,0.0,,,PUSHKIN
1,2,Tolstoy,War and Peace,1,,700.0,700.0,TOLSTOY
2,3,Dostoevsky,The Idiot,1,0.0,450.0,450.0,DOSTOEVSKY
3,3,Dostoevsky,Crime and Punishment,1,0.0,500.0,500.0,DOSTOEVSKY
4,4,unknown,Fathers and Sons,1,0.0,,,UNKNOWN
5,3,Dostoevsky,Gambler,2,,400.0,800.0,DOSTOEVSKY
6,5,Chekhov,Three Sister,3,,350.0,1050.0,CHEKHOV


In [420]:
df4.columns

Index(['author_id', 'author_name', 'book_title', 'quantity', 'quantity_2',
       'price', 'total', 'author_name_2'],
      dtype='object')

In [421]:
col_names = ['author_id', 'author_name', 'book_title', 'quantity', 'quantity_2', 'price', 'total']
sorted(col_names)

['author_id',
 'author_name',
 'book_title',
 'price',
 'quantity',
 'quantity_2',
 'total']

In [422]:
df4[sorted(col_names)]

Unnamed: 0,author_id,author_name,book_title,price,quantity,quantity_2,total
0,1,Pushkin,,,0,0.0,
1,2,Tolstoy,War and Peace,700.0,1,,700.0
2,3,Dostoevsky,The Idiot,450.0,1,0.0,450.0
3,3,Dostoevsky,Crime and Punishment,500.0,1,0.0,500.0
4,4,unknown,Fathers and Sons,,1,0.0,
5,3,Dostoevsky,Gambler,400.0,2,,800.0
6,5,Chekhov,Three Sister,350.0,3,,1050.0


In [423]:
# Исходная таблица не поменялась
df4

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price,total,author_name_2
0,1,Pushkin,,0,0.0,,,PUSHKIN
1,2,Tolstoy,War and Peace,1,,700.0,700.0,TOLSTOY
2,3,Dostoevsky,The Idiot,1,0.0,450.0,450.0,DOSTOEVSKY
3,3,Dostoevsky,Crime and Punishment,1,0.0,500.0,500.0,DOSTOEVSKY
4,4,unknown,Fathers and Sons,1,0.0,,,UNKNOWN
5,3,Dostoevsky,Gambler,2,,400.0,800.0,DOSTOEVSKY
6,5,Chekhov,Three Sister,3,,350.0,1050.0,CHEKHOV


In [424]:
# ascending=False - сортировка по убыванию
df4.sort_values(by='author_id', ascending=False)

Unnamed: 0,author_id,author_name,book_title,quantity,quantity_2,price,total,author_name_2
6,5,Chekhov,Three Sister,3,,350.0,1050.0,CHEKHOV
4,4,unknown,Fathers and Sons,1,0.0,,,UNKNOWN
2,3,Dostoevsky,The Idiot,1,0.0,450.0,450.0,DOSTOEVSKY
3,3,Dostoevsky,Crime and Punishment,1,0.0,500.0,500.0,DOSTOEVSKY
5,3,Dostoevsky,Gambler,2,,400.0,800.0,DOSTOEVSKY
1,2,Tolstoy,War and Peace,1,,700.0,700.0,TOLSTOY
0,1,Pushkin,,0,0.0,,,PUSHKIN


##**Групировка данных**  
Данные в таблице **DataFrame** можно группировать по повторяющимся значениям выбранного столбца. Групировка позволяет вычислять какие-то *агрегированные* значения, т.е. значения полученные каким-то образом из групп других значений. Например, если мы хотим сгруппировать нашу таблицу по значениям **author_name**, то каждая группа будет содержать все строки с одинаковым значением **author_name**. По таким группам можно затем посчитать какую-нибудь агрегирующую функцию, например, сумму, среднее, минимум и др.  
Вот несколько способов это сделать. В первом случае мы просто выбираем конкретный столбец из группировки и применяем к нему какую-то агрегирующую функцию.

In [425]:
groupby = df4.groupby( 'author_name' )
groupby

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7ebca47f8190>

In [426]:
groupby['price'].mean()

author_name
Chekhov       350.0
Dostoevsky    450.0
Pushkin         NaN
Tolstoy       700.0
unknown         NaN
Name: price, dtype: float64

Второй способ - с помощью метода **.agg**. Данный метод является более гибким. Например, он позволяет вычислять одновременно несколько различных агрегирующих функций от разных столбцов:

In [427]:
groupby.agg({"price": "max", "total": "count"})

Unnamed: 0_level_0,price,total
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Chekhov,350.0,1
Dostoevsky,500.0,3
Pushkin,,0
Tolstoy,700.0,1
unknown,,0
