In [21]:
# Шаг 6_10_1

# Иногда для анализа данных необходимо объединить несколько Pandas DataFrame, например, если они изначально представляют из себя разные источники данных.

# Все файлы с данными и полный jupyter notebook с кодом доступны в конце урока.

# Предположим, для анализа предоставлены несколько файлов с логами (например, по 1 файлу за каждый день), которые следует анализировать совместно. Для начала загрузим их:

import pandas as pd
Log_1 = pd.read_csv('data\\log_1.csv', sep=';')
Log_2 = pd.read_csv('data\\log_2.csv', sep=';')

Log_2.head()

Unnamed: 0,ID,SOURCE,DATE
0,720474,yandex,18.10.2019 12:28:59
1,720477,yandex,18.10.2019 12:53:05
2,720479,vk,18.10.2019 13:04:41
3,720483,google,18.10.2019 13:24:01


In [None]:
# Шаг 6_10_2

# pandas.DataFrame.append

# У DataFrame есть метод append (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.append.html), который позволяет добавить данные в конец таблицы:

Log_1.append(Log_2)

# Заметьте, что индексы у наших записей остались от исходных фреймов. Если хотим пронумеровать записи заново, добавляем атрибут ignore_index=True:

Log_1.append(Log_2, ignore_index=True)

# С помощью Append можно добавлять и отдельные строки (pandas.Series или похожие на словарь), но:
# 1. Их надо передавать списком (даже если добавляем 1 строку, она должна быть в списке)
# 2. Важно корректно задать ключи, иначе результат вас не обрадует.

Log_2.append([{'ID':1, 'SOURCE':'user', 'DATE':'now'}])

# Пример проблемы вызванной игнорирование ключей:

In [22]:
# Такого метода уже видимо нет, вылезает ошибка:
Log_2.append(Log_1)

AttributeError: 'DataFrame' object has no attribute 'append'

In [None]:
# Шаг 6_10_3

# pandas.concat

# Другой способ объединить таблицы (произвольное их количество) - concat (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html):

pd.concat([Log_1, Log_2])

# Заметим, что порядок таблиц, передаваемых для объединения важен и соответствует порядку строк в результате.

# Так же заметим, что нумерация так же сохраняется от исходных таблиц. Избавиться от неё так же можно с помощью ignore_index=True.

pd.concat([Log_1, Log_2], ignore_index=True)



In [29]:
pd.concat([Log_1, Log_2], ignore_index=True)

Unnamed: 0,ID,SOURCE,DATE
0,720251,yandex,17.10.2019 11:17:17
1,720250,google,17.10.2019 11:09:32
2,720255,yandex,17.10.2019 12:04:34
3,720257,google,17.10.2019 12:17:11
4,720258,yandex,17.10.2019 12:40:07
5,720281,yandex,17.10.2019 14:10:31
6,720290,yandex,17.10.2019 14:37:11
7,720297,yandex,17.10.2019 15:21:57
8,720301,yandex,17.10.2019 16:20:13
9,720303,yandex,17.10.2019 16:26:25


In [None]:
# Шаг 6_10_4

# Но что, если наши данные разделены не по датам, а по смыслу. Например, в одном файле информация об источнике заявки, а в другом результат её обработки (бизнес данные).

# В таком случае нашей задачей будет объединить таблицы не построчно, а по столбцам.

# Импортируем данные:
Log_2_success = pd.read_csv('log_2_success.csv', sep=';')
Log_2_success

# Для начала вызовем concat и посмотрим на результат.
# Функция отработала, но предупреждает о вероятно некорректном результате:

pd.concat([Log_2, Log_2_success])

# Чтобы объединить таблицы по столбцам изменим ось (направление) объединения со строк (0) на столбцы (1) с помощью атрибута axis:

pd.concat([Log_2, Log_2_success], axis=1)

# Т.к. столбец ID дублируется, давайте его удалим, просто сделав выборку нужных данных (напоминаем, объединять можно как фреймы так pandas.Series):

pd.concat([Log_2, Log_2_success['SUCCESS']], axis=1)



In [30]:
Log_2_success = pd.read_csv('data\\log_2_success.csv', sep=';')
Log_2_success

Unnamed: 0,ID,SUCCESS
0,720474,True
1,720477,False
2,720479,False
3,720483,True


In [31]:
pd.concat([Log_2, Log_2_success])

Unnamed: 0,ID,SOURCE,DATE,SUCCESS
0,720474,yandex,18.10.2019 12:28:59,
1,720477,yandex,18.10.2019 12:53:05,
2,720479,vk,18.10.2019 13:04:41,
3,720483,google,18.10.2019 13:24:01,
0,720474,,,True
1,720477,,,False
2,720479,,,False
3,720483,,,True


In [33]:
pd.concat([Log_2, Log_2_success], axis = 1)

Unnamed: 0,ID,SOURCE,DATE,ID.1,SUCCESS
0,720474,yandex,18.10.2019 12:28:59,720474,True
1,720477,yandex,18.10.2019 12:53:05,720477,False
2,720479,vk,18.10.2019 13:04:41,720479,False
3,720483,google,18.10.2019 13:24:01,720483,True


In [38]:
pd.concat([Log_2, Log_2_success['SUCCESS']], axis = 1)

Unnamed: 0,ID,SOURCE,DATE,SUCCESS
0,720474,yandex,18.10.2019 12:28:59,True
1,720477,yandex,18.10.2019 12:53:05,False
2,720479,vk,18.10.2019 13:04:41,False
3,720483,google,18.10.2019 13:24:01,True


In [None]:
# Шаг 6_10_5

# До сих пор мы предполагали, что данные в обоих таблицах идут в одном и том же порядке. Но что, если они перепутаны?

# Следующий пример показывает некорректное объединение данных (нет синтаксической ошибки, но значения неверные, что легко проверить по несоответствию чисел в столбцах ID:

Log_2_success_unsorted = pd.read_csv('log_2_success_unsorted.csv', sep=';')
Log_2_success_unsorted

pd.concat([Log_2, Log_2_success_unsorted], axis=1)

# pandas.DataFrame.merge

# Чтобы избежать этого, используем функцию merge (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html) аналогично предыдущей, но в параметр on передадим кортеж с именами ключей, в которых надо искать соответствие.

# Т.е. функция будет брать строку из 1 таблицы, смотреть значение в ID, искать строку с таким же значением в ID во второй таблице и склеивать эти 2 строки. И так по всем строкам.

# Бонусом избавляемся от дублирования столбцов ID

pd.merge(Log_2, Log_2_success_unsorted, on=('ID'))

# А теперь давайте объединим 3 таблицы:
# • Log_1 и Log_2 - логи за 2 дня
# • Log_2_success_unsorted - результат успешности или неуспешности операций 2 дня

# В этом примере у нас нет данных об успехе (или неуспехе) 1 дня, т.е. нет записей, соответствующих этим строкам для объединения столбцов.

pd.merge(Log_1.append(Log_2), Log_2_success_unsorted, on=('ID'))

# Как видим, объединение произведено таким образом, что все строки, которым не нашлось парных записей для merge просто УДАЛЕНЫ.

# Если мы хотим оставить их (планируем заполнить чем-то в будущем), то можно использовать метод объединения "left" (Привет, SQL, Left Join!) атрибутом how ='left':

pd.merge(Log_1.append(Log_2), Log_2_success_unsorted, on=('ID'), how='left')

In [39]:
Log_2_success_unsorted = pd.read_csv('data\\log_2_success_unsorted.csv', sep=';')
Log_2_success_unsorted

Unnamed: 0,ID,SUCCESS
0,720477,False
1,720479,False
2,720474,True
3,720483,True


In [40]:
pd.concat([Log_2, Log_2_success_unsorted], axis=1)

Unnamed: 0,ID,SOURCE,DATE,ID.1,SUCCESS
0,720474,yandex,18.10.2019 12:28:59,720477,False
1,720477,yandex,18.10.2019 12:53:05,720479,False
2,720479,vk,18.10.2019 13:04:41,720474,True
3,720483,google,18.10.2019 13:24:01,720483,True


In [45]:
pd.merge(Log_2, Log_2_success_unsorted, on = ('ID'))

Unnamed: 0,ID,SOURCE,DATE,SUCCESS
0,720474,yandex,18.10.2019 12:28:59,True
1,720477,yandex,18.10.2019 12:53:05,False
2,720479,vk,18.10.2019 13:04:41,False
3,720483,google,18.10.2019 13:24:01,True


In [50]:
# append не работает, поэтому делаю через concat:
pd.merge(pd.concat([Log_1, Log_2]), Log_2_success_unsorted, on=('ID'))

Unnamed: 0,ID,SOURCE,DATE,SUCCESS
0,720474,yandex,18.10.2019 12:28:59,True
1,720477,yandex,18.10.2019 12:53:05,False
2,720479,vk,18.10.2019 13:04:41,False
3,720483,google,18.10.2019 13:24:01,True


In [51]:
# добавляем how = 'left', аналогичный left join в SQL:
pd.merge(pd.concat([Log_1, Log_2]), Log_2_success_unsorted, on = ('ID'), how = 'left')

Unnamed: 0,ID,SOURCE,DATE,SUCCESS
0,720251,yandex,17.10.2019 11:17:17,
1,720250,google,17.10.2019 11:09:32,
2,720255,yandex,17.10.2019 12:04:34,
3,720257,google,17.10.2019 12:17:11,
4,720258,yandex,17.10.2019 12:40:07,
5,720281,yandex,17.10.2019 14:10:31,
6,720290,yandex,17.10.2019 14:37:11,
7,720297,yandex,17.10.2019 15:21:57,
8,720301,yandex,17.10.2019 16:20:13,
9,720303,yandex,17.10.2019 16:26:25,


In [None]:
# Шаг 6_10_6

# Что если мы хотим объединить таблицы, находя соответствие не по колонкам, а по индексам?

# Подготовим таблицы:

# Объединим таблицы предыдущим способом:
pd.merge(Log_1_i.append(Log_2_i), Log_2_success_unsorted_i, on=('ID'), how='left')

# К сожалению, это не сработает, если имена колонок/индексов разные (т.к. в атрибуте on задаётся имя общей колонки).

# Подготовим таблицу, колонку индексов в которой переименуем в NEW_ID:

# В таком случае правильнее использовать аргументы для объединения по индексам:
# • left_index=True - для использования колонки индексов для объединения для левой таблицы (1-й аргумент)
# • right_index=True - для использования колонки индексов для объединения для правой таблицы (2-й аргумент)

pd.merge(Log_1_i.append(Log_2_i), Log_2_success_unsorted_i, how='left', left_index=True, right_index=True)

# Предположим, что у одной таблицы мы хотим использовать индекс, а у другой колонку для объединения. Тогда помимо указанных выше аргументов нам потребуется 1 (или оба) аргумента:
# • left_on - имя колонки из левой таблицы (1-й аргумент) для объединения
# • right_on - имя колонки из правой таблицы (2-й аргумент) для объединения

pd.merge(Log_1_i.append(Log_2_i), Log_2_success_unsorted_i, how='left', left_on=('ID'), right_index=True)

In [56]:
# Для наглядности актуальный код:
Log_1_i = pd.read_csv('data\\log_1.csv', sep=';', index_col='ID')
Log_2_i = pd.read_csv('data\\log_2.csv', sep=';', index_col='ID')
Log_2_success_unsorted_i = pd.read_csv('data\\log_2_success_unsorted.csv', sep=';', index_col='ID')

In [57]:
Log_2_i.head()

Unnamed: 0_level_0,SOURCE,DATE
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
720474,yandex,18.10.2019 12:28:59
720477,yandex,18.10.2019 12:53:05
720479,vk,18.10.2019 13:04:41
720483,google,18.10.2019 13:24:01


In [58]:
Log_2_success_unsorted_i.head()

Unnamed: 0_level_0,SUCCESS
ID,Unnamed: 1_level_1
720477,False
720479,False
720474,True
720483,True


In [59]:
pd.merge(pd.concat([Log_1_i, Log_2_i]), Log_2_success_unsorted_i, on=('ID'), how ='left')

Unnamed: 0_level_0,SOURCE,DATE,SUCCESS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
720251,yandex,17.10.2019 11:17:17,
720250,google,17.10.2019 11:09:32,
720255,yandex,17.10.2019 12:04:34,
720257,google,17.10.2019 12:17:11,
720258,yandex,17.10.2019 12:40:07,
720281,yandex,17.10.2019 14:10:31,
720290,yandex,17.10.2019 14:37:11,
720297,yandex,17.10.2019 15:21:57,
720301,yandex,17.10.2019 16:20:13,
720303,yandex,17.10.2019 16:26:25,


In [60]:
Log_2_success_unsorted_i.index.names = ['NEW_ID']
Log_2_success_unsorted_i

Unnamed: 0_level_0,SUCCESS
NEW_ID,Unnamed: 1_level_1
720477,False
720479,False
720474,True
720483,True


In [61]:
pd.merge(pd.concat([Log_1_i, Log_2_i]), Log_2_success_unsorted_i, how = 'left', left_index = True, right_index = True)

Unnamed: 0_level_0,SOURCE,DATE,SUCCESS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
720251,yandex,17.10.2019 11:17:17,
720250,google,17.10.2019 11:09:32,
720255,yandex,17.10.2019 12:04:34,
720257,google,17.10.2019 12:17:11,
720258,yandex,17.10.2019 12:40:07,
720281,yandex,17.10.2019 14:10:31,
720290,yandex,17.10.2019 14:37:11,
720297,yandex,17.10.2019 15:21:57,
720301,yandex,17.10.2019 16:20:13,
720303,yandex,17.10.2019 16:26:25,


In [63]:
pd.merge(pd.concat([Log_1_i, Log_2_i]), Log_2_success_unsorted_i, how = 'left', left_on = ('ID'), right_index = True)

Unnamed: 0_level_0,SOURCE,DATE,SUCCESS
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
720251,yandex,17.10.2019 11:17:17,
720250,google,17.10.2019 11:09:32,
720255,yandex,17.10.2019 12:04:34,
720257,google,17.10.2019 12:17:11,
720258,yandex,17.10.2019 12:40:07,
720281,yandex,17.10.2019 14:10:31,
720290,yandex,17.10.2019 14:37:11,
720297,yandex,17.10.2019 15:21:57,
720301,yandex,17.10.2019 16:20:13,
720303,yandex,17.10.2019 16:26:25,


In [None]:
# Шаг 6_10_7

# Связь один ко многим

# Что если нет однозначного соответствия строк одной таблицы другой, например, одна из таблиц - это справочник?

# Предположим, мы где-то разжились выгрузкой из 2 таблиц:
# • orders.csv - информация по позициям в заказе (по 1 товару в строке, если в заказе несколько товаров, то в таблице будет несколько записей)
# • Products.csv - выгрузка из справочника товаров (название, ID, цена и валюта)

# Не все товары из Products.csv фигурируют в orders.csv.

# Некоторые товары (id 86, 103, 104) купили более одного раза.

# Нам вновь понадобится merge (не забудем указать имена колонок по которым производим объединение).

pd.merge(orders, products, how='left', left_on=('ID товара'), right_on=('Product_ID'))

# Можно заметить на 17й строке заказ ID=0 со странной товарной позицией 666, которой просто нет в справочнике. Это явно тестовая запись, которая не нашлось соответствия.

# Удалить её можно вручную, по NaN в одной из колонок, либо с помощью объединения how='inner' (тогда строки из левой таблицы, которым не найдено соответствие в правой, так же будут исключены из результата).

pd.merge(orders, products, how='inner', left_on=('ID товара'), right_on=('Product_ID'))

In [19]:
import pandas as pd

orders = pd.read_csv('data\\orders.csv', sep = ';')

orders

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3


In [20]:
products = pd.read_csv('data\\Products.csv', sep = ';')

products

Unnamed: 0,Product_ID,Name,Price,CURRENCY
0,47,Шатны Полосатый рейс,2999,RUR
1,51,Платье Аленький цветочек,4999,RUR
2,53,Штаны Цветочная Поляна,4999,RUR
3,71,Платье Ночная Жизнь,7999,RUR
4,74,Платье Ночная Жизнь XXXL,8999,RUR
5,86,"Носки Простые, муж",45,RUR
6,91,"Носки Честные, муж",50,RUR
7,103,"Носки Подарочные, муж",199,RUR
8,104,"Носки Подарочные, жен",249,RUR
9,124,Носки беговые Camino,999,RUR


In [13]:
pd.merge(orders, products, how ='left', left_on=('ID товара'), right_on=('Product_ID'))

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Product_ID,Name,Price,CURRENCY
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103.0,"Носки Подарочные, муж",199.0,RUR
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100,86.0,"Носки Простые, муж",45.0,RUR
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10,104.0,"Носки Подарочные, жен",249.0,RUR
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7,104.0,"Носки Подарочные, жен",249.0,RUR
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5,104.0,"Носки Подарочные, жен",249.0,RUR
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103.0,"Носки Подарочные, муж",199.0,RUR
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1,124.0,Носки беговые Camino,999.0,RUR
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1,91.0,"Носки Честные, муж",50.0,RUR
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,103.0,"Носки Подарочные, муж",199.0,RUR
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,104.0,"Носки Подарочные, жен",249.0,RUR


In [18]:
pd.merge(orders, products, how = 'inner', left_on = ('ID товара'), right_on = ('Product_ID'))

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Product_ID,Name,Price,CURRENCY
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103,"Носки Подарочные, муж",199,RUR
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100,86,"Носки Простые, муж",45,RUR
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10,104,"Носки Подарочные, жен",249,RUR
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7,104,"Носки Подарочные, жен",249,RUR
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5,104,"Носки Подарочные, жен",249,RUR
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103,"Носки Подарочные, муж",199,RUR
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1,124,Носки беговые Camino,999,RUR
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1,91,"Носки Честные, муж",50,RUR
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,103,"Носки Подарочные, муж",199,RUR
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,104,"Носки Подарочные, жен",249,RUR


In [None]:
# Шаг 6_10_8

# Материалы урока:
# • Jupyter Notebook (конспект)
# • Данные (архив csv)

In [None]:
# Шаг 6_10_9

# На какую сумму купили и оплатили носков любых видов (как мужских, так и женских)?

# • Данные о заказах
# • Данные о товарах

# P.S. В рамках задачи гольфы != носки =)



In [24]:
import pandas as pd

orders = pd.read_csv('orders.csv', sep = ';')

orders

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3


In [25]:
products = pd.read_csv('Products.csv', sep = ';')

products

Unnamed: 0,Product_ID,Name,Price,CURRENCY
0,47,Шатны Полосатый рейс,2999,RUR
1,51,Платье Аленький цветочек,4999,RUR
2,53,Штаны Цветочная Поляна,4999,RUR
3,71,Платье Ночная Жизнь,7999,RUR
4,74,Платье Ночная Жизнь XXXL,8999,RUR
5,86,"Носки Простые, муж",45,RUR
6,91,"Носки Честные, муж",50,RUR
7,103,"Носки Подарочные, муж",199,RUR
8,104,"Носки Подарочные, жен",249,RUR
9,124,Носки беговые Camino,999,RUR


In [28]:
df1 = pd.merge(orders, products, how = 'inner', left_on = ('ID товара'), right_on = ('Product_ID'))
df1

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Product_ID,Name,Price,CURRENCY
0,09.11.2019 21:55:51,9,10,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103,"Носки Подарочные, муж",199,RUR
1,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,86,100,86,"Носки Простые, муж",45,RUR
2,09.11.2019 15:05:57,8,9,"Принят, ожидается оплата",Нет,Нет,Нет,104,10,104,"Носки Подарочные, жен",249,RUR
3,09.11.2019 12:50:07,7,8,"Принят, ожидается оплата",Нет,Нет,Нет,104,7,104,"Носки Подарочные, жен",249,RUR
4,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,104,5,104,"Носки Подарочные, жен",249,RUR
5,09.11.2019 12:00:00,6,1,"Принят, ожидается оплата",Нет,Нет,Нет,103,5,103,"Носки Подарочные, муж",199,RUR
6,08.11.2019 08:36:22,5,5,Отменён,Нет,Да,Нет,124,1,124,Носки беговые Camino,999,RUR
7,08.11.2019 08:36:22,4,9,"Принят, ожидается оплата",Нет,Нет,Да,91,1,91,"Носки Честные, муж",50,RUR
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,103,"Носки Подарочные, муж",199,RUR
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,104,"Носки Подарочные, жен",249,RUR


In [36]:
# Дока для str.contains (похоже на LIKE в SQL):
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html
df2 = df1[(df1['Name'].str.contains('Носки')) & (df1['Оплачен'] == 'Да')]
df2

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Product_ID,Name,Price,CURRENCY
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,103,"Носки Подарочные, муж",199,RUR
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,104,"Носки Подарочные, жен",249,RUR
15,08.11.2019 08:36:20,1,5,"Оплачен, формируется к отправке",Да,Нет,Нет,86,1,86,"Носки Простые, муж",45,RUR


In [45]:
# df2['Стоимость'] = df2['Количество'] * df2['Price'] # вылезает предупреждение
df2.loc[:, 'Стоимость'] = df2['Количество'] * df2['Price']
df2

Unnamed: 0,Дата создания,Order ID,ID Покупателя,Статус,Оплачен,Отменен,Отгружен,ID товара,Количество,Product_ID,Name,Price,CURRENCY,Стоимость
8,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,103,3,103,"Носки Подарочные, муж",199,RUR,597
9,08.11.2019 08:36:22,3,8,"Оплачен, формируется к отправке",Да,Нет,Нет,104,3,104,"Носки Подарочные, жен",249,RUR,747
15,08.11.2019 08:36:20,1,5,"Оплачен, формируется к отправке",Да,Нет,Нет,86,1,86,"Носки Простые, муж",45,RUR,45


In [47]:
print(df2['Стоимость'].sum())

1389
