### Work with pandas

We have a dataset with some online courses subscriptions. Let's do some aggregate functions and data saving.

In [1]:
import pandas as pd
from datetime import date # библиотека для обработки времени и даты

In [2]:
df = pd.read_csv(r'C:\Users\Dubreee\Python\KarpovCourses_Demo\Lesson_2\lesson_1_data.csv', encoding='windows-1251', sep=";")

In [3]:
# Последние 5 строк датафрейма
df.tail()

Unnamed: 0,Номер,Дата создания,Дата оплаты,Title,Статус,Заработано,Город,Платежная система
287,1064720,30.12.2019 9:42,30.12.2019 12:49,Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автос...,Завершен,2935.44,Самарская область,Яндекс.Касса
288,1064724,30.12.2019 11:32,,Курс обучения «Консультант»,Отменен,0.0,,
289,1064775,31.12.2019 2:17,31.12.2019 2:22,Курс обучения «Консультант»,Завершен,7423.92,,"Сбербанк эквайринг,Бонусный счет"
290,1064793,31.12.2019 16:40,01.01.2020 14:29,Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автос...,Завершен,2935.44,Республика Карелия,Яндекс.Касса
291,1064796,31.12.2019 17:29,31.12.2019 17:32,Курс от Школы Диетологов. Повышение квалификац...,Завершен,9898.56,Уфа,"Сбербанк эквайринг,Бонусный счет"


In [4]:
df.shape

(292, 8)

In [5]:
df.dtypes

Номер                  int64
Дата создания         object
Дата оплаты           object
Title                 object
Статус                object
Заработано           float64
Город                 object
Платежная система     object
dtype: object

In [6]:
# Статистики по числовым данным в датафрейме
df.describe()

Unnamed: 0,Номер,Заработано
count,292.0,292.0
mean,1063745.0,3397.615034
std,443.8688,5771.572829
min,1062823.0,0.0
25%,1063608.0,0.0
50%,1063698.0,2935.44
75%,1063807.0,2935.44
max,1064796.0,42750.0


In [7]:
# Названия столбцов
df.columns

Index(['Номер', 'Дата создания', 'Дата оплаты', 'Title', 'Статус',
       'Заработано', 'Город', 'Платежная система'],
      dtype='object')

In [8]:
# Приведем все названия к одному виду
df = df.rename(columns={'Номер' : 'number', 
          'Дата создания' : 'create_date', 
          'Дата оплаты' : 'payment_date', 
          'Title' : 'title', 
          'Статус' : 'status', 
          'Заработано' : 'earnings', 
          'Город' : 'city', 
          'Платежная система' : 'payment_system'})

In [9]:
df.head()

Unnamed: 0,number,create_date,payment_date,title,status,earnings,city,payment_system
0,1062823,01.12.2019 10:50,01.12.2019 10:52,Курс обучения «Эксперт»,Завершен,29597.5,Чита,Сбербанк эквайринг
1,1062855,01.12.2019 20:53,01.12.2019 21:27,Курс обучения «Эксперт»,Завершен,17450.3,Краснодар,Яндекс.Касса
2,1062856,01.12.2019 21:43,,Курс обучения «Специалист»,Отменен,0.0,,
3,1062880,03.12.2019 0:18,,Курс обучения «Консультант»,Отменен,0.0,г.Москва и Московская область,
4,1062899,03.12.2019 21:43,,Курс обучения «Эксперт»,Отменен,0.0,г.Москва и Московская область,


In [10]:
# Выбор отдельных столбцов из датафрейма
df[['title', 'city', 'earnings']].head()

Unnamed: 0,title,city,earnings
0,Курс обучения «Эксперт»,Чита,29597.5
1,Курс обучения «Эксперт»,Краснодар,17450.3
2,Курс обучения «Специалист»,,0.0
3,Курс обучения «Консультант»,г.Москва и Московская область,0.0
4,Курс обучения «Эксперт»,г.Москва и Московская область,0.0


In [11]:
df.payment_date

0      01.12.2019 10:52
1      01.12.2019 21:27
2                   NaN
3                   NaN
4                   NaN
             ...       
287    30.12.2019 12:49
288                 NaN
289     31.12.2019 2:22
290    01.01.2020 14:29
291    31.12.2019 17:32
Name: payment_date, Length: 292, dtype: object

In [12]:
# Общая выручка
total_earnings = df.earnings.sum()

In [13]:
total_earnings = round(total_earnings, 2)

In [14]:
total_earnings

992103.59

In [15]:
# Агрегированные данные (выручка в разбивке по курсу и городу)
earnings_by_course_and_city = df \
    .groupby(['title', 'city'], as_index=False) \
    .aggregate({'earnings':'sum'}) \
    .sort_values('earnings', ascending=False)
earnings_by_course_and_city

Unnamed: 0,title,city,earnings
51,Курс обучения «Эксперт»,г.Санкт-Петербург и Ленинградская область,59195.00
156,Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автос...,г.Москва и Московская область,46967.04
39,Курс обучения «Эксперт»,Балхаш,42750.00
95,Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автос...,Краснодарский край,38169.78
30,Курс обучения «Специалист»,Краснодар,29695.70
...,...,...,...
63,Курс от Школы Диетологов. Повышение квалификац...,Кемерово,0.00
61,Курс от Школы Диетологов. Повышение квалификац...,Екатеринбург,0.00
55,Курс от Школы Диетологов. Бизнес,Крым Советский,0.00
54,Курс от Школы Диетологов. Бизнес,Киев,0.00


In [16]:
# Сохраняем полученный датафрейм в csv-файл
earnings_by_course_and_city.to_csv('earnings_by_course_and_city.csv', index=False)

In [17]:
# Фильтрация данных
# Выручка по курсу для завершенных курсов
earnings_by_course_completed_orders = df \
    .query("status == 'Завершен'") \
    .groupby('title', as_index=False) \
    .aggregate({'earnings':'sum', 'number':'count'}) \
    .sort_values('earnings', ascending=False) \
    .rename(columns={'number':'completed_orders'})
earnings_by_course_completed_orders

Unnamed: 0,title,earnings,completed_orders
5,Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автос...,366947.2,125
0,Курс обучения «Консультант»,208163.49,31
1,Курс обучения «Специалист»,160862.64,7
2,Курс обучения «Эксперт»,148992.8,5
4,Курс от Школы Диетологов. Повышение квалификац...,88384.92,9
3,Курс от Школы Диетологов. Бизнес,18752.54,3


In [18]:
# Уникальные названия в столбце title
df.title.unique()

array(['Курс обучения «Эксперт»', 'Курс обучения «Специалист»',
       'Курс обучения «Консультант»', 'Курс от Школы Диетологов. Бизнес',
       'Курс от Школы Диетологов. Повышение квалификации. ',
       'Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автосписанием'],
      dtype=object)

In [19]:
# Количество различных значений (названий) в столбце title
df.title.nunique()

6

In [20]:
earnings_by_course_completed_orders

Unnamed: 0,title,earnings,completed_orders
5,Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автос...,366947.2,125
0,Курс обучения «Консультант»,208163.49,31
1,Курс обучения «Специалист»,160862.64,7
2,Курс обучения «Эксперт»,148992.8,5
4,Курс от Школы Диетологов. Повышение квалификац...,88384.92,9
3,Курс от Школы Диетологов. Бизнес,18752.54,3


In [21]:
# Создадим новую переменную для суммарной выручки по завершенным курсам
sum_earnings = round(earnings_by_course_completed_orders.earnings.sum(), 2)
sum_earnings

992103.59

In [22]:
# Как получить сегодняшнюю дату
today = date.today().strftime("%d/%m/%Y") # перевод даты в строку
today

'28/02/2022'

In [23]:
# Можно добавить дату в название файла
file_name = 'earnings_by_course_completed_orders_{}.csv'
file_name = file_name.format(today)
file_name

'earnings_by_course_completed_orders_28/02/2022.csv'

In [25]:
# Проверим, корректно ли рассчитана суммарная выручка по всей таблице и по отфильрованной и агрегированной
if sum_earnings == total_earnings:
    print('OK! File {} is written.'.format(file_name))
else:
    print('ERROR!!!')

OK! File earnings_by_course_completed_orders_28/02/2022.csv is written.
