# Cash flow analysis

**Target:**
Understand which cities received the most revenue.

**Analysis answers:**
- Which cities bring in the most money?
- Is there a skew in the distribution?

In [61]:
import pandas as pd

from datetime import datetime

In [3]:
df = pd.read_csv('../../../data/01_module/02_part/lesson_2_data.csv',
                encoding='windows-1251', sep=';')

## Data preprocessing

In [4]:
df.head()

Unnamed: 0,Номер,Дата создания,Дата оплаты,Title,Статус,Заработано,Город,Платежная система
0,1062823,01.12.2019 10:50,01.12.2019 10:52,Курс обучения «Эксперт»,Завершен,29597.5,Чита,Сбербанк эквайринг
1,1062855,01.12.2019 20:53,01.12.2019 21:27,Курс обучения «Эксперт»,Завершен,17450.3,Краснодар,Яндекс.Касса
2,1062856,01.12.2019 21:43,,Курс обучения «Специалист»,Отменен,0.0,,
3,1062880,03.12.2019 0:18,,Курс обучения «Консультант»,Отменен,0.0,г.Москва и Московская область,
4,1062899,03.12.2019 21:43,,Курс обучения «Эксперт»,Отменен,0.0,г.Москва и Московская область,


In [5]:
print(f'Shape: {df.shape}')

Shape: (292, 8)


In [6]:
df.dtypes

Номер                  int64
Дата создания         object
Дата оплаты           object
Title                 object
Статус                object
Заработано           float64
Город                 object
Платежная система     object
dtype: object

In [27]:
df.describe()

Unnamed: 0,number,money
count,292.0,292.0
mean,1063745.0,3397.615034
std,443.8688,5771.572829
min,1062823.0,0.0
25%,1063608.0,0.0
50%,1063698.0,2935.44
75%,1063807.0,2935.44
max,1064796.0,42750.0


In [8]:
df.columns

Index(['Номер', 'Дата создания', 'Дата оплаты', 'Title', 'Статус',
       'Заработано', 'Город', 'Платежная система'],
      dtype='object')

In [9]:
df = df.rename(columns={'Номер': 'number',
                   'Дата создания': 'create_date',
                   'Дата оплаты': 'payment_date',
                   'Title': 'title',
                   'Статус': 'status',
                   'Заработано': 'money',
                   'Город': 'city',
                   'Платежная система': 'payment_system'})

In [10]:
df.head()

Unnamed: 0,number,create_date,payment_date,title,status,money,city,payment_system
0,1062823,01.12.2019 10:50,01.12.2019 10:52,Курс обучения «Эксперт»,Завершен,29597.5,Чита,Сбербанк эквайринг
1,1062855,01.12.2019 20:53,01.12.2019 21:27,Курс обучения «Эксперт»,Завершен,17450.3,Краснодар,Яндекс.Касса
2,1062856,01.12.2019 21:43,,Курс обучения «Специалист»,Отменен,0.0,,
3,1062880,03.12.2019 0:18,,Курс обучения «Консультант»,Отменен,0.0,г.Москва и Московская область,
4,1062899,03.12.2019 21:43,,Курс обучения «Эксперт»,Отменен,0.0,г.Москва и Московская область,


In [11]:
df[['title', 'status']].head()

Unnamed: 0,title,status
0,Курс обучения «Эксперт»,Завершен
1,Курс обучения «Эксперт»,Завершен
2,Курс обучения «Специалист»,Отменен
3,Курс обучения «Консультант»,Отменен
4,Курс обучения «Эксперт»,Отменен


## Agregate, analysis

In [55]:
all_money = df.money.sum()

### Aggregation of revenue from courses by city

In [77]:
money_by_city = (
    df.groupby(['title', 'city'], as_index=False)
    .aggregate({'money': 'sum'})
    .sort_values(by='money', ascending=False)
)

### Aggregation of revenue and orders from courses

In [78]:
money_title = (
    df.query("status == 'Завершен'")
    .groupby(['title'], as_index=False)
    .aggregate({'money': 'sum', 'number': 'count'})
    .sort_values(by='money', ascending=False)
    .rename(columns={'number': 'success_orders'})
)
money_title

Unnamed: 0,title,money,success_orders
5,Подписка «ОНЛАЙН ДИЕТОЛОГ» с ежемесячным автос...,366947.2,125
0,Курс обучения «Консультант»,208163.49,31
1,Курс обучения «Специалист»,160862.64,7
2,Курс обучения «Эксперт»,148992.8,5
4,Курс от Школы Диетологов. Повышение квалификац...,88384.92,9
3,Курс от Школы Диетологов. Бизнес,18752.54,3


## An attempt to lead to automation

In [None]:
today = datetime.today().strftime('%Y-%m-%d')
filename = f'money_title_{today}.csv'

In [69]:
if int(money_title.money.sum()) == int(all_money):
    print(f'Ok. File {filename} written.')
    money_by_city.to_csv(filename, index=False)
else:
    print('Error')

Ok. File money_title_2026-01-05.csv written.


In [65]:
today = datetime.today().strftime('%Y-%m-%d')

In [66]:
filename = f'money_title_{today}.csv'

## Summary
- Top 3 courses by revenue is: "Подписка «ОНЛАЙН ДИЕТОЛОГ»", "Курс обучения «Консультант»", "Курс обучения «Специалист»"
- The difference between the sales leader and other courses is significant