In [1]:
import generator as gen
import transformer as trans
import pandas as pd
import os

cwd = os.getcwd()
save_datasets = False

#### Generate a clients table

In [2]:
clients = gen.generate_clients_table()
clients

Unnamed: 0,client_id,client_name,parent_company_id,parent_company_name
0,1,Georgi und Lehmkuhl G.m.b.H.,0,
1,2,Thiele & Hammes GmbH & Co. KG,3,DIETER UND BOHLEN GMBH
2,3,Jakob K.G,4,DEUTSCHMANN HOLDING AG
3,4,Kley GMBH,0,
4,5,Wagner & ThöneGesellschaft M.B.H.,0,
...,...,...,...,...
95,96,Andresen und Mücke GmbH & Co. KG,0,
96,97,Wittenberg und Kaps K.G,0,
97,98,Kellermann GMBH,1,NOKIC SCHWERINDUSTRIE GROUP GMBH
98,99,Ammon GmbH u. Co. KG,3,DIETER UND BOHLEN GMBH


#### Generate a transactions table

In [3]:
transactions = gen.generate_transactions_table(clients, n = 8000)
if save_datasets:
    transactions.to_excel(f'{cwd}/tables/transactions.xlsx')
    transactions.to_csv(f'{cwd}/tables/transactions.csv')
transactions

Unnamed: 0,client_id,transaction_volume,correspondant_name,correspondant_bank_name,date,direction
0,98,29000,Kellermann GMBH,N26,2020-06-19,out
1,80,16000,Runkel K.G,COMMERZBANK,2020-06-22,in
2,27,25000,Hilmer und Reiß G.m.b.H.,COMMERZBANK,2018-01-09,in
3,50,29000,Pabst G.m.b.H.,WISE,2018-05-13,out
4,35,46000,Heyn GmbH,SANTANDER,2018-04-20,in
...,...,...,...,...,...,...
7995,40,25000,Dost GmbH u. Co. KG,N26,2018-03-04,in
7996,2,35000,Thiele & Hammes GmbH & Co. KG,COMMERZBANK,2018-10-27,out
7997,38,47000,WiensKommanditgesellschaft,REVOLUT,2021-04-29,out
7998,24,30000,Licht GMBH,COMMERZBANK,2021-08-02,out


#### Normalise the names in both tables

In [4]:
clients['client_name'] = trans.normalise_names(clients, 'client_name')
if save_datasets:
    clients.to_excel(f'{cwd}/tables/clients.xlsx')
    clients.to_csv(f'{cwd}/tables/clients.csv')
clients

Unnamed: 0,client_id,client_name,parent_company_id,parent_company_name
0,1,GEORGI UND LEHMKUHL GMBH,0,
1,2,THIELE UND HAMMES GMBH UND CO KG,3,DIETER UND BOHLEN GMBH
2,3,JAKOB KG,4,DEUTSCHMANN HOLDING AG
3,4,KLEY GMBH,0,
4,5,WAGNER UND THOENE GMBH,0,
...,...,...,...,...
95,96,ANDRESEN UND MUECKE GMBH UND CO KG,0,
96,97,WITTENBERG UND KAPS KG,0,
97,98,KELLERMANN GMBH,1,NOKIC SCHWERINDUSTRIE GROUP GMBH
98,99,AMMON GMBH UND CO KG,3,DIETER UND BOHLEN GMBH


In [5]:
transactions['correspondant_name'] = trans.normalise_names(transactions, 'correspondant_name')
transactions

Unnamed: 0,client_id,transaction_volume,correspondant_name,correspondant_bank_name,date,direction
0,98,29000,KELLERMANN GMBH,N26,2020-06-19,out
1,80,16000,RUNKEL KG,COMMERZBANK,2020-06-22,in
2,27,25000,HILMER UND REISS GMBH,COMMERZBANK,2018-01-09,in
3,50,29000,PABST GMBH,WISE,2018-05-13,out
4,35,46000,HEYN GMBH,SANTANDER,2018-04-20,in
...,...,...,...,...,...,...
7995,40,25000,DOST GMBH UND CO KG,N26,2018-03-04,in
7996,2,35000,THIELE UND HAMMES GMBH UND CO KG,COMMERZBANK,2018-10-27,out
7997,38,47000,WIENS KG,REVOLUT,2021-04-29,out
7998,24,30000,LICHT GMBH,COMMERZBANK,2021-08-02,out


#### Select only the outgoing transactions and filter the dates as of 31st of December 2020

In [6]:
transactions = transactions.loc[(transactions['direction'] == 'out') & (transactions['date'] <= pd.to_datetime('2020-12-31').date()) ]
transactions

Unnamed: 0,client_id,transaction_volume,correspondant_name,correspondant_bank_name,date,direction
0,98,29000,KELLERMANN GMBH,N26,2020-06-19,out
3,50,29000,PABST GMBH,WISE,2018-05-13,out
11,18,47000,KRONE GMBH,SANTANDER,2019-09-11,out
13,77,16000,JUETTNER AGUND CO KG,REVOLUT,2020-07-18,out
16,13,41000,ROLLE KG,DEUTSCHE BANK,2020-02-02,out
...,...,...,...,...,...,...
7992,56,23000,EMMERICH OHG,REVOLUT,2020-05-25,out
7993,13,37000,SCHUBERT AGUND CO KG,DEUTSCHE BANK,2018-02-09,out
7994,28,32000,SPITZER UND BOSCH AG,N26,2020-04-12,out
7996,2,35000,THIELE UND HAMMES GMBH UND CO KG,COMMERZBANK,2018-10-27,out


#### Create a column to mark the FinTech companies

In [7]:
fintech_names = ['N26', 'REVOLUT', 'WISE']
transactions["is_FinTech"] = 0
transactions.loc[transactions['correspondant_bank_name'].isin(fintech_names), "is_FinTech"] = 1
transactions

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  transactions["is_FinTech"] = 0


Unnamed: 0,client_id,transaction_volume,correspondant_name,correspondant_bank_name,date,direction,is_FinTech
0,98,29000,KELLERMANN GMBH,N26,2020-06-19,out,1
3,50,29000,PABST GMBH,WISE,2018-05-13,out,1
11,18,47000,KRONE GMBH,SANTANDER,2019-09-11,out,0
13,77,16000,JUETTNER AGUND CO KG,REVOLUT,2020-07-18,out,1
16,13,41000,ROLLE KG,DEUTSCHE BANK,2020-02-02,out,0
...,...,...,...,...,...,...,...
7992,56,23000,EMMERICH OHG,REVOLUT,2020-05-25,out,1
7993,13,37000,SCHUBERT AGUND CO KG,DEUTSCHE BANK,2018-02-09,out,0
7994,28,32000,SPITZER UND BOSCH AG,N26,2020-04-12,out,1
7996,2,35000,THIELE UND HAMMES GMBH UND CO KG,COMMERZBANK,2018-10-27,out,0


#### Select only the fintech companies

In [8]:
transactions = transactions.loc[transactions['is_FinTech'] == 1]
transactions

Unnamed: 0,client_id,transaction_volume,correspondant_name,correspondant_bank_name,date,direction,is_FinTech
0,98,29000,KELLERMANN GMBH,N26,2020-06-19,out,1
3,50,29000,PABST GMBH,WISE,2018-05-13,out,1
13,77,16000,JUETTNER AGUND CO KG,REVOLUT,2020-07-18,out,1
35,51,34000,WILL OHG,N26,2019-11-12,out,1
37,41,48000,LEIS UND RUETTEN KG,REVOLUT,2020-08-24,out,1
...,...,...,...,...,...,...,...
7985,74,19000,KLAR OHG,WISE,2018-04-05,out,1
7986,25,41000,STECHER KG,N26,2020-03-31,out,1
7987,65,25000,SPEER UND BOENING KG,WISE,2018-04-21,out,1
7992,56,23000,EMMERICH OHG,REVOLUT,2020-05-25,out,1


#### Retrieve data from clients table and merge it with transactions data

In [9]:
fintech_df = pd.merge(transactions, clients, on='client_id', how='left')
fintech_df['parent_company_name'] = fintech_df['parent_company_name'].fillna(value = 'No parent company')
fintech_df

Unnamed: 0,client_id,transaction_volume,correspondant_name,correspondant_bank_name,date,direction,is_FinTech,client_name,parent_company_id,parent_company_name
0,98,29000,KELLERMANN GMBH,N26,2020-06-19,out,1,KELLERMANN GMBH,1,NOKIC SCHWERINDUSTRIE GROUP GMBH
1,50,29000,PABST GMBH,WISE,2018-05-13,out,1,PABST GMBH,2,THOMAS ANDERS UND SOHN AG
2,77,16000,JUETTNER AGUND CO KG,REVOLUT,2020-07-18,out,1,FREIER UND PUETZ GMBH UND CO KG,0,No parent company
3,51,34000,WILL OHG,N26,2019-11-12,out,1,BACHMANN AG,0,No parent company
4,41,48000,LEIS UND RUETTEN KG,REVOLUT,2020-08-24,out,1,ROESCH GMBH UND CO KG,1,NOKIC SCHWERINDUSTRIE GROUP GMBH
...,...,...,...,...,...,...,...,...,...,...
918,74,19000,KLAR OHG,WISE,2018-04-05,out,1,FROMM AG,3,DIETER UND BOHLEN GMBH
919,25,41000,STECHER KG,N26,2020-03-31,out,1,STECHER KG,1,NOKIC SCHWERINDUSTRIE GROUP GMBH
920,65,25000,SPEER UND BOENING KG,WISE,2018-04-21,out,1,STEINHAUER UND SCHIEFER AGUND CO KG,4,DEUTSCHMANN HOLDING AG
921,56,23000,EMMERICH OHG,REVOLUT,2020-05-25,out,1,SEGER UND REINARTZ GMBH UND CO KG,0,No parent company


#### filter out rows where client names are the same

In [10]:
fintech_df = fintech_df.loc[fintech_df['correspondant_name'] == fintech_df['client_name']]
fintech_df

Unnamed: 0,client_id,transaction_volume,correspondant_name,correspondant_bank_name,date,direction,is_FinTech,client_name,parent_company_id,parent_company_name
0,98,29000,KELLERMANN GMBH,N26,2020-06-19,out,1,KELLERMANN GMBH,1,NOKIC SCHWERINDUSTRIE GROUP GMBH
1,50,29000,PABST GMBH,WISE,2018-05-13,out,1,PABST GMBH,2,THOMAS ANDERS UND SOHN AG
5,48,18000,PAGEL UND MERKEL GMBH UND CO KG,WISE,2019-01-31,out,1,PAGEL UND MERKEL GMBH UND CO KG,1,NOKIC SCHWERINDUSTRIE GROUP GMBH
7,89,13000,SCHOTT GMBH,WISE,2020-04-02,out,1,SCHOTT GMBH,3,DIETER UND BOHLEN GMBH
8,33,33000,HUNGER AG,WISE,2020-01-14,out,1,HUNGER AG,0,No parent company
...,...,...,...,...,...,...,...,...,...,...
911,3,22000,JAKOB KG,WISE,2019-02-02,out,1,JAKOB KG,4,DEUTSCHMANN HOLDING AG
913,68,10000,FAERBER UND KOENIGS GMBH UND CO KG,WISE,2018-10-10,out,1,FAERBER UND KOENIGS GMBH UND CO KG,0,No parent company
914,2,38000,THIELE UND HAMMES GMBH UND CO KG,REVOLUT,2019-05-09,out,1,THIELE UND HAMMES GMBH UND CO KG,3,DIETER UND BOHLEN GMBH
915,45,20000,SCHIMMEL AG UND CO KG,REVOLUT,2018-12-25,out,1,SCHIMMEL AG UND CO KG,2,THOMAS ANDERS UND SOHN AG


#### Group by client names, get the total transaction volume per company and retrieve the top 10 with the most transaction volume

In [11]:
pd.set_option('display.max_rows', None)
top_companies = fintech_df.groupby(['client_id','client_name', 'parent_company_name'], as_index=False)\
                            .agg({
                                'transaction_volume': 'sum'
                            })\
                            .sort_values(by=['transaction_volume'], ascending=False)\
                            .rename(columns={'transaction_volume':'total_transaction_volume'})
top_companies.head(10)

Unnamed: 0,client_id,client_name,parent_company_name,total_transaction_volume
2,3,JAKOB KG,DEUTSCHMANN HOLDING AG,267000
29,30,NEHLS UND WEDEL AG,NOKIC SCHWERINDUSTRIE GROUP GMBH,248000
20,21,VOLLMER GMBH UND CO KG,DEUTSCHMANN HOLDING AG,235000
47,48,PAGEL UND MERKEL GMBH UND CO KG,NOKIC SCHWERINDUSTRIE GROUP GMBH,230000
18,19,FETZER OHG,No parent company,217000
73,75,HENSEL UND OLSCHEWSKI AGUND CO KG,No parent company,217000
86,88,FLICK UND SCHOENBERG AGUND CO KG,No parent company,216000
84,86,GLASER GMBH,THOMAS ANDERS UND SOHN AG,203000
33,34,SELZER AGUND CO KG,THOMAS ANDERS UND SOHN AG,195000
51,52,DAUB UND VOLKERT KG,DIETER UND BOHLEN GMBH,192000


#### Group data by parent companies, and sort the volume in descending order

In [12]:
top_holdings = fintech_df.groupby(['parent_company_id', 'parent_company_name'], as_index=False)\
                            .agg({
                                'transaction_volume': 'sum'
                            })\
                            .sort_values(by=['transaction_volume'], ascending=False)\
                            .rename(columns={'transaction_volume':'total_transaction_volume'})

top_holdings

Unnamed: 0,parent_company_id,parent_company_name,total_transaction_volume
0,0,No parent company,4396000
1,1,NOKIC SCHWERINDUSTRIE GROUP GMBH,2050000
2,2,THOMAS ANDERS UND SOHN AG,1962000
3,3,DIETER UND BOHLEN GMBH,1937000
4,4,DEUTSCHMANN HOLDING AG,1050000
