In [1]:
from datetime import date

import pandas as pd

In [2]:
df = pd.read_csv('data/reviews.csv')

In [3]:
df.shape

(1406, 11)

In [4]:
df = df.drop_duplicates()

In [5]:
df.shape

(1399, 11)

In [6]:
df.head(10)

Unnamed: 0,bank,user_name,title,date,review,home_banking,security,support,promotions,services,local_presence
0,qonto,Alessio,Qonto per la mia attività,21 Giugno 2023,"Da libero professionista, Qonto è stata una pi...",100,80,80,100,100,60
1,trade-republic,Fulvio,Conto deposito trade republic,21 Giugno 2023,Ho iniziato ad utilizzare Trade Republic per p...,80,100,80,80,80,100
2,santander,Mauro,Finanziamento,21 Marzo 2023,Buonasera\nHo chiesto un finanziamento di 2500...,40,20,20,20,20,20
3,santander,Laritza Iznaga,Deluso,24 Settembre 2022,Buongiorno come prima esperienza con la Banca ...,20,20,20,20,20,20
4,tinaba,Giacomo,Conto deposito con Tinaba,21 Giugno 2023,Investire nel conto deposito di Tinaba è stata...,100,80,80,100,80,60
5,tinaba,Mauro Sartore,precisazione,18 Febbraio 2022,Solo per specificare che contrariamente a quan...,100,100,100,100,100,100
6,tinaba,Luca,Il conto e la carta che cercavo. Eccezionale!,23 Dicembre 2021,Ho aperto Tinaba da qualche mese e penso che a...,100,100,100,80,80,20
7,american-express,Daniele,La uso tutti i mesi,01 Dicembre 2019,Molto facile da usare con app che ti indica i ...,100,100,100,100,60,40
8,illimity,Andrea,Traverso,04 Gennaio 2020,"Assolutamente non ci siamo, iniziate le pratic...",20,20,20,20,20,20
9,illimity,Alberto,C/c facile da aprire,25 Novembre 2019,Conto corrente online facile da utilizzare ed ...,100,100,80,100,100,60


In terms of scores we consider only the following: `home_banking`, `support` and `local_presence`

In [7]:
df = df[['bank', 'user_name', 'title', 'date', 'review', 'home_banking', 'support', 'local_presence']]

In [8]:
def convert_date_str(date_str):
    it_month_number_map = {
        'gennaio': '01', 'febbraio': '02', 'marzo': '03', 'aprile': '04',
        'maggio': '05', 'giugno': '06', 'luglio': '07', 'agosto': '08',
        'settembre': '09', 'ottobre': '10', 'novembre': '11', 'dicembre': '12'
    }
    day, month_italian, year = date_str.split(' ')
    month = it_month_number_map[month_italian.lower()]
    return date(int(year), int(month), int(month))

In [9]:
df['date'] = df['date'].apply(convert_date_str)

In [10]:
df.head()

Unnamed: 0,bank,user_name,title,date,review,home_banking,support,local_presence
0,qonto,Alessio,Qonto per la mia attività,2023-06-06,"Da libero professionista, Qonto è stata una pi...",100,80,60
1,trade-republic,Fulvio,Conto deposito trade republic,2023-06-06,Ho iniziato ad utilizzare Trade Republic per p...,80,80,100
2,santander,Mauro,Finanziamento,2023-03-03,Buonasera\nHo chiesto un finanziamento di 2500...,40,20,20
3,santander,Laritza Iznaga,Deluso,2022-09-09,Buongiorno come prima esperienza con la Banca ...,20,20,20
4,tinaba,Giacomo,Conto deposito con Tinaba,2023-06-06,Investire nel conto deposito di Tinaba è stata...,100,80,60


Cariparma has been acquired by Crédit Agricole, we rename matching rows in the dataset

In [11]:
cariparma_filter = df['bank'] == 'cariparma'

In [12]:
df.loc[cariparma_filter, 'bank'] = 'credit-agricole'

In [13]:
selected_banks = ['widiba', 'monte-dei-paschi-di-siena', 'banca-popolare-di-milano', 'bnl', 'che-banca', 'ing-direct', 'intesa-sanpaolo', 'unicredit', 'banca-sella', 'credit-agricole']

In [14]:
df = df.loc[df['bank'].isin(selected_banks)]

We drop rows which don't have score for columns of interest

In [15]:
rows_with_no_score = (df['home_banking'] == 0) | (df['support'] == 0) | (df['local_presence'] == 0)

In [16]:
df.loc[rows_with_no_score]

Unnamed: 0,bank,user_name,title,date,review,home_banking,support,local_presence
418,bnl,Sas_Agne,buono,2010-11-11,"Ciao,\n\nsono una casalinga e ho il conto corr...",0,80,0
419,bnl,Monica,Perte Revolution,2010-11-11,ciao a tutti!\n\n\nho 25 anni e ho attivato il...,0,80,0
439,banca-sella,bilbo061075,un disastro,2012-10-10,Purtroppo ho avuto a che fare quasi un anno co...,0,20,0
440,banca-sella,Sas_Agne,mediocre,2010-12-12,il conto corrente internet di sella è soddisfa...,0,60,0
441,banca-sella,Monica,conto corrente online scadente,2010-11-11,Ho attivato il conto corrente Tuo click perché...,0,40,0
654,ing-direct,cesare colaiuta,Eccellente,2014-03-03,L'unica limitazione sonno i preieievi gratuiti...,0,100,0
655,ing-direct,Sandro,"conto corrente ok, mutui meno",2014-02-02,Il conto consente di tare praticamente tutto o...,0,20,0
656,ing-direct,Giuseppe,Ing,2014-02-02,"Competenti e cordiali, da tanti anni loro clie...",0,20,0
657,ing-direct,LUIGI,SERVIZIO CLIENTI CONTO ARANCIO,2014-02-02,Conto Arancio richiesto direttamente in filial...,0,60,0
658,ing-direct,Matteo,Perfetto,2014-02-02,Un conto attivato in maniera abbastanza facile...,0,80,0


In [17]:
df.drop(index=df[rows_with_no_score].index, inplace=True)

In [18]:
df.shape

(729, 8)

In [19]:
df['year_review'] = df['date'].apply(lambda x: x.year)

In [20]:
df.groupby(['bank', 'year_review'])['bank'].count()

bank                      year_review
banca-popolare-di-milano  2014           2
                          2017           2
                          2018           1
                          2019           3
                          2020           2
                                        ..
widiba                    2019           4
                          2020           3
                          2021           4
                          2022           4
                          2023           3
Name: bank, Length: 81, dtype: int64