<h4> Zaimportowanie bibliotek do analizy danych i połączenia z bazą danych

In [1]:
import pandas as pd
from sqlalchemy import create_engine


<h4> Stworzenie połączenia z bazą</h4>
W tej sekcji tworzymy `engine` do połączenia z bazą danych MySQL.
Używamy `SQLAlchemy` i parametrów połączenia (host, port, user, database).

In [5]:
engine = create_engine('mysql+pymysql://guest:ctu-relational@relational.fel.cvut.cz:3306/financial')

<h4>Sprawdzenie jakie tabele występują w bazie</h4>
Używamy polecenia `SHOW TABLES;`, aby zobaczyć wszystkie tabele w bazie danych.To pozwala nam wybrać, którą tabelę będziemy analizować.


In [63]:
with engine.connect() as conn:
    df = pd.read_sql(
     "SHOW TABLES;",
     conn)
df

Unnamed: 0,Tables_in_financial
0,account
1,card
2,client
3,disp
4,district
5,loan
6,order
7,trans


<h4>Wczytanie tabeli `loan` do DataFrame</h4>
Za pomocą SQLAlchemy i Pandas pobieramy całą tabelę `loan` z bazy danych i zapisujemy ją w DataFrame `df_loan`.
Ustawiamy kolumnę `loan_id` jako indeks, aby łatwiej odwoływać się do poszczególnych pożyczek w dalszej analizie.

In [6]:
with engine.connect() as conn:
    df_loan = pd.read_sql(
        "SELECT * FROM loan;",
        conn,
     index_col='loan_id'
    )
df_loan.head()


Unnamed: 0_level_0,account_id,date,amount,duration,payments,status
loan_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
4959,2,1994-01-05,80952,24,3373.0,A
4961,19,1996-04-29,30276,12,2523.0,B
4962,25,1997-12-08,30276,12,2523.0,A
4967,37,1998-10-14,318480,60,5308.0,D
4968,38,1998-04-19,110736,48,2307.0,C


<h4> Konwersja kolumny `date` na typ DateTime</h4>
Kolumna `date` w tabeli `loan` jest obecnie typu tekstowego (`object`).
Konwertujemy ją na typ `datetime`, aby móc wykonywać operacje czasowe, np. filtrowanie po datach czy obliczanie różnic.

In [7]:
df_loan['date'] = pd.to_datetime(df_loan['date'])

<h4>Agregacja kredytów według daty</h4>
Agregujemy dane z tabeli `loan` według:
- roku (`Year`)
- kwartału (`Quarter`)
- miesiąca (`Month`)

Obliczamy:
- `Loans_total` – łączną kwotę pożyczek w danym okresie
- `Loans_avg` – średnią kwotę pożyczki (konwertowaną na `int`)
- `Loans_count` – liczbę pożyczek

In [66]:
result = (
    df_loan.groupby([
    df_loan['date'].dt.year,
    df_loan['date'].dt.quarter,
    df_loan['date'].dt.month
]).agg(
    Loans_total=('amount','sum'),
    Loans_avg=('amount','mean'),
    Loans_count=('account_id','count')
    )
)
result['Loans_avg'] = result['Loans_avg'].astype(int)
result.index.set_names(['Year', 'Quarter', 'Month'], inplace=True)
result


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Loans_total,Loans_avg,Loans_count
Year,Quarter,Month,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1993,3,7,389436,129812,3
1993,3,8,105804,105804,1
1993,3,9,590112,147528,4
1993,4,10,154416,154416,1
1993,4,11,218556,72852,3
...,...,...,...,...,...
1998,3,8,1176876,235375,5
1998,3,9,2290812,163629,14
1998,4,10,1415112,141511,10
1998,4,11,1011396,126424,8


<h4> Sprawdzenie wartości w kolumnie `status`</h4>
Chcemy zobaczyć, czy na podstawie kolumny `status` można pogrupować pożyczki na spłacone i niespłacone.
Na stronie bazy danych możemy znaleźć informację, że w bazie znajdują się w sumie 682 udzielone kredyty, z czego 606 zostało spłaconych, a 76 nie.


In [67]:
df_loan['status'].value_counts()

status
C    403
A    203
D     45
B     31
Name: count, dtype: int64

Interpretacja wyników:
- Kredyty spłacone: status `A` i `C` (203 + 403 = 606)
- Kredyty niespłacone: status `B` i `D` (31 + 45 = 76)

<h4>W tej sekcji wyciągamy wszystkie **spłacone pożyczki** (status `'A'` i `'C'`) i tworzymy nowy DataFrame `loans_paid`</h4>
Dzięki temu możemy:
- policzyć, ile pożyczek spłaconych ma każdy klient,
- sprawdzić łączną kwotę pożyczek spłaconych przypisaną do klienta

In [68]:
paid = df_loan['status'].isin(['A', 'C'])
loans_paid = df_loan.loc[paid, ['account_id', 'amount']].reset_index(drop=True).set_index('account_id')
loans_paid.groupby('account_id').agg({'amount':['sum','count', 'mean']})

Unnamed: 0_level_0,amount,amount,amount
Unnamed: 0_level_1,sum,count,mean
account_id,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
2,80952,1,80952.0
25,30276,1,30276.0
38,110736,1,110736.0
67,165960,1,165960.0
97,102876,1,102876.0
...,...,...,...
11327,39168,1,39168.0
11328,280440,1,280440.0
11349,419880,1,419880.0
11359,54024,1,54024.0


<h4>Ranking klientów według sumy spłaconych pożyczek</h4>
W tej sekcji tworzymy ranking klientów (`account_id`) według łącznej kwoty spłaconych pożyczek.

In [69]:
agg_df = df_loan.groupby('account_id')['amount'].agg('sum')
agg_df = agg_df.sort_values(ascending=False).reset_index()
agg_df['rank'] = range(1, len(agg_df) + 1)
agg_df.head(10)


Unnamed: 0,account_id,amount,rank
0,7542,590820,1
1,8926,566640,2
2,2335,541200,3
3,817,538500,4
4,2936,504000,5
5,7049,495180,6
6,10451,482940,7
7,6950,475680,8
8,7966,473280,9
9,339,468060,10


<h4>Wczytanie tabel do analizy salda pożyczek wg płci klienta</h4>

Do dalszej analizy potrzebujemy kilku tabel z bazy danych:

1. **account** – informacje o rachunkach klientów
2. **disp** – powiązanie kont z klientami (dysponent)
3. **client** – dane o klientach, w tym płeć
4. **district** – informacje o dzielnicach (opcjonalnie do agregacji geograficznej)

Wszystkie tabele wczytujemy do **DataFrame** przy użyciu `pd.read_sql()` i połączenia `engine`.

In [8]:
with engine.connect() as conn:
    df_account = pd.read_sql('SELECT * FROM account;', conn)
    df_disp = pd.read_sql('SELECT * FROM disp;', conn)
    df_client = pd.read_sql('SELECT * FROM client;', conn)
    df_district = pd.read_sql('SELECT * FROM district;', conn)

<h4>Łączenie tabel w jeden DataFrame do analizy pożyczek

In [9]:
df_merge = pd.merge(df_loan, df_account, on='account_id', how='inner')
df_merge = pd.merge(df_merge, df_disp, on='account_id', how='inner')
df_merge = pd.merge(df_merge, df_client, on='client_id', how='inner')
df_merge = pd.merge(df_merge, df_district, left_on='district_id_y', right_on='district_id', how='inner')

#### Analiza spłaconych pożyczek wg dzielnicy (tylko właściciele kont)

Agregacja zawiera:

1. **`customer_amount`** – liczba unikalnych klientów w dzielnicy
2. **`loans_given_amount`** – suma kwot pożyczek w dzielnicy
3. **`loans_given_sum`** – liczba udzielonych pożyczek
4. **`share`** – udział procentowy pożyczek w każdej dzielnicy

In [14]:
df_grouped = (df_merge.loc[
    (df_merge['status'].isin(['A', 'C'])) &
    (df_merge['type'].isin(['OWNER']))
].groupby('district_id').agg(
    customer_amount=('client_id','nunique'),
    loans_given_amount=('amount','sum'),
    loans_given_sum=('amount', 'count')
))
df_grouped['share'] = df_grouped['loans_given_amount'] / df_grouped['loans_given_amount'].sum() * 100
df_grouped.sort_values('share', ascending=False).head(5)

Unnamed: 0_level_0,customer_amount,loans_given_amount,loans_given_sum,share
district_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,73,10502628,73,11.978145
74,17,2906652,17,3.315008
54,18,2784744,18,3.175974
64,15,2671872,15,3.047244
70,22,2354520,22,2.685307


<h4>Wyliczenie salda pożyczki</h4>

Na tym etapie analizy dodajemy do zbioru danych nową kolumnę opisującą bieżące saldo pożyczki:

In [20]:
df_merge['balance'] = df_merge['amount'] - df_merge['payments']
df_merge['balance'].to_frame()

Unnamed: 0,balance
0,77579.0
1,77579.0
2,27753.0
3,27753.0
4,313172.0
...,...
822,275766.0
823,412882.0
824,412882.0
825,49522.0


<h4>Analiza spłaconych pożyczek wg płci klienta

In [21]:
df_merge.loc[
    (df_merge['status'].isin(['A', 'C'])) &
    (df_merge['type'].isin(['OWNER'])),
    ['gender', 'amount']
].groupby('gender')['amount'].agg([('loans amount','sum'), ('loans count', 'count')])

Unnamed: 0_level_0,loans amount,loans count
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,44425200,307
M,43256388,299
