# **第5章 使用Matplotlib進行數據可視化**

## 5.1 簡介Matplotlib及其在提高工作效率中的重要性

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import numpy as np
from datetime import datetime, timedelta

# 設置隨機種子以確保結果可重現
np.random.seed(42)

# 生成日期序列
start_date = datetime(2022, 1, 1)
date_range = [start_date + timedelta(days=i) for i in range(365)]

# 生成存款和貸款數據
deposits = 1000000 + np.cumsum(np.random.normal(5000, 2000, 365))
loans = 800000 + np.cumsum(np.random.normal(4000, 1500, 365))

# 創建分行數據
branches = ['總行', '北區分行', '南區分行', '東區分行', '西區分行']
branch_deposits = np.random.randint(500000, 1500000, 5)
branch_loans = np.random.randint(400000, 1200000, 5)

# 創建收入數據
income_sources = ['利息收入', '手續費收入', '投資收入', '其他收入']
income_values = np.random.randint(10000, 50000, 4)

# 創建客戶數據
customer_deposits = np.random.lognormal(mean=10, sigma=1, size=1000) * 1000

# 將數據保存為 CSV 文件
daily_data = pd.DataFrame({
    '日期': date_range,
    '存款餘額': deposits,
    '貸款餘額': loans
})
daily_data.to_csv('daily_bank_data.csv', index=False)

branch_data = pd.DataFrame({
    '分行': branches,
    '存款餘額': branch_deposits,
    '貸款餘額': branch_loans
})
branch_data.to_csv('branch_bank_data.csv', index=False)

income_data = pd.DataFrame({
    '收入來源': income_sources,
    '金額': income_values
})
income_data.to_csv('income_data.csv', index=False)

customer_data = pd.DataFrame({
    '客戶編號': range(1, 1001),
    '存款餘額': customer_deposits
})
customer_data.to_csv('customer_data.csv', index=False)

print("已生成並保存示例數據。")

## 5.3 Matplotlib 基本使用

### 5.3.1 導入 Matplotlib 庫

In [None]:
import matplotlib.pyplot as plt

In [None]:
# Colab上運行要安裝中文字型讓Matplotlib展示中文圖表
!wget -O TaipeiSansTCBeta-Regular.ttf https://drive.google.com/uc?id=1eGAsTN1HBpJAkeVM57_C7ccp7hbgSz3_&export=download
import matplotlib
matplotlib.font_manager.fontManager.addfont('TaipeiSansTCBeta-Regular.ttf')
matplotlib.rc('font', family='Taipei Sans TC Beta')

### 5.3.2 創建圖形對象和子圖

In [None]:
fig, ax = plt.subplots()

### 5.3.3 設置圖表標題、軸標籤、圖例等

In [None]:
ax.set_title('銀行存款趨勢')  # 設置標題
ax.set_xlabel('日期')  # 設置 x 軸標籤
ax.set_ylabel('存款金額（元）')  # 設置 y 軸標籤
ax.legend()  # 添加圖例

### 5.3.4 自定義圖表樣式

In [None]:
# 示例數據
x = [0, 1, 2, 3, 4, 5]
y = [0, 1, 4, 9, 16, 25]

ax.plot(x, y, color='blue', linestyle='--', linewidth=2, marker='o')

### 5.3.5 顯示圖表

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from matplotlib.ticker import StrMethodFormatter

# 使用 pandas 讀取 CSV 檔案，這部分的目的是將資料檔案 'daily_bank_data.csv' 轉換為 DataFrame 格式
data = pd.read_csv('daily_bank_data.csv')

# 將 '日期' 欄位的數據轉換為日期格式，這樣才能在繪圖時正確處理時間序列數據
data['日期'] = pd.to_datetime(data['日期'])

# fig, ax 用於儲存圖形與子圖，figsize 設定圖形的大小
fig, ax = plt.subplots(figsize=(12, 6))

# 繪製存款餘額的折線圖
# 使用 plot 函數繪製一條折線圖，x 軸為日期，y 軸為存款餘額，並且標記這條線為 '存款餘額'
ax.plot(data['日期'], data['存款餘額'], label='存款餘額', color='blue')

# 設置標題和軸標籤
# 設定圖表的標題為 '銀行存款餘額變化趨勢'，並設定 x 軸和 y 軸的標題以及字體大小
ax.set_title('銀行存款餘額變化趨勢', fontsize=16)
ax.set_xlabel('日期', fontsize=12)
ax.set_ylabel('存款餘額（元）', fontsize=12)

# 顯示圖例，並設定其字體大小
ax.legend(fontsize=10)

# x 軸標籤旋轉 45 度，避免標籤過於密集而重疊
plt.xticks(rotation=45)

# 使用 StrMethodFormatter 將 y 軸的標籤格式化為一般數字格式，避免顯示科學記數法
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 使用 tight_layout 確保圖形元素不會超出圖形區域，避免標籤被切掉
plt.tight_layout()

# 最後顯示圖表
plt.show()

## 5.4 Pandas與Matplotlib的結合

### 5.4.1 使用Pandas讀取和處理業務數據

In [None]:
import pandas as pd

# 讀取每日銀行數據
daily_data = pd.read_csv('daily_bank_data.csv')

# 讀取分行數據
branch_data = pd.read_csv('branch_bank_data.csv')

# 讀取收入數據
income_data = pd.read_csv('income_data.csv')

# 讀取客戶數據
customer_data = pd.read_csv('customer_data.csv')

# 顯示每個數據框的前幾行
print("每日銀行數據：")
print(daily_data.head())
print("\n分行數據：")
print(branch_data)
print("\n收入數據：")
print(income_data)
print("\n客戶數據：")
print(customer_data.head())

### 5.4.2 利用Pandas提供的數據結構生成Matplotlib圖表

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from matplotlib.ticker import StrMethodFormatter

# 1. 將日期列轉換為日期時間類型
# 這一步是將原始數據中的'日期'列轉換為datetime類型，以便後續進行時間序列的分析和可視化。
daily_data['日期'] = pd.to_datetime(daily_data['日期'])

# 2. 使用 Pandas 的 plot 方法繪製存款和貸款餘額的趨勢圖
# 使用Pandas內建的plot方法，設置x軸為'日期'，y軸為['存款餘額', '貸款餘額']，並設置圖表的尺寸為12x6。
ax = daily_data.plot(x='日期', y=['存款餘額', '貸款餘額'], figsize=(12, 6))

# 3. 設置圖表的標題和軸標籤
# 這一步設置了圖表的標題和軸標籤，標題文字大小為16，橫軸和縱軸標籤文字大小為12。
ax.set_title('銀行存款和貸款餘額趨勢', fontsize=16)
ax.set_xlabel('日期', fontsize=12)
ax.set_ylabel('金額（元）', fontsize=12)

# 4. 添加圖例
# 設置圖例的文字大小為10。
ax.legend(fontsize=10)

# 5. 旋轉 x 軸標籤以避免重疊
# 將x軸的標籤旋轉45度，以避免標籤之間的重疊。
plt.xticks(rotation=45)

# 6. 自動調整子圖參數，以確保標籤不會被切掉
# 使用tight_layout方法自動調整圖表參數，確保所有標籤能夠被完整顯示，不會被邊界切掉。
plt.tight_layout()

# 7. 將y軸的標籤顯示為完整的數字，而不是科學記數法
# 使用StrMethodFormatter將y軸的標籤格式化為完整的數字形式，而不是科學記數法，以便數值更加直觀易讀。
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 8. 顯示圖表
# 最後使用show方法將圖表顯示出來。
plt.show()

### 5.4.3 使用Pandas和Matplotlib分析數據

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import StrMethodFormatter

# 讀取數據
# 使用 pandas 庫中的 read_csv 函數來讀取每日數據、分行數據和收入數據
daily_data = pd.read_csv('daily_bank_data.csv')
branch_data = pd.read_csv('branch_bank_data.csv')
income_data = pd.read_csv('income_data.csv')

# 創建一個 2x2 的子圖網格
# 使用 matplotlib 庫中的 subplots 函數創建一個 2x2 的子圖網格，並設置圖表大小
fig, axes = plt.subplots(2, 2, figsize=(20, 16))

# 1. 存款和貸款餘額趨勢圖
# 將日期列轉換為 datetime 格式，便於後續繪圖
daily_data['日期'] = pd.to_datetime(daily_data['日期'])
# 使用 pandas 的 plot 函數繪製存款餘額和貸款餘額的趨勢圖，並將其放置在子圖網格的第一個位置
daily_data.plot(x='日期', y=['存款餘額', '貸款餘額'], ax=axes[0, 0])
# 設置子圖的標題和軸標籤
axes[0, 0].set_title('存款和貸款餘額趨勢')
axes[0, 0].set_xlabel('日期')
axes[0, 0].set_ylabel('金額（元）')
# 使用 Formatter 格式化 Y 軸標籤
axes[0, 0].yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 2. 分行存款和貸款對比圖
# 使用 pandas 的 plot 函數繪製分行存款餘額和貸款餘額的柱狀圖，並將其放置在子圖網格的第二個位置
branch_data.plot(x='分行', y=['存款餘額', '貸款餘額'], kind='bar', ax=axes[0, 1])
# 設置子圖的標題和軸標籤
axes[0, 1].set_title('分行存款和貸款對比')
axes[0, 1].set_xlabel('分行')
axes[0, 1].set_ylabel('金額（元）')
# 使用 Formatter 格式化 Y 軸標籤
axes[0, 1].yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 3. 收入來源餅圖
# 使用 matplotlib 的 pie 函數繪製收入來源的餅圖，並將其放置在子圖網格的第三個位置
axes[1, 0].pie(income_data['金額'], labels=income_data['收入來源'], autopct='%1.1f%%')
# 設置子圖的標題
axes[1, 0].set_title('收入來源分佈')

# 4. 存貸比趨勢圖
# 計算存貸比，新增一列 '存貸比'
daily_data['存貸比'] = daily_data['貸款餘額'] / daily_data['存款餘額']
# 使用 pandas 的 plot 函數繪製存貸比的趨勢圖，並將其放置在子圖網格的第四個位置
daily_data.plot(x='日期', y='存貸比', ax=axes[1, 1])
# 設置子圖的標題和軸標籤
axes[1, 1].set_title('存貸比趨勢')
axes[1, 1].set_xlabel('日期')
axes[1, 1].set_ylabel('存貸比')

# 調整子圖之間的間距，防止重疊
plt.tight_layout()

# 顯示圖表
plt.show()

## 5.5 折線圖的繪製

### 5.5.1 使用`plt.plot()`函數繪製銀行存款金額和貸款金額的趨勢圖

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import StrMethodFormatter

# 讀取數據，將日期欄位轉換為日期格式
# 這一步能確保日期正確排序，方便後續繪圖
data = daily_data
data['日期'] = pd.to_datetime(data['日期'])

# 創建圖形和軸對象，設置圖形大小為12x6英寸
# 這裡我們使用fig和ax來進行細分繪圖操作
fig, ax = plt.subplots(figsize=(12, 6))

# 繪製存款餘額的折線圖
# 使用藍色來表示存款餘額，可以區分不同類型的曲線
ax.plot(data['日期'], data['存款餘額'], label='存款餘額', color='blue')

# 繪製貸款餘額的折線圖
# 使用紅色來表示貸款餘額，以便與存款餘額形成顏色對比
ax.plot(data['日期'], data['貸款餘額'], label='貸款餘額', color='red')

# 設置圖表的標題和軸標籤，並指定字體大小
# 標題描述了圖表內容，軸標籤指明各軸數據含義
ax.set_title('銀行存款和貸款餘額趨勢', fontsize=16)
ax.set_xlabel('日期', fontsize=12)
ax.set_ylabel('金額（元）', fontsize=12)

# 添加圖例，方便識別不同類型的曲線
ax.legend(fontsize=10)

# 旋轉 x 軸的日期標籤，以避免標籤重疊
plt.xticks(rotation=45)

# 自動調整佈局，避免圖表元素重疊
plt.tight_layout()

# 將y軸的標籤顯示為完整的數字格式，而不是科學記數法
# 更清晰地顯示金額，增加易讀性
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
plt.show()

### 5.5.2 設置線條顏色、樣式、粗細等

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import StrMethodFormatter

# 讀取數據，將日期欄位轉換為日期格式
# 這一步能確保日期正確排序，方便後續繪圖
data = daily_data
data['日期'] = pd.to_datetime(data['日期'])

# 創建圖形和軸對象，設置圖形大小為12x6英寸
# 這裡我們使用fig和ax來進行細分繪圖操作
fig, ax = plt.subplots(figsize=(12, 6))

# 繪製存款餘額折線，使用藍色實線進行標示
# 存款餘額代表銀行的現金資源，可以反映出銀行的存款趨勢
ax.plot(data['日期'], data['存款餘額'], label='存款餘額', color='#118AB2', linestyle='-', linewidth=2)

# 繪製貸款餘額折線，使用紅色虛線進行標示
# 貸款餘額代表銀行向客戶放貸的資金量，可以反映出銀行的貸款趨勢
ax.plot(data['日期'], data['貸款餘額'], label='貸款餘額', color='#ef476f', linestyle='--', linewidth=2)

# 設置圖表的標題和軸標籤，並指定字體大小
# 標題描述了圖表內容，軸標籤指明各軸數據含義
ax.set_title('銀行存款和貸款餘額趨勢', fontsize=16)
ax.set_xlabel('日期', fontsize=12)
ax.set_ylabel('金額（元）', fontsize=12)

# 添加圖例，方便識別不同類型的曲線
ax.legend(fontsize=10)

# 旋轉 x 軸的日期標籤，以避免標籤重疊
plt.xticks(rotation=45)

# 自動調整佈局，避免圖表元素重疊
plt.tight_layout()

# 將y軸的標籤顯示為完整的數字格式，而不是科學記數法
# 更清晰地顯示金額，增加易讀性
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
plt.show()

### 5.5.3 添加圖例和數據標籤

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import StrMethodFormatter

# 讀取數據，將日期欄位轉換為日期格式
# 這一步能確保日期正確排序，方便後續繪圖
data = daily_data
data['日期'] = pd.to_datetime(data['日期'])

# 創建圖形和軸對象，設置圖形大小為12x6英寸
# 這裡我們使用fig和ax來進行細分繪圖操作
fig, ax = plt.subplots(figsize=(12, 6))

# 繪製存款餘額折線，使用藍色實線進行標示
# 存款餘額代表銀行的現金資源，可以反映出銀行的存款趨勢
ax.plot(data['日期'], data['存款餘額'], label='存款餘額', color='#118AB2', linestyle='-', linewidth=2)

# 繪製貸款餘額折線，使用紅色虛線進行標示
# 貸款餘額代表銀行向客戶放貸的資金量，可以反映出銀行的貸款趨勢
ax.plot(data['日期'], data['貸款餘額'], label='貸款餘額', color='#ef476f', linestyle='--', linewidth=2)

# 設置圖表的標題和軸標籤，並指定字體大小
# 標題描述了圖表內容，軸標籤指明各軸數據含義
ax.set_title('銀行存款和貸款餘額趨勢', fontsize=16)
ax.set_xlabel('日期', fontsize=12)
ax.set_ylabel('金額（元）', fontsize=12)

# 添加圖例，方便識別不同類型的曲線
ax.legend(fontsize=10)

# 旋轉 x 軸的日期標籤，以避免標籤重疊
plt.xticks(rotation=45)

# 自動調整佈局，避免圖表元素重疊
plt.tight_layout()

# 將y軸的標籤顯示為完整的數字格式，而不是科學記數法
# 更清晰地顯示金額，增加易讀性
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 找到存款餘額的最大值和最小值及其對應的日期
# MAX和MIN函數用來獲取存款餘額的最大和最小值
max_deposit = data['存款餘額'].max()  # 取得存款餘額的最大值
min_deposit = data['存款餘額'].min()  # 取得存款餘額的最小值

# IDXMAX和IDXMIN函數用來獲取存款餘額最大和最小值所在的索引
max_deposit_date = data.loc[data['存款餘額'].idxmax(), '日期']  # 獲取存款餘額最大值對應的日期
min_deposit_date = data.loc[data['存款餘額'].idxmin(), '日期']  # 獲取存款餘額最小值對應的日期

# 在最大值和最小值處添加數據標籤以便更清楚地顯示在圖表上
# ANNOTATE函數用來在圖表特定位置添加文本標註，XYTEXT參數表示標註文本的偏移位置
ax.annotate(f'最高: {max_deposit:.0f}', (max_deposit_date, max_deposit),  # 在存款餘額最大值處添加標籤
            xytext=(10, 10),  # 標註文本相對於點的位置偏移
            textcoords='offset points',  # 設置文本坐標系為相對於指定點的偏移
            ha='left',  # 水平對齊方式為左對齊
            va='bottom',  # 垂直對齊方式為底部對齊
            bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.5),  # 添加圓角邊框和填充顏色
            arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=0'))  # 設置箭頭樣式和連接樣式

ax.annotate(f'最低: {min_deposit:.0f}', (min_deposit_date, min_deposit),  # 在存款餘額最小值處添加標籤
            xytext=(10, -10),  # 標註文本相對於點的位置偏移
            textcoords='offset points',  # 設置文本坐標系為相對於指定點的偏移
            ha='left',  # 水平對齊方式為左對齊
            va='top',  # 垂直對齊方式為頂部對齊
            bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.5),  # 添加圓角邊框和填充顏色
            arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=0'))  # 設置箭頭樣式和連接樣式

# 顯示圖表
plt.show()

### 5.5.4 應用案例：分析近年來銀行存款和貸款的變化趨勢

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from matplotlib.ticker import StrMethodFormatter

# 讀取數據並解析日期欄位
data = pd.read_csv('daily_bank_data.csv')
data['日期'] = pd.to_datetime(data['日期'])

# 創建圖形和軸對象，設置圖形大小
fig, ax = plt.subplots(figsize=(14, 8))

# 繪製存款餘額折線圖
# 使用plot函數繪製折線圖，第一個參數是X軸數據（日期），第二個參數是Y軸數據（存款餘額）
# label參數設置圖例標籤名稱，color參數設置線條顏色，linestyle設置線條樣式，linewidth設置線條寬度
ax.plot(data['日期'], data['存款餘額'], label='存款餘額', color='#118AB2', linestyle='-', linewidth=2)

# 繪製貸款餘額折線圖
ax.plot(data['日期'], data['貸款餘額'], label='貸款餘額', color='#ef476f', linestyle='--', linewidth=2)

# 設置圖表的標題和軸標籤
ax.set_title('2022年銀行存款和貸款餘額趨勢分析', fontsize=18, fontweight='bold')
ax.set_xlabel('日期', fontsize=14)
ax.set_ylabel('金額（元）', fontsize=14)

# 設置X軸刻度為每月一次
# 使用MonthLocator設定主刻度間隔為一個月
ax.xaxis.set_major_locator(mdates.MonthLocator())
# 使用DateFormatter設置X軸標籤的日期格式為“年-月”
ax.xaxis.set_major_formatter(mdates.DateFormatter('%Y-%m'))

# 添加圖例，設置字體大小並定位於左上角
ax.legend(fontsize=12, loc='upper left')

# 旋轉X軸標籤45度，並設置對齊方式為右對齊
plt.xticks(rotation=45, ha='right')

# 添加網格線，網格線樣式為虛線，透明度為0.7
ax.grid(True, linestyle='--', alpha=0.7)

# 找到每列中的最大值和最小值，並在圖中標注出來
for column in ['存款餘額', '貸款餘額']:
    max_value = data[column].max()
    min_value = data[column].min()
    max_date = data.loc[data[column].idxmax(), '日期']
    min_date = data.loc[data[column].idxmin(), '日期']

    # 在最大值處添加標籤，使用箭頭標示位置
    ax.annotate(f'{column}最高: {max_value:.0f}', (max_date, max_value),
                xytext=(10, 10), textcoords='offset points', ha='left', va='bottom',
                bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.3),
                arrowprops=dict(arrowstyle = '->', connectionstyle='arc3,rad=0'))

    # 在最小值處添加標籤，使用箭頭標示位置
    ax.annotate(f'{column}最低: {min_value:.0f}', (min_date, min_value),
                xytext=(10, -10), textcoords='offset points', ha='left', va='top',
                bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.3),
                arrowprops=dict(arrowstyle = '->', connectionstyle='arc3,rad=0'))

# 在圖表中添加分析文字，位於圖表的右下角
ax.text(0.75, 0.05, '分析：\n1. 存款和貸款總體呈上升趨勢\n2. 存款增長速度快於貸款\n3. 年中存款增長明顯加快',
        transform=ax.transAxes, fontsize=12, verticalalignment='bottom',
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.3))

# 自動調整圖表布局，避免標籤重疊
plt.tight_layout()

# 設置Y軸標籤格式，顯示完整的數字
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
plt.show()

## 5.6 柱狀圖的繪製

### 5.6.1 使用`plt.bar()`函數繪製不同分行的存款餘額和貸款金額

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 讀取CSV文件中的數據到DataFrame
data = pd.read_csv('branch_bank_data.csv')

# 創建一個新的圖形對象和軸對象
fig, ax = plt.subplots(figsize=(12, 6))

# 設置每個柱子的寬度
bar_width = 0.35

# 獲取分行的數量
# 使用len()函數來計算'分行'列中的項目數目，也就是有多少個分行
branch_count = len(data['分行'])

# 創建第一組柱子的x軸位置
# 通過range函數生成一個從0到branch_count-1的列表，作為x軸的位置
r1 = list(range(branch_count))

# 創建第二組柱子的x軸位置
# 將第一組位置都向右移動bar_width的距離，以實現分行之間的區分
r2 = [x + bar_width for x in r1]

# 繪製存款餘額柱子
# 使用ax.bar函數來繪製柱狀圖，r1是x軸的數據，data['存款餘額']是y軸的數據，顏色設為'天藍色'
ax.bar(r1, data['存款餘額'], color='skyblue', width=bar_width, label='存款餘額')

# 繪製貸款餘額柱子
# 使用ax.bar函數來繪製第二組柱狀圖，r2是x軸的數據，data['貸款餘額']是y軸的數據，顏色設為'鮭魚色'
ax.bar(r2, data['貸款餘額'], color='salmon', width=bar_width, label='貸款餘額')

# 設置x軸標籤
ax.set_xlabel('分行')

# 設置y軸標籤
ax.set_ylabel('金額（元）')

# 設置圖表標題
ax.set_title('各分行存款和貸款餘額對比')

# 設置x軸刻度的位置（在每對柱子的中間）
xtick_positions = [r + bar_width / 2 for r in r1]

# 設置x軸的刻度位置和對應的標籤
# ax.set_xticks設置x軸的刻度位置，ax.set_xticklabels設置刻度標籤為數據中對應的分行名稱
ax.set_xticks(xtick_positions)
ax.set_xticklabels(data['分行'])

# 添加圖例
ax.legend()

# 自動調整子圖參數，使之填充整個圖像區域
plt.tight_layout()

# 將y軸的標籤顯示為完整的數字，而不是科學記數法
# 使用StrMethodFormatter將數字格式化為以千分位分隔的整數形式
from matplotlib.ticker import StrMethodFormatter
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 讀取數據，該步驟會從指定的CSV文件中讀取數據並加載到DataFrame中
data = pd.read_csv('branch_bank_data.csv')

# 設置分行為索引，使用分行名稱作為DataFrame的索引，以便後續的數據處理或可視化
data.set_index('分行', inplace=True)

# 創建柱狀圖，使用Pandas中的plot功能創建柱狀圖，並設置圖表大小和柱狀圖的寬度
ax = data.plot(kind='bar', figsize=(12, 6), width=0.8)

# 設置標題和標籤，為圖表添加標題和x, y軸的標籤，說明展示的數據內容
plt.title('各分行存款和貸款餘額對比')
plt.xlabel('分行')
plt.ylabel('金額（元）')

# 調整x軸標籤，使得x軸標籤能更清晰地展示，旋轉角度和對齊方式可視需求調整
plt.xticks(rotation=45, ha='right')

# 添加圖例，顯示貸款和存款餘額的圖例，圖例標題設置為空
plt.legend(title='')

# 調整佈局並顯示圖表，使用tight_layout以更好地呈現圖表，並顯示圖表
plt.tight_layout()
plt.show()

### 5.6.2 設置柱子寬度、顏色等屬性

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import StrMethodFormatter

# 將CSV文件中的數據讀取到DataFrame中
# branch_data 是一個包含分行數據的DataFrame變量，這裡假設它已經存在
data = branch_data

# 創建一個新的圖形對象和軸對象，以指定圖形的尺寸為 12x6
# fig, ax 將用來控制圖表的主要屬性
fig, ax = plt.subplots(figsize=(12, 6))

# 設置柱狀圖中每個柱子的寬度
bar_width = 0.35

# 計算有多少個分行
# 使用 len() 函數來獲取 '分行' 列的長度，即分行的數量
branch_count = len(data['分行'])

# 創建第一組柱子的x軸位置
# range() 函數產生從 0 到 branch_count-1 的整數序列，用於表示每個分行的位置
r1 = list(range(branch_count))

# 創建第二組柱子的x軸位置，每個位置都向右平移 bar_width 距離
# 使用列表解析式來產生第二組柱子的x軸位置
r2 = [x + bar_width for x in r1]

# 自定義顏色，用於區分不同類型的數據
colors = ['#3498db', '#e74c3c']  # 藍色和紅色

# 繪製第一組數據：存款餘額的柱狀圖
# 使用 ax.bar() 函數繪製柱狀圖，並設置顏色、柱子寬度和透明度屬性
ax.bar(r1, data['存款餘額'], color=colors[0], width=bar_width, label='存款餘額', alpha=0.8)

# 繪製第二組數據：貸款餘額的柱狀圖
# 同樣使用 ax.bar() 函數，但這次繪製的是 r2 位置上的柱子
ax.bar(r2, data['貸款餘額'], color=colors[1], width=bar_width, label='貸款餘額', alpha=0.8)

# 設置 x 軸的標籤
ax.set_xlabel('分行')

# 設置 y 軸的標籤
ax.set_ylabel('金額（元）')

# 設置圖表的標題
ax.set_title('各分行存款和貸款餘額對比')

# 計算 x 軸的刻度位置，使其位於每對柱子的中間位置
# 使用列表解析式來生成每個刻度的位置
xtick_positions = [r + bar_width / 2 for r in range(branch_count)]

# 設置 x 軸的刻度位置和對應的標籤
ax.set_xticks(xtick_positions)  # 設置刻度位置
ax.set_xticklabels(data['分行'])  # 設置刻度標籤為分行名稱

# 添加圖例，用於對應顏色和數據類型
ax.legend()

# 自動調整子圖參數，使圖形能夠更好地填充整個圖像區域
plt.tight_layout()

# 將 y 軸的標籤顯示為完整的數字格式，而不是科學記數法
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
plt.show()

### 5.6.3 旋轉柱子標籤以提高可讀性

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.ticker import StrMethodFormatter

# 將CSV文件中的數據讀取到DataFrame中
# branch_data 是一個包含分行數據的DataFrame變量，這裡假設它已經存在
data = branch_data

# 創建一個新的圖形對象和軸對象，以指定圖形的尺寸為 12x6
# fig, ax 將用來控制圖表的主要屬性
fig, ax = plt.subplots(figsize=(12, 6))

# 設置柱狀圖中每個柱子的寬度
bar_width = 0.35

# 計算有多少個分行
# 使用 len() 函數來獲取 '分行' 列的長度，即分行的數量
branch_count = len(data['分行'])

# 創建第一組柱子的x軸位置
# range() 函數產生從 0 到 branch_count-1 的整數序列，用於表示每個分行的位置
r1 = list(range(branch_count))

# 創建第二組柱子的x軸位置，每個位置都向右平移 bar_width 距離
# 使用列表解析式來產生第二組柱子的x軸位置
r2 = [x + bar_width for x in r1]

# 自定義顏色，用於區分不同類型的數據
colors = ['#3498db', '#e74c3c']  # 藍色和紅色

# 繪製第一組數據：存款餘額的柱狀圖
# 使用 ax.bar() 函數繪製柱狀圖，並設置顏色、柱子寬度和透明度屬性
ax.bar(r1, data['存款餘額'], color=colors[0], width=bar_width, label='存款餘額', alpha=0.8)

# 繪製第二組數據：貸款餘額的柱狀圖
# 同樣使用 ax.bar() 函數，但這次繪製的是 r2 位置上的柱子
ax.bar(r2, data['貸款餘額'], color=colors[1], width=bar_width, label='貸款餘額', alpha=0.8)

# 設置 x 軸的標籤
ax.set_xlabel('分行')

# 設置 y 軸的標籤
ax.set_ylabel('金額（元）')

# 設置圖表的標題
ax.set_title('各分行存款和貸款餘額對比')

# 計算 x 軸的刻度位置，使其位於每對柱子的中間位置
# 使用列表解析式來生成每個刻度的位置
xtick_positions = [r + bar_width / 2 for r in range(branch_count)]

# 設置 x 軸的刻度位置和對應的標籤
ax.set_xticks(xtick_positions)  # 設置刻度位置
ax.set_xticklabels(data['分行'])  # 設置刻度標籤為分行名稱

# 添加圖例，用於對應顏色和數據類型
ax.legend()

# 設置x軸刻度標籤
# 此行代碼設置了條形圖的x軸刻度標籤，使得每個條形圖下方顯示相應的分行名稱。
# 具體來說：
# - plt.xticks()：這個函數用來設置x軸刻度的位置及其標籤。
# - [r + bar_width/2 for r in range(len(data['分行']))]：這部分計算出每個條形圖中心的位置。因為條形圖是有寬度的，所以需要將它們平移半個條形圖的寬度(bar_width/2)，以保證標籤正好位於每個條形圖的中心。
# - data['分行']：這是x軸刻度標籤顯示的內容，對應於每個條形圖所表示的分行名稱。
# - rotation=45：將刻度標籤旋轉45度，使其不會因文字過長而相互重疊，並且更加易於閱讀。
# - ha='right'：這個參數設置刻度標籤的水平對齊方式為右對齊，進一步提升可讀性。
plt.xticks([r + bar_width/2 for r in range(len(data['分行']))], data['分行'], rotation=45, ha='right')

# 自動調整子圖參數，使圖形能夠更好地填充整個圖像區域
plt.tight_layout()

# 將 y 軸的標籤顯示為完整的數字格式，而不是科學記數法
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
plt.show()

### 5.6.4 應用案例：比較各分行的存款和貸款業務表現

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.ticker import StrMethodFormatter

# 讀取CSV文件中的分行銀行數據
# pd.read_csv() 函數用於從CSV文件中讀取數據並創建DataFrame對象
# data = pd.read_csv('branch_bank_data.csv')
data = branch_data.copy()

# 1. 創建一個新的圖形對象和軸對象
# figsize參數設置圖形的大小為14x8英寸
fig, ax = plt.subplots(figsize=(14, 8))

# 2. 設置每個柱子的寬度
bar_width = 0.35

# 3. 創建柱子的x軸位置
# 使用range()函數創建一個與分行數量相同的整數序列
r1 = range(len(data['分行']))  # 存款餘額柱子的位置
r2 = [x + bar_width for x in r1]  # 貸款餘額柱子的位置（向右偏移bar_width的距離）

# 4. 自定義柱子的顏色
# 使用十六進制顏色代碼：藍色用於存款,紅色用於貸款
colors = ['#3498db', '#e74c3c']

# 5. 繪製存款餘額柱子
# ax.bar() 函數用於繪製柱狀圖
# 參數說明：x軸位置, y軸數據, 顏色, 寬度, 圖例標籤, 透明度
deposits = ax.bar(r1, data['存款餘額'], color=colors[0], width=bar_width, label='存款餘額', alpha=0.8)

# 6. 繪製貸款餘額柱子
loans = ax.bar(r2, data['貸款餘額'], color=colors[1], width=bar_width, label='貸款餘額', alpha=0.8)

# 7. 設置x軸和y軸的標籤以及圖表標題
# fontsize參數設置字體大小
ax.set_xlabel('分行', fontsize=14)
ax.set_ylabel('金額（元）', fontsize=14)
ax.set_title('2022年各分行存款和貸款餘額對比分析', fontsize=18, fontweight='bold')

# 8. 設置x軸刻度的位置和標籤
# 將刻度位置設置在兩個柱子的中間
ax.set_xticks([r + bar_width/2 for r in range(len(data['分行']))])
# 設置刻度標籤為分行名稱，並將其旋轉45度方便閱讀
ax.set_xticklabels(data['分行'], rotation=45, ha='right')

# 定義一個函數來為柱子添加數值標籤
def add_value_labels(ax, rects):
    """
    在每個柱子的頂部添加數值標籤。

    參數:
    ax -- 畫布對象
    rects -- 柱狀圖對象列表
    """
    for rect in rects:
        height = rect.get_height()
        ax.text(rect.get_x() + rect.get_width()/2., height,
                f'{height:,.0f}',  # 格式化數字，使用逗號作為千位分隔符
                ha='center', va='bottom', rotation=0)

# 9. 為存款和貸款柱子添加數值標籤
add_value_labels(ax, deposits)
add_value_labels(ax, loans)

# 10. 添加圖例
ax.legend(fontsize=12, loc='lower right')

# 11. 添加y軸網格線
ax.grid(True, linestyle='--', alpha=0.7, axis='y')

# 12. 計算並顯示存貸比
for i in range(len(data['分行'])):
    loan_to_deposit_ratio = data['貸款餘額'][i] / data['存款餘額'][i]
    max_height = max(data['存款餘額'][i], data['貸款餘額'][i])
    # 在柱子上方顯示存貸比
    ax.text((r1[i] + r2[i]) / 2, max_height + max_height * 0.025,
            f'存貸比: {loan_to_deposit_ratio:.2f}', ha='center', va='bottom')

# 13. 添加分析性的文字說明
# 使用ax.text()函數在圖表的左上角添加文本
# transform=ax.transAxes 表示使用軸的相對坐標系統
ax.text(0.02, 0.98, '分析：\n1. 南區分行的存款和貸款規模最大\n2. 總行的存貸比最高\n3. 北區和東區分行的業務規模相對小',
        transform=ax.transAxes, fontsize=12, verticalalignment='top',
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# 14. 將y軸的標籤顯示為完整的數字，而不是科學記數法
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 15. 自動調整子圖參數,使之填充整個圖像區域
plt.tight_layout()

# 16. 顯示圖表
plt.show()

## 5.7 餅圖的繪製

### 5.7.1 使用`plt.pie()`函數繪製銀行收入構成的餅圖

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 讀取數據，這步驟從一個名為 'income_data.csv' 的CSV文件中讀取數據，
# 並將其存儲到名為 `data` 的 Pandas DataFrame 中。
data = pd.read_csv('income_data.csv')

# 創建圖形和軸對象，這行代碼創建一個圖形窗口以及一個軸對象，用於繪製圖表。
# `figsize` 參數設置了圖形的大小為 10x8 英寸。
fig, ax = plt.subplots(figsize=(10, 8))

# 繪製餅圖，這步驟使用軸對象中的 `pie` 方法來繪製餅圖。
# `data['金額']` 指定了餅圖的數據來源，
# `labels=data['收入來源']` 指定了每一份額的標籤，
# `autopct='%1.1f%%'` 自動顯示每個片的百分比，
# `startangle=90` 設置餅圖開始繪製的角度為90度，這樣圖形可以從頂部開始。
ax.pie(data['金額'], labels=data['收入來源'], autopct='%1.1f%%', startangle=90)

# 設置標題，這行代碼為餅圖添加一個標題 "銀行收入來源分佈"，
# 使圖表更具描述性和信息性。
ax.set_title('銀行收入來源分佈')

# 確保餅圖是圓形的，這行代碼調用了 `axis('equal')` 方法，
# 用於確保餅圖的長寬相等，從而保證餅圖是圓形而不是橢圓形。
ax.axis('equal')

# 顯示圖表，這行代碼調用了 `show` 方法，用於顯示最終繪製的餅圖。
plt.show()

### 5.7.2 設置扇形的顏色、文字標籤、百分比等

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 讀取數據，這步驟從一個名為 'income_data.csv' 的CSV文件中讀取數據，
# 並將其存儲到名為 `data` 的 Pandas DataFrame 中。
data = pd.read_csv('income_data.csv')

# 創建圖形和軸對象，這行代碼創建一個圖形窗口以及一個軸對象，用於繪製圖表。
# `figsize` 參數設置了圖形的大小為 10x8 英寸。
fig, ax = plt.subplots(figsize=(10, 8))

# 自定義顏色
# 這裡定義了一個顏色列表,使用十六進制色碼
# '#ff6666' 是深紅色
# '#3399ff' 是深藍色
# '#66cc66' 是深綠色
# '#ff9933' 是深橙色
colors = ['#ff6666', '#3399ff', '#66cc66', '#ff9933']

# 繪製餅圖
# ax.pie() 函數用於繪製餅圖,返回三個對象:
# wedges: 扇形對象列表
# texts: 標籤文本對象列表
# autotexts: 自動生成的百分比文本對象列表
wedges, texts, autotexts = ax.pie(
    data['金額'],              # 餅圖的數據,來自 data DataFrame 的 '金額' 列
    labels=data['收入來源'],    # 每個扇形的標籤,來自 data DataFrame 的 '收入來源' 列
    autopct='%1.1f%%',         # 在扇形內顯示百分比,格式為一位小數
    startangle=90,             # 起始角度設為90度,即從12點鐘方向開始
    colors=colors,             # 使用前面定義的顏色列表
    textprops=dict(color="w")  # 設置文本屬性,這裡將文本顏色設為白色
)

# 加粗百分比標籤
# plt.setp() 函數用於設置一組對象的屬性
# autotexts 是前面 pie() 函數返回的百分比文本對象列表
# size=10 設置字體大小為10
# weight="bold" 設置字體粗細為粗體
plt.setp(autotexts, size=10, weight="bold")

# 設置標題，這行代碼為餅圖添加一個標題 "銀行收入來源分佈"，
# 使圖表更具描述性和信息性。
ax.set_title('銀行收入來源分佈')

# 確保餅圖是圓形的，這行代碼調用了 `axis('equal')` 方法，
# 用於確保餅圖的長寬相等，從而保證餅圖是圓形而不是橢圓形。
ax.axis('equal')

# 顯示圖表，這行代碼調用了 `show` 方法，用於顯示最終繪製的餅圖。
plt.show()

### 5.7.3 調整餅圖的大小和位置

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 讀取數據，這步驟從一個名為 'income_data.csv' 的CSV文件中讀取數據，
# 並將其存儲到名為 `data` 的 Pandas DataFrame 中。
data = pd.read_csv('income_data.csv')

# 創建圖形和軸對象，這行代碼創建一個圖形窗口以及一個軸對象，用於繪製圖表。
# `figsize` 參數設置了圖形的大小為 10x8 英寸。
fig, ax = plt.subplots(figsize=(10, 8))

# 自定義顏色
# 這裡定義了一個顏色列表,使用十六進制色碼
# '#ff6666' 是深紅色
# '#3399ff' 是深藍色
# '#66cc66' 是深綠色
# '#ff9933' 是深橙色
colors = ['#ff6666', '#3399ff', '#66cc66', '#ff9933']

# 繪製餅圖
# ax.pie() 函數用於繪製餅圖,返回三個對象:
# wedges: 扇形對象列表
# texts: 標籤文本對象列表
# autotexts: 自動生成的百分比文本對象列表
# 調整餅圖的大小和位置
wedges, texts, autotexts = ax.pie(data['金額'], labels=data['收入來源'], autopct='%1.1f%%',
       startangle=90, colors=colors,
       textprops=dict(color="w"),
       radius=0.8,  # 調整餅圖的大小
       center=(0.5, 0.5),  # 調整餅圖的中心位置
       wedgeprops=dict(width=0.5))  # 創建環形圖

# 加粗百分比標籤
# plt.setp() 函數用於設置一組對象的屬性
# autotexts 是前面 pie() 函數返回的百分比文本對象列表
# size=10 設置字體大小為10
# weight="bold" 設置字體粗細為粗體
plt.setp(autotexts, size=10, weight="bold")

# 設置標題，這行代碼為餅圖添加一個標題 "銀行收入來源分佈"，
# 使圖表更具描述性和信息性。
ax.set_title('銀行收入來源分佈')

# 確保餅圖是圓形的，這行代碼調用了 `axis('equal')` 方法，
# 用於確保餅圖的長寬相等，從而保證餅圖是圓形而不是橢圓形。
ax.axis('equal')

# 顯示圖表，這行代碼調用了 `show` 方法，用於顯示最終繪製的餅圖。
plt.show()

### 5.7.4 應用案例：分析銀行利息收入、手續費收入等收入來源

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# 讀取數據
# 使用 pandas 的 read_csv 方法讀取名為 'income_data.csv' 的 CSV 文件並創建 DataFrame 對象
data = pd.read_csv('income_data.csv')

# 創建圖形和軸對象
# 使用 plt.subplots() 方法創建畫布和子圖，並設置圖形大小為 12x9 英寸
fig, ax = plt.subplots(figsize=(12, 9))

# 自定義顏色
# 使用一組十六進制色碼定義四種顏色，以便在餅圖中使用
colors = ['#ff6666', '#3399ff', '#66cc66', '#ff9933']

# 計算總收入
# 使用 DataFrame 的 sum() 方法計算 '金額' 列的總和，並存儲在 total_income 變量中
total_income = data['金額'].sum()

# 繪製餅圖
# 使用 ax.pie() 方法繪製餅圖，其中數據來自 '金額' 列，標籤來自 '收入來源' 列
# autopct 使用 lambda 函數定義顯示格式，包括百分比和具體金額，startangle 設置起始角度為90度，colors 使用自定義顏色
# textprops 設置文本顏色為黑色，radius 設置餅圖半徑為0.8，wedgeprops 設置扇形的寬度和邊緣顏色
wedges, texts, autotexts = ax.pie(
    data['金額'],
    labels=data['收入來源'],
    autopct=lambda pct: f'{pct:.1f}%\n({pct*total_income/100:,.0f}元)',
    startangle=90,
    colors=colors,
    textprops=dict(color="k"),
    radius=0.8,
    wedgeprops=dict(width=0.5, edgecolor='white')
)

# 加粗百分比標籤
# 使用 plt.setp() 方法設置自動生成的文本大小為9，並且字體加粗
plt.setp(autotexts, size=9, weight="bold")

# 設置標題
# 使用 ax.set_title() 方法設置圖表的標題，fontsize 設置字體大小為18，fontweight 設置字體為加粗
ax.set_title('2022年銀行收入來源分析', fontsize=18, fontweight='bold')

# 添加註釋
# 使用 ax.annotate() 方法在圖形中心添加總收入信息，其中 xy 設置註釋位置為畫布的相對座標，fontsize 和 fontweight 分別設置字體大小和加粗
ax.annotate('總收入: {:,.0f}元'.format(total_income),
            xy=(0.55, 0.5), xycoords='figure fraction',
            horizontalalignment='center', verticalalignment='center',
            fontsize=12, fontweight='bold')

# 添加一些分析性的文字說明
# 使用 ax.text() 方法在圖形右側添加分析文字，其中 transform=ax.transAxes 用於將文本位置設置為相對於軸的位置
# bbox 參數設置文本背景框的樣式和顏色，讓文本更容易閱讀
ax.text(1.2, 0.9, '分析：\n1. 投資收入和其他收入佔總收入的一半以上\n2. 利息收入是第三大收入來源\n3. 手續費收入佔比較小',
        horizontalalignment='left', verticalalignment='center',
        transform=ax.transAxes, fontsize=12,
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# 確保餅圖是圓形的
# 使用 ax.axis('equal') 設置餅圖的 X 軸和 Y 軸長度相同，確保展示出的餅圖為正圓形
ax.axis('equal')

# 調整佈局
# 使用 plt.tight_layout() 自動調整子圖參數，使圖表填充整個圖像區域，避免重疊
plt.tight_layout()

# 顯示圖表
# 最後使用 plt.show() 顯示繪製完成的圖表
plt.show()

## 5.8 散點圖的繪製

### 5.8.1 使用 `plt.scatter()` 函數繪製存款餘額與貸款金額的散點圖

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.ticker import StrMethodFormatter

# 生成示例數據
np.random.seed(42)  # 固定隨機數種子，以便可以重複生成相同的隨機數據
n = 100  # 設置生成數據的數量
deposits = np.abs(np.random.normal(1000000, 500000, n))  # 生成服從正態分佈的存款餘額數據
loans = deposits * 0.8 + np.random.normal(0, 200000, n)  # 生成基於存款餘額並加入一定波動的貸款金額數據

# 將生成的數據存放進DataFrame中
data = pd.DataFrame({'存款餘額': deposits, '貸款金額': loans})

# 創建圖形和軸對象
fig, ax = plt.subplots(figsize=(10, 8))  # 設置圖表尺寸

# 繪製散點圖
ax.scatter(data['存款餘額'], data['貸款金額'])  # 使用存款餘額和貸款金額數據繪製散點圖

# 設置標題和軸標籤
ax.set_title('存款餘額與貸款金額的關係')  # 設置圖表標題
ax.set_xlabel('存款餘額')  # 設置X軸標籤
ax.set_ylabel('貸款金額')  # 設置Y軸標籤

# 將x軸和y軸的標籤顯示為完整的數字，而不是科學記數法
ax.xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 設置X軸標籤格式，不使用科學記數法
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 設置Y軸標籤格式，不使用科學記數法

# 顯示圖表
plt.show()  # 顯示生成的圖表

### 5.8.2 設置散點的尺寸、顏色等屬性

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.ticker import StrMethodFormatter

# 生成示例數據
np.random.seed(42)  # 固定隨機數種子，以便可以重複生成相同的隨機數據
n = 100  # 設置生成數據的數量
deposits = np.abs(np.random.normal(1000000, 500000, n))  # 生成服從正態分佈的存款餘額數據
loans = deposits * 0.8 + np.random.normal(0, 200000, n)  # 生成基於存款餘額並加入一定波動的貸款金額數據

# 將生成的數據存放進DataFrame中
data = pd.DataFrame({'存款餘額': deposits, '貸款金額': loans})

# 創建圖形和軸對象
fig, ax = plt.subplots(figsize=(10, 8))  # 設置圖表尺寸

# 計算存貸比（Loan-to-Deposit Ratio, LDR）：存貸比是衡量銀行貸款總額與存款總額之比的指標，用於評估銀行的流動性和風險狀況。
loan_to_deposit_ratio = data['貸款金額'] / data['存款餘額']

# 創建自定義顏色映射：我們通過提供一組顏色創建一個帶有100個間隔的自定義顏色映射。這有助於在圖表中直觀地展示數據的分佈和變化情況。
colors = ['#1a9850', '#91cf60', '#d9ef8b', '#fee08b', '#fc8d59', '#d73027']
n_bins = 100
cmap = LinearSegmentedColormap.from_list('custom_cmap', colors, N=n_bins)

# 設置顏色映射的範圍：定義顏色映射的最小值和最大值範圍，以確保顏色顯示與數據值正確對應。這裡的範圍設置為0.5到1.5。
vmin = 0.5
vmax = 1.5

# 繪製散點圖（Scatter Plot）：使用ax.scatter方法繪製散點圖，展示存款餘額與貸款金額之間的關係，並通過存貸比數據來決定每個點的顏色。
scatter = ax.scatter(
    data['存款餘額'],         # x軸數據：表示每個點的存款餘額
    data['貸款金額'],         # y軸數據：表示每個點的貸款金額
    c=loan_to_deposit_ratio,  # 顏色映射數據：使用存貸比來設置每個點的顏色，便於直觀區分比例差異
    cmap=cmap,                # 使用我們之前定義的自定義顏色映射方案
    s=50,                     # 設置點的大小為50，這個大小適中，能夠清晰顯示單個點並保持圖表整體的可讀性
    alpha=0.6,                # 設置點的透明度為0.6，這樣可以在點數量較多時避免圖表過於擁擠
    vmin=vmin,                # 設置顏色映射的最小值，確保顏色與數據範圍正確匹配
    vmax=vmax                 # 設置顏色映射的最大值，同樣保證顏色與數據範圍的正確對應
)

# 添加顏色條（Colorbar）：顏色條作為圖例，展示顏色映射到數據值的對應關係，有助於讀者快速理解顏色變化所對應的數值範圍
plt.colorbar(scatter, label='存貸比')

# 設置標題和軸標籤
ax.set_title('存款餘額與貸款金額的關係')  # 設置圖表標題
ax.set_xlabel('存款餘額')  # 設置X軸標籤
ax.set_ylabel('貸款金額')  # 設置Y軸標籤

# 將x軸和y軸的標籤顯示為完整的數字，而不是科學記數法
ax.xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 設置X軸標籤格式，不使用科學記數法
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 設置Y軸標籤格式，不使用科學記數法

# 顯示圖表
plt.show()  # 顯示生成的圖表

### 5.8.3 添加趨勢線以突出存款與貸款的相關性

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.ticker import StrMethodFormatter

# 生成示例數據
np.random.seed(42)  # 固定隨機數種子，以便可以重複生成相同的隨機數據
n = 100  # 設置生成數據的數量
deposits = np.abs(np.random.normal(1000000, 500000, n))  # 生成服從正態分佈的存款餘額數據
loans = deposits * 0.8 + np.random.normal(0, 200000, n)  # 生成基於存款餘額並加入一定波動的貸款金額數據

# 將生成的數據存放進DataFrame中
data = pd.DataFrame({'存款餘額': deposits, '貸款金額': loans})

# 創建圖形和軸對象
fig, ax = plt.subplots(figsize=(10, 8))  # 設置圖表尺寸

# 計算存貸比（Loan-to-Deposit Ratio, LDR）：存貸比是衡量銀行貸款總額與存款總額之比的指標，用於評估銀行的流動性和風險狀況。
loan_to_deposit_ratio = data['貸款金額'] / data['存款餘額']

# 創建自定義顏色映射：我們通過提供一組顏色創建一個帶有100個間隔的自定義顏色映射。這有助於在圖表中直觀地展示數據的分佈和變化情況。
colors = ['#1a9850', '#91cf60', '#d9ef8b', '#fee08b', '#fc8d59', '#d73027']
n_bins = 100
cmap = LinearSegmentedColormap.from_list('custom_cmap', colors, N=n_bins)

# 設置顏色映射的範圍：定義顏色映射的最小值和最大值範圍，以確保顏色顯示與數據值正確對應。這裡的範圍設置為0.5到1.5。
vmin = 0.5
vmax = 1.5

# 繪製散點圖（Scatter Plot）：使用ax.scatter方法繪製散點圖，展示存款餘額與貸款金額之間的關係，並通過存貸比數據來決定每個點的顏色。
scatter = ax.scatter(
    data['存款餘額'],         # x軸數據：表示每個點的存款餘額
    data['貸款金額'],         # y軸數據：表示每個點的貸款金額
    c=loan_to_deposit_ratio,  # 顏色映射數據：使用存貸比來設置每個點的顏色，便於直觀區分比例差異
    cmap=cmap,                # 使用我們之前定義的自定義顏色映射方案
    s=50,                     # 設置點的大小為50，這個大小適中，能夠清晰顯示單個點並保持圖表整體的可讀性
    alpha=0.6,                # 設置點的透明度為0.6，這樣可以在點數量較多時避免圖表過於擁擠
    vmin=vmin,                # 設置顏色映射的最小值，確保顏色與數據範圍正確匹配
    vmax=vmax                 # 設置顏色映射的最大值，同樣保證顏色與數據範圍的正確對應
)

# 添加顏色條（Colorbar）：顏色條作為圖例，展示顏色映射到數據值的對應關係，有助於讀者快速理解顏色變化所對應的數值範圍
plt.colorbar(scatter, label='存貸比')

# 使用numpy庫中的polyfit函數，計算數據的趨勢線
# 這裡的1表示進行一次多項式擬合，即擬合一條直線
# 函數polyfit會根據輸入的數據點，返回最適合的多項式係數
z = np.polyfit(data['存款餘額'], data['貸款金額'], 1)

# 根據polyfit計算出的係數創建多項式函數
# 函數poly1d將這些係數轉換成可以直接計算y值的函數，代表趨勢線的方程
p = np.poly1d(z)

# 將趨勢線添加到圖表中
# 使用前面創建的多項式函數p來根據存款餘額計算對應的趨勢線y值（即貸款金額）
# "r--": 用紅色虛線來表示趨勢線
# alpha=0.8: 設置線條的透明度為0.8，以使其在圖表上顯得不那麼刺眼
ax.plot(data['存款餘額'], p(data['存款餘額']), "r--", alpha=0.8)

# 設置標題和軸標籤
ax.set_title('存款餘額與貸款金額的關係')  # 設置圖表標題
ax.set_xlabel('存款餘額')  # 設置X軸標籤
ax.set_ylabel('貸款金額')  # 設置Y軸標籤

# 將x軸和y軸的標籤顯示為完整的數字，而不是科學記數法
ax.xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 設置X軸標籤格式，不使用科學記數法
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 設置Y軸標籤格式，不使用科學記數法

# 顯示圖表
plt.show()  # 顯示生成的圖表

### 5.8.4 應用案例：探討銀行存款規模和貸款規模之間的關係

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats
from matplotlib.ticker import StrMethodFormatter

# 生成範例數據
# 使用固定的隨機種子確保每次運行生成的隨機數都是一致的
np.random.seed(42)
n = 100
# 生成 n 個符合正態分佈的存款數據，平均值為 1000000 元，標準差為 500000 元
deposits = np.abs(np.random.normal(1000000, 500000, n))
# 貸款金額是存款餘額的80%加上一些正態分佈的隨機數，以模擬現實變量
loans = deposits * 0.8 + np.random.normal(0, 200000, n)

# 建立包含 "存款餘額" 和 "貸款金額" 的資料框
data = pd.DataFrame({'存款餘額': deposits, '貸款金額': loans})

# 創建圖形和軸對象
fig, ax = plt.subplots(figsize=(12, 9))

# 計算存貸比
loan_to_deposit_ratio = data['貸款金額'] / data['存款餘額']

# 創建自定義顏色映射：我們通過提供一組顏色創建一個帶有100個間隔的自定義顏色映射。這有助於在圖表中直觀地展示數據的分佈和變化情況。
colors = ['#1a9850', '#91cf60', '#d9ef8b', '#fee08b', '#fc8d59', '#d73027']
n_bins = 100
cmap = LinearSegmentedColormap.from_list('custom_cmap', colors, N=n_bins)

# 設置顏色映射的範圍：定義顏色映射的最小值和最大值範圍，以確保顏色顯示與數據值正確對應。這裡的範圍設置為0.5到1.5。
vmin = 0.5
vmax = 1.5

# 繪製散點圖
scatter = ax.scatter(
    data['存款餘額'],         # x軸數據：存款餘額
    data['貸款金額'],         # y軸數據：貸款金額
    c=loan_to_deposit_ratio,  # 顏色映射數據：存貸比
    cmap=cmap,           # 使用我們之前定義的自定義顏色映射方案
    s=50,                     # 設置點的大小為50
    alpha=0.6,                # 設置點的透明度為0.6
    vmin=vmin,                # 設置顏色映射的最小值
    vmax=vmax                 # 設置顏色映射的最大值
)

# 添加顏色條
cbar = plt.colorbar(scatter)
cbar.set_label('存貸比', rotation=270, labelpad=15)

# 計算並添加趨勢線
z = np.polyfit(data['存款餘額'], data['貸款金額'], 1)
p = np.poly1d(z)
ax.plot(data['存款餘額'], p(data['存款餘額']), "r--", alpha=0.8, label='趨勢線')

# 計算相關係數
correlation = stats.pearsonr(data['存款餘額'], data['貸款金額'])[0]

# 設置標題和軸標籤
ax.set_title('銀行存款規模與貸款規模關係分析', fontsize=18, fontweight='bold')
ax.set_xlabel('存款餘額（元）', fontsize=14)
ax.set_ylabel('貸款金額（元）', fontsize=14)

# 設置坐標軸刻度格式
ax.ticklabel_format(style='plain', axis='both')

# 添加圖例
ax.legend()

# 添加註釋
ax.annotate(f'相關係數: {correlation:.2f}', xy=(0.05, 0.95), xycoords='axes fraction',
            fontsize=12, ha='left', va='top',
            bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.5),
            )

# 添加一些分析性的文字說明
ax.text(0.60, 0.05, '分析：\n1. 存款規模與貸款規模呈現強正相關\n2. 少數客戶的貸款金額超過存款餘額',
        transform=ax.transAxes, fontsize=12, verticalalignment='bottom',
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# 將x軸和y軸的標籤顯示為完整的數字，而不是科學記數法
ax.xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))
ax.yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 調整佈局
plt.tight_layout()

# 顯示圖表
plt.show()

## 5.9 直方圖的繪製

### 5.9.1 使用`plt.hist()`函數繪製銀行客戶存款餘額的直方圖

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.ticker import StrMethodFormatter

# 讀取數據
# 使用pandas讀取CSV文件中的數據，將其存儲在data變量中
data = pd.read_csv('customer_data.csv')

# 創建圖形和軸對象
# 使用matplotlib的subplots方法創建一個圖形對象（fig）和一個包含圖形的軸對象（ax）
# figsize參數設置圖形的大小，這裡設置為寬10，高8
fig, ax = plt.subplots(figsize=(10, 8))

# 繪製直方圖
# 使用軸對象的hist方法繪製直方圖
# data['存款餘額']指定要繪製的數據列，bins參數設置直方圖的柱數，edgecolor參數設置柱的邊緣顏色
ax.hist(data['存款餘額'], bins=30, edgecolor='black')

# 設置標題和軸標籤
# 使用set_title、set_xlabel和set_ylabel方法設置圖表的標題和軸標籤名稱
ax.set_title('客戶存款餘額分佈')
ax.set_xlabel('存款餘額')
ax.set_ylabel('頻數')

# 將x軸的標籤顯示為完整的數字，而不是科學記數法
# 使用xaxis.set_major_formatter方法設置x軸標籤的顯示格式
# 這裡使用StrMethodFormatter('{x:,.0f}')將數字格式化為帶有千位分隔符的整數模式
ax.xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
# 使用plt.show方法顯示生成的圖表
plt.show()

### 5.9.2 設置直方圖的bin數量和顏色

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.ticker import StrMethodFormatter

# 讀取數據
# 使用pandas讀取CSV文件中的數據，將其存儲在data變量中
data = pd.read_csv('customer_data.csv')

# 創建圖形和軸對象
# 使用matplotlib的subplots方法創建一個圖形對象（fig）和一個包含圖形的軸對象（ax）
# figsize參數設置圖形的大小，這裡設置為寬10，高8
fig, ax = plt.subplots(figsize=(10, 8))

# 繪製'存款餘額'的直方圖，使用50個bins（箱子）來劃分數據。
# 'edgecolor'參數設置了每個bin的邊框顏色為黑色，增加了圖表的清晰度。
# 'color'參數將bin的填充顏色設置為天藍色。
# 'alpha'參數用於設置顏色透明度，值為0.7，這樣可以在多重圖表重疊時看清各部分的重疊情況。
ax.hist(data['存款餘額'], bins=50, edgecolor='black', color='skyblue', alpha=0.7)

# 設置標題和軸標籤
# 使用set_title、set_xlabel和set_ylabel方法設置圖表的標題和軸標籤名稱
ax.set_title('客戶存款餘額分佈')
ax.set_xlabel('存款餘額')
ax.set_ylabel('頻數')

# 將x軸的標籤顯示為完整的數字，而不是科學記數法
# 使用xaxis.set_major_formatter方法設置x軸標籤的顯示格式
# 這裡使用StrMethodFormatter('{x:,.0f}')將數字格式化為帶有千位分隔符的整數模式
ax.xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
# 使用plt.show方法顯示生成的圖表
plt.show()

### 5.9.3 添加均值和中位數的標識線

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.ticker import StrMethodFormatter

# 讀取數據
# 使用pandas讀取CSV文件中的數據，將其存儲在data變量中
data = pd.read_csv('customer_data.csv')

# 創建圖形和軸對象
# 使用matplotlib的subplots方法創建一個圖形對象（fig）和一個包含圖形的軸對象（ax）
# figsize參數設置圖形的大小，這裡設置為寬10，高8
fig, ax = plt.subplots(figsize=(10, 8))

# 繪製'存款餘額'的直方圖，使用50個bins（箱子）來劃分數據。
# 'edgecolor'參數設置了每個bin的邊框顏色為黑色，增加了圖表的清晰度。
# 'color'參數將bin的填充顏色設置為天藍色。
# 'alpha'參數用於設置顏色透明度，值為0.7，這樣可以在多重圖表重疊時看清各部分的重疊情況。
ax.hist(data['存款餘額'], bins=50, edgecolor='black', color='skyblue', alpha=0.7)

# 計算存款餘額的均值和中位數。均值提供了存款餘額的平均水平，而中位數則分割了存款餘額集成為兩個相同大小的部分，分別位於中位數的兩邊
mean_value = data['存款餘額'].mean()
median_value = data['存款餘額'].median()

# 添加均值和中位數的垂直線到圖表中。
# 這有助於視覺化地展示數據的集中趨勢。
# 均值用紅色虛線表示，寬度為2，並設置標籤為「均值」
ax.axvline(mean_value, color='red', linestyle='dashed', linewidth=2, label='均值')
# 中位數用綠色虛線表示，寬度為2，並設置標籤為「中位數」
ax.axvline(median_value, color='green', linestyle='dashed', linewidth=2, label='中位數')

# 添加圖例以便於識別圖中各條線的含義
ax.legend()

# 設置標題和軸標籤
# 使用set_title、set_xlabel和set_ylabel方法設置圖表的標題和軸標籤名稱
ax.set_title('客戶存款餘額分佈')
ax.set_xlabel('存款餘額')
ax.set_ylabel('頻數')

# 將x軸的標籤顯示為完整的數字，而不是科學記數法
# 使用xaxis.set_major_formatter方法設置x軸標籤的顯示格式
# 這裡使用StrMethodFormatter('{x:,.0f}')將數字格式化為帶有千位分隔符的整數模式
ax.xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 顯示圖表
# 使用plt.show方法顯示生成的圖表
plt.show()

### 5.9.4 應用案例：分析不同客戶群體的存款餘額分佈情況

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats

# 讀取數據
# 此步驟讀取來自名為 'customer_data.csv' 的CSV檔案，包含銀行客戶的存款餘額資料。
data = pd.read_csv('customer_data.csv')

# 創建圖形和軸對象
# fig, ax 將圖形與軸對象連接，可以用於創建和管理圖表。
fig, ax = plt.subplots(figsize=(12, 9))

# 繪製直方圖
# 繪製存款餘額的直方圖，bins 分割區間為 50，並設定顏色和透明度。
n, bins, patches = ax.hist(data['存款餘額'], bins=50, edgecolor='black', color='skyblue', alpha=0.7)

# 計算均值、中位數和眾數
# 使用數據計算存款餘額的均值、中位數和眾數，這些統計量能幫助了解數據的集中趨勢。
mean_value = data['存款餘額'].mean()
median_value = data['存款餘額'].median()
mode_value = data['存款餘額'].mode().values[0]

# 添加均值、中位數和眾數的垂直線
# 在圖表中添加垂直線來標示均值、中位數和眾數的位置，以視覺化數據的集中趨勢。
ax.axvline(mean_value, color='red', linestyle='dashed', linewidth=2, label=f'均值: {mean_value:.0f}')
ax.axvline(median_value, color='green', linestyle='dashed', linewidth=2, label=f'中位數: {median_value:.0f}')
ax.axvline(mode_value, color='purple', linestyle='dashed', linewidth=2, label=f'眾數: {mode_value:.0f}')

# 計算偏度和峰度
# 計算存款餘額的偏度和峰度，用於分析數據的分佈形態。
skewness = stats.skew(data['存款餘額'])
kurtosis = stats.kurtosis(data['存款餘額'])

# 設置標題和軸標籤
# 為圖表設定標題及X、Y軸標籤，以描述圖表的內容和數據單位。
ax.set_title('銀行客戶存款餘額分佈分析', fontsize=18, fontweight='bold')
ax.set_xlabel('存款餘額（元）', fontsize=14)
ax.set_ylabel('客戶數量', fontsize=14)

# 設置坐標軸刻度格式
# 調整X軸刻度的顯示格式為普通樣式（不使用科學記數法）。
ax.ticklabel_format(style='plain', axis='x')

# 添加圖例
# 在圖表上增加圖例以標示各信息線的含義。
ax.legend(fontsize=10)

# 添加統計信息
# 在圖表的一角使用文字框顯示主要的統計信息，包括樣本數量、平均值、中位數、標準差、偏度與峰度。
stats_text = f'樣本數量: {len(data)}\n'
stats_text += f'平均值: {mean_value:.0f}\n'
stats_text += f'中位數: {median_value:.0f}\n'
stats_text += f'標準差: {data["存款餘額"].std():.0f}\n'
stats_text += f'偏度: {skewness:.2f}\n'
stats_text += f'峰度: {kurtosis:.2f}'

ax.text(0.95, 0.85, stats_text, transform=ax.transAxes, fontsize=10,
        verticalalignment='top', horizontalalignment='right',
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# 添加一些分析性的文字說明
# 在圖表下方添加文字說明，從數據中分析出存款餘額的分佈特徵，如偏度和集中趨勢等。
analysis_text = '分析：\n'
analysis_text += '1. 存款分佈呈現右偏（長尾）分佈\n'
analysis_text += '2. 大多數客戶的存款餘額集中在較低區間\n'
analysis_text += '3. 存在少數高淨值客戶，拉高了平均存款水平\n'
analysis_text += '4. 中位數低於平均值，進一步證實了分佈的右偏性'

ax.text(0.50, 0.05, analysis_text, transform=ax.transAxes, fontsize=12,
        verticalalignment='bottom', horizontalalignment='left',
        bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

# 調整布局
# 確保圖表布局緊湊，不會出現元素疊加或空間浪費。
plt.tight_layout()

# 顯示圖表
# 顯示圖表給使用者，讓使用者可以直觀地看到分析的結果。
plt.show()

## 5.10 多圖佈局和子圖

### 5.10.1 使用`plt.subplots()`函數創建多個子圖

In [None]:
import matplotlib.pyplot as plt

# 創建一個 2x2 的子圖網格
# 這裡使用 `plt.subplots(2, 2, figsize=(12, 10))` 創建了一個包含 2 行 2 列，共 4 個子圖的網格
# figsize 是用來設置整個圖形的大小，這裡設置為 12 英寸寬，10 英寸高
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# axes 是一個 2x2 的數組，包含了 4 個子圖對象
# 我們可以通過行列索引來訪問每個子圖，並對它們進行操作
# 設置每個子圖的標題，這樣可以幫助理解每個子圖表達的含義
axes[0, 0].set_title('子圖 1')  # 設置第一個子圖的標題為 "子圖 1"
axes[0, 1].set_title('子圖 2')  # 設置第二個子圖的標題為 "子圖 2"
axes[1, 0].set_title('子圖 3')  # 設置第三個子圖的標題為 "子圖 3"
axes[1, 1].set_title('子圖 4')  # 設置第四個子圖的標題為 "子圖 4"

# 使用 plt.tight_layout() 將圖形的佈局調整得更加緊湊
# 這樣做的目的是防止子圖之間的標題和軸標簽重疊，使整個圖形更加美觀
plt.tight_layout()

# 顯示圖形
# 這一步會在屏幕上顯示我們剛剛創建的子圖
plt.show()

### 5.10.2 調整子圖的大小、間距和位置

In [None]:
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# `fig.subplots_adjust` 函數用於調整圖表中子圖之間的間距。
# wspace 表示子圖之間的寬度間距，hspace 表示子圖之間的高度間距。
# 將間距設置為 0.3 是為了確保每個子圖之間有適當的空間，使得子圖不會相互重疊。
fig.subplots_adjust(wspace=0.3, hspace=0.3)

# 或者，我們可以在創建子圖時直接設置子圖之間的間距。
# 使用 `gridspec_kw` 參數直接在創建時設定，可以達到相同的效果。
# 其中 'wspace' 指定子圖之間的橫向間距，而 'hspace' 指定子圖之間的縱向間距。
# 透過 `figsize=(12, 10)` 指定整個圖表的寬度和高度，確保圖表有足夠的空間來容納所有子圖。
# 整合的寫法減少了代碼量，使得圖表配置更簡潔。
# fig, axes = plt.subplots(2, 2, figsize=(12, 10), gridspec_kw={'wspace': 0.3, 'hspace': 0.3})

### 5.10.3 在同一個圖表中展示銀行存款、貸款、收入等多個指標

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.ticker import StrMethodFormatter

# 讀取數據：將每日數據、分行數據、收入數據和客戶數據讀取到程式中
daily_data = pd.read_csv('daily_bank_data.csv')
branch_data = pd.read_csv('branch_bank_data.csv')
income_data = pd.read_csv('income_data.csv')
customer_data = pd.read_csv('customer_data.csv')

# 創建一個 2x2 的子圖網格：設定圖形大小可以讓四個子圖能夠並排顯示且間隔適當
fig, axes = plt.subplots(2, 2, figsize=(20, 16))

# 1. 存款和貸款餘額趨勢圖（左上）
# 將 '日期' 欄位轉換為 datetime 格式，方便後續繪圖操作
daily_data['日期'] = pd.to_datetime(daily_data['日期'])
# 繪製存款餘額趨勢線
axes[0, 0].plot(daily_data['日期'], daily_data['存款餘額'], label='存款餘額')
# 繪製貸款餘額趨勢線
axes[0, 0].plot(daily_data['日期'], daily_data['貸款餘額'], label='貸款餘額')
# 設置圖表標題
axes[0, 0].set_title('存款和貸款餘額趨勢', fontsize=16)
# 設置 X 軸標籤
axes[0, 0].set_xlabel('日期')
# 設置 Y 軸標籤
axes[0, 0].set_ylabel('金額（元）')
# 添加圖例
axes[0, 0].legend()
# 設置 X 軸標籤旋轉角度
axes[0, 0].tick_params(axis='x', rotation=45)
# 設置 Y 軸的數字格式為千分位
axes[0, 0].yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 2. 各分行存款和貸款對比（右上）
# 創建一個數組，表示每個分行的位置
x = np.arange(len(branch_data['分行']))
# 設置每個柱狀條的寬度
width = 0.35
# 繪製存款餘額的柱狀圖
axes[0, 1].bar(x - width/2, branch_data['存款餘額'], width, label='存款餘額')
# 繪製貸款餘額的柱狀圖
axes[0, 1].bar(x + width/2, branch_data['貸款餘額'], width, label='貸款餘額')
# 設置圖表標題
axes[0, 1].set_title('各分行存款和貸款對比', fontsize=16)
# 設置 X 軸標籤
axes[0, 1].set_xlabel('分行')
# 設置 Y 軸標籤
axes[0, 1].set_ylabel('金額（元）')
# 設置 X 軸的刻度位置
axes[0, 1].set_xticks(x)
# 設置 X 軸刻度標籤
axes[0, 1].set_xticklabels(branch_data['分行'], rotation=45)
# 添加圖例
axes[0, 1].legend()
# 設置 Y 軸的數字格式為千分位
axes[0, 1].yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 3. 收入來源分布（左下）
# 繪製餅圖，表示不同收入來源的佔比
axes[1, 0].pie(income_data['金額'], labels=income_data['收入來源'], autopct='%1.1f%%')
# 設置圖表標題
axes[1, 0].set_title('收入來源分布', fontsize=16)

# 4. 客戶存款餘額分佈（右下）
# 繪製客戶存款餘額的直方圖，分為 50 個 bins，並設置邊框顏色
axes[1, 1].hist(customer_data['存款餘額'], bins=50, edgecolor='black')
# 設置圖表標題
axes[1, 1].set_title('客戶存款餘額分布', fontsize=16)
# 設置 X 軸標籤
axes[1, 1].set_xlabel('存款餘額（元）')
# 設置 Y 軸標籤
axes[1, 1].set_ylabel('客戶數量')
# 設置 X 軸的數字格式為千分位
axes[1, 1].xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))

# 調整子圖之間的間距
fig.subplots_adjust(wspace=0.3, hspace=0.3)

# 添加總標題
fig.suptitle('銀行業務綜合分析報告', fontsize=24, fontweight='bold')

# 調整佈局以防止標題重疊
plt.tight_layout()

# 顯示圖表
plt.show()

## 5.11 保存和導出圖表

### 5.11.1 使用 `plt.savefig()` 函數保存圖表為常見的圖像格式

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# 創建一個包含正弦函數圖表的簡單圖表
# 使用 numpy 創建一組從 0 到 10 的數據，步長為 linspace(線性空值)
x = np.linspace(0, 10, 100)
y = np.sin(x)  # 計算 x 對應的正弦值

# 創建一個新的圖形，並設置圖形大小為 10x6 英寸
plt.figure(figsize=(10, 6))

# 畫出 x 和 y 的折線圖
plt.plot(x, y)

# 設置圖表的標題
plt.title('Sin Function')

# 設置 x 軸的標籤
plt.xlabel('X')

# 設置 y 軸的標籤
plt.ylabel('Y')

# 將圖表保存為 PNG 格式
plt.savefig('sin_function.png')

# 將圖表保存為 PDF 格式
plt.savefig('sin_function.pdf')

# 將圖表保存為 JPG 格式，並設置圖像的點密度(DPI: dots per inch)為 300
plt.savefig('sin_function.jpg', dpi=300)

# 關閉該圖形，釋放內存
plt.close()

### 5.11.2 調整圖表大小和分辨率以便於在報告或簡報中使用

In [None]:
# 設置更大的圖表尺寸和更高的 DPI（每英寸點數），以提升圖表的清晰度和可讀性
# figsize參數指定圖表的寬度和高度，單位為英寸
# dpi參數設置每英寸顯示的像素數，數值越高，圖像越清晰
plt.figure(figsize=(12, 8), dpi=100)  # 這裡設置了圖表的初始DPI為100

# 畫圖表，使用 pre-processed 的數據 x 和 y
# plt.plot 根據 x 和 y 數據點繪製折線圖
plt.plot(x, y)

# 設置圖表標題和標籤，提升圖表的易讀性和信息量
# plt.title 設置圖表標題，fontsize設置標題字體大小
plt.title('Sin Function (High Resolution)', fontsize=16)
# plt.xlabel 和 plt.ylabel 分別設置X軸和Y軸標籤，fontsize設置標籤字體大小
plt.xlabel('X', fontsize=14)
plt.ylabel('Y', fontsize=14)

# 保存高分辨率圖片，適合用於印刷或高質量需求的展示
# plt.savefig 將當前圖表保存到檔案中
# dpi參數設置保存圖片的分辨率，這裡設置為300，確保圖片清晰
# bbox_inches='tight' 確保圖表四周的白邊最小化，即僅保存圖表部分
plt.savefig('sin_function_hires.png', dpi=300, bbox_inches='tight')

# 關閉當前的圖表，避免影響後續圖表的繪製
# plt.close 釋放圖表資源，尤其在繪製大量圖表時防止記憶體溢出
plt.close()

### 5.11.3 將圖表嵌入到 Excel 或 Word 文件中

In [None]:
from openpyxl import Workbook
from openpyxl.drawing.image import Image
import matplotlib.pyplot as plt

# 使用 Matplotlib 創建和保存圖表
# 這段程式碼的目的是生成圖表並將其保存為圖像文件，以便稍後插入到 Excel 文件中。
plt.plot([1, 2, 3], [4, 5, 6])
plt.savefig('chart_for_excel.png')
plt.close()

# 創建一個新的 Excel 工作簿
# Workbook 是 openpyxl 中用於表示 Excel 文件的物件。此函數創建一個新的工作簿對象。
wb = Workbook()
ws = wb.active # 獲取當前活躍的工作表

# 將生成的圖像插入到 Excel 工作表中
# Image 是 openpyxl 中用於表示圖像的類。此函數創建一個新的圖像對象並將其插入到活躍的工作表 ws 的單元格 A1 位置。
img = Image('chart_for_excel.png')
ws.add_image(img, 'A1')

# 保存更新後的 Excel 文件
# 最后，將工作簿 wb 保存為名為 'report_with_chart.xlsx' 的 Excel 文件
wb.save('report_with_chart.xlsx')

### 5.11.4 應用案例：創建和保存銀行業務報告的圖表

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.ticker import StrMethodFormatter

# 讀取數據
daily_data = pd.read_csv('daily_bank_data.csv')
branch_data = pd.read_csv('branch_bank_data.csv')
income_data = pd.read_csv('income_data.csv')
customer_data = pd.read_csv('customer_data.csv')

# 創建一個 2x2 的子圖網格，用於展示多個數據圖表
fig, axes = plt.subplots(2, 2, figsize=(20, 16))

# 1. 存款和貸款餘額趨勢圖（左上）
# 這個圖表顯示了隨時間變化的存款和貸款餘額變化趨勢
daily_data['日期'] = pd.to_datetime(daily_data['日期'])  # 將字符串格式的日期轉換為 datetime 格式
axes[0, 0].plot(daily_data['日期'], daily_data['存款餘額'], label='存款餘額')  # 繪製存款餘額趨勢線
axes[0, 0].plot(daily_data['日期'], daily_data['貸款餘額'], label='貸款餘額')  # 繪製貸款餘額趨勢線
axes[0, 0].set_title('存款和貸款餘額趨勢', fontsize=16)  # 設置圖表標題
axes[0, 0].set_xlabel('日期')  # 設置X軸標籤
axes[0, 0].set_ylabel('金額（元）')  # 設置Y軸標籤
axes[0, 0].legend()  # 顯示圖例
axes[0, 0].tick_params(axis='x', rotation=45)  # 旋轉X軸標籤以提高可讀性
axes[0, 0].yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 格式化Y軸刻度顯示

# 2. 各分行存款和貸款對比（右上）
# 這個圖表比較了各個分行的存款和貸款餘額
x = np.arange(len(branch_data['分行']))  # 獲取分行的數量
width = 0.35  # 設置柱狀圖的寬度
axes[0, 1].bar(x - width/2, branch_data['存款餘額'], width, label='存款餘額')  # 繪製存款餘額的柱狀圖
axes[0, 1].bar(x + width/2, branch_data['貸款餘額'], width, label='貸款餘額')  # 繪製貸款餘額的柱狀圖
axes[0, 1].set_title('各分行存款和貸款對比', fontsize=16)  # 設置圖表標題
axes[0, 1].set_xlabel('分行')  # 設置X軸標籤
axes[0, 1].set_ylabel('金額（元）')  # 設置Y軸標籤
axes[0, 1].set_xticks(x)  # 設置X軸刻度
axes[0, 1].set_xticklabels(branch_data['分行'], rotation=45)  # 設置X軸刻度標籤和旋轉角度
axes[0, 1].legend()  # 顯示圖例
axes[0, 1].yaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 格式化Y軸刻度顯示

# 3. 收入來源分佈（左下）
# 這個餅狀圖顯示了各種收入來源的佔比
axes[1, 0].pie(income_data['金額'], labels=income_data['收入來源'], autopct='%1.1f%%')  # 繪製餅狀圖
axes[1, 0].set_title('收入來源分布', fontsize=16)  # 設置圖表標題

# 4. 客戶存款餘額分佈（右下）
# 這個直方圖顯示了客戶存款餘額的分布情況
axes[1, 1].hist(customer_data['存款餘額'], bins=50, edgecolor='black')  # 繪製直方圖
axes[1, 1].set_title('客戶存款餘額分布', fontsize=16)  # 設置圖表標題
axes[1, 1].set_xlabel('存款餘額（元）')  # 設置X軸標籤
axes[1, 1].set_ylabel('客戶數量')  # 設置Y軸標籤
axes[1, 1].xaxis.set_major_formatter(StrMethodFormatter('{x:,.0f}'))  # 格式化X軸刻度顯示

# 調整子圖之間的間距
fig.subplots_adjust(wspace=0.3, hspace=0.3)

# 添加總標題
fig.suptitle('銀行業務綜合分析報告', fontsize=24, fontweight='bold')  # 設置總標題

# 調整布局
plt.tight_layout()

# 保存為高質量 PNG 文件
plt.savefig('bank_business_report.png', dpi=300, bbox_inches='tight')  # 保存為PNG文件

# 保存為 PDF 文件（適合打印或嵌入到文檔中）
plt.savefig('bank_business_report.pdf', bbox_inches='tight')  # 保存為PDF文件

# 關閉圖表，釋放資源
plt.close()

# 輸出提示信息
print("圖表已保存為 'bank_business_report.png' 和 'bank_business_report.pdf'")