Copyright (C) 2023 Sean Ming-Fong Sie <seansie07@gmail.com>

This work is licensed under the Creative Commons Attribution-NonCommercial
4.0 International License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-nc/4.0/ or send a letter to
Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.

In [1]:
import pandas as pd

# 指定 CSV 檔案的路徑
file_path = "../data_p/data.address.csv"

# 使用 pandas 的 read_csv 函數讀取 CSV 檔案
df = pd.read_csv(file_path)

# 將 "class" 欄位轉換為字串型態
df['class'] = df['class'].astype(str)

# 將 NaN 值替換為 0
df = df.fillna(0)

# 將 std_balance_btc 列中的數值只取到小數點後 10 位
df['std_balance_btc'] = df['std_balance_btc'].round(10)

# 新增 class1, class2, class3, class4, class5 欄位，並初始化為 0
for i in range(0, 6):
    col_name = f'class{i}'
    df[col_name] = 0

# 將數值為 0~5 的位置改成 1
for i in range(0, 6):
    class_col = f'class{i}'
    df[class_col] = (df['class'] == str(i)).astype(int)

# 刪除原始的 "class" 欄位
df = df.drop(columns='class')

# 刪除整欄為 0 或空白的欄位
# 使用 .all(axis=0) 檢查哪些欄位的所有值都是 0 (對於每一列來說)
columns_to_drop = df.columns[(df == 0).all(axis=0) | (df == '').all(axis=0)]
df = df.drop(columns=columns_to_drop)

# 儲存為新的 CSV 檔案
output_file_path = "../data_p/quantum_data.address.csv"
df.to_csv(output_file_path, index=False)

# 顯示處理後的資料框架
print(df)


        n_tx  total_days  total_spent_btc  total_received_btc  \
0        1.0         1.0         0.002757            0.002757   
1        1.0         1.0         0.011048            0.011048   
2        2.0        91.0         0.714653            0.714653   
3        1.0         1.0         1.120000            1.120000   
4        1.0         1.0         0.010039            0.010039   
...      ...         ...              ...                 ...   
694671   1.0         1.0         0.011394            0.011394   
694672   1.0         1.0         0.010000            0.010000   
694673   1.0         1.0         0.010000            0.010000   
694674   4.0         6.0        10.173900           10.173900   
694675   2.0         1.0         0.600000            0.600000   

        total_spent_usd  total_received_usd  mean_balance_btc  \
0              1.147915            1.147915          0.002757   
1              2.918842            2.918842          0.011048   
2            188.487957 

In [2]:
import pandas as pd

# 指定 CSV 檔案的路徑
file_path = "../data_p/data.address.csv"

# 使用 pandas 的 read_csv 函數讀取 CSV 檔案
df = pd.read_csv(file_path)

# 將 "class" 欄位轉換為字串型態
df['class'] = df['class'].astype(str)

# 將 std_balance_btc 列中的數值只取到小數點後 10 位
df['std_balance_btc'] = df['std_balance_btc'].round(10)

# 將 NaN 值替換為 0
df = df.fillna(0)

# 刪除整欄為 0 或空白的欄位
# 使用 .all(axis=0) 檢查哪些欄位的所有值都是 0 (對於每一列來說)
columns_to_drop = df.columns[(df == 0).all(axis=0) | (df == '').all(axis=0)]
df = df.drop(columns=columns_to_drop)

# 新增 class0, class1, class2, class3, class4, class5 欄位，並初始化為 0
for i in range(0, 6):
    col_name = f'class{i}'
    df[col_name] = 0

# 將數值為 0~5 的位置改成 1
for i in range(0, 6):
    class_col = f'class{i}'
    df[class_col] = (df['class'] == str(i)).astype(int)

# 刪除原始的 "class" 欄位
df = df.drop(columns='class')

# 針對每個 class 分類，創建和儲存相應的檔案
for i in range(0, 6):
    # 選擇對應的 class
    class_df = df.copy()
    class_df = class_df.drop(columns=[f'class{j}' for j in range(0, 6) if j != i])

    # 儲存每個 class 的 CSV 檔案
    output_file_path = f"../data_p/quantum_data.address_class{i}.csv"
    class_df.to_csv(output_file_path, index=False)

# 顯示處理後的資料框架
print(df)


        n_tx  total_days  total_spent_btc  total_received_btc  \
0        1.0         1.0         0.002757            0.002757   
1        1.0         1.0         0.011048            0.011048   
2        2.0        91.0         0.714653            0.714653   
3        1.0         1.0         1.120000            1.120000   
4        1.0         1.0         0.010039            0.010039   
...      ...         ...              ...                 ...   
694671   1.0         1.0         0.011394            0.011394   
694672   1.0         1.0         0.010000            0.010000   
694673   1.0         1.0         0.010000            0.010000   
694674   4.0         6.0        10.173900           10.173900   
694675   2.0         1.0         0.600000            0.600000   

        total_spent_usd  total_received_usd  mean_balance_btc  \
0              1.147915            1.147915          0.002757   
1              2.918842            2.918842          0.011048   
2            188.487957 

In [3]:
import pandas as pd

# 指定 CSV 檔案的路徑
file_path = "../data_p/data.address.csv"

# 使用 pandas 的 read_csv 函數讀取 CSV 檔案
df = pd.read_csv(file_path)

# 將所有的 NaN 值替換為 0
df.fillna(0, inplace=True)

# 將 std_balance_btc 列中的數值只取到小數點後 10 位
df['std_balance_btc'] = df['std_balance_btc'].round(10)

# 定義新檔案的路徑
new_file_path = "../data_p/nanzero_data.address.csv"

# 儲存修改後的 DataFrame 到新檔案
df.to_csv(new_file_path, index=False)


In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# 指定 CSV 檔案的路徑
file_path = "../data_p/data.address.csv"

# 使用 pandas 的 read_csv 函數讀取 CSV 檔案
df = pd.read_csv(file_path)

# 將所有的 NaN 值替換為 0
df.fillna(0, inplace=True)

# 將 std_balance_btc 列中的數值只取到小數點後 10 位
df['std_balance_btc'] = df['std_balance_btc'].round(10)

# 保存最後一列
last_column = df.iloc[:, -1].copy()

# 初始化 StandardScaler
scaler = StandardScaler()

# 選擇除了最後一列之外的數值型列進行標準化
numeric_df = df.iloc[:, :-1].select_dtypes(include=['float64', 'int64'])

# 使用 StandardScaler 對選定的數值型數據進行標準化
scaled_features = scaler.fit_transform(numeric_df.values)

# 將標準化後的數據轉換回 DataFrame
scaled_df = pd.DataFrame(scaled_features, index=df.index, columns=numeric_df.columns)

# 將最後一列加回 DataFrame
scaled_df = pd.concat([scaled_df, last_column], axis=1)

# 定義新檔案的路徑
new_file_path = "../data_p/nanzero_normalization_data.address.csv"

# 儲存修改後的 DataFrame 到新檔案
scaled_df.to_csv(new_file_path, index=False)


In [1]:
import pandas as pd
from sklearn.preprocessing import StandardScaler

# 指定 CSV 檔案的路徑
file_path = "../data_p/all_selected_features_quantum_qubo_data.address.csv"

# 使用 pandas 的 read_csv 函數讀取 CSV 檔案
df = pd.read_csv(file_path)

# 將所有的 NaN 值替換為 0
df.fillna(0, inplace=True)

# 將 std_balance_btc 列中的數值只取到小數點後 10 位
df['std_balance_btc'] = df['std_balance_btc'].round(10)

# 保存最後一列
last_column = df.iloc[:, -1].copy()

# 初始化 StandardScaler
scaler = StandardScaler()

# 選擇除了最後一列之外的數值型列進行標準化
numeric_df = df.iloc[:, :-1].select_dtypes(include=['float64', 'int64'])

# 使用 StandardScaler 對選定的數值型數據進行標準化
scaled_features = scaler.fit_transform(numeric_df.values)

# 將標準化後的數據轉換回 DataFrame
scaled_df = pd.DataFrame(scaled_features, index=df.index, columns=numeric_df.columns)

# 將最後一列加回 DataFrame
scaled_df = pd.concat([scaled_df, last_column], axis=1)

# 定義新檔案的路徑
new_file_path = "../data_p/normalization_all_selected_features_quantum_qubo_data.address.csv"

# 儲存修改後的 DataFrame 到新檔案
scaled_df.to_csv(new_file_path, index=False)
