# 01 - Khám phá dữ liệu Blockchain Security Findings

Notebook này khám phá cấu trúc và đặc điểm của dữ liệu findings từ smart contract audits.

In [None]:
import os
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from glob import glob
from collections import Counter
import re

# Cấu hình
RAW_DIR = 'data/raw'
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

## 1. Load và khám phá cấu trúc dữ liệu

In [None]:
# Đếm số file JSON
json_files = glob(os.path.join(RAW_DIR, '*.json'))
print(f"Tổng số file JSON: {len(json_files)}")

# Load một file mẫu
if json_files:
    sample_file = json_files[0]
    with open(sample_file, 'r', encoding='utf-8') as f:
        sample_data = json.load(f)
    print("\nCấu trúc JSON:")
    print(json.dumps({k: type(v).__name__ for k, v in sample_data.items()}, indent=2))

In [None]:
# Load tất cả dữ liệu
rows = []
for json_file in json_files:
    try:
        with open(json_file, 'r', encoding='utf-8') as f:
            data = json.load(f)
            row = {
                'id': data.get('id'),
                'title': data.get('title', ''),
                'content': data.get('content', ''),
                'impact': data.get('impact', ''),
                'protocol_id': data.get('protocol_id'),
                'auditfirm_id': data.get('auditfirm_id'),
                'firm_name': data.get('firm_name', ''),
                'protocol_name': data.get('protocol_name', '')
            }
            rows.append(row)
    except Exception as e:
        print(f"Error: {e}")

df = pd.DataFrame(rows)
print(f"Tổng số records: {len(df)}")
df.head()

## 2. Thống kê mô tả

In [None]:
# Phân phối Impact
if 'impact' in df.columns:
    impact_counts = df['impact'].value_counts()
    print("Phân phối Impact:")
    print(impact_counts)
    
    plt.figure(figsize=(8, 5))
    impact_counts.plot(kind='bar', color='steelblue')
    plt.title('Phân phối Impact Levels')
    plt.xlabel('Impact')
    plt.ylabel('Số lượng')
    plt.xticks(rotation=45)
    plt.tight_layout()
    plt.show()