In [4]:
pip install moralis


Collecting moralis
  Downloading moralis-0.1.49-py3-none-any.whl.metadata (6.7 kB)
Collecting frozendict~=2.3.4 (from moralis)
  Downloading frozendict-2.3.10-py3-none-any.whl.metadata (20 kB)
Downloading moralis-0.1.49-py3-none-any.whl (2.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.3/2.3 MB[0m [31m34.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading frozendict-2.3.10-py3-none-any.whl (14 kB)
Installing collected packages: frozendict, moralis
  Attempting uninstall: frozendict
    Found existing installation: frozendict 2.4.6
    Uninstalling frozendict-2.4.6:
      Successfully uninstalled frozendict-2.4.6
Successfully installed frozendict-2.3.10 moralis-0.1.49
Note: you may need to restart the kernel to use updated packages.


In [None]:
import pandas as pd

def find_unique_chains(df, tokens_column="tokens"):
    """
    Quét qua cột chứa dictionary token để tìm tất cả các chain ID duy nhất.
    
    Args:
        df (pd.DataFrame): DataFrame của bạn.
        tokens_column (str): Tên cột chứa dữ liệu token.
        
    Returns:
        set: Một tập hợp (set) chứa các chain ID duy nhất dạng hex.
    """
    unique_chain_ids = set()

    # Bỏ qua các dòng không có dữ liệu
    for token_dict in df[tokens_column].dropna():
        if not isinstance(token_dict, dict):
            continue

        for token_key in token_dict.keys():
            try:
                # Key có dạng 'chain_id_contract_address'
                # Chúng ta tách chuỗi bằng dấu '_' và lấy phần đầu tiên
                chain_id = token_key.split('_')[0]
                unique_chain_ids.add(chain_id)
            except (IndexError, AttributeError):
                # Bỏ qua các key không đúng định dạng
                print(f"Cảnh báo: Bỏ qua key không hợp lệ: {token_key}")
                continue
                
    return unique_chain_ids


In [None]:
def get_all_valid_tokens(df, tokens_column="tokens"):
    """
    Quét qua DataFrame để tìm tất cả các token có định dạng hợp lệ và
    trả về chúng dưới dạng một DataFrame mới.

    Args:
        df (pd.DataFrame): DataFrame nguồn chứa dữ liệu.
        tokens_column (str): Tên cột chứa dictionary token.

    Returns:
        pd.DataFrame: Một DataFrame mới với các cột 'token_id', 'chain_hex', 'contract_address'.
    """
    print("Bắt đầu quét và lọc các token hợp lệ...")
    
    # Dùng set để đảm bảo các token_id là duy nhất
    unique_valid_token_ids = set()
    
    for token_dict in df[tokens_column].dropna():
        if not isinstance(token_dict, dict):
            continue
        for token_id in token_dict.keys():
            try:
                chain_hex, contract_address_raw = token_id.split('_')
                contract_address = contract_address_raw.lower()
                
                # Kiểm tra định dạng contract chặt chẽ
                if len(contract_address) == 42 and contract_address.startswith('0x'):
                    # Thêm toàn bộ token_id đã được chuẩn hóa (lowercase)
                    unique_valid_token_ids.add(f"{chain_hex}_{contract_address}")
            except (ValueError, IndexError):
                # Bỏ qua các key không đúng định dạng
                continue
    
    total_tokens = len(unique_valid_token_ids)
    print(f"Tìm thấy tổng cộng {total_tokens} token duy nhất có định dạng hợp lệ.")

    if not unique_valid_token_ids:
        # Trả về DataFrame rỗng nếu không tìm thấy token nào
        return pd.DataFrame(columns=['token_id', 'chain_hex', 'contract_address'])

    # Chuyển set các token_id thành một list các dictionary để tạo DataFrame
    token_data_list = []
    for token_id in unique_valid_token_ids:
        chain_hex, contract_address = token_id.split('_')
        token_data_list.append({
            'token_id': token_id,
            'chain_hex': chain_hex,
            'contract_address': contract_address
        })
        
    # Tạo DataFrame từ list
    valid_tokens_df = pd.DataFrame(token_data_list)
    
    print("Hoàn thành tạo DataFrame chứa token hợp lệ.")
    return valid_tokens_df



In [None]:
# --- Chạy hàm để tìm kiếm ---
found_chains = find_unique_chains(merged_df, tokens_column="tokens")

print("Các chain ID (dạng hex) duy nhất có trong dữ liệu của bạn là:")
print(found_chains)

#hàm lấy token
valid_tokens_df = get_all_valid_tokens(merged_df)

In [18]:
from moralis import evm_api
import time

# Ánh xạ từ chain_hex của bạn sang chain_id mà Moralis sử dụng trong `params`
MORALIS_CHAIN_MAP = {
    '0x1': 'eth',
    '0xa': 'optimism',
    '0x38': 'bsc',
    '0x89': 'polygon',
    '0xfa': 'fantom',
    '0xa86a': 'avalanche',
    '0xa4b1': 'arbitrum'
    # Các chain khác từ docs có thể được thêm vào đây nếu cần
}

def create_price_map_sdk_correct(valid_tokens_df, api_key, batch_size=25):
    """
    Tạo price map bằng Moralis SDK, tuân thủ chính xác theo tài liệu
    với tham số 'body' và 'params' riêng biệt.
    """
    print(f"Bắt đầu lấy giá bằng Moralis SDK (chuẩn theo docs, batch size = {batch_size})...")
    price_map = {}
    
    # Nhóm các token theo chain để xử lý
    tokens_by_chain_hex = valid_tokens_df.groupby('chain_hex')['contract_address'].apply(list).to_dict()

    for chain_hex, contracts in tokens_by_chain_hex.items():
        if chain_hex not in MORALIS_CHAIN_MAP:
            print(f"Bỏ qua chain không được hỗ trợ: {chain_hex}")
            continue
            
        chain_for_api = MORALIS_CHAIN_MAP[chain_hex]
        contract_list = list(contracts)
        
        print(f"Đang lấy giá cho {len(contract_list)} token trên chain '{chain_for_api}'...")
        
        # Chia thành các lô để không gửi quá nhiều token một lúc
        for i in range(0, len(contract_list), batch_size):
            batch = contract_list[i:i + batch_size]
            
            try:
                # *** XÂY DỰNG BODY VÀ PARAMS CHÍNH XÁC THEO DOCS ***

                # 1. Body chỉ chứa danh sách token
                body = {
                    "tokens": [{"token_address": addr} for addr in batch]
                }
                
                # 2. Params chứa chain và các tùy chọn khác
                params = {
                    "chain": chain_for_api
                }

                # 3. Gọi hàm với đúng các tham số
                result = evm_api.token.get_multiple_token_prices(
                    api_key=api_key,
                    body=body,
                    params=params
                )
                
                # Xử lý kết quả trả về
                for token_data in result:
                    full_token_id = f"{chain_hex}_{token_data['tokenAddress'].lower()}"
                    price_map[full_token_id] = token_data.get('usdPrice', 0)
                
                print(f"  -> Lô {i//batch_size + 1}: Thành công.")
                time.sleep(0.5)

            except Exception as e:
                print(f"  -> Lỗi khi lấy giá ở lô {i//batch_size + 1} trên chain {chain_for_api}: {e}")

    print("Hoàn thành tạo bản đồ giá.")
    return price_map

In [19]:
valid_tokens_df = pd.read_parquet("/kaggle/input/mongodb-read-db/all_valid_token.parquet.gzip")
api_key = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJub25jZSI6IjI0YzRkYzRlLTE2YWEtNDM4YS04NDc2LTg0NmE2NTUxYjgyNyIsIm9yZ0lkIjoiNDUzODUxIiwidXNlcklkIjoiNDY2OTUwIiwidHlwZUlkIjoiMjE2ODZkMjQtMWZkZS00NGFjLWIyMWUtOTQ3ZWIyN2ZkYTg4IiwidHlwZSI6IlBST0pFQ1QiLCJpYXQiOjE3NDk4NzY4NDgsImV4cCI6NDkwNTYzNjg0OH0.J3D2e-1YYcZe0MsooAzi8VcPVQOZsUlmcuE6EpP40io"
price_map = create_price_map_sdk_correct(valid_tokens_df, api_key, batch_size=25)

Bắt đầu lấy giá bằng Moralis SDK (chuẩn theo docs, batch size = 25)...
Đang lấy giá cho 1869 token trên chain 'eth'...
  -> Lô 1: Thành công.
  -> Lô 2: Thành công.
  -> Lô 3: Thành công.
  -> Lô 4: Thành công.
  -> Lô 5: Thành công.
  -> Lô 6: Thành công.
  -> Lô 7: Thành công.
  -> Lô 8: Thành công.
  -> Lô 9: Thành công.
  -> Lô 10: Thành công.
  -> Lô 11: Thành công.
  -> Lô 12: Thành công.
  -> Lô 13: Thành công.
  -> Lô 14: Thành công.
  -> Lô 15: Thành công.
  -> Lô 16: Thành công.
  -> Lô 17: Thành công.
  -> Lô 18: Thành công.
  -> Lô 19: Thành công.
  -> Lô 20: Thành công.
  -> Lô 21: Thành công.
  -> Lô 22: Thành công.
  -> Lô 23: Thành công.
  -> Lô 24: Thành công.
  -> Lô 25: Thành công.
  -> Lô 26: Thành công.
  -> Lô 27: Thành công.
  -> Lô 28: Thành công.
  -> Lô 29: Thành công.
  -> Lô 30: Thành công.
  -> Lô 31: Thành công.
  -> Lô 32: Thành công.
  -> Lô 33: Thành công.
  -> Lô 34: Thành công.
  -> Lô 35: Thành công.
  -> Lô 36: Thành công.
  -> Lô 37: Thành công.
  

In [20]:
len(price_map)

2560

In [23]:
price_df = pd.DataFrame(list(price_map.items()), columns=['token_id', 'price_usd'])


In [25]:
price_df.to_parquet("price_map.parquet.gzip", compression="gzip")