# Những kiến thức cần tìm hiểu trước khi thu thập dữ liệu trên blockchain

1. Ethereum Virtual Machine là gì? [link](https://ethereum.org/en/developers/docs/evm/)
2. Application Binary Interface là gì? [link](https://www.quicknode.com/guides/solidity/what-is-an-abi) và [link](https://docs.soliditylang.org/en/develop/abi-spec.html#abi-json)
3. Light, full and archive ethereum node là gì? [link](https://www.quicknode.com/guides/infrastructure/ethereum-full-node-vs-archive-node) và [link](https://link.springer.com/chapter/10.1007/978-1-4842-3492-1_2)
4. Các nguồn tham khảo
    * [Ethereum docs](https://ethereum.org/en/developers/docs/)
    * [Web3 python docs](https://web3py.readthedocs.io/en/stable/)
    * [Ethereum JSON-RPC - Postman](https://documenter.getpostman.com/view/4117254/ethereum-json-rpc/RVu7CT5J)


# Cách lấy node provider urls
> Dữ liệu được lưu trên các blockchain nodes, ta sử  dung các provider urls kết nối với các nodes này
1. Tìm kiếm "rpc node" của các mạng blockchain (eg. ethereum rpc, bsc rpc, ftm rpc, etc.)
2. Tại chuỗi thực hành này, mình sử dụng provider url của binance smart chain ([bsc rpc](https://docs.bscscan.com/misc-tools-and-utilities/public-rpc-nodes))


# Kết nối binance smart chain public node
1. Kiểm tra kết nối với node của mainnet
2. Lấy dữ liệu của block mới nhất

In [1]:
from web3 import HTTPProvider
from web3 import Web3
from web3.middleware import geth_poa_middleware
import time
import json

archive = "https://bsc-dataseed1.binance.org/"
web3 = Web3(HTTPProvider(archive))
web3.middleware_onion.inject(geth_poa_middleware, layer=0)

#check connect successfull
isConnected = web3.isConnected()
print(f"Successful Connection: {isConnected} ")
#check latest blocknumber
blocknumber = web3.eth.blockNumber
print(f"The latest blocknumber is: {blocknumber}")

Successful Connection: True 
The latest blocknumber is: 21061222


In [27]:
#get latest block transaction data
data = web3.eth.get_block(blocknumber)
data

AttributeDict({'difficulty': 2,
 'proofOfAuthorityData': HexBytes('0xd88301010b846765746888676f312e31372e36856c696e75780000005d43d2fd63b6ad9d98dc9c166e92bf38a008aaf919c53d604a78ea239b251fd9bea7e07b0a810502a6855bcaf545056f467258e360223285ffa339eadc7243dbe8784fc701'),
 'gasLimit': 75284741,
 'gasUsed': 11027771,
 'hash': HexBytes('0x2e9229b6696688c7c9b2fa684c5025b77c99bcee45d8b0310f76c648200745e0'),
 'logsBloom': HexBytes('0xc02482804cc0903457201c4095424a3a700900dbd914a018b6d069f441a4450000010355012551ac528502d008218102a0914d0002a1500e503c0681a6b79fd62709c0222103148393290048e081002ea8146013d1f60a068b843840c95c8958125812a403a2856183c083310200d80a5a7001e02219948040d12038844284829205fa4b043b07416deb2486409a1a8104244e8511142719a3595151f0229b3082904241641f4a50f8806189831a128082366324e385c10150012668910f4a483088241382028e220b1428458252b4102600f8064549f03300a000ae1604f12100dd549120866e9521040ae204fbc0e8520c041c4041804a9f8733811a2420d4'),
 'miner': '0x3f349bBaFEc1551819B8be1EfEA2fC46cA749aA1',
 

# Thu thập dữ liệu của smart contract
> Thực hành thu thập dữ liệu của lending smart contract Valas trên Binance smart chain. Để có thể lấy dữ liệu của Valas ta cần có địa chỉ smart contract và ABI của Valas. Địa chỉ smart contract không được Valas công bố nhưng bằng những nghiệp vụ chuyên dụng mình đã thăm dò và lấy được địa chỉ này trên [BSCscan](https://bscscan.com/)

## Cách lấy ABI
#### Đối với các smart contract cho phép lấy ABI trên BSCscan, ta có thể  thực hiện các bước sau để lấy ABI:  
1. Truy cập [BSC Scan](https://bscscan.com/).
2. Nhập địa chỉ smart contract address vào search bar.
3. Kéo xuống và chon tab “Contract”. <br>
![image.png](../images/contract.png)
4. Kéo xuống thêm một tý, chúng ta sẽ thấy phần ABI.
5. Chọn nút copy ABI  hoặc download dưới dạng json. <br>
![image.png](../images/ABI.png)

> Một số smart contract không công bố ABI, ta có thể tìm kiếm source code của nó trên github, deploy và lấy ABI.

> Đối với các smart contract không công bố code cũng như ABI như Valas, mình đã đọc [docs](https://docs.valasfinance.com/) của nó. Tại [đây](https://docs.valasfinance.com/#why-valas), mình thấy rằng Valas sử dụng công nghệ của Aave Finance. Do Aave finance public [ABI](https://docs.aave.com/developers/v/2.0/deployed-contracts/deployed-contracts) nên mình có thể sử dụng ABI này. Nói chung, một số điểm trên ABI của Aave  có thể  đã bị Valas thay đổi nhưng mình đã thử và dùng được nên kệ đi :v.    


# Thực hành thu thập dữ liệu của Valas
> Tại đây, mình sẽ demo một số cách lấy dữ liệu của một smart contract. Chúng ta có hai loại dữ liệu cần lấy đó là dữ liệu từ các giao dịch (transaction) của smart contract và dữ liệu trạng thái là các thông tin từ các phần tử liên quan với smart contract (với lending pool Valas, các phần tử  này là các tokens và users).

> Việc thu thập dữ liệu sẽ dựa trên ABI của smart contract.

### Thu thập dữ liệu tokens được giao dịch trong lending pool Valas
> Mình sử dụng một số hàm trong smart contract để lấy dữ liệu từ các tokens được giao dịch trong Valas. Đầu tiên sẽ lấy danh sách địa chỉ smart contract của các tokens được giao dịch. Sau đó, lấy thông tin của tokens dựa trên địa chỉ của nó. Thông tin của user được lấy tương tự như vậy (Không có hàm lấy danh sách users đâu nhé vì số lượng users rất nhiều :v)

> Cấu trúc các hàm này trong ABI thường sẽ có trường **"type": "view"** hoặc có chữ **get** đầu tiên của tên hàm

In [40]:
#lấy cấu trúc dữ liệu của abi
with open("../abi/lending_pool_aave_v2.json", "r") as f:
    abi = json.loads(f.read())
#Địa chỉ của valas  
address = "0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5"
#Sử dụng web3 thiết lập đối tượng contract để sử dụng các phương thức
contract = web3.eth.contract(abi=abi, address=address)

> **NOTE**: Nên kiểm tra xem chuỗi byte code có phải là một địa chỉ trên blockchain hay không: **web3.isAddress(address)**. Nếu là địa chỉ, nên có thêm một bước convert địa chỉ thành địa chỉ thực trên web3 bằng **web3.toChecksumAddress(address)**. Do địa chỉ trên của mình đã là địa chỉ thực của Valas trên BSC nên không cần hai bước này nữa.

### Lấy danh sách địa chỉ tokens được sử dụng trong Valas
>Ta có thể tìm các hàm hỗ trợ lấy dữ liệu trong file ABI. Tại đây, mình đã sử dụng hàm **getReservesList** trong *abi/lending_pool_aave_v2.json*. Các bạn có thể thấy cấu trúc của nó ở hình dưới hoặc vào file này tìm kiếm thử.

![image.png](../images/list_token.png)


In [41]:
contract.functions.getReservesList().call()

['0xbb4CdB9CBd36B01bD1cBaEBF2De08d9173bc095c',
 '0xe9e7CEA3DedcA5984780Bafc599bD69ADd087D56',
 '0x8AC76a51cc950d9822D68b83fE1Ad97B32Cd580d',
 '0x55d398326f99059fF775485246999027B3197955',
 '0x1AF3F329e8BE154074D8769D1FFa4eE058B1DBc3',
 '0x0E09FaBB73Bd3Ade0a17ECC321fD13a19e81cE82',
 '0x2170Ed0880ac9A755fd29B2688956BD959F933F8',
 '0x7130d2A12B9BCbFAe4f2634d864A1Ee1Ce3Ead9c',
 '0x14016E85a25aeb13065688cAFB43044C2ef86784']

> **Note**: Chúng ta có thể gọi danh sách địa chỉ này trong quá khứ thông qua block number trong hàm **contract.functions.getReservesList().call(block_identifier = *blocknumber*)**. Ngoài ra ta có thể thiết lập các điều kiện khác của hàm call tại [link](https://web3py.readthedocs.io/en/stable/contracts.html?highlight=call#web3.contract.ContractFunction.call)

### Lấy thông tin của một token trong Valas
> Để lấy thông tin của một token trong Valas mình sử dụng hàm **getReserveData**. Tại đây mình sẽ thử lấy dữ liệu của nó trong quá khứ cho anh em xem :v. Oh, quên mất tại đây mình sử dụng full node provider. Full node chỉ lưu các giá trị này tại 128 blocks gần nhất thui (Đọc tìm hiểu full, archive và light node ở đầu series này đi nhé, quan trọng đấy). Như vậy, mình sẽ thử lấy dữ liệu tại block cách block mới nhất khoảng 10 blocks.

In [49]:
blocknumber = web3.eth.blockNumber - 10
contract.functions.getReserveData("0xbb4CdB9CBd36B01bD1cBaEBF2De08d9173bc095c").call(block_identifier=blocknumber)

((92234085768165225799488,),
 1018375418148918668905998408,
 1072578337570395022242402569,
 15952978777540686263393800,
 75313811694897412269457780,
 10000000000000000000000000,
 1662351536,
 '0xB11A912CD93DcffA8b609b4C021E89723ceb7FE8',
 '0x2Adc0c94A055f1FF64A35672D30Eb523ec647816',
 '0xE7CDC4e53915D50B74496847EeBa7233caE85CE5',
 '0xe4630EaE1C2b8B30F9b4AADD355522Ec9c18bfe4',
 0)

### Crawl event data of lending pool
> Tiếp theo mình sẽ hướng dẫn các bạn crawl dữ liệu từ các giao dịch. Yên tâm, full node lưu tất cả lịch sử giao dịch của smart contract trên BSC. Tại đây, mình sẽ crawl dữ liệu deposit event được emit từ các giao dịch của Valas tại block 21031205. Hình dưới đây là cấu trúc của event này trong ABI. Anh em rảnh có thể kiểm tra trong **abi/lending_pool_aave_v2.json** xem tôi chém gió không :v
![image.png](../images/deposit.png)

In [51]:
events = contract.events.Deposit.createFilter(fromBlock=21031205, toBlock=21031205).get_all_entries()
event_list = []
for event in events:
    event_list.append(json.loads(web3.toJSON(event)))
event_list

[{'args': {'reserve': '0x0E09FaBB73Bd3Ade0a17ECC321fD13a19e81cE82',
   'onBehalfOf': '0x26417D19dc19a73274B4c97615b310b39017FA57',
   'referral': 0,
   'user': '0x26417D19dc19a73274B4c97615b310b39017FA57',
   'amount': 1257749112692222427},
  'event': 'Deposit',
  'logIndex': 220,
  'transactionIndex': 71,
  'transactionHash': '0x0ee0f8ee33047ba977e3afd0b0995885b8d304b1aa1f1c6d307099c9ef9206e9',
  'address': '0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5',
  'blockHash': '0x68dee16ed601595adeb352f2072879d04f288506e5dcdd44f064b4f862e6bfe4',
  'blockNumber': 21031205}]

>**NOTE**: Anh em có thấy hai trường **fromBlock** và **toBlock** không? Mình có thể thay đổi hai giá trị này để  thu thập dữ liệu trong nhiều blocks nhé. Chú ý là **fromBlock** luôn nhỏ hơn **toBlock** và số  blocks tối đa có thể crawl một lần là **5000** blocks thôi. Đừng tham quá không thì còn mỗi cái nịt :)). Ngoài ra có thể tham khảo trên Web3 python docs để thiết lập các điều kiện lọc dữ liệu event khác theo ý thích nhé. Đây là [link](https://web3py.readthedocs.io/en/stable/contracts.html?highlight=createFilter#web3.contract.Contract.events.your_event_name.createFilter) nè

### Thu thập nhiều loại dữ liệu event cùng lúc
> Với cách trên anh em có thể thấy nhược điểm to đoành của nó. Đó là mỗi lần mình chỉ có thể thu thập được một loại dữ liệu thui :((. Vậy làm sao để thu thập nhiều loại dữ liệu một lúc để tránh mỗi lần thu thập lại phải quét lại những blocks đã crawl? Dùng code của mình ez :v. Cơ bản ta sẽ sử dụng event hash để crawl. Event hash là một chuỗi byte code được mã hóa theo chuẩn KECCEK_256 từ một chuỗi định nghĩa hàm tạo bởi cấu trúc event trong ABI (Đọc code để hiểu rõ hơn nhé - hàm **get_topic_filter** trong **service/utils.py**).

> Tại đây, mình sẽ tách hai event là *deposit* và *borrow* trong ABI của aave tạo thành một ABI mới riêng cho hai event này tại **abi/event_abi.json**. Anh em có thể tự tạo các ABI tương tự dựa trên ABI gốc.

> Mình có xây dựng một class EthReceiptLogHandler cung cấp các functions xử lý ABI và dữ liệu event trả về. Có ba functions quan trọng mà anh em cần chú ý đó là: *(1)* **build_list_info_event** xây dựng thông tin event từ ABI. Hàm này có nhiệm vụ trả về **EventSubscriber** chứa thông tin đối sánh tên event theo event hash và thứ tự các trường dữ liệu tương ứng với dữ liệu event mà web3 trả về. *(2)* **web3_dict_to_receipt_log** biến đổi dữ liệu event data trả về theo cấu trúc mà mình quy định sẵn (cài này tạo ra để mình xử lý event dễ hơn ý mà). *(3)* **extract_event_from_log** đối sánh dữ liệu event trả về với **EventSubscriber** và giải mã các trường dữ liệu **topics** và **data** trong event (Muốn biến hai trường này là gì thì anh em chịu khó đọc phần tài liệu về ABI mình để ở đầu series nhé). *(4)* cuối cùng **eth_event_to_dict** chuyển đổi dữ liệu event về cấu trúc event cuối cùng (theo dictionary) lưu vào cơ sở dữ liệu (Cái này tạo ra để mình có thể lưu dữ liệu vào mongodb).

In [53]:
from receipt_log_handler import EthReceiptLogHandler

with open("../abi/event_abi.json", "r") as f:
    event_abi = json.loads(f.read())

handler = EthReceiptLogHandler()
# xây dựng thông tin event từ ABI.
event_abi_info = handler.build_list_info_event(event_abi)
event_abi_info

[[<model.receipt_log.EventSubscriber at 0x7f4cfc51d070>,
  '0xc6a898309e823ee50bac64e45ca8adba6690e99e7841c45d754e2a38e9019d9b',
  ['reserve', 'user', 'onBehalfOf']],
 [<model.receipt_log.EventSubscriber at 0x7f4cd2957760>,
  '0xde6857219544bb5b7746f48ed30be6386fefc61b2f864cacf559893bf50fd951',
  ['reserve', 'user', 'onBehalfOf']]]

In [32]:
# tách lấy event hash
event_hash = [event_info[1] for event_info in event_abi_info]
event_hash

['0xc6a898309e823ee50bac64e45ca8adba6690e99e7841c45d754e2a38e9019d9b',
 '0xde6857219544bb5b7746f48ed30be6386fefc61b2f864cacf559893bf50fd951']

In [54]:
# tách lấy event subscriber
event_subscriber = {}
for info in event_abi_info:
    event_subscriber[info[1]] = info[0]

event_subscriber

{'0xc6a898309e823ee50bac64e45ca8adba6690e99e7841c45d754e2a38e9019d9b': <model.receipt_log.EventSubscriber at 0x7f4cfc51d070>,
 '0xde6857219544bb5b7746f48ed30be6386fefc61b2f864cacf559893bf50fd951': <model.receipt_log.EventSubscriber at 0x7f4cd2957760>}

> Do dữ liệu event trên blockchain vô cùng lớn và nhiểu dữ liệu từ các lending pool khác nhau, mình đã tạo một filter chỉ thu thập dữ liệu của Valas. Filter này gồm 4 điều kiện là fromBlock, toBlock, topics - danh sách event hash cần lọc (event hash lưu ở topics[0] nên mình để mảng event hash làm phần tử đầu của topics - hơi khó hiểu nhỉ, anh em sẽ hình dung rõ hơn khi nhìn vào dữ liệu thô nhé) và address là các địa chỉ smart contract mà mình muốn lấy event. 

In [63]:
#create filter
filter_params = {
    "fromBlock":21043181,
    "toBlock":21043646,
    "topics": [event_hash],
    "address":["0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5"]
}

event_filter = web3.eth.filter(filter_params)
events = event_filter.get_all_entries()
event_list = []
for event in events:
    log = handler.web3_dict_to_receipt_log(event)
    eth_event = handler.extract_event_from_log(log, event_subscriber[log.topics[0]])
    if eth_event is not None:
        eth_event_dict = handler.eth_event_to_dict(eth_event)
        event_list.append(eth_event_dict)

web3.eth.uninstallFilter(event_filter.filter_id)

True

> Nè dữ liệu thô nè, trường topics là một mảng các phần tử nhé. Thấy phần tử đầu tiên không? Nó là event hash đấy. Các phần tử còn lại sẽ là các trường dữ liệu có **index** là true trong cấu trúc event ở ABI.

In [64]:
events

[AttributeDict({'address': '0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5',
  'topics': [HexBytes('0xde6857219544bb5b7746f48ed30be6386fefc61b2f864cacf559893bf50fd951'),
   HexBytes('0x0000000000000000000000000e09fabb73bd3ade0a17ecc321fd13a19e81ce82'),
   HexBytes('0x0000000000000000000000007c6defb490b8ffe9379839914b4073c35ea7468a'),
   HexBytes('0x0000000000000000000000000000000000000000000000000000000000000000')],
  'data': '0x0000000000000000000000007c6defb490b8ffe9379839914b4073c35ea7468a0000000000000000000000000000000000000000000000058282d58b806d99f4',
  'blockNumber': 21043181,
  'transactionHash': HexBytes('0x4452f763a53dad9fb3a9784a2133a4a960379685d194932155fa6a7217980ad9'),
  'transactionIndex': 149,
  'blockHash': HexBytes('0x52ac94f0072e20b23c7bab220d8c9e3d43185cdbc62bfec962076a2de4a51912'),
  'logIndex': 409,
  'removed': False}),
 AttributeDict({'address': '0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5',
  'topics': [HexBytes('0xde6857219544bb5b7746f48ed30be6386fefc61b2f864cacf55

> Đây là dữ liệu sau cuối cùng trả về . Quá trình giải mã dữ liệu khá phức tạp nhưng mình sẽ giải thích đơn giản như sau. Dựa vào cấu trúc event trong ABI, mình phân loại các trường dữ liệu theo hai loại có thuộc tính **index** là true và false. Với những trường dữ liệu có **index** là true, theo thứ tự của chúng trong event ABI sẽ tương ứng là các giá trị theo thứ tự trong **topics** (trừ topics[0] là event hash nhé). Các trường dữ liệu có **index** là false theo thứ tự tương ứng với mỗi 32 bytes trong **data**. Sau khi đã xác định vị trí các trường dữ liệu, mình dựa vào thuộc tính **type** của chúng trong ABI để giải mã. Nếu **type** là *address* mình sẽ lấy 20 bytes cuối rồi ghép với *0x*, còn **type** là *uint* mình sẽ quy đổi giá trị từ thập lục phân sang thập phân. (Mình giải thích thế không biết anh em có hiểu không? Thôi thì anh cố đọc code mình để dễ hiểu hơn nhé - code hơi loằng ngoằng tý thui :v hoặc đọc đây nè [link](https://web3py.readthedocs.io/en/stable/filters.html?highlight=get_transaction#event-log-filters)). Dưới đây là dữ liệu cuối cùng thu được.

In [65]:
event_list

[{'type': 'event',
  'event_type': 'DEPOSIT',
  'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5',
  'transaction_hash': '0x4452f763a53dad9fb3a9784a2133a4a960379685d194932155fa6a7217980ad9',
  'log_index': 409,
  'block_number': 21043181,
  'reserve': '0x0e09fabb73bd3ade0a17ecc321fd13a19e81ce82',
  'onBehalfOf': '0x7c6defb490b8ffe9379839914b4073c35ea7468a',
  'referral': '0',
  'user': '0x7c6defb490b8ffe9379839914b4073c35ea7468a',
  'amount': '101638034135582611956'},
 {'type': 'event',
  'event_type': 'DEPOSIT',
  'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5',
  'transaction_hash': '0xbddb09a7f95e47bcf469b26f621cb62fa050cf1f4f0cb9678352acf815a15e89',
  'log_index': 169,
  'block_number': 21043427,
  'reserve': '0xe9e7cea3dedca5984780bafc599bd69add087d56',
  'onBehalfOf': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d',
  'referral': '0',
  'user': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d',
  'amount': '256058331951835542063'},
 {'type': 'event',
  'ev

### Thu thập transaction sinh ra deposit event
> Anh em có thể thấy trong dữ liệu block và dữ liệu event đều có một trường là transaction hash. Dựa vào nó ta có thể thu thập dữ liệu transaction mình mong muốn. Dưới đây là dữ liệu từ transaction hash của deposit event của block 21031205.

In [66]:
web3.eth.get_transaction("0x0ee0f8ee33047ba977e3afd0b0995885b8d304b1aa1f1c6d307099c9ef9206e9")

AttributeDict({'blockHash': HexBytes('0x68dee16ed601595adeb352f2072879d04f288506e5dcdd44f064b4f862e6bfe4'),
 'blockNumber': 21031205,
 'from': '0x26417D19dc19a73274B4c97615b310b39017FA57',
 'gas': 752442,
 'gasPrice': 5000000000,
 'hash': HexBytes('0x0ee0f8ee33047ba977e3afd0b0995885b8d304b1aa1f1c6d307099c9ef9206e9'),
 'input': '0xe8eda9df0000000000000000000000000e09fabb73bd3ade0a17ecc321fd13a19e81ce8200000000000000000000000000000000000000000000000011746c27769529db00000000000000000000000026417d19dc19a73274b4c97615b310b39017fa570000000000000000000000000000000000000000000000000000000000000000',
 'nonce': 476,
 'to': '0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5',
 'transactionIndex': 71,
 'value': 0,
 'type': '0x0',
 'v': 148,
 'r': HexBytes('0xedf56947061ff71ad62dfded9fb7ba19fc271d6f52d8df2a207d405ca473da87'),
 's': HexBytes('0x34ce34ec26f2a48cc85ba8a759333dd59b6d106597c32039ddc2e9aa942773c8')})

> Đến đây anh em có thể thắc mắc là thế với một list các transaction hash thì sao? Rất tiếc hiện tại mình chưa thấy hàm nào của web3 py hỗ trợ hoặc có thể do mình tìm chưa kỹ. Tuy nhiên ta có thể cải tiến quá trình bằng cách lấy dữ liệu theo lô với đa luồng. Cái này hơi khoai, mình sẽ hướng dẫn một bài thực hành khác phức tạp hơn. Rất mong anh em có thể kiên trì đọc bài biết đó của mình.

# Xây dựng thu thập dữ liệu một luồng liên tục
> Phần này bonus cho anh em. Mọi người có thể đọc tiếp hoặc bỏ qua. Nói chung, nó chỉ tổng hợp lại những kiến thức ở trên để  xây dựng một bé crawler thu thập dữ liệu event liên tục ý mà :v

In [74]:
from receipt_log_handler import EthReceiptLogHandler

def craw_events(
    web3, 
    from_block=0, 
    to_block=None, 
    event_abi_file="../abi/event_abi.json", 
    contract_addresses=["0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5"],
    block_size=100,
    stop = False
):
    latest_block = web3.eth.blockNumber
    if to_block and to_block > latest_block:
        to_block=latest_block
        print(f"To_block > latest_block, set to_block = {latest_block}")
    with open(event_abi_file, "r") as f:
        event_abi = json.loads(f.read())

    handler = EthReceiptLogHandler()
    # xây dựng thông tin event từ ABI.
    event_abi_info = handler.build_list_info_event(event_abi)
    # lấy event hash
    event_hash = [event_info[1] for event_info in event_abi_info]
    # tách lấy event subscriber
    event_subscriber = {}
    for info in event_abi_info:
        event_subscriber[info[1]] = info[0]
    
    if not to_block:
        to_block = web3.eth.blockNumber
    
    _from = from_block
    _to = from_block + block_size
    
    while True:
        if _to > to_block:
            _to = to_block
                
        print(f"Start crawling data from {_from} to {_to}")
        #create filter
        filter_params = {
            "fromBlock":_from,
            "toBlock":_to,
            "topics": [event_hash],
            "address":["0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5"]
        }

        event_filter = web3.eth.filter(filter_params)
        events = event_filter.get_all_entries()
        event_list = []
        for event in events:
            log = handler.web3_dict_to_receipt_log(event)
            eth_event = handler.extract_event_from_log(log, event_subscriber[log.topics[0]])
            if eth_event is not None:
                eth_event_dict = handler.eth_event_to_dict(eth_event)
                print("Event data:\n", eth_event_dict)

        web3.eth.uninstallFilter(event_filter.filter_id)
        if _to == to_block:
            if stop:
                print("Stop crawling data...")
                break
            else:
                to_block = web3.eth.blockNumber
                print(f"Get latest block {to_block}")
        
        
        _from = _to
        _to += block_size

> Anh em có thể  đặt biến stop = False để cho chạy liên tục nhé. Có thể sửa hàm để xuất dữ liệu ra file :v

In [77]:
craw_events(
    web3, 
    from_block=21042695, 
    to_block=41044695, 
    event_abi_file="../abi/event_abi.json", 
    contract_addresses=["0xE29A55A6AEFf5C8B1beedE5bCF2F0Cb3AF8F91f5"],
    block_size=100,
    stop = True
)

To_block > latest_block, set to_block = 21060609
Start crawling data from 21042695 to 21042795
Start crawling data from 21042795 to 21042895
Start crawling data from 21042895 to 21042995
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x9d7f541831a499d00815147057d593cb4894cb3c74cd1c267714378dd808fe96', 'log_index': 148, 'block_number': 21042985, 'reserve': '0x8ac76a51cc950d9822d68b83fe1ad97b32cd580d', 'onBehalfOf': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d', 'referral': '0', 'user': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d', 'amount': '1736000000000000000000'}
Start crawling data from 21042995 to 21043095
Start crawling data from 21043095 to 21043195
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x4452f763a53dad9fb3a9784a2133a4a960379685d194932155fa6a7217980ad9', 'log_index': 409, 'block_numb

Start crawling data from 21045395 to 21045495
Start crawling data from 21045495 to 21045595
Start crawling data from 21045595 to 21045695
Start crawling data from 21045695 to 21045795
Start crawling data from 21045795 to 21045895
Start crawling data from 21045895 to 21045995
Start crawling data from 21045995 to 21046095
Start crawling data from 21046095 to 21046195
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x3ba244619ddeb4e7c07b7346b7e0d90a9e4c94c21d5ca995bf1e4e0a2e0f75c9', 'log_index': 59, 'block_number': 21046132, 'reserve': '0x14016e85a25aeb13065688cafb43044c2ef86784', 'onBehalfOf': '0xab499095961516f058245c1395f9c0410764b6cd', 'referral': '0', 'user': '0xab499095961516f058245c1395f9c0410764b6cd', 'amount': '2964114333394515870'}
Start crawling data from 21046195 to 21046295
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb

Start crawling data from 21048695 to 21048795
Start crawling data from 21048795 to 21048895
Start crawling data from 21048895 to 21048995
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x9d2123561fb9ebc27b90599c5d8c6075cca7b4fa8911930fa439c044559a6b0a', 'log_index': 123, 'block_number': 21048962, 'reserve': '0xe9e7cea3dedca5984780bafc599bd69add087d56', 'onBehalfOf': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d', 'referral': '0', 'user': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d', 'amount': '15000000000000000000000'}
Start crawling data from 21048995 to 21049095
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x906d9010006de85bdd4d6f33bf2be8d02e39b374e7d9faf397757860184d84ac', 'log_index': 61, 'block_number': 21049014, 'reserve': '0xe9e7cea3dedca5984780bafc599bd69add087d56', 'onBehalfOf': '0x19ec9e

Start crawling data from 21052895 to 21052995
Start crawling data from 21052995 to 21053095
Start crawling data from 21053095 to 21053195
Start crawling data from 21053195 to 21053295
Start crawling data from 21053295 to 21053395
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x9e0bcc3bd4d0fa2d04fecdc10d9e7d55805fb88f0aa2674dc8f7ee37ef67ae0a', 'log_index': 83, 'block_number': 21053303, 'reserve': '0xe9e7cea3dedca5984780bafc599bd69add087d56', 'onBehalfOf': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d', 'referral': '0', 'user': '0x19ec9e3f7b21dd27598e7ad5aae7dc0db00a806d', 'amount': '2000000000000000000000'}
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0xa005f5a9e3aac89097022bbc57eabc4714340daaea350d5ada36c35c98bfff0b', 'log_index': 187, 'block_number': 21053336, 'reserve': '0xe9e7cea3dedca5984780b

Start crawling data from 21057395 to 21057495
Start crawling data from 21057495 to 21057595
Start crawling data from 21057595 to 21057695
Start crawling data from 21057695 to 21057795
Event data:
 {'type': 'event', 'event_type': 'DEPOSIT', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x75ad9c85d52d133258666ac73b3ff9b2f7db1bf62b298c8aab7381e8372439df', 'log_index': 196, 'block_number': 21057715, 'reserve': '0x2170ed0880ac9a755fd29b2688956bd959f933f8', 'onBehalfOf': '0xb8b7939900d2285eb71ba88875adc4448e76923e', 'referral': '0', 'user': '0xb8b7939900d2285eb71ba88875adc4448e76923e', 'amount': '46743649140786623072'}
Event data:
 {'type': 'event', 'event_type': 'BORROW', 'contract_address': '0xe29a55a6aeff5c8b1beede5bcf2f0cb3af8f91f5', 'transaction_hash': '0x7fff6e20550a978b340c6171cbd9b7ea74e9a675d537b529520c62d818328179', 'log_index': 217, 'block_number': 21057727, 'reserve': '0x8ac76a51cc950d9822d68b83fe1ad97b32cd580d', 'onBehalfOf': '0x1b6ab5f7c

Start crawling data from 21060195 to 21060295
Start crawling data from 21060295 to 21060395
Start crawling data from 21060395 to 21060495
Start crawling data from 21060495 to 21060595
Start crawling data from 21060595 to 21060609
Stop crawling data...
