# Pull REALTIME Cryptocurrency Prices

In [5]:
import json
import websocket
# websockets là một thư viện để xây dựng máy chủ và máy khách WebSocket bằng Python
import pandas as pd

In [6]:
assets = ['BTCUSDT','ETHUSDT','BNBUSDT','DOGEUSDT','PEPEUSDT','XRPUSDT','SOLUSDT','AVAXUSDT','SHIBUSDT','ADAUSDT']

In [7]:
assets = [coin.lower() + '@kline_1m' for coin in assets]
assets


['btcusdt@kline_1m',
 'ethusdt@kline_1m',
 'bnbusdt@kline_1m',
 'dogeusdt@kline_1m',
 'pepeusdt@kline_1m',
 'xrpusdt@kline_1m',
 'solusdt@kline_1m',
 'avaxusdt@kline_1m',
 'shibusdt@kline_1m',
 'adausdt@kline_1m']

In [8]:
assets = '/'.join(assets)
assets
# Split the string by slashes and filter out empty strings
parts = assets.split('/')
filtered_parts = [''.join(part.split('/')) for part in assets.split('///') if part]

# Replace the required parts to match the desired format
formatted_assets = [f"{pair}@kline_1m@kline_1m" for pair in filtered_parts]

# Join the results with ' / ' separator
result = '/'.join(formatted_assets)

print(result)

btcusdt@kline_1methusdt@kline_1mbnbusdt@kline_1mdogeusdt@kline_1mpepeusdt@kline_1mxrpusdt@kline_1msolusdt@kline_1mavaxusdt@kline_1mshibusdt@kline_1madausdt@kline_1m@kline_1m@kline_1m


In [9]:
def manipulation (source):
    rel_data = source['data']['k']['c']
    evt_time = pd.to_datetime(source['data']['E'],unit='ms')
    df = pd.DataFrame(rel_data, columns=[source['data']['s']], index=[evt_time])
    df.index.name = 'timestamp'
    df = df.astype(float)
    df = df.reset_index()
    print(df)
    return df


In [10]:
def on_message(ws, message): 
    global source
    source = message
    message = json.loads(message)
    manipulation(message)

In [11]:
source

NameError: name 'source' is not defined

# Cấu trúc dữ liệu:
stream: "bnbusdt@kline_1m"

Xác định luồng dữ liệu đang được truyền.
- "bnbusdt": Cặp giao dịch Binance Coin/USDT.
- "@kline_1m": Dữ liệu nến (candlestick) với khung thời gian 1 phút.
- data: Chứa dữ liệu cụ thể của nến.

# Chi tiết data:
## Thông tin chung của sự kiện
e: 'kline'
- Loại sự kiện, ở đây là dữ liệu nến (candlestick).

E: 1733997068108
- Thời gian sự kiện được gửi đi (epoch time tính bằng millisecond).

s: 'BNBUSDT'
- Cặp giao dịch (Binance Coin so với USDT).

# Thông tin nến (k):
t: 1733997060000
- Thời điểm bắt đầu của nến (epoch time tính bằng millisecond).

T: 1733997119999
- Thời điểm kết thúc của nến (epoch time tính bằng millisecond).

s: 'BNBUSDT'
- Cặp giao dịch (lặp lại thông tin từ trước).

i: '1m'
- Khung thời gian của nến (1 phút).

f: 891342969
- ID của giao dịch đầu tiên trong nến.

L: 891343185
- ID của giao dịch cuối cùng trong nến.

o: '724.82000000'
- Giá mở cửa (open price) của nến.

c: '724.55000000'
- Giá đóng cửa (close price) của nến.

h: '724.83000000'
- Giá cao nhất (high price) của nến.

l: '724.55000000'
- Giá thấp nhất (low price) của nến.

v: '27.51800000'
- Khối lượng giao dịch (volume) trong nến (số lượng BNB được giao dịch).

n: 217
- Số lượng giao dịch (number of trades) diễn ra trong nến.

# x: False: 
Cờ đánh dấu liệu nến đã đóng hay chưa:
True: Nến đã đóng.
False: Nến vẫn đang hình thành.

q: '19941.75665000'
- Khối lượng giao dịch (volume) tính theo đồng quote (USDT).

V: '16.51100000'
- Khối lượng giao dịch của các lệnh mua vào (tính theo đồng BNB).

Q: '11965.17897000'
- Khối lượng giao dịch của các lệnh mua vào (tính theo đồng quote - USDT).

B: '0'
- Giá trị "Best bid volume" tại thời điểm đó.


In [12]:
socket = "wss://stream.binance.com:9443/stream?streams=" + assets
socket

'wss://stream.binance.com:9443/stream?streams=btcusdt@kline_1m/ethusdt@kline_1m/bnbusdt@kline_1m/dogeusdt@kline_1m/pepeusdt@kline_1m/xrpusdt@kline_1m/solusdt@kline_1m/avaxusdt@kline_1m/shibusdt@kline_1m/adausdt@kline_1m'

In [13]:
ws = websocket.WebSocketApp(socket, on_message=on_message) 
# Đây là một lớp trong thư viện websocket-client dùng để quản lý kết nối WebSocket.
# Nó cho phép thiết lập kết nối và định nghĩa các hành vi cho các sự kiện như nhận tin nhắn (on_message), kết nối thành công (on_open), hoặc xảy ra lỗi (on_error).
ws.run_forever()

                timestamp  DOGEUSDT
0 2025-02-28 11:03:12.579   0.18545
                timestamp  SOLUSDT
0 2025-02-28 11:03:12.798   130.88
                timestamp   BTCUSDT
0 2025-02-28 11:03:14.021  80180.41
                timestamp  ETHUSDT
0 2025-02-28 11:03:14.021  2123.99
                timestamp  BNBUSDT
0 2025-02-28 11:03:14.108   570.61
                timestamp  ADAUSDT
0 2025-02-28 11:03:14.307   0.5965
                timestamp  XRPUSDT
0 2025-02-28 11:03:14.319   2.0301
                timestamp  DOGEUSDT
0 2025-02-28 11:03:14.603   0.18545
                timestamp  SOLUSDT
0 2025-02-28 11:03:14.795   130.85
                timestamp  AVAXUSDT
0 2025-02-28 11:03:15.074      21.0
                timestamp  SHIBUSDT
0 2025-02-28 11:03:15.442  0.000013
                timestamp   BTCUSDT
0 2025-02-28 11:03:16.015  80180.42
                timestamp  ETHUSDT
0 2025-02-28 11:03:16.018   2123.4
                timestamp  BNBUSDT
0 2025-02-28 11:03:16.123   570.58
        

True

# Filter Data datetime and export file .csv

In [16]:
import requests
import pandas as pd
import time

# Define the assets
assets = ['BTCUSDT', 'ETHUSDT', 'BNBUSDT', 'DOGEUSDT', 'PEPEUSDT', 
          'XRPUSDT', 'SOLUSDT', 'AVAXUSDT', 'SHIBUSDT', 'ADAUSDT']

# Define the date range (UNIX timestamps in milliseconds)
start_date = int(pd.Timestamp("2024-01-01").timestamp() * 1000)
end_date = int(pd.Timestamp("2024-12-12").timestamp() * 1000)

# Function to fetch kline data from Binance API
def fetch_kline_data(symbol, interval='5m', start_time=None, end_time=None):
    base_url = "https://api.binance.com/api/v3/klines"
    params = {
        "symbol": symbol,
        "interval": interval,
        "startTime": start_time,
        "endTime": end_time,
        "limit": 1000  # Maximum records per request
    }
    response = requests.get(base_url, params=params)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error fetching data for {symbol}: {response.status_code}")
        return []

# Fetch data for all assets within the date range
all_data = []
for asset in assets:
    print(f"Fetching data for {asset}...")
    current_start = start_date
    while current_start < end_date:
        klines = fetch_kline_data(asset, start_time=current_start, end_time=end_date)
        if not klines:
            break
        for kline in klines:
            all_data.append({
                "symbol": asset,
                "timestamp": pd.to_datetime(kline[0], unit='ms'),
                "open": float(kline[1]),
                "high": float(kline[2]),
                "low": float(kline[3]),
                "close": float(kline[4]),
                "volume": float(kline[5]),
                # "Number of trades": float(kline[6]),
                # "Taker buy base asset volume": float(kline[7])
            })
        current_start = klines[-1][0] + 1  # Move to the next time window
        time.sleep(0.2)  # Avoid hitting rate limits

# Convert to DataFrame
df = pd.DataFrame(all_data)

# Filter the DataFrame by the date range (if needed for validation)
df = df[(df['timestamp'] >= "2024-09-01") & (df['timestamp'] <= "2024-12-12")]


Fetching data for BTCUSDT...
Fetching data for ETHUSDT...
Fetching data for BNBUSDT...
Fetching data for DOGEUSDT...
Fetching data for PEPEUSDT...
Fetching data for XRPUSDT...
Fetching data for SOLUSDT...
Fetching data for AVAXUSDT...
Fetching data for SHIBUSDT...
Fetching data for ADAUSDT...


In [None]:
# Lưu dữ liệu thành 10 tệp CSV riêng biệt
for asset in assets:
    df_asset = df[df["symbol"] == asset]
    file_name = f"{asset}.csv"
    df_asset.to_csv(file_name, index=False)
    print(f"Đã lưu {file_name}")


To adapt your existing Binance Kline data-fetching code into a robust system that incorporates AI-driven pattern detection and predictive insights, we can structure the development into several steps:

Step 1: Automate Detection of Chart Patterns Using AI

Preprocessing Data

In [17]:
# After the data fetching loop
df = pd.DataFrame(all_data)
if df.empty:
    print("No data fetched. Please check the API calls or data range.")
else:
    print("Data fetched successfully!")


Data fetched successfully!


In [18]:
def compute_bollinger_bands(series, window=20, num_std=2):
    sma = series.rolling(window=window).mean()
    std_dev = series.rolling(window=window).std()
    upper_band = sma + (num_std * std_dev)
    lower_band = sma - (num_std * std_dev)
    return upper_band, lower_band

df['Upper_Band'], df['Lower_Band'] = compute_bollinger_bands(df['close'])

def compute_rsi(series, window=14):
    delta = series.diff(1)
    gain = (delta.where(delta > 0, 0)).rolling(window=window).mean()
    loss = (-delta.where(delta < 0, 0)).rolling(window=window).mean()
    rs = gain / loss
    rsi = 100 - (100 / (1 + rs))
    return rsi

def compute_macd(series, fast=12, slow=26, signal=9):
    ema_fast = series.ewm(span=fast, adjust=False).mean()
    ema_slow = series.ewm(span=slow, adjust=False).mean()
    macd = ema_fast - ema_slow
    signal_line = macd.ewm(span=signal, adjust=False).mean()
    return macd  # Return only the MACD line; add signal_line if needed


In [19]:
print(df.columns)


Index(['symbol', 'timestamp', 'open', 'high', 'low', 'close', 'volume',
       'Upper_Band', 'Lower_Band'],
      dtype='object')


In [20]:

from sklearn.preprocessing import MinMaxScaler
import numpy as np

# Feature Engineering Example
def add_technical_indicators(df):
    df['SMA_20'] = df['close'].rolling(window=20).mean()
    df['RSI'] = compute_rsi(df['close'], window=14)  # Implement compute_rsi
    df['MACD'] = compute_macd(df['close'])          # Implement compute_macd
    return df

df = add_technical_indicators(df)

# Resample to a desired time interval
def resample_data(df, interval='1H'):
    # Convert timestamp to datetime if not already
    if not pd.api.types.is_datetime64_any_dtype(df['timestamp']):
        df['timestamp'] = pd.to_datetime(df['timestamp'])
        
    df.set_index('timestamp', inplace=True)
    df_resampled = df.resample(interval).agg({
        'open': 'first',
        'high': 'max',
        'low': 'min',
        'close': 'last',
        'volume': 'sum'
    }).dropna().reset_index()
    return df_resampled


In [21]:
import psutil

# Get system memory usage
memory = psutil.virtual_memory()
print(f"Available Memory: {memory.available / (1024 ** 3):.2f} GB")


Available Memory: 5.65 GB
