In [2]:
from pymongo import MongoClient
import pandas as pd

# Kết nối MongoDB
uri = "mongodb://dsReader:ds_reader_ndFwBkv3LsZYjtUS@178.128.85.210:27017,104.248.148.66:27017,103.253.146.224:27017/"
client = MongoClient(uri)
db = client['arbitrum_blockchain_etl']  

collection = db["lending_events"]
cursor = collection.find(
    {"event_type": "DEPOSIT"},
    {
        "wallet": 1,
        "user": 1,
        "amount": 1,
        "block_timestamp": 1,
        "event_type": 1,
        "contract_address": 1,
        "transaction_hash": 1
    }
).limit(10000)  
# Chuyển sang DataFrame
df = pd.DataFrame(list(cursor))
df.drop(columns=["_id"], inplace=True, errors="ignore")

# (Tùy chọn) Chuyển block_timestamp sang datetime
df["block_time"] = pd.to_datetime(df["block_timestamp"], unit="s")

# Lưu ra file
df.to_parquet("arbitrum_deposit_events.parquet", index=False)

print("✅ Đã lưu arbitrum_deposit_events.parquet")
df.to_csv("arbitrum_deposit_events.csv", index=False)
print("✅ Đã lưu arbitrum_deposit_events.csv")


✅ Đã lưu arbitrum_deposit_events.parquet
✅ Đã lưu arbitrum_deposit_events.csv


In [None]:
import json
import pandas as pd
import numpy as np

# Tải dữ liệu JSON từ file hoặc từ biến
file_path = r"D:\Backend\data\cdp_db.twitter_users_100000_500000.json"  # <- nếu bạn lưu file riêng
with open(file_path, "r", encoding="utf-8") as f:
    data = json.load(f)

# Chuyển sang DataFrame
df = pd.DataFrame(data)

# Đảm bảo có trường followersCount và verified
df = df[df["followersCount"].notnull()]
df["followersCount"] = pd.to_numeric(df["followersCount"], errors="coerce")

# Chuyển verified thành is_verified: 1 nếu True, 0 nếu False
df["is_verified"] = df["verified"].apply(lambda x: 1 if x is True else 0)

# Tính điểm G
df["G_score"] = np.log1p(df["followersCount"]) * (1 + 0.3 * df["is_verified"])

# In kết quả
print(df[["userName", "followersCount", "verified", "G_score"]])

# Nếu muốn lưu ra file
df.to_csv("twitter_users_gscore.csv", index=False)


              userName  followersCount  verified    G_score
0      Dogearmybullish          128196     False  11.761323
1         FlokiArmybul          143416     False  11.873512
2           Candy_Gems          136085     False  11.821042
3       PixelRealmlabs          205972     False  12.235500
4         cryptoskullx          131869     False  11.789572
...                ...             ...       ...        ...
16808        DavidCayJ          171286     False  12.051096
16809    ChainOpera_AI          127210     False  11.753602
16810     RupertLowe10          179743     False  12.099289
16811          GUSMGMT          168062     False  12.032094
16812    AAAAA4A4AAAAA          218639     False  12.295182

[16813 rows x 4 columns]


In [18]:
import json
import pandas as pd
import numpy as np
from typing import List, Dict, Any

def calculate_g_score(followers_count: int, verified: bool) -> float:
    """
    Tính điểm G - Followers Influence
    
    ĐIỂM G = Log(1+followersCount) x (1 + 0.3 x 1_verified)
    """
    verified_multiplier = 1 + (0.3 if verified else 0)
    g_score = np.log1p(followers_count) * verified_multiplier
    return g_score

def get_n_recent_tweets(tweets_data: List[Dict[str, Any]]) -> tuple[List[Dict[str, Any]], int, str]:
    """
    Lấy N tweets gần nhất dựa trên số lượng tweets gốc (không phải retweets)
    
    Returns:
        - Danh sách N tweets gần nhất
        - Số N được sử dụng
        - Lý do chọn N
    """
    # Lọc chỉ lấy tweets gốc (không phải retweets)
    original_tweets = [tweet for tweet in tweets_data if not tweet.get('retweetedTweet')]
    
    # Sắp xếp theo thời gian tạo (mới nhất trước)
    original_tweets.sort(key=lambda x: x.get('timestamp', 0), reverse=True)
    
    total_original = len(original_tweets)
    
    # Xác định N dựa trên số lượng tweets
    if total_original < 5:
        return [], 0, f"Không đủ dữ liệu (chỉ có {total_original} tweets gốc, cần tối thiểu 5)"
    elif 5 <= total_original < 10:
        n = 5
        reason = f"Lấy 5 tweets gần nhất (có {total_original} tweets gốc)"
    elif 10 <= total_original < 30:
        n = 10
        reason = f"Lấy 10 tweets gần nhất (có {total_original} tweets gốc)"
    elif 30 <= total_original < 50:
        n = 30
        reason = f"Lấy 30 tweets gần nhất (có {total_original} tweets gốc)"
    else:  # >= 50
        n = 50
        reason = f"Lấy 50 tweets gần nhất (có {total_original} tweets gốc)"
    
    return original_tweets[:n], n, reason

def calculate_h_score(tweets_data: List[Dict[str, Any]]) -> tuple[float, int, str, Dict[str, Any]]:
    """
    Tính điểm H - Engagement Score
    
    H' = (1/N) x Σ(likes_i + 2*retweetCounts_i + replyCounts_i)
    Điểm H = 100 x H' / (H' + c) với c=100
    
    Returns:
        - H score
        - Số N tweets được sử dụng
        - Lý do chọn N
        - Thống kê chi tiết
    """
    # Lấy N tweets gần nhất
    recent_tweets, n, reason = get_n_recent_tweets(tweets_data)
    
    if n == 0:
        return 0.0, 0, reason, {}
    
    total_engagement = 0
    engagement_details = []
    
    for tweet in recent_tweets:
        likes = tweet.get('likes', 0)
        retweets = tweet.get('retweetCounts', 0)
        replies = tweet.get('replyCounts', 0)
        
        # Công thức: likes + 2*retweets + replies
        engagement = likes + (2 * retweets) + replies
        total_engagement += engagement
        
        engagement_details.append({
            'tweet_id': tweet.get('_id'),
            'created': tweet.get('created'),
            'likes': likes,
            'retweets': retweets,
            'replies': replies,
            'engagement_score': engagement
        })
    
    # Tính engagement trung bình (H')
    h_prime = total_engagement / n
    
    # Chuẩn hóa về thang 0-100 với c=100
    c = 100
    h_score = 100 * h_prime / (h_prime + c)
    
    # Thống kê chi tiết
    stats = {
        'total_engagement': total_engagement,
        'avg_engagement': h_prime,
        'tweets_analyzed': n,
        'min_engagement': min(detail['engagement_score'] for detail in engagement_details),
        'max_engagement': max(detail['engagement_score'] for detail in engagement_details),
        'engagement_details': engagement_details
    }
    
    return h_score, n, reason, stats

def process_user_data(user_profile_file: str, user_tweets_file: str) -> Dict[str, Any]:
    """
    Xử lý dữ liệu và tính điểm G, H cho user
    """
    # Đọc dữ liệu profile
    with open(user_profile_file, 'r', encoding='utf-8') as f:
        user_profile = json.load(f)[0]  # Lấy user đầu tiên
    
    # Đọc dữ liệu tweets
    with open(user_tweets_file, 'r', encoding='utf-8') as f:
        tweets_data = json.load(f)
    
    # Tính điểm G
    followers_count = user_profile.get('followersCount', 0)
    verified = user_profile.get('verified', False)
    g_score = calculate_g_score(followers_count, verified)
    
    # Tính điểm H
    h_score, n_analyzed, h_reason, h_stats = calculate_h_score(tweets_data)
    
    # Thống kê tổng quan
    total_tweets = len(tweets_data)
    original_tweets = len([t for t in tweets_data if not t.get('retweetedTweet')])
    retweets = total_tweets - original_tweets
    
    total_likes = sum(t.get('likes', 0) for t in tweets_data)
    total_retweets = sum(t.get('retweetCounts', 0) for t in tweets_data)
    total_replies = sum(t.get('replyCounts', 0) for t in tweets_data)
    
    return {
        'user_id': user_profile.get('_id'),
        'username': user_profile.get('userName'),
        'followers_count': followers_count,
        'verified': verified,
        'g_score': round(g_score, 2),
        'h_score': round(h_score, 2),
        'h_calculation_reason': h_reason,
        'tweets_analyzed_for_h': n_analyzed,
        'h_stats': h_stats,
        'total_tweets': total_tweets,
        'original_tweets': original_tweets,
        'retweets': retweets,
        'total_likes': total_likes,
        'total_retweets': total_retweets,
        'total_replies': total_replies,
        'avg_engagement_all_tweets': round((total_likes + 2*total_retweets + total_replies) / max(original_tweets, 1), 2)
    }

def print_detailed_analysis(result: Dict[str, Any]):
    """
    In kết quả phân tích chi tiết
    """
    print("=== KẾT QUẢ TÍNH ĐIỂM ===")
    print(f"User: @{result['username']}")
    print(f"User ID: {result['user_id']}")
    print(f"Followers: {result['followers_count']:,}")
    print(f"Verified: {result['verified']}")
    print(f"")
    print(f"📊 ĐIỂM G (Followers Influence): {result['g_score']}")
    print(f"📈 ĐIỂM H (Engagement Score): {result['h_score']}")
    print(f"   └─ {result['h_calculation_reason']}")
    print(f"")
    print("=== THỐNG KÊ TWEETS ===")
    print(f"Tổng tweets: {result['total_tweets']}")
    print(f"Tweets gốc: {result['original_tweets']}")
    print(f"Retweets: {result['retweets']}")
    print(f"")
    print("=== CHI TIẾT TÍNH ĐIỂM H ===")
    if result['tweets_analyzed_for_h'] > 0:
        h_stats = result['h_stats']
        print(f"Số tweets phân tích: {result['tweets_analyzed_for_h']}")
        print(f"Tổng engagement: {h_stats['total_engagement']:,}")
        print(f"Engagement trung bình (H'): {h_stats['avg_engagement']:.2f}")
        print(f"Engagement thấp nhất: {h_stats['min_engagement']}")
        print(f"Engagement cao nhất: {h_stats['max_engagement']}")
        
        # Hiển thị top 5 tweets có engagement cao nhất
        top_tweets = sorted(h_stats['engagement_details'], 
                          key=lambda x: x['engagement_score'], reverse=True)[:5]
        print(f"\n🏆 TOP 5 TWEETS CÓ ENGAGEMENT CAO NHẤT:")
        for i, tweet in enumerate(top_tweets, 1):
            print(f"{i}. Tweet {tweet['tweet_id'][:10]}... - Engagement: {tweet['engagement_score']}")
            print(f"   Likes: {tweet['likes']}, Retweets: {tweet['retweets']}, Replies: {tweet['replies']}")
    else:
        print("❌ Không đủ dữ liệu để tính điểm H")
    
    print(f"\n=== THỐNG KÊ TỔNG QUAN ===")
    print(f"Tổng likes: {result['total_likes']:,}")
    print(f"Tổng retweets: {result['total_retweets']:,}")
    print(f"Tổng replies: {result['total_replies']:,}")
    print(f"Engagement trung bình (toàn bộ): {result['avg_engagement_all_tweets']}")

# Sử dụng code
if __name__ == "__main__":
    # Đường dẫn tới files
    user_profile_file = "user_profile_1547302457432236035.json"  # File chứa thông tin user
    user_tweets_file = "user_1547302457432236035.json"          # File chứa tweets của user
    
    try:
        result = process_user_data(user_profile_file, user_tweets_file)
        
        # In kết quả chi tiết
        print_detailed_analysis(result)
        
        # Lưu kết quả ra file CSV
        output_data = {
            'user_id': result['user_id'],
            'username': result['username'],
            'followers_count': result['followers_count'],
            'verified': result['verified'],
            'g_score': result['g_score'],
            'h_score': result['h_score'],
            'tweets_analyzed_for_h': result['tweets_analyzed_for_h'],
            'h_calculation_reason': result['h_calculation_reason'],
            'total_tweets': result['total_tweets'],
            'original_tweets': result['original_tweets']
        }
        
        output_df = pd.DataFrame([output_data])
        output_df.to_csv("user_scores_detailed.csv", index=False)
        print(f"\n✅ Đã lưu kết quả vào user_scores_detailed.csv")
        
        # Lưu chi tiết engagement của từng tweet được phân tích
        if result['tweets_analyzed_for_h'] > 0:
            engagement_df = pd.DataFrame(result['h_stats']['engagement_details'])
            engagement_df.to_csv("tweets_engagement_analysis.csv", index=False)
            print(f"✅ Đã lưu chi tiết engagement vào tweets_engagement_analysis.csv")
        
    except FileNotFoundError as e:
        print(f"❌ Không tìm thấy file: {e}")
    except Exception as e:
        print(f"❌ Lỗi: {e}")

# Hàm test với data mẫu
def test_n_logic():
    """
    Test logic chọn N với các trường hợp khác nhau
    """
    print("=== TEST LOGIC CHỌN N ===")
    
    test_cases = [3, 7, 15, 35, 80]
    
    for case in test_cases:
        # Tạo fake tweets
        fake_tweets = []
        for i in range(case):
            fake_tweets.append({
                '_id': f'tweet_{i}',
                'timestamp': 1742047202 + i,
                'likes': 10,
                'retweetCounts': 5,
                'replyCounts': 2
            })
        
        recent_tweets, n, reason = get_n_recent_tweets(fake_tweets)
        print(f"Có {case} tweets gốc → {reason} → N = {n}")

=== KẾT QUẢ TÍNH ĐIỂM ===
User: @wyckoffweb
User ID: 1547302457432236035
Followers: 172,082
Verified: False

📊 ĐIỂM G (Followers Influence): 12.06
📈 ĐIỂM H (Engagement Score): 88.05
   └─ Lấy 50 tweets gần nhất (có 170 tweets gốc)

=== THỐNG KÊ TWEETS ===
Tổng tweets: 170
Tweets gốc: 170
Retweets: 0

=== CHI TIẾT TÍNH ĐIỂM H ===
Số tweets phân tích: 50
Tổng engagement: 36,851
Engagement trung bình (H'): 737.02
Engagement thấp nhất: 139
Engagement cao nhất: 2649

🏆 TOP 5 TWEETS CÓ ENGAGEMENT CAO NHẤT:
1. Tweet 1922969560... - Engagement: 2649
   Likes: 835, Retweets: 550, Replies: 714
2. Tweet 1932816396... - Engagement: 2588
   Likes: 811, Retweets: 560, Replies: 657
3. Tweet 1921306954... - Engagement: 1839
   Likes: 1290, Retweets: 77, Replies: 395
4. Tweet 1917614908... - Engagement: 1311
   Likes: 743, Retweets: 210, Replies: 148
5. Tweet 1927075015... - Engagement: 1186
   Likes: 826, Retweets: 54, Replies: 252

=== THỐNG KÊ TỔNG QUAN ===
Tổng likes: 71,529
Tổng retweets: 19,697
T

In [19]:
import json
import time
from datetime import datetime
import google.generativeai as genai

# Thiết lập Gemini model
def load_gemini(api_key):
    genai.configure(api_key=api_key)
    return genai.GenerativeModel("gemini-1.5-flash")

# Lọc N tweets gốc gần nhất
def get_recent_original_tweets(tweets):
    original = [t for t in tweets if not t.get("retweetedTweet")]
    original.sort(key=lambda x: x.get("timestamp", 0), reverse=True)
    total = len(original)
    if total < 5:
        return [], 0, "Không đủ tweets (cần ≥5 tweet gốc)"
    elif total < 10:
        return original[:5], 5, "Dùng 5 tweets gần nhất"
    elif total < 30:
        return original[:10], 10, "Dùng 10 tweets gần nhất"
    elif total < 50:
        return original[:30], 30, "Dùng 30 tweets gần nhất"
    else:
        return original[:50], 50, "Dùng 50 tweets gần nhất"

# Gửi prompt đến Gemini để phân tích cảm xúc
def get_sentiment(model, text):
    prompt = f"""
Phân tích cảm xúc đoạn sau trong lĩnh vực crypto/DeFi:
"{text}"

Trả về JSON:
{{
  "sentiment_score": -1 | 0 | 1,
  "sentiment_label": "TIÊU CỰC" | "TRUNG LẬP" | "TÍCH CỰC",
  "explanation": "...",
  "confidence": 0.1 - 1.0
}}"""
    try:
        response = model.generate_content(prompt).text
        response = response.replace("```json", "").replace("```", "").strip()
        return json.loads(response)
    except Exception:
        return {
            "sentiment_score": 0,
            "sentiment_label": "TRUNG LẬP",
            "explanation": "Lỗi xử lý",
            "confidence": 0.1
        }

# Tính điểm I sentiment
def compute_sentiment_score(tweets, model):
    recent, n, reason = get_recent_original_tweets(tweets)
    if n == 0:
        return 50.0, 0, reason, []

    total = 0
    results = []

    for tweet in recent:
        res = get_sentiment(model, tweet.get("text", ""))
        total += res["sentiment_score"]
        results.append({
            "id": tweet.get("_id"),
            "text": tweet.get("text", "")[:100],
            **res
        })
        time.sleep(1)  # tránh bị giới hạn

    avg = total / len(results)
    i_score = round(50 * (1 + avg), 2)
    return i_score, len(results), reason, results

# Hàm chính
def run_sentiment_analysis(input_file, api_key):
    with open(input_file, "r", encoding="utf-8") as f:
        tweets = json.load(f)

    model = load_gemini(api_key)
    score, n, reason, details = compute_sentiment_score(tweets, model)

    print("🎯 KẾT QUẢ SENTIMENT")
    print(f"Điểm I: {score}/100")
    print(f"Số tweet phân tích: {n}")
    print(f"Lý do chọn N: {reason}")
    print("\nMột số ví dụ:")
    for i, d in enumerate(details[:5], 1):
        print(f"{i}. {d['sentiment_label']} ({d['sentiment_score']}): {d['text']}")
        print(f"   Lý do: {d['explanation']}")
        print()

# Gọi chương trình
if __name__ == "__main__":
    GEMINI_KEY = "AIzaSyACb8UfQyc4Jqz8pbz9qjT_HiTPfx-Ea6I"
    INPUT_FILE = "user_1547302457432236035.json"
    run_sentiment_analysis(INPUT_FILE, GEMINI_KEY)


🎯 KẾT QUẢ SENTIMENT
Điểm I: 73.0/100
Số tweet phân tích: 50
Lý do chọn N: Dùng 50 tweets gần nhất

Một số ví dụ:
1. TÍCH CỰC (1): Giving away 10x @DustedBob Testnet NFT on Monad trading at 14 MON currently.

✅ How to join 
- Follo
   Lý do: Đoạn tweet thể hiện cảm xúc tích cực thông qua việc tặng quà NFT. Việc tặng 10 NFT của DustedBob Testnet với giá trị giao dịch hiện tại là 14 MON cho thấy sự hào phóng và khuyến khích sự tham gia của cộng đồng.  Các hướng dẫn tham gia đơn giản (follow, like, retweet, comment) cũng tạo cảm giác dễ dàng và thân thiện.  Tổng thể, tweet tạo ra sự phấn khích và mong đợi tích cực từ người dùng.

2. TÍCH CỰC (1): A life-changing airdrop is the ultimate reward for showing up daily.

Some projects give dust.
Some 
   Lý do: Đoạn văn thể hiện một thái độ tích cực và lạc quan mặc dù có sự thừa nhận về rủi ro.  Tác giả nhấn mạnh tầm quan trọng của sự kiên trì và tham gia liên tục trong lĩnh vực crypto/DeFi để đạt được phần thưởng lớn.  Mặc dù thừa nhận sự thất 