In [1]:
import pandas as pd
from urllib.parse import urlparse

# 1. CSV 파일 불러오기
df = pd.read_csv("../data/merged_output.csv", low_memory=False)

# 2. 채굴 관련 키워드 리스트
mining_keywords = [
    "coinhive", "cryptonight", "mining.js", "webmine", "coinimp", "crypto-loot", "deepminer", "minr.pw",
    "coin-have", "coinnebula", "browsermine", "hashing.win", "monerominer", "coinblind", "cryptonoter",
    "authedmine", "miner.js", "xmr-miner", "cpu-miner", "cpuusage", "cpu_burn", "cpu_mine",
    "wasmminer", "startminer", "webminer", "xmrig", "cloudminer", "injectminer", "hashworker", "ethminer"
]

# 3. URL별 키워드 카운트 함수 (혼합 방식: 위치 기반 + 전체 문자열)
def count_keywords_combined(url):
    parsed = urlparse(str(url))
    domain = parsed.netloc
    path = parsed.path
    query = parsed.query

    full_text = f"{domain}/{path}?{query}"

    counts = {}
    for kw in mining_keywords:
        # 단순히 포함되었는지 여부 (1 이상이면 포함으로 간주)
        found = kw in full_text
        counts[kw] = int(found)  # True → 1, False → 0
    return pd.Series(counts)

# 4. original_url 기준으로 키워드 포함 여부 분석
keyword_counts_df = df["original_url"].apply(count_keywords_combined)

# 5. original_url과 결과 합치기
result_df = pd.concat([df["original_url"], keyword_counts_df], axis=1)

# 6. 결과 일부 확인
print(result_df.head())

# 7. CSV 저장
result_df.to_csv("../data/mining_keyword_binary_matrix.csv", index=False)

# 8. 각 키워드별로 URL 몇 개에서 등장했는지 계산
keyword_url_counts = keyword_counts_df.sum().sort_values(ascending=False)

# 9. 출력
print("🔍 키워드별 포함된 URL 수:")
print(keyword_url_counts)

# 10. CSV로 저장
keyword_url_counts.to_csv("../data/mining_keyword_url_counts.csv", header=["url_count"])


                                        original_url  coinhive  cryptonight  \
0                                   br-icloud.com.br         0            0   
1                mp3raid.com/music/krizz_kaliko.html         0            0   
2                    bopsecrets.org/rexroth/cr/1.htm         0            0   
3  http://www.garage-pirenne.be/index.php?option=...         0            0   
4  http://adventure-nicaragua.net/index.php?optio...         0            0   

   mining.js  webmine  coinimp  crypto-loot  deepminer  minr.pw  coin-have  \
0          0        0        0            0          0        0          0   
1          0        0        0            0          0        0          0   
2          0        0        0            0          0        0          0   
3          0        0        0            0          0        0          0   
4          0        0        0            0          0        0          0   

   ...  cpu_burn  cpu_mine  wasmminer  startminer  webmi