In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from sklearn.metrics import silhouette_score
import warnings
warnings.filterwarnings('ignore')

In [2]:
DATA_PATH = 'data_phase2/Q1_data.csv'
crypto_data = pd.read_csv(DATA_PATH)

In [3]:
crypto_data.head()

Unnamed: 0.1,Unnamed: 0,symbol,name,time_stamp,time_high,time_low,open,close,high,low,market_cap,volume
0,0,BTC,Bitcoin,2023-05-17T23:59:59.999Z,2023-05-17T20:09:00.000Z,2023-05-17T14:03:00.000Z,27035.47013,27398.802028,27465.927904,26600.144844,530890100000.0,15140010000.0
1,1,BTC,Bitcoin,2023-05-13T23:59:59.999Z,2023-05-13T18:50:00.000Z,2023-05-13T00:32:00.000Z,26807.769044,26784.078561,27030.48296,26710.873803,518873700000.0,9999172000.0
2,2,BTC,Bitcoin,2023-03-08T23:59:59.999Z,2023-03-08T00:23:00.000Z,2023-03-08T23:43:00.000Z,22216.442321,21718.07983,22268.896252,21708.050506,419421400000.0,22536580000.0
3,3,BTC,Bitcoin,2023-02-21T23:59:59.999Z,2023-02-21T08:30:00.000Z,2023-02-21T22:06:00.000Z,24833.048914,24436.354485,25126.851686,24200.364116,471577700000.0,31252100000.0
4,4,BTC,Bitcoin,2022-10-15T23:59:59.999Z,2022-10-15T03:59:00.000Z,2022-10-15T23:04:00.000Z,19185.437304,19067.635082,19212.541608,19019.250125,365722400000.0,16192240000.0


In [4]:
crypto_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1456 entries, 0 to 1455
Data columns (total 12 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  1456 non-null   int64  
 1   symbol      1456 non-null   object 
 2   name        1456 non-null   object 
 3   time_stamp  1456 non-null   object 
 4   time_high   1456 non-null   object 
 5   time_low    1456 non-null   object 
 6   open        1456 non-null   float64
 7   close       1456 non-null   float64
 8   high        1456 non-null   float64
 9   low         1456 non-null   float64
 10  market_cap  1456 non-null   float64
 11  volume      1456 non-null   float64
dtypes: float64(6), int64(1), object(5)
memory usage: 136.6+ KB


In [5]:
crypto_data.describe()

Unnamed: 0.1,Unnamed: 0,open,close,high,low,market_cap,volume
count,1456.0,1456.0,1456.0,1456.0,1456.0,1456.0,1456.0
mean,727.5,6409.803298,6413.959488,6511.671925,6310.950717,193588500000.0,16410400000.0
std,420.455309,10308.820707,10315.745017,10469.614104,10154.698361,170832300000.0,16993140000.0
min,0.0,0.997814,0.997835,0.998569,0.981525,32407150000.0,260995900.0
25%,363.75,158.186886,158.231137,159.163097,153.550839,63167770000.0,2451769000.0
50%,727.5,727.263336,727.288071,765.555654,715.152641,109243700000.0,12040460000.0
75%,1091.25,5535.576237,5536.825389,5666.345777,5457.385796,266183400000.0,24493310000.0
max,1455.0,31474.721364,31476.049385,31814.514812,30659.355893,611535400000.0,162734900000.0


In [6]:
# Plot Scatter Plot of Market Cap vs. Volume
fig = px.scatter(crypto_data, x="market_cap", y="volume", color="symbol")
fig.update_layout(
    title='Market Cap vs. Volume',
    title_x=0.5,
    xaxis_title='Market Cap ($)',
    yaxis_title='Volume ($)',    
)
fig.show()

<h2 dir=rtl align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
بخش اول
</font>

In [7]:
# Run K-Means Clustering (with k = 5) on the dataset using the market cap and volume features
kmeans = KMeans(n_clusters=5, init='k-means++', random_state=42)
kmeans.fit(crypto_data[['market_cap', 'volume']])
crypto_data['cluster_kmeans'] = [f'cluster {label + 1}' for label in kmeans.labels_]

In [8]:
# Plot Scatter Plot of Market Cap vs. Volume, Clussified by K-Means Clustering (k = 5)
fig = go.Figure()
for cluster in crypto_data['cluster_kmeans'].sort_values().unique():
    fig.add_trace(
        go.Scatter(
            x=crypto_data[crypto_data['cluster_kmeans'] == cluster]['market_cap'], 
            y=crypto_data[crypto_data['cluster_kmeans'] == cluster]['volume'],
            mode='markers', 
            name=cluster,
            marker=dict(opacity=0.7)))

centers = kmeans.cluster_centers_
fig.add_trace(go.Scatter(
    x=centers[:, 0],
    y=centers[:, 1],
    mode='markers',
    marker=dict(color='Black', size=6, line=dict(color='Black', width=2)),
    name='Centers'
))

fig.update_layout(
    title='Market Cap vs. Volume, Clussified by K-Means Clustering (k = 5)',
    title_x=0.5,
    xaxis_title='Market Cap ($)',
    yaxis_title='Volume ($)',    
)

fig.show()

<h2 dir=rtl align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
بخش دوم
</font>

In [9]:
# Find the optimal number of clusters using the elbow method
wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    kmeans.fit(crypto_data[['market_cap', 'volume']])
    wcss.append(kmeans.inertia_)

fig = px.line(x=range(1, 11), y=wcss, markers='o')
fig.update_layout(
    title='Elbow Method',
    title_x=0.5,
    xaxis_title='Number of Clusters',
    yaxis_title='Within-Cluster Sum of Square',    
)
fig.update_xaxes(nticks=20)

In [10]:
silhouette_scores = []
for k in range(2, 10):
    kmeans = KMeans(n_clusters=k, init='k-means++', random_state=42)
    cluster_labels = kmeans.fit_predict(crypto_data[['market_cap', 'volume']])  # Replace 'data' with your dataset
    silhouette_avg = silhouette_score(crypto_data[['market_cap', 'volume']], cluster_labels)
    silhouette_scores.append(silhouette_avg)

best_k = silhouette_scores.index(max(silhouette_scores)) + 2
print(f'Best k: {best_k}')

Best k: 4


In [11]:
# Run K-Means Clustering again, this time for best k(=4) on the dataset using the market cap and volume features
kmeans_best = KMeans(n_clusters=best_k, init='k-means++', random_state=42)
kmeans_best.fit(crypto_data[['market_cap', 'volume']])
crypto_data['cluster_kmeans (best k)'] = [f'cluster {label + 1}' for label in kmeans_best.labels_]

# Plot Scatter Plot of Market Cap vs. Volume, Clussified by K-Means Clustering using best k(= 4)
fig = go.Figure()
for cluster in crypto_data['cluster_kmeans (best k)'].sort_values().unique():
    fig.add_trace(
        go.Scatter(
            x=crypto_data[crypto_data['cluster_kmeans (best k)'] == cluster]['market_cap'], 
            y=crypto_data[crypto_data['cluster_kmeans (best k)'] == cluster]['volume'],
            mode='markers', 
            name=cluster,
            marker=dict(opacity=0.7)))

centers = kmeans_best.cluster_centers_
fig.add_trace(go.Scatter(
    x=centers[:, 0],
    y=centers[:, 1],
    mode='markers',
    marker=dict(color='Black', size=6, line=dict(color='Black', width=2)),
    name='Centers'
))

fig.update_layout(
    title='Market Cap vs. Volume, Clussified by K-Means Clustering, for best k(= 4)',
    title_x=0.5,
    xaxis_title='Market Cap ($)',
    yaxis_title='Volume ($)',    
)

fig.show()

<p dir=rtl style="direction: rtl;text-align: center;line-height:200%;font-family:vazir;font-size:medium;color:#0099cc"><font face="vazir" size=3><i>
[تحلیل] برای بدست آوردن مقدار بهینه k از دو روش elbow  و silhouette بهره بردیم. همان طور که در نمودار elbow می توان مشاهده کرد،‌ اگر مقدار k را بزرگتر از ۴ قرار دهیم، تغییر قابل توجهی در مقدار خطای WCSS مشاهده نمی شود؛ بنابراین می توان نتیجه گرفت تعداد خوشه بهینه برای این مجموعه داده برابر با ۴ است و روش sihouette هم در ادامه این تعداد خوشه را تایید می کند. 
اما باید پرسید «آیا ۴ خوشه برای این مجموعه داده تفسیر پذیر است؟» در نگاه اول این طور به نظر می رسد،‌ چرا که داده های ما اصلا مربوط به ۴ نوع رمزارز هستند.  اما اگر دوباره الگوریتم را با k = 4 اجرا کنیم،‌ مشاهده می کنیم که الگوریتم داده های مربوط به دو رمزارز (BNB و USDT)  را در یک خوشه قرار می دهد و از طرف دیگر، داده های مربوط به رمز ارز بیت کوین را در دو خوشه قرار می دهد. ما ظاهرا،‌ در نگاهی ساده و اولیه، انتظار داشتیم که اصطلاحا الگوریتم داده ها را از مفصل هایش ببرد و داده های  مربوط به هر رمز ارز را در یک خوشه مجزا طبقه بندی کند. باید پرسید اینکه داده های بیت کوین در دو خوشه طبقه بندی می شوند چه تفسیری دارد؟ و این که چرا دو رمز ارز BNB و USDT در یک خوشه قرار می گیرند؟ شاید اگر یک یا چند بعد دیگر از به داده هایمان اضافه کنیم،‌ داده های مربوط به هر رمز ارز دقیقا در یک خوشه طبقه بندی شوند.

</i></font></p>

<h2 dir=rtl align=right style="line-height:200%;font-family:vazir;color:#0099cc">
<font face="vazir" color="#0099cc">
بخش سوم
</font>

In [12]:
# Run DBSCAN Clustering on the dataset using the market cap and volume features
market_caps_scaled = crypto_data['market_cap'].values / 4
volumes = crypto_data['volume'].values
dbscan = DBSCAN(eps=0.5e10 + 0.7e9 + 0.5e8, min_samples=4)
dbscan.fit(np.stack((market_caps_scaled, volumes), axis=-1))
crypto_data['cluster_dbscan'] = [
    f'cluster {label + 1}' if label != -1 else 'noise' for label in dbscan.labels_
]
n_clusters = len(set(dbscan.labels_)) - (1 if -1 in dbscan.labels_ else 0)
n_noises = len([label for label in dbscan.labels_ if label == -1])
print(f'Number of clusters found: {n_clusters}')

print(f'Number of noises found: {n_noises}')

Number of clusters found: 5
Number of noises found: 20


In [13]:
# Plot Scatter Plot of Market Cap vs. Volume, Clussified by DBSCAN Clustering
fig = go.Figure()

clusters_colors = px.colors.qualitative.Plotly
for i, cluster in enumerate(crypto_data['cluster_dbscan'].unique()):
    if cluster == 'noise':
        cluster_color = 'red'
    else:
        cluster_color = clusters_colors[i + 4]
    fig.add_trace(
        go.Scatter(
            x=crypto_data[crypto_data['cluster_dbscan'] == cluster]['market_cap'], 
            y=crypto_data[crypto_data['cluster_dbscan'] == cluster]['volume'],
            mode='markers', 
            name=cluster,
            marker=dict(opacity=0.8, color=cluster_color)))

fig.update_layout(
    title='Market Cap vs. Volume, Clussified by DBSCAN Clustering',
    title_x=0.5,
    xaxis_title='Market Cap ($)',
    yaxis_title='Volume ($)',    
)

<p dir=rtl style="direction: rtl;text-align: center;line-height:200%;font-family:vazir;font-size:medium;color:#0099cc"><font face="vazir" size=3><i>
[تحلیل]  الگوریتم DBSCAN حساس به دو پارامتر min_samples  و پارامتر eps (شعاع) است و هر چه eps را کوچکتر در نظر بگیریم، خوشه‌های بیشتر و کوچکتری تشکیلی می‌شود. همچنین هر چه قدر min_samples را بزرگ‌تر در نظر بگیریم، احتمال ایجادِ خوشه‌ها، کمتر می‌شود زیرا الگوریتم باید تعداد نمونه‌های بیشتری را در یک شعاع خاص ببینید تا خوشه را تشکیل دهد.
</i></font></p>