In [2]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import folium
import matplotlib.pyplot as plt
import matplotlib
from sklearn.metrics import silhouette_score

df = pd.read_csv("../KIC.csv")

df.head()

Unnamed: 0,번호,센터명,주소,클러스터,위도,경도,은행,편의점,지하철 개수,지하철 점수,지하철등급,국도(km),고속도로(km),도로점수,도로등급
0,0,강릉 공공임대형 지식산업센터,강원특별자치도 강릉시 사천면 방동리 805-3,,37.806207,128.854086,E,E,0,0.0,E,0.91,7.81,1.63,A
1,1,동해지식산업센터,강원특별자치도 동해시 구호동 216,,37.481576,129.133811,C,E,0,0.0,E,3.65,6.42,4.65,E
2,2,표준공장1동,강원특별자치도 동해시 구호동 247번지,,37.480842,129.153095,E,E,0,0.0,E,5.65,9.7,7.14,E
3,3,표준공장2동,강원특별자치도 동해시 구호동 247번지,,37.480842,129.153095,E,E,0,0.0,E,5.65,9.7,7.14,E
4,4,표준공장3동,강원특별자치도 동해시 구호동 247번지,,37.480842,129.153095,E,E,0,0.0,E,5.65,9.7,7.14,E


In [5]:
coords = df[['위도', '경도']].dropna().values

# 표준화
scaler = StandardScaler()
coords_scaled = scaler.fit_transform(coords)

results = []

for n_clusters in range(50, 200):
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    labels = kmeans.fit_predict(coords_scaled)
    inertia = kmeans.inertia_
    # 실루엣 점수는 군집이 1개일 때 계산 불가, 2개 이상일 때만 계산
    if len(set(labels)) > 1 and len(set(labels)) < len(coords_scaled):
        silhouette = silhouette_score(coords_scaled, labels)
    else:
        silhouette = np.nan
    results.append({
        'n_clusters': n_clusters,
        'inertia': inertia,
        'silhouette_score': silhouette
    })

# 결과를 데이터프레임으로 변환 및 출력
results_df = pd.DataFrame(results)
print(results_df)

     n_clusters   inertia  silhouette_score
0            50  5.533553          0.640483
1            51  5.273549          0.640832
2            52  4.958001          0.643073
3            53  4.772849          0.643116
4            54  4.664230          0.643487
..          ...       ...               ...
145         195  0.188204          0.634437
146         196  0.186996          0.634255
147         197  0.184941          0.634201
148         198  0.180385          0.632625
149         199  0.177915          0.628683

[150 rows x 3 columns]


100~110개가 좋다는결론이 나오긴함 근데음..

-----------

In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import folium
import matplotlib.pyplot as plt
import matplotlib

# 데이터 로드
df = pd.read_csv("../KIC.csv")

# 위도/경도 데이터 추출 및 결측치 제거
coords = df[['위도', '경도']].dropna().values

# 표준화
scaler = StandardScaler()
coords_scaled = scaler.fit_transform(coords)

# -------------------------------------------------------------------------------------------
n_clusters = 100
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
labels = kmeans.fit_predict(coords_scaled)

# 클러스터 결과를 원본 데이터프레임에 반영 (결측치 행은 -1로 처리)
df['클러스터'] = -1
df.loc[df[['위도', '경도']].dropna().index, '클러스터'] = labels

# 결과 확인
print(df['클러스터'].value_counts())
print(df.head())

# 결과 저장
df.to_csv("KIC_clustered_kmeans.csv", index=False, encoding='utf-8-sig')

# 지도 시각화 (folium) - 회색/흑백 필터(타일) 적용
center_lat = df['위도'].mean()
center_lon = df['경도'].mean()
# CartoDB positron은 회색/흑백 느낌의 타일
m = folium.Map(location=[center_lat, center_lon], zoom_start=8, tiles='CartoDB positron')

n_clusters_real = len(set(labels))
colors = plt.cm.tab20(np.linspace(0, 1, max(n_clusters_real, 1)))

for idx, row in df.iterrows():
    if np.isnan(row['위도']) or np.isnan(row['경도']):
        continue
    cluster = int(row['클러스터'])
    if cluster == -1:
        color = 'gray'
    else:
        color = matplotlib.colors.rgb2hex(colors[cluster % len(colors)])
    folium.CircleMarker(
        location=[row['위도'], row['경도']],
        radius=4,
        color=color,
        fill=True,
        fill_color=color,
        fill_opacity=0.7,
        popup=f"센터명: {row['센터명']}<br>클러스터: {cluster}"
    ).add_to(m)

m.save("위치기반클러스터.html")
print("KMeans 클러스터링 결과를 KIC_clustered_kmeans.csv로 저장하고, 지도는 위치기반클러스터.html로 저장했습니다.")

클러스터
4     206
16     73
36     62
18     55
30     50
     ... 
68      1
86      1
94      1
25      1
51      1
Name: count, Length: 100, dtype: int64
   번호              센터명                         주소  클러스터         위도  \
0   0  강릉 공공임대형 지식산업센터  강원특별자치도 강릉시 사천면 방동리 805-3    62  37.806207   
1   1         동해지식산업센터        강원특별자치도 동해시 구호동 216     5  37.481576   
2   2           표준공장1동      강원특별자치도 동해시 구호동 247번지     5  37.480842   
3   3           표준공장2동      강원특별자치도 동해시 구호동 247번지     5  37.480842   
4   4           표준공장3동      강원특별자치도 동해시 구호동 247번지     5  37.480842   

           경도 은행 편의점  지하철 개수  지하철 점수 지하철등급  국도(km)  고속도로(km)  도로점수 도로등급  
0  128.854086  E   E       0     0.0     E    0.91      7.81  1.63    A  
1  129.133811  C   E       0     0.0     E    3.65      6.42  4.65    E  
2  129.153095  E   E       0     0.0     E    5.65      9.70  7.14    E  
3  129.153095  E   E       0     0.0     E    5.65      9.70  7.14    E  
4  129.153095  E   E       0     0.0     E    5.65     

------------

밀도기반클러스터 _위치를

In [7]:
import pandas as pd
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler
import folium
import matplotlib.pyplot as plt
import matplotlib
df = pd.read_csv("../KIC.csv")
coords = df[['위도', '경도']].dropna().values
scaler = StandardScaler()
coords_scaled = scaler.fit_transform(coords)

# -------------------------------------------------------------------------------------------
# DBSCAN 클러스터링 (eps, min_samples는 데이터에 맞게 조정)
dbscan = DBSCAN(eps=0.04, min_samples=5)
labels = dbscan.fit_predict(coords_scaled)

# 클러스터 결과를 원본 데이터프레임에 반영 (결측치 행은 -1로 처리)
df['클러스터'] = -1
df.loc[df[['위도', '경도']].dropna().index, '클러스터'] = labels

# 결과 확인
print(df['클러스터'].value_counts())
print(df.head())

# 결과 저장
df.to_csv("KIC_clustered_dbscan.csv", index=False, encoding='utf-8-sig')

# 지도 시각화 (folium) - 회색/흑백 필터(타일) 적용
center_lat = df['위도'].mean()
center_lon = df['경도'].mean()
m = folium.Map(location=[center_lat, center_lon], zoom_start=8, tiles='CartoDB positron')

unique_labels = sorted(df['클러스터'].unique())
n_clusters_real = len([l for l in unique_labels if l != -1])
colors = plt.cm.tab20(np.linspace(0, 1, max(n_clusters_real, 1)))

for idx, row in df.iterrows():
    if np.isnan(row['위도']) or np.isnan(row['경도']):
        continue
    cluster = int(row['클러스터'])
    if cluster == -1:
        color = 'gray'
    else:
        color = matplotlib.colors.rgb2hex(colors[cluster % len(colors)])
    folium.CircleMarker(
        location=[row['위도'], row['경도']],
        radius=4,
        color=color,
        fill=True,
        fill_color=color,
        fill_opacity=0.7,
        popup=f"센터명: {row['센터명']}<br>클러스터: {cluster}"
    ).add_to(m)

m.save("위치기반클러스터_DBSCAN.html")
print("DBSCAN 클러스터링 결과를 KIC_clustered_dbscan.csv로 저장하고, 지도는 위치기반클러스터_DBSCAN.html로 저장했습니다.")

클러스터
 3     298
-1     162
 11    133
 6     108
 16     78
 14     75
 38     69
 13     49
 20     38
 10     34
 39     31
 47     29
 28     24
 37     22
 46     21
 9      19
 29     18
 36     17
 21     17
 24     16
 7      15
 35     14
 19     11
 41     11
 4      10
 22      9
 40      9
 26      9
 18      8
 2       8
 34      8
 15      8
 42      7
 32      7
 33      7
 12      7
 27      7
 17      7
 25      6
 1       6
 44      6
 43      6
 48      6
 23      6
 5       6
 8       6
 0       5
 31      5
 45      5
 30      5
Name: count, dtype: int64
   번호              센터명                         주소  클러스터         위도  \
0   0  강릉 공공임대형 지식산업센터  강원특별자치도 강릉시 사천면 방동리 805-3    -1  37.806207   
1   1         동해지식산업센터        강원특별자치도 동해시 구호동 216    -1  37.481576   
2   2           표준공장1동      강원특별자치도 동해시 구호동 247번지    -1  37.480842   
3   3           표준공장2동      강원특별자치도 동해시 구호동 247번지    -1  37.480842   
4   4           표준공장3동      강원특별자치도 동해시 구호동 247번지    -1  37.480842   