#12.1.4. 텍스트 데이터의 유사성 측정 방법

##예제1)	"유클리드 거리로 문장 간 유사성 비교하기"

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import euclidean_distances
# 문장 리스트
sentences = [
    "나는 차를 좋아한다.",
    "나는 커피를 좋아한다."
]
# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(sentences).toarray()  # 문장을 벡터로 변환
# 유클리드 거리 계산
distance = euclidean_distances([X[0]], [X[1]])[0][0]  # 문장 1 vs 문장 2
# 결과 출력
print(distance)


---
#12.3. 실전예제 - K-means로 쇼핑몰 고객 분석하기

##예제2)	K-means로 쇼핑몰 고객 분석하기

###(1) 라이브러리 불러오기

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score


###(2) 고객 데이터 불러오기

In [None]:
csv_filename = "/content/customer_data_50.csv"
df_loaded = pd.read_csv(csv_filename)
# 데이터 확인
print(df_loaded.head())  # 상위 5개 데이터 출력


###(3) K-means 클러스터링 적용

In [None]:
# K-means 모델 생성 (K=3 설정)
kmeans = KMeans(n_clusters=3, random_state=42, n_init='auto')
# 'Monthly Visits', 'Avg Spending', 'Purchases' 데이터를 사용하여 클러스터링 수행
df_loaded["Cluster"] = kmeans.fit_predict(df_loaded[["Monthly Visits", "Avg Spending", "Purchases"]])
# 클러스터 중심점 확인
centroids = kmeans.cluster_centers_
# 클러스터링 결과 출력
print(df_loaded.head())  # 클러스터가 추가된 데이터 확인


###(4) 클러스터 중심점 확인

In [None]:
centroids = kmeans.cluster_centers_
print(centroids)


###(5) 클러스터링 결과 시각화

In [None]:
colors = ['red', 'blue', 'green']
plt.figure(figsize=(8,6))
for i in range(3):
    cluster_data = df_loaded[df_loaded['Cluster'] == i]
    plt.scatter(cluster_data['Monthly Visits'], cluster_data['Avg Spending'],
                label=f'Cluster {i}', color=colors[i])
# 클러스터 중심점 표시
plt.scatter(centroids[:, 0], centroids[:, 1], s=200, c='black', marker='X', label="Centroids")
# 그래프 설정
plt.xlabel("Monthly Visits")
plt.ylabel("Avg Spending")
plt.title("K-means Clustering: Shopping Mall Customer Analysis")
plt.legend()
plt.show()


###(6) 실루엣 점수 계산 (클러스터링 평가)

In [None]:
score = silhouette_score(df_loaded[["Monthly Visits", "Avg Spending", "Purchases"]], df_loaded["Cluster"])
print(f"Silhouette Score: {score:.3f}")


In [None]:
# 전체 코드: K-means 클러스터링을 활용한 쇼핑몰 고객 그룹 분석

# 1️⃣ 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 2️⃣ CSV 파일 불러오기
csv_filename = "/content/customer_data_50.csv"
df_loaded = pd.read_csv(csv_filename)

# 3️⃣ K-means 클러스터링 적용 (K=3 설정)
kmeans = KMeans(n_clusters=3, random_state=42, n_init='auto')
df_loaded["Cluster"] = kmeans.fit_predict(df_loaded[["Monthly Visits", "Avg Spending", "Purchases"]])

# 4️⃣ 클러스터 중심점 확인
centroids = kmeans.cluster_centers_
print(centroids)
# 5️⃣ 클러스터링 결과 시각화 (월 방문 횟수 vs 평균 결제 금액)
colors = ['red', 'blue', 'green']
plt.figure(figsize=(8,6))

for i in range(3):
    cluster_data = df_loaded[df_loaded['Cluster'] == i]
    plt.scatter(cluster_data['Monthly Visits'], cluster_data['Avg Spending'],
                label=f'Cluster {i}', color=colors[i])

# 클러스터 중심점 표시
plt.scatter(centroids[:, 0], centroids[:, 1], s=200, c='black', marker='X', label="Centroids")

# 그래프 설정
plt.xlabel("Monthly Visits")
plt.ylabel("Avg Spending")
plt.title("K-means Clustering: Shopping Mall Customer Analysis")
plt.legend()
plt.show()

# 6️⃣ 실루엣 점수 계산 (클러스터링 평가)
score = silhouette_score(df_loaded[["Monthly Visits", "Avg Spending", "Purchases"]], df_loaded["Cluster"])
print(f"Silhouette Score: {score:.3f}")

# 7️⃣ 결과 출력
print(df_loaded)


---
#부록:

In [None]:
# Step 1: 데이터 준비
import numpy as np

# 고객 주문 데이터를 배열로 정의
customers = {
    'A': [5, 1, 0],
    'B': [4, 2, 1],
    'C': [0, 4, 5],
    'D': [1, 5, 4]
}

# 고객 이름 및 데이터를 배열로 변환
customer_names = list(customers.keys())
data = np.array(list(customers.values()))

print("Step 1: 데이터 준비\n")
customers

In [None]:
# Step 2: 초기 중심 설정
# 초기 중심을 고객 A와 C로 설정
initial_centroids = np.array([customers['A'], customers['C']])
print("\nStep 2: 초기 중심 설정")
print("초기 중심:\n", initial_centroids)

In [None]:
# Step 3: 고객 할당 (유클리드 거리 계산 및 중심 할당)
# 유클리드 거리 계산 함수
def calculate_distance(point, centroids):
    return np.linalg.norm(point - centroids, axis=1)

# 각 데이터 포인트를 가장 가까운 중심에 할당하는 함수
def assign_clusters(data, centroids):
    clusters = []
    for point in data:
        distances = calculate_distance(point, centroids)
        clusters.append(np.argmin(distances))  # 가장 가까운 중심의 인덱스 저장
    return np.array(clusters)

# 초기 중심값을 기준으로 클러스터 할당
clusters = assign_clusters(data, initial_centroids)
print("\nStep 3: 고객 할당")
print("초기 할당된 클러스터:\n", clusters)

In [None]:
# Step 4: 중심 업데이트
# 클러스터 내 데이터 평균으로 중심 업데이트 함수
def update_centroids(data, clusters, k):
    new_centroids = []
    for i in range(k):
        cluster_points = data[clusters == i]  # 특정 클러스터에 속한 데이터
        new_centroids.append(np.mean(cluster_points, axis=0))  # 평균 계산
    return np.array(new_centroids)

# 중심 업데이트
k = 2  # 클러스터 개수
centroids = update_centroids(data, clusters, k)
print("\nStep 4: 중심 업데이트")
print("업데이트된 중심:\n", centroids)

In [None]:
# Step 5: K-Means 반복 알고리즘
# 클러스터 할당과 중심 업데이트를 반복하는 함수
def k_means(data, initial_centroids, max_iterations=10):
    centroids = initial_centroids
    for iteration in range(max_iterations):
        clusters = assign_clusters(data, centroids)  # 데이터 할당
        new_centroids = update_centroids(data, clusters, len(centroids))  # 중심 업데이트
        if np.all(centroids == new_centroids):  # 중심값이 변하지 않으면 중단
            break
        centroids = new_centroids
    return clusters, centroids

# 알고리즘 실행
clusters, final_centroids = k_means(data, initial_centroids)
print("\nStep 5: 최종 결과")
print("최종 클러스터 할당:\n", clusters)
print("최종 중심:\n", final_centroids)

In [None]:
# 결과 해석
# 각 클러스터에 속한 고객 이름을 출력
cluster_groups = {i: [] for i in range(k)}
for customer_idx, cluster_idx in enumerate(clusters):
    cluster_groups[cluster_idx].append(customer_names[customer_idx])

print("\n[결과]")
for cluster, members in cluster_groups.items():
    print(f"그룹 {cluster + 1}: {', '.join(members)}")

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans

# Step 1: 데이터 준비
hashtags = [
    "#travel #adventure #nature",  # 여행 관련
    "#fitness #gym #health",       # 건강/운동
    "#foodie #recipe #cooking",    # 음식
    "#hiking #outdoor #explore",   # 여행 관련
    "#workout #strength #cardio",  # 건강/운동
    "#dessert #baking #chocolate", # 음식
    "#mountains #scenery #photography",  # 여행 관련
    "#yoga #meditation #wellness",       # 건강/운동
    "#dinner #chef #gourmet",            # 음식
]

# Step 2: 텍스트 벡터화
vectorizer = TfidfVectorizer(stop_words='english')  # 불용어 제거
X = vectorizer.fit_transform(hashtags)  # TF-IDF로 벡터화

# Step 3: K-Means 모델 생성
kmeans = KMeans(n_clusters=3, random_state=42)  # 3개의 클러스터 생성
kmeans.fit(X)

# Step 4: 클러스터 결과 출력
print("클러스터 할당 결과:", kmeans.labels_)

# Step 5: 각 클러스터 중심의 주요 키워드 확인
terms = vectorizer.get_feature_names_out()
print("\n클러스터 중심 키워드:")
for i, center in enumerate(kmeans.cluster_centers_):
    keywords = [terms[idx] for idx in center.argsort()[-5:]]  # 중심에서 가장 중요한 단어 5개 추출
    print(f"클러스터 {i}: {keywords}")

# Step 6: 각 해시태그의 클러스터 할당 확인
print("\n해시태그 클러스터링 결과:")
for i, tag in enumerate(hashtags):
    print(f"'{tag}' => 클러스터 {kmeans.labels_[i]}")

# Step 7: 해시태그 추가 (확장 활동)
new_hashtags = [
    "#beach #vacation #relax",      # 여행 관련
    "#protein #diet #nutrition",   # 건강/운동
    "#pizza #italian #pasta",      # 음식
]

new_X = vectorizer.transform(new_hashtags)
new_clusters = kmeans.predict(new_X)

print("\n새로운 해시태그 클러스터링 결과:")
for i, tag in enumerate(new_hashtags):
    print(f"'{tag}' => 클러스터 {new_clusters[i]}")

In [None]:
# 필요한 라이브러리 불러오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from wordcloud import WordCloud

# 예제 데이터: SNS 해시태그 모음
sns_data = [
    "#여행 #자연 #휴가", "#맛집 #먹방 #디저트", "#OOTD #패션 #스타일",
    "#여행 #힐링 #사진", "#음악 #콘서트 #감성", "#맛집 #요리 #한식",
    "#OOTD #쇼핑 #브랜드", "#운동 #헬스 #다이어트", "#여행 #바다 #일출",
    "#운동 #요가 #건강", "#IT #테크 #스타트업", "#음악 #공연 #재즈",
    "#맛집 #일식 #초밥", "#OOTD #코디 #신발", "#여행 #트레킹 #산",
    "#헬스 #웨이트 #운동", "#IT #AI #빅데이터", "#음악 #록 #페스티벌"
]

# 데이터프레임 생성
df = pd.DataFrame(sns_data, columns=["hashtags"])

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(df["hashtags"])

# K-means 클러스터링 (K=3 설정)
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
df["Cluster"] = kmeans.fit_predict(X)

# 클러스터링 결과 출력
print(df)

# 각 클러스터에서 가장 많이 등장한 단어 찾기
word_freq = {}
for cluster in range(3):
    cluster_text = " ".join(df[df["Cluster"] == cluster]["hashtags"])
    wordcloud = WordCloud(width=800, height=400, background_color='white').generate(cluster_text)

    # 클러스터별 워드클라우드 시각화
    plt.figure(figsize=(8,4))
    plt.imshow(wordcloud, interpolation="bilinear")
    plt.axis("off")
    plt.title(f"Cluster {cluster} - 주요 해시태그")
    plt.show()
