In [1]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler


Deneme 

In [2]:
# Kullanıcı verilerini yükle
user_data = pd.read_csv("realistic_user_data.csv")

# Kümeleme için kullanılacak özellikleri seç
features = ['Age', 'Gender', 'Job', 'Smoking', 'Alcoholic', 'Depression', 'Anxiety', 'Obesity', 'Active']

# Sayısal verilere dönüştür (categorical verileri encoding ile sayısala çevir)
user_data_encoded = pd.get_dummies(user_data[features])

# Veriyi ölçeklendir
scaler = StandardScaler()
scaled_features = scaler.fit_transform(user_data_encoded)

# K-means algoritması ile kümeleme
kmeans = KMeans(n_clusters=5, random_state=42)
user_data['Cluster'] = kmeans.fit_predict(scaled_features)

# Kümeleme sonuçlarını incele
print(user_data[['Age', 'Gender', 'Cluster']].head())


   Age  Gender  Cluster
0   18    Male        0
1   30    Male        1
2   45  Female        2
3   19  Female        0
4   43    Male        1


Yorumları kullanıcılara göre kümeleme (örn.ekonomi yorum a ,ekonomi yorum b)

In [11]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans

# Kullanıcı verilerini yükle
user_data = pd.read_csv("realistic_user_data.csv")

# Ekonomi yorumları için önemli özellikleri seç
features = ['Age', 'Job', 'Depression', 'Anxiety', 'Obesity', 'Active','Married']

# Sayısal verilere dönüştür (categorical verileri encoding ile sayısala çevir)
user_data_encoded = pd.get_dummies(user_data[features])

# Veriyi ölçeklendir
scaler = StandardScaler()
scaled_features = scaler.fit_transform(user_data_encoded)

# K-means algoritması ile kümeleme
kmeans = KMeans(n_clusters=5, random_state=42)
user_data['Cluster'] = kmeans.fit_predict(scaled_features)

# Kullanıcılara kümelerine göre yorum atama
yorumlar = ["Ekonomi Yorum A", "Ekonomi Yorum B", "Ekonomi Yorum C", "Ekonomi Yorum D", "Ekonomi Yorum E"]
user_data['Yorum'] = user_data['Cluster'].apply(lambda x: yorumlar[x])

# Kümeleme sonuçlarını incele
print(user_data[['Age', 'Job', 'Depression', 'Cluster', 'Yorum','Anxiety', 'Obesity', 'Active']].head(20))


    Age      Job Depression  Cluster            Yorum Anxiety Obesity Active
0    18  Öğrenci      Hayır        1  Ekonomi Yorum B   Hayır   Hayır  Hayır
1    45  Çalışan       Evet        4  Ekonomi Yorum E    Evet    Evet  Hayır
2    21  Öğrenci       Evet        2  Ekonomi Yorum C   Hayır   Hayır   Evet
3    25  Çalışan      Hayır        1  Ekonomi Yorum B   Hayır   Hayır   Evet
4    36  Çalışan      Hayır        3  Ekonomi Yorum D   Hayır   Hayır  Hayır
5    34  Çalışan      Hayır        3  Ekonomi Yorum D   Hayır   Hayır  Hayır
6    32  Çalışan       Evet        3  Ekonomi Yorum D   Hayır   Hayır   Evet
7    30  Çalışan      Hayır        1  Ekonomi Yorum B   Hayır   Hayır   Evet
8    49  Çalışan      Hayır        3  Ekonomi Yorum D   Hayır   Hayır  Hayır
9    39  Çalışan      Hayır        3  Ekonomi Yorum D   Hayır   Hayır   Evet
10   33  Çalışan       Evet        0  Ekonomi Yorum A   Hayır    Evet  Hayır
11   50  Çalışan      Hayır        3  Ekonomi Yorum D   Hayır   Hayır  Hayır

Reddit yorumları üzerinden filtrelenen yaş, iş gibi verileri çekerek cluster oluşturma

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import nltk
from nltk.corpus import stopwords
import string

# Yorumları yükle
reddit_comments = pd.read_csv("reddit_comments.csv")

# Metin ön işleme
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))
def preprocess_text(text):
    text = text.lower()  # Küçük harfe çevir
    text = text.translate(str.maketrans('', '', string.punctuation))  # Noktalama işaretlerini kaldır
    text = ' '.join([word for word in text.split() if word not in stop_words])  # Stop kelimeleri kaldır
    return text

reddit_comments['Processed_Comment'] = reddit_comments['Comment'].apply(preprocess_text)

# Özellik çıkarma (TF-IDF)
vectorizer = TfidfVectorizer(max_features=1000)
X = vectorizer.fit_transform(reddit_comments['Processed_Comment'])

# K-means algoritması ile kümeleme
kmeans = KMeans(n_clusters=5, random_state=42)
reddit_comments['Cluster'] = kmeans.fit_predict(X)

# Kullanıcı verilerini yükle
user_data = pd.read_csv("realistic_user_data.csv")

# Kullanıcıları yorum kümelerine göre atama
user_data['Comment'] = reddit_comments['Comment'].sample(n=len(user_data), replace=True).values
user_data['Comment_Cluster'] = reddit_comments['Cluster'].sample(n=len(user_data), replace=True).values

# Kümeleme sonuçlarını incele
print(user_data[['Age', 'Job', 'Depression', 'Comment', 'Comment_Cluster', 'Anxiety', 'Obesity', 'Active']].head(20))

# Veriyi CSV olarak kaydet
user_data.to_csv("clustered_user_data_with_comments.csv", index=False, encoding="utf-8-sig")
print("Kullanıcı verileri yorum kümeleri ile eşleştirildi ve kaydedildi.")