# 가상 사용자 데이터 생성 방법

## 1. 데이터 구조 정의
어떤 데이터를 생성할지 미리 설계하세요. 스터디 그룹 추천 시스템의 경우 아래 항목들을 포함할 수 있습니다:

사용자 ID: 각 사용자를 구별하는 고유 번호. <br>
관심사: 키워드 또는 카테고리 (예: "수학", "과학"). <br>
가입한 그룹: 사용자가 가입한 그룹 ID 목록. <br>
활동 수준: 사용자의 참여도를 나타내는 숫자 (예: 0~100 점수). <br>

In [1]:
import random
import pandas as pd

# 관심사와 그룹 ID 정의
interests = ["Math", "Science", "History", "Art", "Programming", "Languages"]
group_ids = list(range(1, 21))  # 20개의 그룹이 있다고 가정

# 사용자 데이터 생성 함수
def generate_user_data(num_users=100):
    data = []
    for user_id in range(1, num_users + 1):
        user_interests = random.sample(interests, k=random.randint(1, 3))  # 1~3개의 랜덤 관심사
        joined_groups = random.sample(group_ids, k=random.randint(1, 5))  # 1~5개의 랜덤 그룹
        activity_level = random.randint(0, 100)  # 참여 점수
        data.append({
            "User ID": user_id,
            "Interests": ", ".join(user_interests),
            "Groups Joined": ", ".join(map(str, joined_groups)),
            "Activity Level": activity_level
        })
    return pd.DataFrame(data)

# 데이터 생성 및 CSV 저장
user_data = generate_user_data(100)
user_data.to_csv("synthetic_user_data.csv", index=False)
print("가상 사용자 데이터가 생성되고 저장되었습니다!")

가상 사용자 데이터가 생성되고 저장되었습니다!


In [3]:
user_data.head()

Unnamed: 0,User ID,Interests,Groups Joined,Activity Level
0,1,Math,"4, 14, 7, 3, 10",98
1,2,Math,"16, 7",85
2,3,"History, Art","15, 18, 6, 19, 17",26
3,4,Art,"7, 11, 6",36
4,5,"Science, Art, Programming","5, 16, 10, 1, 13",18


#### 위의 랜덤 데이터에 현실적인 패턴 추가 (선택 사항)
- **확률 기반 생성**: 관심사나 그룹 ID의 선택 확률을 가중치로 설정
- **활동 수준과 그룹 수 상관관계**: 그룹에 많이 참여한 사용자가 더 높은 활동 점수를 가지도록 설정.

In [None]:
# user_interests = random.choices(interests, weights=[5, 5, 3, 2, 4, 1], k=random.randint(1, 3))

# 스터디 모집 게시글 내용 랜덤 생성

## 1. 랜덤 문장을 생성(특정 키워드, 일반 문장 패턴 조합)
- 사용 예시: 스터디 그룹 공지나 간단한 소개글.

In [5]:
import random

# 키워드 리스트
subjects = ["수학", "과학", "역사", "프로그래밍", "언어학", "예술"]
actions = ["공부합니다", "토론합니다", "발표합니다", "복습합니다", "연습합니다"]
time_phrases = ["이번 주", "다음 주", "금요일", "월말", "주말"]

# 랜덤 게시글 생성
def generate_post_content(num_posts=10):
    posts = []
    for _ in range(num_posts):
        subject = random.choice(subjects)
        action = random.choice(actions)
        time = random.choice(time_phrases)
        post = f"{time}에 {subject}를 {action}."
        posts.append(post)
    return posts

# 게시글 출력
for post in generate_post_content(5):
    print(post)

금요일에 과학를 연습합니다.
주말에 예술를 연습합니다.
다음 주에 수학를 연습합니다.
금요일에 수학를 연습합니다.
이번 주에 프로그래밍를 공부합니다.


## 2. 사전 정의된 문장 템플릿 사용
- 미리 작성한 문장 템플릿을 랜덤하게 조합해 자연스러운 게시글 생성.

In [7]:
import random

# 템플릿 정의
templates = [
    "안녕하세요, 이번 스터디에서는 {subject}를 중심으로 {action}.",
    "우리 그룹은 {time}에 {subject}를 {action}할 예정입니다.",
    "다들 {time}에 모여서 {subject} 관련해서 {action}하면 좋을 것 같습니다.",
    "이번 주 스터디는 {subject}를 {action}하는 것을 목표로 합니다."
]

# 키워드 리스트
subjects = ["수학", "프로그래밍", "영어회화", "문학", "물리학"]
actions = ["토론", "학습", "복습", "문제풀이", "발표"]
time_phrases = ["금요일", "토요일 오전", "다음 주 화요일", "이번 주말"]

# 랜덤 게시글 생성
def generate_post_with_templates(num_posts=5):
    posts = []
    for _ in range(num_posts):
        template = random.choice(templates)
        post = template.format(
            subject=random.choice(subjects),
            action=random.choice(actions),
            time=random.choice(time_phrases)
        )
        posts.append(post)
    return posts

# 게시글 출력
for post in generate_post_with_templates(5):
    print(post)


우리 그룹은 이번 주말에 문학를 발표할 예정입니다.
이번 주 스터디는 수학를 문제풀이하는 것을 목표로 합니다.
안녕하세요, 이번 스터디에서는 프로그래밍를 중심으로 토론.
이번 주 스터디는 영어회화를 토론하는 것을 목표로 합니다.
우리 그룹은 금요일에 영어회화를 문제풀이할 예정입니다.


## 3. 실제 데이터를 기반으로 랜덤화

설명: 기존의 게시글 데이터를 가공하여 새로운 내용을 생성.
- 한국어로 된 게시글 데이터가 있다면 문장을 분해하거나 단어를 바꿔 생성.

In [29]:
import random

# 기존 데이터
existing_posts = [
    "다음 주 금요일에 수학 문제풀이를 진행합니다.",
    "이번 주말에는 프로그래밍 발표가 있을 예정입니다.",
    "스터디에서 영어 회화를 연습할 기회입니다."
]

# 단어 대체를 통한 게시글 변형
subjects = ["수학", "프로그래밍", "역사", "미술"]
actions = ["발표", "토론", "문제풀이", "학습"]

def modify_posts(existing_posts, num_posts=5):
    posts = []
    for _ in range(num_posts):
        base_post = random.choice(existing_posts)
        new_subject = random.choice(subjects)
        new_action = random.choice(actions)
        post = base_post.replace("수학", new_subject).replace("문제풀이", new_action)
        posts.append(post)
    return posts

# 변형된 게시글 출력
for post in modify_posts(existing_posts, 5):
    print(post)


다음 주 금요일에 역사 토론를 진행합니다.
다음 주 금요일에 프로그래밍 학습를 진행합니다.
다음 주 금요일에 미술 문제풀이를 진행합니다.
다음 주 금요일에 미술 문제풀이를 진행합니다.
스터디에서 영어 회화를 연습할 기회입니다.
