In [1]:
from openai import OpenAI
import pandas as pd
from pathlib import Path
from tqdm import tqdm
import json
import re

# API 및 모델
client = OpenAI(api_key="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")
MODEL_NAME = "gpt-4o-mini"

# 경로
base_dir = './data/'
output_dir = './result/'
info_path = base_dir + "회원상세이력.csv"
weekly_path = base_dir + "weekly.csv"

In [2]:
# 전략 데이터 정의
cluster_strategies = [
    {
        "cluster_id": 1,
        "core_integrated_strategy": "자기주도적으로 학습 강조, 자율성과 성취 경험을 강화"
    },
    {
        "cluster_id": 2,
        "core_integrated_strategy": "학습 중요성 강조, 학습 루틴과 자기점검 습관을 형성"
    },
    {
        "cluster_id": 3,
        "core_integrated_strategy": "외적 책임을 부여"
    },
    {
        "cluster_id": 4,
        "core_integrated_strategy": "소규모 성취 경험 제공하고, 외적 책임감 부여"
    },
    {
        "cluster_id": 5,
        "core_integrated_strategy": "호기심과 흥미 중심의 참여를 유도, 정서적 안정과 실수 허용 제공"
    }
]

# 데이터프레임 생성
strategic_df = pd.DataFrame(cluster_strategies)

In [None]:
# 데이터 로드
df_info = pd.read_csv(info_path)
df_weekly = pd.read_csv(weekly_path)

df_weekly['cluster_id'] = 1
df_weekly['cluster_type'] = ''
df_weekly['cluster_desc'] = ''
df_weekly['segment_id'] = 1
df_weekly['segment_type'] = ''
df_weekly['segment_desc'] = ''

## Prompt 1. 주간특이사항

### (1) Prompt 1. 주간특이사항 - 데이터추출

In [11]:
metric_cols = [
    'weekly_reading_focus_score',
    'weekly_rhytm_score',
    'weekly_volume_score',
    'weekly_nscdl_learning_score',
    'weekly_retry_rate',
    'weekly_problem_focus_score',
    'weekly_content_interaction_score',
    'comp_rate',
    'atnd_rate',
    'qst_crct_rate',
    'unit_avg_score'
]

##################### 메시지 생성날짜 지정 필요 #####################
msg_date = '2025-06-15'


# 각 지표별 임계값(예시, 필요시 값 수정)
thresholds = {
    'weekly_reading_focus_score': 0.15, 
    'weekly_rhytm_score': 0.15,  
    'weekly_volume_score': 0.15, 
    'weekly_nscdl_learning_score': 0.15,
    'weekly_retry_rate': 0.15,                
    'weekly_problem_focus_score': 0.15,
    'weekly_content_interaction_score': 0.15,
    'comp_rate': 0.15,
    'atnd_rate': 0.15,
    'qst_crct_rate': 0.15,
    'unit_avg_score': 0.15                    
}


# 상위 10% 관련 칼럼 매핑 (지표명, 상위% 칼럼명, 출력용 라벨)
top_percent_cols = [
    ('comp_rate', 'comp_top_percentile', '학습완료율'),
    ('atnd_rate', 'atnd_top_percentile', '출석률'),
    ('qst_crct_rate', 'qst_crct_top_percentile', '최초정답률'),
    ('unit_avg_score', 'unit_avg_score_top_percentile', '단원평가 평균 점수'),
]


def find_changed_metrics(row, metric_cols, thresholds):
    result = {'상승': [], '하락': []}
    for col in metric_cols:
        now = row.get(f'{col}_this')
        prev = row.get(f'{col}_last')
        # 결측치, 0으로 나누기 방지
        if pd.isnull(now) or pd.isnull(prev) or prev == 0:
            continue
        rate = (now - prev) / abs(prev)
        thr = thresholds.get(col, 0.2)   # 지정 없으면 기본 20%
        if rate >= thr:
            result['상승'].append((col, rate, thr))
        elif rate <= -thr:
            result['하락'].append((col, rate, thr))
    return result


# 상위 10% 지표 추출 함수
def find_top10_metrics(row):
    result = []
    for col, pct_col, label in top_percent_cols:
        pct_val = row.get(f'{pct_col}_this')
        if pd.notnull(pct_val) and pct_val <= 10:
            # 소수점은 정수로 변환
            val = int(pct_val) if pct_val == int(pct_val) else round(pct_val, 1)
            result.append((label, f'{val}%'))
    return result


# 메시지 생성 날짜 (YYYY-MM-DD 형식)
msg_date_dt = pd.to_datetime(msg_date)
last_week_date_dt = msg_date_dt - pd.Timedelta(days=7)

this_week = msg_date_dt.strftime('%Y-%m-%d')
last_week = last_week_date_dt.strftime('%Y-%m-%d')

# 이번주/지난주/상위% 칼럼 포함 데이터프레임 추출
top_pct_cols_this = [col for _, pct_col, _ in top_percent_cols for col in [pct_col]]
cols_this = ['cstmr_id'] + metric_cols + top_pct_cols_this
cols_last = ['cstmr_id'] + metric_cols
df_this = df_info[df_info['bgn_ymd'] == this_week][cols_this]
df_last = df_info[df_info['bgn_ymd'] == last_week][cols_last]


# 학생별로 이번 주/지난 주 데이터 병합(suffixes에 top% 칼럼은 _this만 추가)
df_compare = pd.merge(
    df_this, df_last, on='cstmr_id', suffixes=('_this', '_last')
)

# 변화 요약 및 상위 10% 지표 적용
df_compare['change_summary'] = df_compare.apply(
    lambda row: find_changed_metrics(row, metric_cols, thresholds), axis=1
)
df_compare['top10_metrics'] = df_compare.apply(
    lambda row: find_top10_metrics(row), axis=1
)

KeyError: "['weekly_reading_focus_score', 'weekly_rhytm_score', 'weekly_volume_score', 'weekly_nscdl_learning_score', 'weekly_retry_rate', 'weekly_problem_focus_score', 'weekly_content_interaction_score', 'comp_rate', 'atnd_rate', 'qst_crct_rate', 'unit_avg_score', 'comp_top_percentile', 'atnd_top_percentile', 'qst_crct_top_percentile', 'unit_avg_score_top_percentile'] not in index"

In [12]:
# ------------------- 출력 포맷 함수 ------------------- #
# 컬럼명 한글 매핑(필요시 수정)
metric_label_map = {
    'weekly_reading_focus_score': '독서 몰입 점수',
    'weekly_rhytm_score': '학습 리듬 점수',
    'weekly_volume_score': '주간 학습량 점수',
    'weekly_nscdl_learning_score': '비교과 학습 점수',
    'weekly_retry_rate': '재도전 비율',
    'weekly_problem_focus_score': '문제 집중 점수',
    'weekly_content_interaction_score': '콘텐츠 상호작용 점수',
    'comp_rate': '학습완료율',
    'atnd_rate': '출석률',
    'qst_crct_rate': '최초정답률',
    'unit_avg_score': '단원평가 평균 점수'
}

def format_result(row):
    상승 = [
        (metric_label_map.get(col, col), f"{round(rate*100, 1)}% (기준 {int(thr*100)}%)")
        for col, rate, thr in row['change_summary']['상승']
    ]
    하락 = [
        (metric_label_map.get(col, col), f"{round(rate*100, 1)}% (기준 {int(thr*100)}%)")
        for col, rate, thr in row['change_summary']['하락']
    ]
    상위10 = row['top10_metrics']
    return {
        '상승 지표': 상승,
        '하락 지표': 하락,
        '상위 10% 지표': 상위10
    }

df_compare['formatted_summary'] = df_compare.apply(format_result, axis=1)

NameError: name 'df_compare' is not defined

### (2) Prompt 1. 주간특이사항 - 메시지 출력

In [None]:
def make_prompt(row):
    prompt = f"""
다음은 cluster_id {row.cluster_id}번 학습자 그룹의 핵심 전략입니다:
\"\"\"{row.strategy}\"\"\"

당신은 초등학생 맞춤 온라인 학습 멘토입니다. 

[요청 사항]


[출력 예시] (형식만 참고, 내용은 복붙 금지)


[기본 정보]
- 학생명: {row['cstmr_fnm']}
- 학년 코드: {row['sa_grad_cd']} 
- 본부명: {row['bsns_orgn_scn_nm']}
- 관리유형: {row['cstmr_mngt_tp']}
- 담임교사: {row.get('tchr_eno', '정보없음')}

[주간 특이사항]
{row.formatted_summary}

주간 특이사항을 참고해서 
1. 상승, 상위 10%안에 든 부분에 대해서는 칭찬
2. 하락한 부분에서는 보완할 수 있도록 메시지 출력해줘
"""
    return prompt

In [None]:
sample_row = df_merged.iloc[0]
prompt = make_prompt(sample_row)

response = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
        {"role": "system", "content": "당신은 초등학생 맞춤 학습 멘토입니다."},
        {"role": "user", "content": prompt}
    ],
    temperature=1,
    max_tokens=200
)
print(response.choices[0].message.content)

## Prompt 3. 이번주 지도가이드

In [None]:
def make_prompt(row):
    prompt = f"""
다음은 cluster_id {row.cluster_id}번 학습자 그룹의 핵심 전략입니다:
\"\"\"{row.strategy}\"\"\"

당신은 초등학생 맞춤 온라인 학습 멘토입니다. 위 전략을 반드시 반영하여 아래 4가지 전략을 작성해주세요.

[요청 사항]
- 출력은 반드시 숫자만 포함된 번호 (1. 2. 3. 4.)로 시작하세요.
- 각 문장은 '~하기'로 끝나는 문장으로 두 문장을 작성하세요.
- 항목명(praise_strategy 등)은 절대 포함하지 마세요.
- 전략은 모두 위 핵심 전략을 기반으로 차별화되어야 합니다.

[출력 예시] (형식만 참고, 내용은 복붙 금지)
1. 꾸준히 복습한 점을 칭찬하기
2. 부족한 개념을 다시 점검하기
3. 오답 노트를 정리하기
4. 매일 정해진 시간에 공부하기

[기본 정보]
- 학생명: {row['cstmr_fnm']}
- 학년 코드: {row['sa_grad_cd']} 
- 본부명: {row['bsns_orgn_scn_nm']}
- 관리유형: {row['cstmr_mngt_tp']}
- 담임교사: {row.get('tchr_eno', '정보없음')}

[주간 학습 지표]
- 독서 몰입 점수: {row.get('weekly_reading_focus_score', '정보없음')}
- 주간 리듬 점수: {row.get('weekly_rhytm_score', '정보없음')}
- 주간 학습량 점수: {row.get('weekly_volume_score', '정보없음')}
- 자발 학습 성향 점수: {row.get('weekly_nscdl_learning_score', '정보없음')}
- 재도전 학습 태도 점수: {row.get('weekly_retry_rate', '정보없음')}
- 문제 집중도 점수: {row.get('weekly_problem_focus_score', '정보없음')}
- 콘텐츠 상호작용 점수: {row.get('weekly_content_interaction_score', '정보없음')}

[주요 성취 지표]
- 학습완료율: {row.get('comp_rate', '정보없음')}% (등수: {row.get('comp_rank', '정보없음')}, 상위 {row.get('comp_top_percentile', '정보없음')}%)
- 출석률: {row.get('atnd_rate', '정보없음')}% (등수: {row.get('atnd_rank', '정보없음')}, 상위 {row.get('atnd_top_percentile', '정보없음')}%)
- 최초정답률: {row.get('qst_crct_rate', '정보없음')}% (등수: {row.get('qst_crct_rank', '정보없음')}, 상위 {row.get('qst_crct_top_percentile', '정보없음')}%)
- 단원평가 평균 점수: {row.get('unit_avg_score', '정보없음')}점 (등수: {row.get('unit_avg_score_rank', '정보없음')}, 상위 {row.get('unit_avg_score_top_percentile', '정보없음')}%)

[클러스터/세그먼트 정보]
- 클러스터 유형: {row.get('cluster_type', '정보없음')}
- 클러스터 해석: {row.get('cluster_desc', '정보없음')}
- 세그먼트 유형: {row.get('segment_type', '정보없음')}
- 세그먼트 해석: {row.get('segment_desc', '정보없음')}

위 정보를 바탕으로,
1. 학생의 강점과 특성을 2~3문장으로 설명  
2. 이번 주 학습에서 중요한 포인트/주의점 제시  
3. 학생을 위한 맞춤 격려 메시지

총 3단락으로, 자연스럽고 구체적으로 작성해 주세요.
"""
    return prompt