In [8]:
from openai import OpenAI
import pandas as pd
from pathlib import Path
from tqdm import tqdm
import json
import re

# API 및 모델
client = OpenAI(api_key="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")
MODEL_NAME = "gpt-4o-mini"

# 경로
base_dir = Path("./data")
output_dir = Path('./result')
info_path = base_dir / "학생정보.csv"
cluster_path = base_dir / "클러스터_메타.csv"
segment_path = base_dir / "세그먼트_메타.csv"

In [None]:
# 데이터 로드
df_info = pd.read_csv(info_path)
df_cluster = pd.read_csv(cluster_path)
df_segment = pd.read_csv(segment_path)

# cstmr_id 기준 병합 (학생정보 + 클러스터 + 세그먼트)
df_merged = (
    df_info
    .merge(df_cluster, on="cstmr_id", how="left", suffixes=('', '_cluster'))
    .merge(df_segment, on="cstmr_id", how="left", suffixes=('', '_segment'))
)

## Prompt 1. 주간특이사항

### Prompt 1. 주간특이사항 - 데이터 준비

In [None]:
metric_cols = [
    'weekly_reading_focus_score',
    'weekly_rhytm_score',
    'weekly_volume_score',
    'weekly_nscdl_learning_score',
    'weekly_retry_rate',
    'weekly_problem_focus_score',
    'weekly_content_interaction_score',
    'comp_rate',
    'atnd_rate',
    'qst_crct_rate',
    'unit_avg_score'
]

##################### 메시지 생성날짜 지정 필요 #####################
msg_date = '2024-06-17'


# 각 지표별 임계값(예시, 필요시 값 수정)
thresholds = {
    'weekly_reading_focus_score': 0.15,       # 15%
    'weekly_rhytm_score': 0.2,                # 20%
    'weekly_volume_score': 0.1,               # 10%
    'weekly_nscdl_learning_score': 0.2,
    'weekly_retry_rate': 0.3,                 # 30%
    'weekly_problem_focus_score': 0.2,
    'weekly_content_interaction_score': 0.1,
    'comp_rate': 0.15,
    'atnd_rate': 0.1,
    'qst_crct_rate': 0.2,
    'unit_avg_score': 0.05                    # 5%
}


# 상위 10% 관련 칼럼 매핑 (지표명, 상위% 칼럼명, 출력용 라벨)
top_percent_cols = [
    ('comp_rate', 'comp_top_percentile', '학습완료율'),
    ('atnd_rate', 'atnd_top_percentile', '출석률'),
    ('qst_crct_rate', 'qst_crct_top_percentile', '최초정답률'),
    ('unit_avg_score', 'unit_avg_score_top_percentile', '단원평가 평균 점수'),
]


def find_changed_metrics(row, metric_cols, thresholds):
    result = {'상승': [], '하락': []}
    for col in metric_cols:
        now = row.get(f'{col}_this')
        prev = row.get(f'{col}_last')
        # 결측치, 0으로 나누기 방지
        if pd.isnull(now) or pd.isnull(prev) or prev == 0:
            continue
        rate = (now - prev) / abs(prev)
        thr = thresholds.get(col, 0.2)   # 지정 없으면 기본 20%
        if rate >= thr:
            result['상승'].append((col, rate, thr))
        elif rate <= -thr:
            result['하락'].append((col, rate, thr))
    return result


# 상위 10% 지표 추출 함수
def find_top10_metrics(row):
    result = []
    for col, pct_col, label in top_percent_cols:
        pct_val = row.get(f'{pct_col}_this')
        if pd.notnull(pct_val) and pct_val <= 10:
            # 소수점은 정수로 변환
            val = int(pct_val) if pct_val == int(pct_val) else round(pct_val, 1)
            result.append((label, f'{val}%'))
    return result


# 메시지 생성 날짜 (YYYY-MM-DD 형식)
msg_date_dt = pd.to_datetime(msg_date)
last_week_date_dt = msg_date_dt - pd.Timedelta(days=7)

this_week = msg_date_dt.strftime('%Y-%m-%d')
last_week = last_week_date_dt.strftime('%Y-%m-%d')

# 이번주/지난주/상위% 칼럼 포함 데이터프레임 추출
top_pct_cols_this = [col for _, pct_col, _ in top_percent_cols for col in [pct_col]]
cols_this = ['cstmr_id'] + metric_cols + top_pct_cols_this
cols_last = ['cstmr_id'] + metric_cols
df_this = df_info[df_info['bgn_ymd'] == this_week][cols_this]
df_last = df_info[df_info['bgn_ymd'] == last_week][cols_last]


# 학생별로 이번 주/지난 주 데이터 병합(suffixes에 top% 칼럼은 _this만 추가)
df_compare = pd.merge(
    df_this, df_last, on='cstmr_id', suffixes=('_this', '_last')
)

# 변화 요약 및 상위 10% 지표 적용
df_compare['change_summary'] = df_compare.apply(
    lambda row: find_changed_metrics(row, metric_cols, thresholds), axis=1
)
df_compare['top10_metrics'] = df_compare.apply(
    lambda row: find_top10_metrics(row), axis=1
)

In [None]:
# ------------------- 출력 포맷 함수 ------------------- #
# 컬럼명 한글 매핑(필요시 수정)
metric_label_map = {
    'weekly_reading_focus_score': '독서 몰입 점수',
    'weekly_rhytm_score': '학습 리듬 점수',
    'weekly_volume_score': '주간 학습량 점수',
    'weekly_nscdl_learning_score': '비교과 학습 점수',
    'weekly_retry_rate': '재도전 비율',
    'weekly_problem_focus_score': '문제 집중 점수',
    'weekly_content_interaction_score': '콘텐츠 상호작용 점수',
    'comp_rate': '학습완료율',
    'atnd_rate': '출석률',
    'qst_crct_rate': '최초정답률',
    'unit_avg_score': '단원평가 평균 점수'
}

def format_result(row):
    상승 = [
        (metric_label_map.get(col, col), f"{round(rate*100, 1)}% (기준 {int(thr*100)}%)")
        for col, rate, thr in row['change_summary']['상승']
    ]
    하락 = [
        (metric_label_map.get(col, col), f"{round(rate*100, 1)}% (기준 {int(thr*100)}%)")
        for col, rate, thr in row['change_summary']['하락']
    ]
    상위10 = row['top10_metrics']
    return {
        '상승 지표': 상승,
        '하락 지표': 하락,
        '상위 10% 지표': 상위10
    }

df_compare['formatted_summary'] = df_compare.apply(format_result, axis=1)

### Prompt 2. 주간특이사항 출력

In [None]:
def make_prompt(row):
    prompt = f"""
당신은 초등학생 맞춤형 학습 멘토입니다. 아래 학생 정보를 보고, 맞춤형 격려와 지도 메시지를 작성하세요.

[기본 정보]
- 학생명: {row['cstmr_fnm']}
- 학년 코드: {row['sa_grad_cd']} 
- 본부명: {row['bsns_orgn_scn_nm']}
- 관리유형: {row['cstmr_mngt_tp']}
- 담임교사: {row.get('tchr_eno', '정보없음')}

[주간 학습 지표]
- 독서 몰입 점수: {row.get('weekly_reading_focus_score', '정보없음')}
- 주간 리듬 점수: {row.get('weekly_rhytm_score', '정보없음')}
- 주간 학습량 점수: {row.get('weekly_volume_score', '정보없음')}
- 자발 학습 성향 점수: {row.get('weekly_nscdl_learning_score', '정보없음')}
- 재도전 학습 태도 점수: {row.get('weekly_retry_rate', '정보없음')}
- 문제 집중도 점수: {row.get('weekly_problem_focus_score', '정보없음')}
- 콘텐츠 상호작용 점수: {row.get('weekly_content_interaction_score', '정보없음')}

[주요 성취 지표]
- 학습완료율: {row.get('comp_rate', '정보없음')}% (등수: {row.get('comp_rank', '정보없음')}, 상위 {row.get('comp_top_percentile', '정보없음')}%)
- 출석률: {row.get('atnd_rate', '정보없음')}% (등수: {row.get('atnd_rank', '정보없음')}, 상위 {row.get('atnd_top_percentile', '정보없음')}%)
- 최초정답률: {row.get('qst_crct_rate', '정보없음')}% (등수: {row.get('qst_crct_rank', '정보없음')}, 상위 {row.get('qst_crct_top_percentile', '정보없음')}%)
- 단원평가 평균 점수: {row.get('unit_avg_score', '정보없음')}점 (등수: {row.get('unit_avg_score_rank', '정보없음')}, 상위 {row.get('unit_avg_score_top_percentile', '정보없음')}%)

[클러스터/세그먼트 정보]
- 클러스터 유형: {row.get('cluster_type', '정보없음')}
- 클러스터 해석: {row.get('cluster_desc', '정보없음')}
- 세그먼트 유형: {row.get('segment_type', '정보없음')}
- 세그먼트 해석: {row.get('segment_desc', '정보없음')}

위 정보를 바탕으로,
1. 학생의 강점과 특성을 2~3문장으로 설명  
2. 이번 주 학습에서 중요한 포인트/주의점 제시  
3. 학생을 위한 맞춤 격려 메시지

총 3단락으로, 자연스럽고 구체적으로 작성해 주세요.
"""
    return prompt

In [None]:
sample_row = df_merged.iloc[0]
prompt = make_prompt(sample_row)

response = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
        {"role": "system", "content": "당신은 초등학생 맞춤 학습 멘토입니다."},
        {"role": "user", "content": prompt}
    ],
    temperature=0.7,
    max_tokens=200
)
print(response.choices[0].message.content)

## 학습전략 TEST

In [None]:

# API 및 모델
client = OpenAI(api_key="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")
MODEL_NAME = "gpt-4o-mini"

In [None]:
prompt = f"""
핵심전략 : (자율성 존중, 관계중심 몰입 + 자기성찰, 학습의 의미화, 자기효능감 강화)

위의 핵심전략을 보고 구체적 방향 뽑아줘
예시 : 스스로 계획 세우기 유도, 오픈형 질문활용
"""

In [11]:
response = client.chat.completions.create(
    model=MODEL_NAME,
    messages=[
        {"role": "system", "content": "당신은 초등학생 맞춤 학습 멘토입니다."},
        {"role": "user", "content": prompt}
    ],
    temperature=0.7,
    max_tokens=200
)
print(response.choices[0].message.content)

아래는 제시된 핵심전략을 바탕으로 한 구체적인 방향입니다:

1. **자율성 존중**
   - **스스로 목표 설정하기**: 학생들이 자신의 학습 목표를 설정하고 이를 이루기 위한 계획을 세우도록 유도합니다.
   - **선택권 제공하기**: 과제나 프로젝트 선택 시 여러 옵션을 제공하여 학생들이 스스로 선택할 수 있도록 합니다.

2. **관계중심 몰입**
   - **협동 학습 활동**: 팀 프로젝트나 그룹 토론을 통해 학생들이 서로 협력하고 소통할 수 있는 기회를 제공합니다.
   - **멘토링 프로그램**: 상급생이나 교사와의 멘토링 관계를 통해 긍정적인 관계를 형성할 수 있도록 지원합니다.

3. **자기성찰**
   - **일지 작성하기**: 매일 또는 매주 학습한 내용을
