In [1]:
import os

import pandas as pd

# CSV 파일 읽기
df = pd.read_csv('story/picture_all.csv')

# 데이터 확인
print(df.columns)

Index(['isbn', 'textID', 'classification', 'text', 'imageFile', 'imageCaption',
       'word_count', 'word_avg', 'word_hard', 'length', 'Cluster',
       'Difficulty_Level'],
      dtype='object')


In [2]:
from pymongo import MongoClient
from datetime import datetime
import os
from dotenv import load_dotenv

load_dotenv("../glu-recommend.env")

print(os.getenv('MONGODB_URL'))

# MongoDB 연결
client = MongoClient(os.getenv('MONGODB_URL'))  # MongoDB 주소와 포트
db = client[os.getenv('MONGODB_DATABASE')]  # 사용할 데이터베이스 이름
collection = db['problem']  # 사용할 컬렉션 이름

print(collection.find_one())

mongodb+srv://S11P22A506:denr23bdoE@ssafy.ngivl.mongodb.net/S11P22A506?authSource=admin
{'_id': ObjectId('66ffaba005d56ec9f948cdd3'), 'title': '다음 정보를 보고 의미하는 단어를 고르세요', 'content': '한곳에서 다른 곳으로 장소를 이동하다.', 'answer': 2, 'solution': "이 단어는 한 곳에서 다른 곳으로 이동하는 것을 의미하기 때문에 '가다'가 정답입니다.", 'questionTypeCode': 'QT01', 'problemLevelCode': 'PL01', 'problemTypeCode': 'PT01', 'problemTypeDetailCode': 'PT0111', 'metadata': {'options': ['놀다', '가다', '먹다', '자다']}, 'createdDate': '2024-09-23T17:30:33.546037', 'modifiedDate': '2024-09-23T17:30:33.546037'}


In [3]:
import numpy as np
classifications = [
    "의사소통", "예술경험", "신체운동_건강", "자연탐구", 
    "사회관계", "시사", "과학", "문화", 
    "사설", "교육", "경제", "nie"
]

def vectorize(data):
    numeric_features = np.array([
        data["word_count"],
        data["word_avg"],
        data["word_hard"],
        data["length"],
        classifications.index(data['classification'])
    ])
    
    return numeric_features

In [4]:
from datetime import datetime

class Problem:
    def __init__(self, vector, title, content, answer, solution,
                 word_count=0, word_avg=0.0, word_hard=0.0, length=0, classification=12,
                 question_type_code="QT01", problem_level_code="PL01",
                 problem_type_code="PT01", problem_type_detail_code="PT0111",
                 options=None):
        self.title = title
        self.content = content
        self.answer = answer
        self.solution = solution
        self.questionTypeCode = question_type_code
        self.problemLevelCode = problem_level_code
        self.problemTypeCode = problem_type_code
        self.problemTypeDetailCode = problem_type_detail_code
        self.metadata = {
            "options": options if options else [],  # 기본값은 빈 리스트
            "word_count": word_count,  # 추가된 속성
            "word_avg": word_avg,      # 추가된 속성
            "word_hard": word_hard,    # 추가된 속성
            "length": length,          # 추가된 속성
            "classification": classification, # 추가된 속성
            "vector": vector
        }
        self.createdDate = datetime.utcnow()  # 현재 UTC 시간으로 생성일 설정
        self.modifiedDate = datetime.utcnow()  # 현재 UTC 시간으로 수정일 설정

    def to_dict(self):
        """객체를 딕셔너리로 변환하여 MongoDB에 저장할 수 있도록 하는 메서드"""
        return {
            "title": self.title,
            "content": self.content,
            "answer": self.answer,
            "solution": self.solution,
            "questionTypeCode": self.questionTypeCode,
            "problemLevelCode": self.problemLevelCode,
            "problemTypeCode": self.problemTypeCode,
            "problemTypeDetailCode": self.problemTypeDetailCode,
            "metadata": self.metadata,
            "createdDate": self.createdDate.isoformat(),  # ISO 형식으로 변환
            "modifiedDate": self.modifiedDate.isoformat()   # ISO 형식으로 변환
        }


In [5]:
import random

def makeProblem(index, data):
    answer_index = random.randint(0, 3)
    
    images = []

    while True:
        # 랜덤으로 4개의 숫자 선택
        images = random.sample(range(len(df)), 4)
        
        # index가 포함되어 있는지 확인
        if index not in images:
            break  # index가 없으면 루프 종료
            
    images[answer_index] = index  # 정답 위치에 index 할당
    
    # 이미지 파일을 images에 할당
    for i in range(len(images)):
        images[i] = df.iloc[images[i]]['imageFile']  # 올바른 인덱스를 사용
    
    problem = Problem(
        title='주어진 글을 읽고, 연상되는 그림을 선택하십시오.',
        content=data['text'],
        answer=answer_index+1,
        solution='해설',
        question_type_code='QT01',
        problem_level_code=f"PL0{data['Difficulty_Level']}",
        problem_type_code='PT03',
        problem_type_detail_code='PT0311',
        word_hard=data['word_hard'],
        length=data['length'],
        word_count=data['word_count'],
        word_avg=data['word_avg'],
        classification=classifications.index(data['classification']),
        options=images,
        vector=vectorize(data).tolist()
    )
    
    return problem


In [6]:
for index, data in df.iterrows():
    make_problem = makeProblem(index, data)
    collection.insert_one(make_problem.to_dict())

In [7]:
len(df)

4648