In [None]:
!pip install pandas openpyxl

In [None]:
!pip install supabase

In [2]:
import pandas as pd
import glob
import os
from supabase import create_client, Client

In [78]:
# Supabase API 정보 입력 (자신의 Supabase 프로젝트 URL과 API 키로 대체)
url = 'https://aqwfljjtpddgqznegtfu.supabase.co'  # Supabase API URL
key = 'my-key'  # Supabase API 키

# Supabase 클라이언트 생성
supabase: Client = create_client(url, key)

In [None]:
license = '미용사(일반)'
license_id = ''

response = supabase.table('licenses').select('id').eq('license', license).execute()

# id 값 추출
if response.data:
    license_id = response.data[0]['id']  # 첫 번째 row의 'id'를 사용
    print(f"License ID: {license_id}")
else:
    raise ValueError(f"No license found with name '{license}'")

In [28]:
folder_path = r'미용사(일반)'
file_paths = glob.glob(os.path.join(folder_path, "*.xlsx"))

# 파일들을 저장할 데이터프레임 리스트
questions_df_list = []

# 각 파일을 읽어서 데이터프레임으로 변환 후 리스트에 추가
for file in file_paths:
    df = pd.read_excel(file)
    
    # 파일 이름 추출 후 리스트에 추가
    file_name = os.path.basename(file)
    date_str = file_name.split('미용사(일반)')[1][:8]  # '20040201' 부분 추출

    # 새로운 'date' 열 추가 (문자열을 날짜 형식으로 변환할 수도 있음)
    # df['made_at'] = pd.to_datetime(date_str, format='%Y%m%d')
    df['made_at'] = pd.to_datetime(date_str, format='%Y%m%d').strftime('%Y-%m-%d')
    df['license'] = license_id
    df = df.drop(columns=['보기', '분류', '선택지 1', '선택지 2', '선택지 3', '선택지 4', '정답 인덱스'])
    df = df.rename(columns={'번호': 'no', '호':'no'})
    df = df.rename(columns={'문제': 'content'})

    questions_df_list.append(df)

In [None]:
for index, df in enumerate(questions_df_list):
    if '호' in df.columns:
        print(f"DataFrame at index {index} contains the '호' column.")
        
        # '호' 컬럼을 'no'로 변경
        questions_df_list[index] = df.rename(columns={'호': 'no'})
        
        # 변경된 데이터프레임 출력 (선택 사항)
        print(questions_df_list[index])


In [34]:
for index, df in enumerate(questions_df_list):
    if '호' in df.columns:
        print(f"DataFrame at index {index} contains the '호' column.")
        print(df)  # 해당 데이터프레임 출력

In [None]:
questions_df_list[6].head(5)

In [None]:
# 삽입할 때 배치 크기 설정 (한 번에 100개씩 삽입)
batch_size = 100

# df_list에 저장된 각 데이터프레임을 Supabase에 삽입
for df in questions_df_list:
    # 데이터프레임을 딕셔너리 리스트로 변환
    data_list = df.to_dict(orient='records')

    # 데이터를 batch_size만큼 나누어서 삽입
    for i in range(0, len(data_list), batch_size):
        batch_data = data_list[i:i + batch_size]

        try:
            # Supabase 테이블에 삽입
            response = supabase.table('questions').insert(batch_data).execute()

            # 오류가 발생했을 때만 출력
            if not response.data:
                print(f"Error inserting batch {i // batch_size + 1}: {response}")
        except Exception as e:
            print(f"Exception occurred during batch {i // batch_size + 1}: {e}")

In [104]:
# 1. `questions` 테이블에서 `question_id` 가져오기
def get_question_id(supabase, question_content, made_at, question_license_id):
    # 'questions' 테이블에서 문제와 made_at을 기준으로 question_id 가져오기
    response = supabase.table('questions').select('id').eq('content', question_content).eq('made_at', made_at).eq('license', question_license_id).execute()
    
    # 응답에서 question_id 추출 (첫 번째 항목만 사용)
    if response.data and len(response.data) > 0:
        return response.data[0]['id']
    else:
        print(f"Question not found for content: {question_content}, made_at: {made_at}")
        return None

In [105]:
import pandas as pd
import uuid

# NaN 값이 있는 content 컬럼을 UUID로 대체하고 type 컬럼을 "image"로 변경
def replace_nan_with_uuid(row):
    if pd.isna(row['content']):
        row['content'] = str(uuid.uuid4())
        row['type'] = 'image'
    return row

In [110]:
# 2. 선택지 데이터를 기반으로 `question_options`용 데이터프레임 생성
def create_question_options_df(question_id, options, correct_index):
    # 선택지번호(1~4), 선택지내용, 정답인덱스 포함한 데이터프레임 생성
    df_options = pd.DataFrame({
        'question_id': [question_id] * len(options),
        'no': list(range(1, len(options) + 1)),  # 선택지 번호는 1부터 시작
        'content': options,
        '정답인덱스': [correct_index] * len(options)  # 모든 행에 정답 인덱스 동일하게 추가
    })
    # 'is_correct' 컬럼 추가: 선택지번호가 정답인덱스와 같은 경우 True, 그렇지 않으면 False
    df_options['is_correct'] = df_options['no'] == df_options['정답인덱스']
    df_options['type'] = 'text'
    df_options.drop(columns=['정답인덱스'], inplace=True)

    # apply로 각 row를 처리
    df_options = df_options.apply(replace_nan_with_uuid, axis=1)
    return df_options

In [111]:
df_options_list = []

folder_path = r'미용사(일반)'
file_paths = glob.glob(os.path.join(folder_path, "*.xlsx"))

# 각 파일을 읽어서 데이터프레임으로 변환 후 리스트에 추가
for file in file_paths:
    df = pd.read_excel(file)
    
    # 파일 이름 추출 후 리스트에 추가
    file_name = os.path.basename(file)
    date_str = file_name.split('미용사(일반)')[1][:8]  # '20040201' 부분 추출

    # 새로운 'date' 열 추가 (문자열을 날짜 형식으로 변환할 수도 있음)
    # df['made_at'] = pd.to_datetime(date_str, format='%Y%m%d')
    df['made_at'] = pd.to_datetime(date_str, format='%Y%m%d').strftime('%Y-%m-%d')
    df['license'] = license_id

    for idx, row in df.iterrows():
        # 문제와 made_at을 기준으로 `questions` 테이블에서 question_id 가져오기
        question_id = get_question_id(supabase, row['문제'], row['made_at'], row['license'])
        
        if question_id:
            # 각 문제의 선택지 리스트 (1~4번 선택지)
            options = [row['선택지 1'], row['선택지 2'], row['선택지 3'], row['선택지 4']]
            
            # 각 문제의 선택지 데이터프레임 생성
            df_options = create_question_options_df(question_id, options, row['정답 인덱스'])

            
            # 선택지 데이터프레임 리스트에 추가
            df_options_list.append(df_options)

df_all_options = pd.concat(df_options_list, ignore_index=True)
# df_all_options = df_all_options.drop(columns=['정답인덱스'])
df_all_options

Unnamed: 0,question_id,no,content,is_correct,type
0,1,1,빗,False,text
1,1,2,봉잠,False,text
2,1,3,비녀,False,text
3,1,4,첩지,True,text
4,2,1,상조피를 미는 것을 말한다.,False,text
...,...,...,...,...,...
7435,1859,4,1회용 면도날은 손님 1인에 한하여 사용할 것,False,text
7436,1860,1,위생교육 대상자는 이·미용업 영업자이다.,True,text
7437,1860,2,위생교육 대상자는 이·미용사이다.,False,text
7438,1860,3,위생교육 시간은 매년 8시간이다.,False,text


In [113]:
# 삽입할 때 배치 크기 설정 (한 번에 100개씩 삽입)
batch_size = 100

data_list = df_all_options.to_dict(orient='records')

# 데이터를 batch_size만큼 나누어서 삽입
for i in range(0, len(data_list), batch_size):
    batch_data = data_list[i:i + batch_size]

    try:
        # Supabase 테이블에 삽입
        response = supabase.table('question_options').insert(batch_data).execute()

        # 오류가 발생했을 때만 출력
        if not response.data:
            print(f"Error inserting batch {i // batch_size + 1}: {response}")
            
    except Exception as e:
        # 예외가 발생한 경우 출력
        print(f"Exception occurred during batch {i // batch_size + 1}: {e}")

In [119]:
import os
import glob
import io  # 메모리 버퍼를 위한 모듈
from openpyxl.utils import get_column_letter
from openpyxl import load_workbook
from supabase import create_client, Client

# Supabase API 정보 입력 (자신의 Supabase 프로젝트 URL과 API 키로 대체)
url = 'https://aqwfljjtpddgqznegtfu.supabase.co'  # Supabase API URL
key = 'eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6ImFxd2Zsamp0cGRkZ3F6bmVndGZ1Iiwicm9sZSI6InNlcnZpY2Vfcm9sZSIsImlhdCI6MTcyNTUwNTAxNSwiZXhwIjoyMDQxMDgxMDE1fQ.C-rifI7V5uk1ejO61vmNe4e9xzoEsStPrBrL9cGzh9E'  # Supabase API 키

# Supabase 클라이언트 생성
supabase: Client = create_client(url, key)

# 엑셀 파일이 있는 폴더 경로 설정
folder_path = '미용사(일반)/'

# 폴더 내 모든 엑셀 파일 (*.xlsx) 경로를 가져옴
excel_files = glob.glob(os.path.join(folder_path, "*.xlsx"))

# 폴더 내 엑셀 파일 순회
for file_path in excel_files:
    # 엑셀 파일 이름 추출 (확장자 제거)
    file_name = os.path.splitext(os.path.basename(file_path))[0]

    # '미용사(일반)' 접두사를 제거하여 날짜 부분만 추출
    date_part = file_name.replace('미용사(일반)', '').strip().replace('(교사용)', '')

    # 엑셀 파일 로드
    workbook = load_workbook(file_path)

    # 첫 번째 시트 선택 (필요에 따라 다른 시트를 선택할 수 있음)
    sheet = workbook.active

    # 시트에서 이미지 추출
    fileNumber = 1

    for index, img in enumerate(sheet._images):  # _images 속성으로 이미지 접근
        if(fileNumber == 5): fileNumber = 1  # 1부터 4까지만 사용
        
        # 열 번호를 엑셀의 알파벳 형식으로 변환 (예: 1 -> 'A')
        col_letter = get_column_letter(img.anchor._from.col)
        img_ref = f"{col_letter}{img.anchor._from.row}"  # 이미지가 시작되는 셀 주소
        
        if img_ref[0] != 'C':  # 'C' 열이 아닌 경우만 처리
            # 왼쪽 열(A열)의 해당 행 값 추출
            left_cell_value = sheet[f'A{img.anchor._from.row + 1}'].value  # 이미지가 위치한 행의 A열 값

            # 소수점 제거 (숫자인 경우)
            if isinstance(left_cell_value, float):
                left_cell_value = int(left_cell_value)  # 소수점 제거

            # question_id를 가져오기 위한 로직 (필요시 적절하게 수정)
            question = supabase.table("questions").select("*").eq("made_at", date_part).eq("no", left_cell_value).execute()
            question_id = question.data[0]['id'] if question.data else None

            if question_id:
                # question_options 테이블에서 UUID 가져오기
                option = supabase.table("question_options").select("content").eq("question_id", question_id).eq("no", fileNumber).execute()
                uuid_value = option.data[0]['content'] if option.data else None

                if uuid_value:
                    # 이미지 데이터를 메모리에서 바로 처리
                    img_buffer = io.BytesIO(img._data())  # 메모리 버퍼에 이미지 데이터 저장
                    
                    # Supabase 스토리지에 이미지 업로드 (img_buffer의 내용을 바이트로 변환)
                    storage_path = f"{uuid_value}.png"  # 파일 이름을 UUID로만 지정 (디렉토리 구조 없음)
                    img_buffer.seek(0)  # 버퍼의 처음으로 이동
                    res = supabase.storage.from_("question_img").upload(storage_path, img_buffer.read())  # img_buffer 데이터를 바이트로 변환

                    if res:
                        print(f"Image uploaded to Supabase: {storage_path}")
                    else:
                        print(f"Failed to upload image: {uuid_value}.png")

                fileNumber += 1


Image uploaded to Supabase: 344fd8a0-fd7e-47fa-9eec-4e8f52787f0a.png
Image uploaded to Supabase: 80a4c990-721e-44a5-89c3-4ffe8e346edc.png
Image uploaded to Supabase: 08b2a6e5-9231-4987-88e5-d24f3a760858.png
Image uploaded to Supabase: 371d5763-16e7-47e0-ae1a-662b4257b454.png
Image uploaded to Supabase: 972beac6-7317-4f81-b290-d6c99e02d900.png
Image uploaded to Supabase: ac78b000-b30b-493e-bc94-e89f25825a2a.png
Image uploaded to Supabase: af450f61-fde5-489e-b6c1-1909ad70c3be.png
Image uploaded to Supabase: df975f21-27b7-4a22-af29-a9255cb04592.png
Image uploaded to Supabase: e941c019-5cb9-42c7-afdd-2a0349f2eb4c.png
Image uploaded to Supabase: 0d1c0ef4-f830-4b17-a73a-313dcb75ed70.png
Image uploaded to Supabase: c94e8ae8-dbd0-423e-a198-385930f75433.png
Image uploaded to Supabase: 91589192-c519-4bba-a2cd-d0e7e006ecfb.png
Image uploaded to Supabase: d1d7d297-79b7-4266-ba07-2baccb3b0bec.png
Image uploaded to Supabase: 8c73ff47-52c8-4a11-aeab-22d06d5d82b6.png
Image uploaded to Supabase: b40628