
# <span style="color:royalblue">[생성형 AI] 챗GPT를 활용한 데이터 모델링 </span> 

# GPT3.5 무료버전 활용 2024 데이터 생성 프롬프트와 코드

--- 

<div style="text-align: right"> Final Edition : 2024.4.18<br>
    copyrightⓒ 2024 All rights reserved by Data Lover Pablo </div>

# 1. 제품 테이블

In [10]:
import pandas as pd
import numpy as np

# 데이터 생성 함수 정의
def generate_products(num_rows):
    # 제품명과 가격 데이터
    products_data = {
        '제품명': [
            '스초생', 'TWG 1837 블랙티 무스', '투썸 해피데이 베어', '빅토리아다쿠아즈초콜릿생크림',
            '나만의 디자인케이크 DIY', '클래식가토쇼콜라', '마스카포네티라미수', '뉴욕치즈', '퀸즈캐롯',
            '파티팩 스트로베리 초콜릿 생크림', '홀리데이 위시 캔들', '스트로베리 레드 벨벳',
            '민트볼 가토 쇼콜라', '딸기생크림1호'
        ],
        '가격': [
            '37,000원', '37,000원', '37,000원', '38,000원',
            '33,000원', '36,000원', '37,000원', '37,000원', '36,000원',
            '40,200원', '37,000원', '38,000원', '37,000원', '34,000원'
        ]
    }

    # 제품 ID 생성 (영문 1자리 + 숫자 4자리)
    product_ids = ['P' + str(i).zfill(4) for i in range(1, num_rows + 1)]

    # 데이터 프레임 생성
    products_df = pd.DataFrame({
        '제품ID': product_ids,
        '제품명': products_data['제품명'],
        '가격': [int(price.replace(',', '').replace('원', '')) for price in products_data['가격']]
    })

    return products_df

# 데이터 생성
num_rows = 14  # 제품 수에 맞게 설정
products_df = generate_products(num_rows)

# 결과 출력
products_df


Unnamed: 0,제품ID,제품명,가격
0,P0001,스초생,37000
1,P0002,TWG 1837 블랙티 무스,37000
2,P0003,투썸 해피데이 베어,37000
3,P0004,빅토리아다쿠아즈초콜릿생크림,38000
4,P0005,나만의 디자인케이크 DIY,33000
5,P0006,클래식가토쇼콜라,36000
6,P0007,마스카포네티라미수,37000
7,P0008,뉴욕치즈,37000
8,P0009,퀸즈캐롯,36000
9,P0010,파티팩 스트로베리 초콜릿 생크림,40200


# 2. 공급 테이블

In [39]:
import pandas as pd
import random
from datetime import datetime, timedelta

def generate_supply_data(num_rows):
    # 제품 ID 리스트 생성
    product_ids = ['P' + str(i).zfill(4) for i in range(1, num_rows + 1)]

    # 공급정보 테이블 초기화
    supply_table = []

    # 현재 날짜 설정
    current_date = datetime(2024, 4, 30)

    # 공급ID 초기값 설정
    supply_id_counter = 1

    # 랜덤한 공급 정보 생성
    for i in range(num_rows):
        # 랜덤한 공급 날짜 생성 (2024년 1월부터 4월까지)
        supply_date = current_date - timedelta(days=random.randint(0, 120))
        supply_date_str = supply_date.strftime('%Y-%m-%d')
                # 랜덤한 공급자ID 생성
        supplier_id = 'SU' + ''.join(random.choices('0123456789', k=3))
        # 공급ID 생성 (년도_공급자ID_순차번호)
        supply_id = f"{supply_date.year}_{supplier_id}_{supply_id_counter:04d}"  # 예: 2024_SU123_0001
        
        # 순차번호 증가
        supply_id_counter += 1
        
        # 랜덤한 제품ID 선택
        product_id = random.choice(product_ids[:14])  # 14개 제품 중 랜덤 선택
        
        # 랜덤한 공급단가 생성 (30000~33000, 1000 단위)
        supply_price = random.randint(30000, 33000)
        supply_price -= supply_price % 1000
        
        # 랜덤한 공급수량 생성 (10~30)
        supply_quantity = random.randint(10, 30)
        

        
        # 공급 정보 추가
        supply_table.append([supply_date_str, supply_id, product_id, supply_price, supply_quantity, supplier_id])

    # 칼럼명 설정
    columns = ['날짜', '공급ID', '제품ID', '공급단가', '공급수량', '공급자ID']

    # 데이터프레임 생성
    df = pd.DataFrame(supply_table, columns=columns)
    
    return df

# 데이터프레임 생성
supply_df = generate_supply_data(200)

# 결과 출력
supply_df.head()


Unnamed: 0,날짜,공급ID,제품ID,공급단가,공급수량,공급자ID
0,2024-01-27,2024_SU745_0001,P0009,31000,24,SU745
1,2024-02-06,2024_SU370_0002,P0011,30000,25,SU370
2,2024-02-03,2024_SU639_0003,P0011,30000,14,SU639
3,2024-04-05,2024_SU412_0004,P0004,32000,25,SU412
4,2024-01-07,2024_SU701_0005,P0003,31000,10,SU701


# 3. 고객 테이블

In [38]:
import pandas as pd
import random

def generate_customer_data(num_rows):
    # 고객정보 테이블 초기화
    customer_table = []

    # 랜덤한 고객 정보 생성
    for _ in range(num_rows):
        # 랜덤한 고객ID 생성
        customer_id = 'C' + ''.join(random.choices('0123456789', k=4))
        
        # 랜덤한 고객명 생성 (한국어 3글자 랜덤)
        first_names = ['김', '이', '박', '최', '정', '강', '조', '윤', '장', '임', '한', '오', '서', '신', '권', '황', '안', '송', '전', '홍']
        middle_names = ['민', '서', '영', '수', '진', '지', '현', '우', '재', '연', '윤', '하', '준', '호', '승', '성', '중', '용', '규', '은']
        last_names = ['윤', '문', '호', '이', '진', '용', '훈', '민', '범', '규', '하', '산']
        customer_name = random.choice(first_names) + random.choice(middle_names) + random.choice(last_names)
        
        # 랜덤한 전화번호 생성
        phone_number = f"010-{random.randint(1000, 9999)}-XXXX"
        
        # 고객 정보 추가
        customer_table.append([customer_id, customer_name, phone_number])

    # 칼럼명 설정
    columns = ['고객ID', '고객명', '전화번호']

    # 데이터프레임 생성
    df = pd.DataFrame(customer_table, columns=columns)
    
    return df

# 데이터프레임 생성
customer_df = generate_customer_data(100)

# 결과 출력
customer_df.head()


Unnamed: 0,고객ID,고객명,전화번호
0,C2327,조현하,010-6353-XXXX
1,C9842,조민산,010-1742-XXXX
2,C1547,강승규,010-7774-XXXX
3,C2008,정우민,010-8461-XXXX
4,C8464,김지용,010-9632-XXXX


# 4. 판매 테이블

In [66]:
import pandas as pd
import random
from datetime import datetime, timedelta

def generate_sales_data(num_rows, products_df, supply_df, customer_df):
    # 판매정보 테이블 초기화
    sales_table = []

    # 현재 날짜 설정
    current_date = datetime(2024, 4, 30)
    
           # 공급ID 초기값 설정
    sale_id_counter = 1

    # 랜덤한 판매 정보 생성
    for _ in range(num_rows):
        # 랜덤한 판매 날짜 생성 (공급일로부터 1~3일 이내)
        supply_date_index = random.randint(0, len(supply_df) - 1)
        supply_date = datetime.strptime(supply_df.loc[supply_date_index, '날짜'], '%Y-%m-%d')
        sale_date = supply_date + timedelta(days=random.randint(1, 3))
        sale_date_str = sale_date.strftime('%Y-%m-%d')
        
        # 판매ID 생성 (년도_SA_순차번호)
        sale_id = f"{sale_date.year}_SA_{sale_id_counter:04d}"  # 예: 2024_SA_0001
                # 순차번호 증가
        sale_id_counter += 1
        # 랜덤한 제품ID 선택
        product_id = random.choice(products_df['제품ID'])
        
        # 제품ID와 일치하는 제품정보 찾기
        product_info = products_df.loc[products_df['제품ID'] == product_id]
        
        # 제품단가 가져오기
        sales_price = product_info['가격'].values[0]
        
        # 랜덤한 판매수량 생성 (1~3)
        sales_quantity = random.randint(1, 3)
        
        # 랜덤한 고객ID 선택
        customer_id = random.choice(customer_df['고객ID'])
        
        # 판매 정보 추가
        sales_table.append([sale_date_str, sale_id, product_id, sales_price, sales_quantity, customer_id])

    # 칼럼명 설정
    columns = ['날짜', '판매ID', '제품ID', '판매단가', '판매수량', '고객ID']

    # 데이터프레임 생성
    df = pd.DataFrame(sales_table, columns=columns)
    
    return df

# 데이터프레임 생성
sales_df = generate_sales_data(1000, products_df, supply_df, customer_df)

# 결과 출력
sales_df.head()


Unnamed: 0,날짜,판매ID,제품ID,판매단가,판매수량,고객ID
0,2024-02-15,2024_SA_0001,P0010,40200,1,C2543
1,2024-01-13,2024_SA_0002,P0002,37000,1,C2638
2,2024-03-10,2024_SA_0003,P0009,36000,3,C0628
3,2024-02-25,2024_SA_0004,P0014,34000,2,C5810
4,2024-04-10,2024_SA_0005,P0004,38000,1,C1873


# 5. 날짜 테이블

### 프롬프트 명령어

5. 날짜 테이블 생성해줘

- 칼럼명 : 날짜  
- 데이터 크기 : 365 X 1  
- 날짜 : 2024-01-01~2024-12-31 (YYYY-MM-DD)  

In [70]:
import pandas as pd
from datetime import datetime, timedelta

def generate_date_table(start_date, end_date):
    # 날짜 테이블 초기화
    date_table = []

    # 시작일과 종료일 사이의 모든 날짜 생성
    current_date = start_date
    while current_date <= end_date:
        date_table.append([current_date.strftime('%Y-%m-%d')])
        current_date += timedelta(days=1)

    # 칼럼명 설정
    columns = ['날짜']

    # 데이터프레임 생성
    df = pd.DataFrame(date_table, columns=columns)
    
    return df

# 시작일과 종료일 설정
start_date = datetime(2024, 1, 1)
end_date = datetime(2024, 12, 31)

# 데이터프레임 생성
date_df = generate_date_table(start_date, end_date)

# 결과 출력
print(date_df.head())
print(date_df.tail())

           날짜
0  2024-01-01
1  2024-01-02
2  2024-01-03
3  2024-01-04
4  2024-01-05
             날짜
361  2024-12-27
362  2024-12-28
363  2024-12-29
364  2024-12-30
365  2024-12-31


In [71]:
import pandas as pd
from datetime import datetime, timedelta
import random

# 1. 제품 테이블 생성 함수 정의
def generate_products(num_rows):
    # 제품명과 가격 데이터
    products_data = {
        '제품명': [
            '스초생', 'TWG 1837 블랙티 무스', '투썸 해피데이 베어', '빅토리아다쿠아즈초콜릿생크림',
            '나만의 디자인케이크 DIY', '클래식가토쇼콜라', '마스카포네티라미수', '뉴욕치즈', '퀸즈캐롯',
            '파티팩 스트로베리 초콜릿 생크림', '홀리데이 위시 캔들', '스트로베리 레드 벨벳',
            '민트볼 가토 쇼콜라', '딸기생크림1호'
        ],
        '가격': [
            '37,000원', '37,000원', '37,000원', '38,000원',
            '33,000원', '36,000원', '37,000원', '37,000원', '36,000원',
            '40,200원', '37,000원', '38,000원', '37,000원', '34,000원'
        ]
    }

    # 제품 ID 생성 (영문 1자리 + 숫자 4자리)
    product_ids = ['P' + str(i).zfill(4) for i in range(1, num_rows + 1)]

    # 데이터 프레임 생성
    products_df = pd.DataFrame({
        '제품ID': product_ids,
        '제품명': products_data['제품명'],
        '가격': [int(price.replace(',', '').replace('원', '')) for price in products_data['가격']]
    })

    return products_df

# 2. 공급 테이블 생성 함수 정의
def generate_supply_data(num_rows):
    # 제품 ID 리스트 생성
    product_ids = ['P' + str(i).zfill(4) for i in range(1, num_rows + 1)]

    # 공급정보 테이블 초기화
    supply_table = []

    # 현재 날짜 설정
    current_date = datetime(2024, 4, 30)

    # 공급ID 초기값 설정
    supply_id_counter = 1

    # 랜덤한 공급 정보 생성
    for i in range(num_rows):
        # 랜덤한 공급 날짜 생성 (2024년 1월부터 4월까지)
        supply_date = current_date - timedelta(days=random.randint(0, 120))
        supply_date_str = supply_date.strftime('%Y-%m-%d')
        # 랜덤한 공급자ID 생성
        supplier_id = 'SU' + ''.join(random.choices('0123456789', k=3))
        # 공급ID 생성 (년도_공급자ID_순차번호)
        supply_id = f"{supply_date.year}_{supplier_id}_{supply_id_counter:04d}"  # 예: 2024_SU123_0001

        # 순차번호 증가
        supply_id_counter += 1

        # 랜덤한 제품ID 선택
        product_id = random.choice(product_ids[:14])  # 14개 제품 중 랜덤 선택

        # 랜덤한 공급단가 생성 (30000~33000, 1000 단위)
        supply_price = random.randint(30000, 33000)
        supply_price -= supply_price % 1000

        # 랜덤한 공급수량 생성 (10~30)
        supply_quantity = random.randint(10, 30)

        # 공급 정보 추가
        supply_table.append([supply_date_str, supply_id, product_id, supply_price, supply_quantity, supplier_id])

    # 칼럼명 설정
    columns = ['날짜', '공급ID', '제품ID', '공급단가', '공급수량', '공급자ID']

    # 데이터프레임 생성
    df = pd.DataFrame(supply_table, columns=columns)

    return df

# 3. 고객 테이블 생성 함수 정의
def generate_customer_data(num_rows):
    # 고객정보 테이블 초기화
    customer_table = []

    # 랜덤한 고객 정보 생성
    for _ in range(num_rows):
        # 랜덤한 고객ID 생성
        customer_id = 'C' + ''.join(random.choices('0123456789', k=4))

        # 랜덤한 고객명 생성 (한국어 3글자 랜덤)
        first_names = ['김', '이', '박', '최', '정', '강', '조', '윤', '장', '임', '한', '오', '서', '신', '권', '황', '안', '송', '전', '홍']
        middle_names = ['민', '서', '영', '수', '진', '지', '현', '우', '재', '연', '윤', '하', '준', '호', '승', '성', '중', '용', '규', '은']
        last_names = ['윤', '문', '호', '이', '진', '용', '훈', '민', '범', '규', '하', '산']
        customer_name = random.choice(first_names) + random.choice(middle_names) + random.choice(last_names)

        # 랜덤한 전화번호 생성
        phone_number = f"010-{random.randint(1000, 9999)}-XXXX"

        # 고객 정보 추가
        customer_table.append([customer_id, customer_name, phone_number])

    # 칼럼명 설정
    columns = ['고객ID', '고객명', '전화번호']

    # 데이터프레임 생성
    df = pd.DataFrame(customer_table, columns=columns)

    return df

# 4. 판매 테이블 생성 함수 정의
def generate_sales_data(num_rows, products_df, supply_df, customer_df):
    # 판매정보 테이블 초기화
    sales_table = []

    # 현재 날짜 설정
    current_date = datetime(2024, 4, 30)

    # 공급ID 초기값 설정
    sale_id_counter = 1

    # 랜덤한 판매 정보 생성
    for _ in range(num_rows):
        # 랜덤한 판매 날짜 생성 (공급일로부터 1~3일 이내)
        supply_date_index = random.randint(0, len(supply_df) - 1)
        supply_date = datetime.strptime(supply_df.loc[supply_date_index, '날짜'], '%Y-%m-%d')
        sale_date = supply_date + timedelta(days=random.randint(1, 3))
        sale_date_str = sale_date.strftime('%Y-%m-%d')

        # 판매ID 생성 (년도_SA_순차번호)
        sale_id = f"{sale_date.year}_SA_{sale_id_counter:04d}"  # 예: 2024_SA_0001
        # 순차번호 증가
        sale_id_counter += 1
        # 랜덤한 제품ID 선택
        product_id = random.choice(products_df['제품ID'])

        # 제품ID와 일치하는 제품정보 찾기
        product_info = products_df.loc[products_df['제품ID'] == product_id]

        # 제품단가 가져오기
        sales_price = product_info['가격'].values[0]

        # 랜덤한 판매수량 생성 (1~3)
        sales_quantity = random.randint(1, 3)

        # 랜덤한 고객ID 선택
        customer_id = random.choice(customer_df['고객ID'])

        # 판매 정보 추가
        sales_table.append([sale_date_str, sale_id, product_id, sales_price, sales_quantity, customer_id])

    # 칼럼명 설정
    columns = ['날짜', '판매ID', '제품ID', '판매단가', '판매수량', '고객ID']

    # 데이터프레임 생성
    df = pd.DataFrame(sales_table, columns=columns)

    return df

# 5. 날짜 테이블 생성 함수 정의
def generate_date_table(start_date, end_date):
    # 날짜 테이블 초기화
    date_table = []

    # 시작일과 종료일 사이의 모든 날짜 생성
    current_date = start_date
    while current_date <= end_date:
        date_table.append([current_date.strftime('%Y-%m-%d')])
        current_date += timedelta(days=1)

    # 칼럼명 설정
    columns = ['날짜']

    # 데이터프레임 생성
    df = pd.DataFrame(date_table, columns=columns)

    return df

# 데이터 생성 및 저장
def generate_and_save_tables():
    # 시작일과 종료일 설정
    start_date = datetime(2024, 1, 1)
    end_date = datetime(2024, 12, 31)

    # 제품 테이블 생성
    products_df = generate_products(14)

    # 공급 테이블 생성
    supply_df = generate_supply_data(200)

    # 고객 테이블 생성
    customer_df = generate_customer_data(100)

    # 판매 테이블 생성
    sales_df = generate_sales_data(1000, products_df, supply_df, customer_df)

    # 날짜 테이블 생성
    date_df = generate_date_table(start_date, end_date)

    # 엑셀 파일로 저장
    with pd.ExcelWriter('generated_tables.xlsx') as writer:
        products_df.to_excel(writer, sheet_name='제품', index=False)
        supply_df.to_excel(writer, sheet_name='공급', index=False)
        customer_df.to_excel(writer, sheet_name='고객', index=False)
        sales_df.to_excel(writer, sheet_name='판매', index=False)
        date_df.to_excel(writer, sheet_name='날짜', index=False)

# 함수 호출하여 데이터 생성 및 저장
generate_and_save_tables()


  with pd.ExcelWriter('generated_tables.xlsx') as writer:
