In [55]:
import pandas as pd
import numpy as np
import os  # 폴더 생성에 사용
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import HTML
from io import BytesIO
import base64

# 기본 데이터 프레임 설정
np.random.seed(0)  # 결과 일관성을 위해
data = {
    'cat1': np.random.choice(['ProductA', 'ProductB', 'ProductC', 'ProductD', 'ProductE', 'ProductF', 'ProductG'], 3000),
    'cat2': np.random.choice(['Setting1', 'Setting2', 'Setting3', 'Setting4', 'Setting5', 'Setting6', 'Setting7', 'Setting8'], 3000),
    'cat3': np.random.randint(1, 11, 3000),
    'x': np.random.randint(1, 21, 3000),
    'y': np.random.randint(1, 21, 3000),
    'datetime': pd.date_range(start='2021-01-01', periods=3000, freq='D')
}

df = pd.DataFrame(data)

# val1~val200까지의 값을 가지는 열을 한 번에 추가
vals = {f'val{val_num}': np.random.random(3000) for val_num in range(1, 20)}
vals_df = pd.DataFrame(vals)

# 원래 DataFrame과 새로운 열을 합치기
df = pd.concat([df, vals_df], axis=1)

# cat1이 'ProductA'인 행만 필터링
filtered_df = df[df['cat1'] == 'ProductA']

# 필터링 조건에 맞는 데이터 선택
#filtered_df = df[(df['cat1'] == 'ProductA') & (df['cat2'] == 'Setting1')]

# 필요한 val 열 이름 생성
val_columns = [f'val{i}' for i in range(1, 5)]

# pivot_table을 사용하여 데이터 재구성
pivot_df = pd.pivot_table(filtered_df, values=val_columns, index='cat3', aggfunc='mean').T

# 결과 확인
pivot_df.reset_index()

# pandas 표시 옵션 설정: 소수점 둘째 자리에서 반올림
pd.options.display.float_format = '{:,.1f}'.format

# HTML로 변환된 데이터프레임 (소수점 자리수 조정 포함)
html = pivot_df.to_html()

# HTML을 수정하여 스타일 적용
rows = html.split('\n')
new_rows = []
for row in rows:
    if '<td>' in row:  # 모든 셀에 대해 적용
        start = row.find('<td>') + 4
        end = row.find('</td>')
        try:
            cell_value = float(row[start:end])
            if cell_value <= 0.5:
                bg_color = '#FF9999'  # 빨간색 배경
            else:
                bg_color = '#9999FF'  # 파란색 배경
            new_row = row[:start-4] + f'<td style="background-color: {bg_color}; color: black;">' + row[start:end] + '</td>'
            new_rows.append(new_row)
        except ValueError:
            # 숫자로 변환할 수 없는 셀(예: 헤더)은 그대로 유지
            new_rows.append(row)
    else:
        new_rows.append(row)

# 수정된 HTML을 하나의 문자열로 합칩니다.
styled_html = '\n'.join(new_rows)

# Jupyter Notebook에서 결과 디스플레이
HTML(styled_html)

# 맵 이미지를 Base64 문자열로 인코딩하는 함수
def plot_to_base64(x, y):
    fig, ax = plt.subplots(figsize=(1, 1), dpi=80)
    ax.scatter(x, y, s=10)
    ax.axis('off')
    buf = BytesIO()
    fig.savefig(buf, format='png', bbox_inches='tight', pad_inches=0)
    plt.close(fig)
    return base64.b64encode(buf.getvalue()).decode()

# HTML 테이블 생성 및 맵 이미지 삽입 함수
def create_html_table_with_maps(df):
    cat3_values = sorted(df['cat3'].unique())
    html_str = '<table border="1"><tr><th></th>'
    # cat3 값을 테이블 헤더로 추가
    for cat3 in cat3_values:
        html_str += f'<th>cat3: {cat3}</th>'
    html_str += '</tr><tr><td>val1</td>'

    # 각 cat3 값에 대한 val1의 평균값을 표시하는 행 추가
    for cat3 in cat3_values:
        mean_val1 = df[df['cat3'] == cat3]['val1'].mean()
        html_str += f'<td>{mean_val1:.2f}</td>'
    html_str += '</tr>'

    # 각 cat3 값에 대한 맵 이미지를 표시하는 행 추가
    html_str += '<tr><td>Map</td>'
    for cat3 in cat3_values:
        subset = df[df['cat3'] == cat3]
        img_data = plot_to_base64(subset['x'], subset['y'])
        html_str += f'<td><img src="data:image/png;base64,{img_data}" style="width:50px;height:50px;"></td>'
    html_str += '</tr></table>'

    return html_str

# 필터링된 데이터프레임에 대한 HTML 테이블과 맵 생성
html_content = create_html_table_with_maps(filtered_df)
HTML(html_content)


Unnamed: 0,cat3: 1,cat3: 2,cat3: 3,cat3: 4,cat3: 5,cat3: 6,cat3: 7,cat3: 8,cat3: 9,cat3: 10
val1,0.47,0.59,0.34,0.49,0.48,0.49,0.53,0.47,0.47,0.53
Map,,,,,,,,,,


In [None]:
# 폴더 생성
folder_name = 'cat1_cat2'
os.makedirs(folder_name, exist_ok=True)

# cat1과 cat2로 그룹화하고 각 그룹을 'cat1_cat2' 폴더 안에 parquet 파일로 저장
for (cat1, cat2), group_df in df.groupby(['cat1', 'cat2']):
    file_path = f'{folder_name}/{cat1}_{cat2}.parquet'
    group_df.to_parquet(file_path)

print("파일 저장 완료.")