In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:86% !important;}
div.cell.code_cell.rendered{width:100%;}
div.CodeMirror {font-family:Consolas; font-size:15pt;}
div.output {font-size:15pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:15pt;}
div.prompt {min-width:70px;
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:12pt;padding:5px;}
table.dataframe{font-size:15px;}
</style>
"""))

In [2]:
import numpy
import pandas

print("✅ numpy version:", numpy.__version__)
print("✅ pandas version:", pandas.__version__)


✅ numpy version: 1.24.4
✅ pandas version: 1.5.3


In [3]:
pip install pandas openpyxl pillow requests

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.1.1 -> 25.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [None]:
# 아래 셀은 수정 전

In [4]:
%%time    
import pandas as pd
from openpyxl import load_workbook
from PIL import Image
import io, base64, requests, os, logging

logging.basicConfig(
    level=logging.INFO,
    format='[%(asctime)s] %(message)s',
    datefmt='%H:%M:%S'
)

def extract_text_and_table(file_path):
    xls = pd.ExcelFile(file_path)
    results = []

    for sheet in xls.sheet_names:
        df = pd.read_excel(xls, sheet_name=sheet, dtype=str)
        flat_text = sorted(set(val.strip() for val in df.astype(str).stack() if val and val.strip()))
        table_markdown = df.to_markdown(index=False)

        summary_lines = []
        table_type = ""
        description_lines = []

        numeric_df = df.apply(pd.to_numeric, errors='coerce')
        numeric_cols = [col for col in numeric_df.columns if numeric_df[col].notna().sum() > 0]
        shape_desc = f"-  테이블 형태: {df.shape[0]}행 × {df.shape[1]}열"
        summary_lines.append(shape_desc)

        # 테이블 유형
        if "Department" in df.columns:
            table_type = "부서별 비교 테이블 (범주형 행 vs 수치형 열)"
        elif df.dtypes[0] == 'object':
            table_type = "범주형 키에 수치 값을 가진 테이블"
        else:
            table_type = "수치 중심의 행렬 또는 측정 테이블"

        summary_lines.append(f"-  테이블 유형: {table_type}")

        if numeric_cols:
            for col in numeric_cols:
                max_val = numeric_df[col].max()
                avg_val = numeric_df[col].mean()
                summary_lines.append(f"-  열 '{col}': 최대값={max_val}, 평균={avg_val:.2f}")

        # 행별 요약
        if len(numeric_cols) >= 1:
            key_col = df.columns[0]
            for idx, row in df.iterrows():
                parts = [f"{row[key_col]}:"]
                for col in numeric_cols:
                    val = row[col]
                    if pd.notna(val):
                        parts.append(f"{col} {val}")
                description_lines.append(" / ".join(parts))

        results.append({
            "sheet": sheet,
            "text": flat_text,
            "text_summary": f"- 이 시트에는 총 {len(flat_text)}개의 고유 텍스트 항목이 있습니다.",
            "table_type": table_type,
            "table_summary": "\n".join(summary_lines),
            "table_description": "\n".join(description_lines),
            "table_markdown": table_markdown
        })

    return results

def extract_images_from_excel(file_path):
    wb = load_workbook(file_path)
    imgs = []
    for sheet in wb.worksheets:
        for img in getattr(sheet, "_images", []):
            if hasattr(img, "_data"):
                img_bytes = img._data()
                pil = Image.open(io.BytesIO(img_bytes)).convert("RGB")
                pil.thumbnail((640, 480))
                imgs.append({"sheet": sheet.title, "image": pil})
    return imgs

def run_qwen_vl_on_chart_image(pil_image):
    buf = io.BytesIO()
    pil_image.save(buf, format="PNG")
    img_b64 = base64.b64encode(buf.getvalue()).decode("utf-8")

    prompt = (
        "이 이미지는 엑셀 문서에 포함된 차트 또는 표 이미지입니다.\n"
        "다음 항목을 한국어로 정확하게 설명해주세요:\n"
        "1. 차트나 표의 제목 또는 주제는 무엇인가요?\n"
        "2. X축과 Y축은 각각 무엇을 의미하나요?\n"
        "3. X축 항목별로 상응하는 Y값(숫자)을 구체적으로 나열해주세요.\n"
        "4. 눈에 띄는 수치나 패턴은 무엇인가요?\n"
        "5. 전체 내용을 한두 문장으로 요약해주세요."
    )

    res = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": "qwen2.5vl",
            "prompt": prompt,
            "images": [img_b64],
            "stream": False
        }
    )
    if res.status_code == 200:
        return res.json().get("response", "").strip()
    else:
        raise RuntimeError(f"Ollama 호출 실패: {res.status_code}")

def assemble_excel_report(file_path):
    text_table = extract_text_and_table(file_path)
    images = extract_images_from_excel(file_path)

    report = ""

    for sheet_info in text_table:
        name = sheet_info["sheet"]
        report += f"\n\n## 📄 시트: {name}\n"
        report += "\n### 📝 텍스트 항목\n"
        report += "\n".join(f"- {t}" for t in sheet_info["text"])
        report += "\n\n###  텍스트 요약\n" + sheet_info["text_summary"]
        report += "\n\n###  테이블 유형\n" + sheet_info["table_type"]
        report += "\n\n###  테이블 요약\n" + sheet_info["table_summary"]
        report += "\n\n###  행별 설명\n" + sheet_info["table_description"]
        report += "\n\n###  마크다운 테이블\n" + sheet_info["table_markdown"]

    for i, img in enumerate(images):
        logging.info(f" 이미지 {i+1}/{len(images)} 해석 중...")
        try:
            analysis = run_qwen_vl_on_chart_image(img["image"])
            report += f"\n\n##  차트/표 이미지 {i+1} (시트: {img['sheet']})\n{analysis}"
        except Exception as e:
            report += f"\n\n##  이미지 해석 실패 {i+1}: {e}"

    return report.strip()

if __name__ == "__main__":
    file_path = r"C:\Ai_x\source\프로젝트2\sample_inputs\sample.xlsx"
    if os.path.exists(file_path):
        logging.info(f" 분석 시작: {file_path}")
        print(assemble_excel_report(file_path))
    else:
        logging.error(" 파일을 찾을 수 없습니다.")


[15:16:07]  분석 시작: C:\Ai_x\source\프로젝트2\sample_inputs\sample.xlsx
  warn("""Cannot parse header or footer so it will be ignored""")
  warn("""Cannot parse header or footer so it will be ignored""")
[15:16:08]  이미지 1/2 해석 중...
[15:18:38]  이미지 2/2 해석 중...


## 📄 시트: 시작

### 📝 텍스트 항목
- nan
- • 각 표에서 다양한 범주에서 발생한 지출을 입력하세요.
- • 예상 잔액, 실제 잔액 및 차이는 자동으로 계산됩니다.
- 워크시트에 있는 표에 대해 자세히 알려면 표 안에서 SHIFT 키를 누른 채 F10 키를 누르고 [표] 옵션을 선택한 다음, [대체 텍스트]를 선택합니다.
- 이 개인 월별 예산 워크시트를 사용하여 예상 및 실제 월별 수입 및 예상 및 실제 비용을 추적할 수 있습니다.
- 이 서식 파일 정보
- 참고:
- 추가적인 지침은 개인 월별 예산 워크시트의 A열에 있으며, 이 텍스트는 일부러 숨겨 놓았습니다. 텍스트를 제거하려면 A열을 선택한 다음 [삭제]를 선택합니다. 텍스트를 표시하려면 A열을 선택한 다음 글꼴 색상을 변경합니다.

###  텍스트 요약
- 이 시트에는 총 8개의 고유 텍스트 항목이 있습니다.

###  테이블 유형
범주형 키에 수치 값을 가진 테이블

###  테이블 요약
-  테이블 형태: 8행 × 2열
-  테이블 유형: 범주형 키에 수치 값을 가진 테이블

###  행별 설명


###  마크다운 테이블
|   Unnamed: 0 | Unnamed: 1                                                                                                                                                                                                           |
|-------------:|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In [None]:
# 수정 후 최종 셀

In [8]:
%%time
import pandas as pd
from openpyxl import load_workbook
from PIL import Image
import io, base64, logging

#  로그 설정
logging.basicConfig(level=logging.INFO, format='[%(asctime)s] %(message)s')


def extract_tables_from_excel(file_path):
    """엑셀 파일에서 여러 테이블을 자동 분리하여 제목, 요약, 마크다운 반환"""
    xl = pd.ExcelFile(file_path)
    results = []

    for sheet_name in xl.sheet_names:
        logging.info(f" 시트 처리 중: {sheet_name}")
        df = xl.parse(sheet_name, header=None, dtype=str)

        current_table = []
        table_list = []

        #  빈 행 기준으로 테이블 분할
        for _, row in df.iterrows():
            if row.isnull().all():
                if current_table:
                    table_list.append(pd.DataFrame(current_table).reset_index(drop=True))
                    current_table = []
            else:
                current_table.append(row)
        if current_table:
            table_list.append(pd.DataFrame(current_table).reset_index(drop=True))

        logging.info(f"✅ 테이블 {len(table_list)}개 분할 완료")

        # 테이블별 분석
        for i, table in enumerate(table_list):
            table_cleaned = table.dropna(axis=1, how='all')
            if table_cleaned.empty or table_cleaned.shape[0] < 2:
                continue

            # 제목 추출
            first_row = table_cleaned.iloc[0].dropna().astype(str).tolist()
            title = " / ".join(first_row[:2]) if first_row else f"{sheet_name} Table {i+1}"

            #  헤더 설정
            table_cleaned.columns = table_cleaned.iloc[0]
            data = table_cleaned[1:].copy()

            #  수치 요약
            numeric_cols = data.apply(pd.to_numeric, errors='coerce').dropna(axis=1, how='all')
            summary = {}
            for col in numeric_cols.columns:
                col_data = numeric_cols[col].dropna()
                if not col_data.empty:
                    summary[col] = {
                        "max": col_data.max(),
                        "mean": col_data.mean()
                    }

            #  마크다운 출력
            markdown = data.to_markdown(index=False)

            results.append({
                "sheet": sheet_name,
                "title": title,
                "shape": data.shape,
                "summary": summary,
                "markdown": markdown
            })

    return results


def extract_images_from_excel(file_path):
    """엑셀 파일에서 삽입된 이미지 추출 (base64로 인코딩된 PNG)"""
    wb = load_workbook(file_path)
    image_results = []

    for sheetname in wb.sheetnames:
        ws = wb[sheetname]
        if hasattr(ws, "_images") and ws._images:
            for idx, img in enumerate(ws._images):
                if hasattr(img, 'image'):
                    img_bytes = io.BytesIO()
                    img.image.save(img_bytes, format='PNG')
                    img_bytes.seek(0)
                    encoded = base64.b64encode(img_bytes.read()).decode()
                    image_results.append({
                        "sheet": sheetname,
                        "image_index": idx,
                        "base64": encoded
                    })

    logging.info(f" 이미지 {len(image_results)}개 추출 완료")
    return image_results


#  실행 예시
if __name__ == "__main__":
    file_path = r"C:\Ai_x\source\프로젝트2\sample_inputs\sample.xlsx"  # 분석할 엑셀 파일 경로

    # 1. 표/마크다운/요약 분석
    tables = extract_tables_from_excel(file_path)
    for t in tables:
        print(f"\n###  {t['title']}")
        print(f"-  크기: {t['shape'][0]}행 × {t['shape'][1]}열")
        if t["summary"]:
            print("-  주요 수치 요약:")
            for col, stats in t["summary"].items():
                max_val = stats['max']
                mean_val = stats['mean']
                max_str = f"{max_val:.2f}" if isinstance(max_val, (int, float)) else str(max_val)
                mean_str = f"{mean_val:.2f}" if isinstance(mean_val, (int, float)) else str(mean_val)
                print(f"  - 열 '{col}': 최대={max_str}, 평균={mean_str}")
        print("\n" + t["markdown"])

    #  2. 이미지 추출
    images = extract_images_from_excel(file_path)
    for img in images:
        print(f"\n 이미지 - 시트: {img['sheet']} / 인덱스: {img['image_index']}")
        print(f"<img src='data:image/png;base64,{img['base64'][:80]}...'>")  # base64 일부 미리보기



[15:32:01]  시트 처리 중: 시작
[15:32:01] ✅ 테이블 2개 분할 완료
[15:32:01]  시트 처리 중: 개인 월별 예산
  warn("""Cannot parse header or footer so it will be ignored""")
[15:32:01] ✅ 테이블 10개 분할 완료
  warn("""Cannot parse header or footer so it will be ignored""")
[15:32:01]  이미지 0개 추출 완료



###  이 서식 파일 정보
-  크기: 5행 × 1열

| 이 서식 파일 정보                                                                                                                                                                                                    |
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 이 개인 월별 예산 워크시트를 사용하여 예상 및 실제 월별 수입 및 예상 및 실제 비용을 추적할 수 있습니다.                                                                                                              |
| • 각 표에서 다양한 범주에서 발생한 지출을 입력하세요.                                                                                                                                                                |
| • 예상 잔액, 실제 잔액 및 차이는 자동으로 계산됩니다.                                                                                                                                        