---

* 출처: LangChain 공식 문서 또는 해당 교재명
* 원본 URL: https://smith.langchain.com/hub/teddynote/summary-stuff-documents

---

## **`PDF`**

* [**`PDF`**](https://en.wikipedia.org/wiki/PDF)

  * `ISO 32000`으로 표준화된 파일 형식
  * `Adobe`가 1992년에 문서를 제시하기 위해 개발
  * 응용 소프트웨어, 하드웨어 및 운영 시스템에 독립적인 방식으로 텍스트 서식 및 이미지를 포함

<br>

* [**`LangChain Document` 형식 로드 방법 가이드**](https://api.python.langchain.com/en/latest/documents/langchain_core.documents.base.Document.html#langchain_core.documents.base.Document)

  * 다운스림에서 사용됨

  * 다양한 PDF 파서와 통합
    * 일부: 간단하고 상댄적으로 저수준
    * 다른 일부: OCR 및 이미지 처리를 지원하거나 고급 문서 레이아웃 분석 수행

  * 사용자의 애플리케이션에 따라 선택 달라짐

  * [**`LangChain Document`**](https://python.langchain.com/v0.1/docs/modules/data_connection/document_loaders/pdf/)

---

### **`AutoRAG 팀에서의 PDF 실험`**

* **`AutoRAG 에서 진행한 실험을 토대로 작성한 순위표`**

<br>

* *아래 표기된 숫자 = 등수* (`The lower, the better`)

  ![AutoRAG 에서 진행한 실험을 토대로 작성한 순위표 등수](../06_Document_Loader/Img/AutoRAG.png)

  * *[출처: AutoRAG Medium 블로그](https://velog.io/@autorag/PDF-%ED%95%9C%EA%B8%80-%ED%85%8D%EC%8A%A4%ED%8A%B8-%EC%B6%94%EC%B6%9C-%EC%8B%A4%ED%97%98#%EC%B4%9D%ED%8F%89)*

In [None]:
# API KEY를 환경변수로 관리하기 위한 설정 파일
import os
from dotenv import load_dotenv

# API KEY 정보로드
load_dotenv()               # true

---

### **`실습에 활용한 문서`**

* 출처: 소프트웨어정책연구소(SPRi) - 2023년 12월호

  * 저자: 유재흥(AI정책연구실 책임연구원), 이지수(AI정책연구실 위촉연구원)
  * 위치
    * [링크](https://spri.kr/posts/view/23669): https://spri.kr/posts/view/23669
    * [파일](06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf): `../06../data/`
  * 파일명: SPRI_AI_Brief_2023년12월호_F.pdf

In [3]:
# data 폴더에서 다운로드 받기

FILE_PATH = "../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf"

In [4]:
# 문서 객체(docs)의 메타데이터 깔끔하게 출력하는 함수 정의하기

def show_metadata(docs):
    # 문서(docs) 리스트가 비어있지 않은지 확인하기
    if docs:
        print("[metadata]")
        # 첫 번째 문서의 모든 메타데이터 키 출력
        print(list(docs[0].metadata.keys()))
        print("\n[examples]")
        # 메타데이터 키 중 가장 긴 키의 길이를 찾아서 정렬에 사용
        max_key_length = max(len(k) for k in docs[0].metadata.keys())
        # 첫 번째 문서의 메타데이터 항목들을 순회하며 출력
        for k, v in docs[0].metadata.items():
            # 키는 왼쪽 정렬하고, 가장 긴 키의 길이에 맞춰 간격 띄우기
            print(f"{k:<{max_key_length}} : {v}")

---

### **`PyPDF`**

* `pypdf` 사용 → PDF를 문서 배열로 로드

* 각 문서는 page 번호와 함께 페이지 내용 및 메타데이터를 포함
  * 먼저 터미널에 설치
  * 
```bash
        pip install -qU pypdf
```

In [None]:
from langchain_community.document_loaders import PyPDFLoader

# 파일 경로 설정
loader = PyPDFLoader(FILE_PATH)

# PDF 로더 초기화
docs = loader.load()

# 문서의 내용 출력
print(docs[10].page_content[:300])

<small>

* 셀 출력 (1.5s)

    ```markdown
    SPRi AI Brief |  2023-12월호
    8
    코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개n코히어와 12개 기관이  광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기’ 플랫폼을 출시n대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 구성과 계보도 추적 가능
    KEY Contents
    £데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상nAI 기업 코히어(Cohere)가
    ```

In [None]:
# 메타데이터 출력

show_metadata(docs)

<small>

* 셀 출력

    ```python
    [metadata]
    ['producer', 'creator', 'creationdate', 'author', 'moddate', 'pdfversion', 'source', 'total_pages', 'page', 'page_label']

    [examples]
    producer     : Hancom PDF 1.3.0.542
    creator      : Hwp 2018 10.0.0.13462
    creationdate : 2023-12-08T13:28:38+09:00
    author       : dj
    moddate      : 2023-12-08T13:28:38+09:00
    pdfversion   : 1.4
    source       : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    total_pages  : 23
    page         : 0
    page_label   : 1
    ```

---

### **`PyPDF(OCR)`**

* 일부 PDF에는 **스캔된 문서** or **그림 내에 텍스트 이미지 포함**

* `rapidocr-onnxruntime` 패키지 사용 → 이미지에서 텍스트를 추출할 수도 있음

  * 먼저 터미널에 설치
  * 
```bash
        pip install -qU rapidocr-onnxruntime
```

In [None]:
# PDF 로더 초기화, 이미지 추출 옵션 활성화
loader = PyPDFLoader("https://arxiv.org/pdf/2103.15348.pdf", extract_images=True)

# PDF 페이지 로드
docs = loader.load()

# 페이지 내용 접근
print(docs[4].page_content[:300])

<small>

* 셀 출력 (0.9s)

    ```markdown
    LayoutParser: A Uniﬁed Toolkit for DL-Based DIA 5
    Table 1: Current layout detection models in the LayoutParser model zoo
    Dataset Base Model1 Large ModelNotes
    PubLayNet [38] F / M M Layouts of modern scientiﬁc documents
    PRImA [3] M - Layouts of scanned modern magazines and scientiﬁc reports
    Newspaper
    ```

In [None]:
# 메타데이터 출력

show_metadata(docs)

<small>

* 셀 출력

    ```python
    [metadata]
    ['producer', 'creator', 'creationdate', 'author', 'keywords', 'moddate', 'ptex.fullbanner', 'subject', 'title', 'trapped', 'source', 'total_pages', 'page', 'page_label']

    [examples]
    producer        : pdfTeX-1.40.21
    creator         : LaTeX with hyperref
    creationdate    : 2021-06-22T01:27:10+00:00
    author          : 
    keywords        : 
    moddate         : 2021-06-22T01:27:10+00:00
    ptex.fullbanner : This is pdfTeX, Version 3.14159265-2.6-1.40.21 (TeX Live 2020) kpathsea version 6.3.2
    subject         : 
    title           : 
    trapped         : /False
    source          : https://arxiv.org/pdf/2103.15348.pdf
    total_pages     : 16
    page            : 0
    page_label      : 1
    ```

---

### **`PyMuPDF`**

* 속도 최적화

* **`PDF` 및 `해당 페이지`에 대한 `자세한 메타데이터`를 `포함`**

* **`페이지 당 하나의 문서를 반환`**
  * 먼저 터미널에 설치
  * 
```bash
        pip install -qU pymupdf
```

In [None]:
from langchain_community.document_loaders import PyMuPDFLoader

# PyMuPDF 로더 인스턴스 생성
loader = PyMuPDFLoader(FILE_PATH)

# 문서 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[10].page_content[:300])

<small>

* 셀 출력 (1.0s)

    ```markdown
    SPRi AI Brief |  
    2023-12월호
    8
    코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개
    n 코히어와 12개 기관이  광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 
    작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기’ 플랫폼을 출시
    n 대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 
    구성과 계보도 추적 가능
    KEY Contents
    £ 데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상
    n AI 기업 코히어
    ```

In [None]:
# 메타데이터 출력

show_metadata(docs)

<small>

* 셀 출력

    ```markdown
    [metadata]
    ['producer', 'creator', 'creationdate', 'source', 'file_path', 'total_pages', 'format', 'title', 'author', 'subject', 'keywords', 'moddate', 'trapped', 'modDate', 'creationDate', 'page']

    [examples]
    producer     : Hancom PDF 1.3.0.542
    creator      : Hwp 2018 10.0.0.13462
    creationdate : 2023-12-08T13:28:38+09:00
    source       : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    file_path    : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    total_pages  : 23
    format       : PDF 1.4
    title        : 
    author       : dj
    subject      : 
    keywords     : 
    moddate      : 2023-12-08T13:28:38+09:00
    trapped      : 
    modDate      : D:20231208132838+09'00'
    creationDate : D:20231208132838+09'00'
    page         : 0
    ```

---

### **`Unstructured`**

* **[`Unstructured`](https://unstructured-io.github.io/unstructured/): Markdown이나 PDF와 같은 비구조화된 또는 반구조화된 파일 형식을 다루기 위한 공통 인터페이스를 지원**

* `LangChain`의 **[`UnstructuredPDFLoader`](https://api.python.langchain.com/en/latest/document_loaders/langchain_community.document_loaders.pdf.UnstructuredPDFLoader.html)** = **`Unstructured`와 통합 → `PDF 문서`를 LangChain [`Document`](https://api.python.langchain.com/en/latest/documents/langchain_core.documents.base.Document.html) 객체로 파싱**
  * 먼저 터미널에 설치
  * 
```bash
        pip install -qU unstructured
```

In [None]:
from langchain_community.document_loaders import UnstructuredPDFLoader

# UnstructuredPDFLoader 인스턴스 생성 (한국어 설정)
loader = UnstructuredPDFLoader(
    FILE_PATH,
    # languages=["kor"],            # 한국어 지정
    languages=["kor+eng"],          # 한국어+영어 지정
    strategy="hi_res",              # 고해상도 전략 사용
    infer_table_structure=True,     # 표 구조 추론 활성화
    extract_images_in_pdf=False,    # 이미지 추출 비활성화 (문제 발생 시)
    extract_image_block_types=["Figure", "Table"]  # 추출할 이미지 유형 지정
)

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])

<small>

* 셀 출력_1 : 실패 ( 2m 0.1s )

![진행상황](../06_Document_Loader/Img/Unstructured_1.png)

```makrdown

    The `max_size` parameter is deprecated and will be removed in v4.26. Please specify in `size['longest_edge'] instead`.

    S SPR 소 프 특 웨 어 정 책 연구소 S | Software Policy & Research Institute

    2023 년 12 월 호

    ox 내 zt ~~ 1 = |

    ono qu m Cc z

    HW ro 더 ol El =

    ~ ob | 로 시

    oe HH Pad 6

    of oa fe

    [ 요 ㅁㅁ

    뜨

    N x / 언 브 , rz Of 브

    > 미국 프런티어 모델 포럼, 1,000 만 달러 규 모 의 코 fe} 히어, 데이터 투명성 확 보 를 위한 데이터 출처 알리바바 클라우드, 최신 LLM ' 동 이 치 엔 원 2.
```

In [None]:
# 두번째 시도

from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader(
    FILE_PATH,
    languages=["kor+eng"],
    strategy="hi_res",
    infer_table_structure=True,
    extract_images_in_pdf=False,
    tesseract_path="/opt/homebrew/bin/tesseract",
    tessdata_path="/opt/homebrew/share/tessdata"
)

In [None]:
# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])

<small>

* 셀 출력 (경로 계속 인식 못함, 실패) (1m 39.3s)

```markdown
    S SPR 소 프 특 웨 어 정 책 연구소 S | Software Policy & Research Institute

    2023 년 12 월 호

    ox 내 zt ~~ 1 = |

    ono qu m Cc z

    HW ro 더 ol El =

    ~ ob | 로 시

    oe HH Pad 6

    of oa fe

    [ 요 ㅁㅁ

    뜨

    N x / 언 브 , rz Of 브

    > 미국 프런티어 모델 포럼, 1,000 만 달러 규 모 의 코 fe} 히어, 데이터 투명성 확 보 를 위한 데이터 출처 알리바바 클라우드, 최신 LLM ' 동 이 치 엔 원 2.


```

In [None]:
# 세번째 시도

from langchain_community.document_loaders import UnstructuredPDFLoader

loader = UnstructuredPDFLoader(
    FILE_PATH,
    languages=["kor+eng"],
    strategy="hi_res",
    infer_table_structure=True,
    extract_images_in_pdf=False,
    tesseract_path="/opt/homebrew/bin/tesseract",
    #tessdata_path="/opt/homebrew/Cellar/tesseract/5.5.1/share/tessdata"
)

# 데이터 로드
docs = loader.load()


# 문서의 내용 출력
print(docs[0].page_content[:300])

<small>

* 셀 출력 (실패 3) (1m 39.3s)

    ```markdown

    S SPR 소 프 특 웨 어 정 책 연구소 S | Software Policy & Research Institute

    2023 년 12 월 호

    ox 내 zt ~~ 1 = |

    ono qu m Cc z

    HW ro 더 ol El =

    ~ ob | 로 시

    oe HH Pad 6

    of oa fe

    [ 요 ㅁㅁ

    뜨

    N x / 언 브 , rz Of 브

    > 미국 프런티어 모델 포럼, 1,000 만 달러 규 모 의 코 fe} 히어, 데이터 투명성 확 보 를 위한 데이터 출처 알리바바 클라우드, 최신 LLM ' 동 이 치 엔 원 2.

    ```

In [None]:
# 메타데이터 확인

show_metadata(docs) 

<small>

* 셀 출력

    ```markdown
    [metadata]
    ['source']

    [examples]
    source : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    ```

* 내무적으로 비정형에서는 텍스트 청크마다 서로 다른 **`요소`** 만듦

* 기본적으로 결합되어 있지만 분리 가능 → **`mode="elements"` 지정** 

In [None]:
# UnstructuredPDFLoader 인스턴스 생성(mode="elements")
loader = UnstructuredPDFLoader(FILE_PATH, mode="elements")

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content)

<small>

* 셀 출력_1 (실패)(1m 4.1s)

    ```markdown
    Warning: No languages specified, defaulting to English.
    S SPR Arete S | Software Policy & Research Institute
    ```

In [None]:
# 두번째 시도_경로와 언어 추가해보기

# UnstructuredPDFLoader 인스턴스 생성(mode="elements")
loader = UnstructuredPDFLoader(
    FILE_PATH,
    languages=["kor+eng"],
    strategy="hi_res",
    infer_table_structure=True,
    extract_images_in_pdf=False,
    tesseract_path="/opt/homebrew/bin/tesseract",
    tessdata_path="/opt/homebrew/share/tessdata",
    mode="elements")

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content)

<small>

* 셀 출력 (O) (2m 43.8s)

```markdown

    SPRi Al Brief

```

* 이 특정 문서에 대한 전체 요소의 유형 집합을 참조하기

In [None]:
# 데이터 카테고리 추출

set(doc.metadata["category"] for doc in docs)

<small>

* 셀 출력

    ```python
    {'FigureCaption',
    'Header',
    'Image',
    'ListItem',
    'NarrativeText',
    'Table',
    'Title',
    'UncategorizedText'}
    ```

In [None]:
# 메타데이터 확인

show_metadata(docs) 

<small>

* 셀 출력

    ```markdown

    [metadata]
    ['source', 'detection_class_prob', 'coordinates', 'last_modified', 'filetype', 'languages', 'page_number', 'file_directory', 'filename', 'category', 'element_id']

    [examples]
    source               : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    detection_class_prob : 0.42657050490379333
    coordinates          : {'points': ((np.float64(245.91224670410156), np.float64(403.7437438964844)), (np.float64(245.91224670410156), np.float64(577.2464599609375)), (np.float64(1487.8330078125), np.float64(577.2464599609375)), (np.float64(1487.8330078125), np.float64(403.7437438964844))), 'system': 'PixelSpace', 'layout_width': 1700, 'layout_height': 2384}
    last_modified        : 2025-09-12T14:31:21
    filetype             : application/pdf
    languages            : ['kor']
    page_number          : 1
    file_directory       : ../06_Document_Loader/data
    filename             : SPRI_AI_Brief_2023년12월호_F.pdf
    category             : Title
    element_id           : 9052c04dc037753bb06efd7ab0a37bf2
    ```

---

* 대안

In [None]:
import pdfplumber

with pdfplumber.open(FILE_PATH) as pdf:
    text = ""
    for page in pdf.pages:
        text += page.extract_text()
    print(text[:300])

<small>

* 셀 출력 (1.9s)

    ```markdown
    12
    2023년 월호2023년 12월호
    Ⅰ
    . 인공지능 산업 동향 브리프
    1. 정책/법제
    ▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 ·························1
    ▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의···························2
    ▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언···························3
    ▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기
    ```

---

### **`PyPDFium2`**

* **`PyPDFium2`** = `PDF` 파일을 처리하는 데 사용되는 라이브러리 / **`더 빠르고 안정적`**

<br>

* `get_text_range()`와 `get_text_bounded()`는 모두 `텍스트`를 `추출`하는 함수이지만, 매개변수와 동작 방식이 다를 수 있음

In [None]:
from langchain_community.document_loaders import PyPDFium2Loader

# PyPDFium2 로더 인스턴스 생성
loader = PyPDFium2Loader(FILE_PATH)

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[10].page_content[:300])              # 10번째 페이지의 처음 300자만 출력하도록 함

<small>

* 셀 출력 (0.5s)

    ```markdown
    SPRi AI Brief | 
    2023-12월호
    8
    코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개
    n 코히어와 12개 기관이 광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기’ 플랫폼을 출시
    n 대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 
    구성과 계보도 추적 가능
    KEY Contents
    £ 데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상
    n AI 기업 코히어(Co
    ```

<br>

* 경고 메시지 해석

    ```python
    /Users/jay/.pyenv/versions/lc_env/lib/python3.13/site-packages/pypdfium2/_helpers/textpage.py:80: UserWarning: get_text_range() call with default params will be implicitly redirected to get_text_bounded()
    warnings.warn("get_text_range() call with default params will be implicitly redirected to get_text_bounded()")
    ```

    * `PyPDFium2` 라이브러리에서 `get_text_range()` 함수가 기본 매개변수로 호출되었을 때, 내부적으로 `get_text_bounded()` 함수로 리디렉션(재지정)된다는 경고 → 무시해도 됨
      * 이 경고는 코드의 동작에는 영향을 주지 않지만, 향후 버전에서 `get_text_range()` 함수의 기본 동작이 변경될 수 있음을 알려줌
      * 현재는 `get_text_bounded()` 함수를 사용하여 `텍스트` 추출

In [None]:
# 메타데이터 출력

show_metadata(docs)

<small>

* 셀 출력

    ```markdown
    [metadata]
    ['producer', 'creator', 'creationdate', 'title', 'author', 'subject', 'keywords', 'moddate', 'source', 'total_pages', 'page']

    [examples]
    producer     : Hancom PDF 1.3.0.542
    creator      : Hwp 2018 10.0.0.13462
    creationdate : 2023-12-08T13:28:38+09:00
    title        : 
    author       : dj
    subject      : 
    keywords     : 
    moddate      : 2023-12-08T13:28:38+09:00
    source       : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    total_pages  : 23
    page         : 0
    ```

---

### **`PDFMiner`**

In [None]:
from langchain_community.document_loaders import PDFMinerLoader

# PDFMiner 로더 인스턴스 생성
loader = PDFMinerLoader(FILE_PATH)

# 데이터 로드
docs = loader.load()

# 문서의 내용 출력
print(docs[0].page_content[:300])

<small>

* 셀 출력 (1.7s)

    ```markdown

    2023년  12월호
    2023년  12월호

    Ⅰ.  인공지능  산업  동향  브리프

    1.  정책/법제 

        ▹  미국,  안전하고  신뢰할  수  있는  AI  개발과  사용에  관한  행정명령  발표    ························· 1

        ▹  G7,  히로시마  AI  프로세스를  통해  AI  기업  대상  국제  행동강령에  합의 ··························· 2

        ▹  영국  AI  안전성  정상회의에  참가한  28개국,  AI  위험에  공동
    ```

In [None]:
# 메타데이터 출력 

show_metadata(docs)

<small>

* 셀 출력

    ```markdown
    [metadata]
    ['producer', 'creator', 'creationdate', 'author', 'moddate', 'pdfversion', 'total_pages', 'source']

    [examples]
    producer     : Hancom PDF 1.3.0.542
    creator      : Hwp 2018 10.0.0.13462
    creationdate : 2023-12-08T13:28:38+09:00
    author       : dj
    moddate      : 2023-12-08T13:28:38+09:00
    pdfversion   : 1.4
    total_pages  : 23
    source       : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    ```

---

* **`PDFMiner`** 를 사용하여 `HTML 텍스트` 생성

  * 이 방법은 출력된 `HTML 콘텐츠` → **`BeautifulSoup`** 을 통해 파싱
  * `글꼴 크기`, `페이지 번호`, `PDF 헤더/푸터` 등에 대한 보다 구조화되고 풍부한 정보를 얻을 수 있음 → 텍스트를 의미론적으로 섹션으로 분할하는 데 도움이 될 수 있음

In [None]:
# PDFMinerPDFasHTMLLoader를 사용하여 PDF 문서를 HTML 형식으로 로드하는 코드

# langchain_community.document_loaders 모듈에서 PDFMinerPDFasHTMLLoader 클래스 임포트
from langchain_community.document_loaders import PDFMinerPDFasHTMLLoader

# PDFMinerPDFasHTMLLoader 인스턴스 생성
# FILE_PATH: 로드할 PDF 파일의 경로
loader = PDFMinerPDFasHTMLLoader(FILE_PATH)

# 문서 로드
# loader.load(): PDF 파일을 HTML 형식으로 로드하여 Document 객체 리스트 반환
docs = loader.load()

# 문서의 내용 출력
# docs[0].page_content: 첫 번째 페이지의 내용
# [:300]: 내용의 처음 300자만 출력
print(docs[0].page_content[:300])

<small>

* 셀 출력 (1.7s)

    ```html

    <html><head>
    <meta http-equiv="Content-Type" content="text/html">
    </head><body>
    <span style="position:absolute; border: gray 1px solid; left:0px; top:50px; width:612px; height:858px;"></span>
    <div style="position:absolute; top:50px;"><a name="1">Page 1</a></div>
    <div style="position:absolute; border

    ```

In [None]:
# 메타데이터 출력

show_metadata(docs)

<small>

* 셀 출력

    ```markdown

    [metadata]
    ['source']

    [examples]
    source : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf

    ```

In [52]:
from bs4 import BeautifulSoup

# BeautifulSoup 객체 생성
# docs[0].page_content: HTML 형식의 문자열
# "html.parser": HTML 파서 지정
soup = BeautifulSoup(docs[0].page_content, "html.parser")

# 모든 div 태그 검색
# soup.find_all("div"): HTML 문서에서 모든 div 태그를 찾아 리스트로 반환
content = soup.find_all("div")

<small>

* 이 코드는 `BeautifulSoup` 라이브러리를 사용 → `HTML` 문서 파싱 → 모든 div 태그를 검색하는 기능 수행
  
* `BeautifulSoup` 객체 생성 → `find_all 메서드`를 사용 → `모든 div 태그`를 찾아 `리스트`로 반환 → **`content`** 변수에 저장

In [55]:
import re                               # 정규표현식을 사용하기 위한 파이썬 임포트

# 현재 글꼴 크기 초기화
cur_fs = None
# 현재 텍스트 초기화
cur_text = ""
# 동일한 글꼴 크기의 모든 스니펫 수집할 리스트
snippets = []

# 모든 div 태그를 순회
for c in content:
    sp = c.find("span")                 # div 태그 내의 span 태그 검색
    if not sp:                          # span 태그가 없으면 다음 태그로 넘어감
        continue

    # span 태그의 style 속성 가져오기
    st = sp.get("style")
    
    if not st:                          # style 속성이 없으면 다음 태그로 넘어감
        continue

    # style 속성에서 font-size 값 추출
    #fs = re.findall("font-size:(\d+)px", st)
    # 수정된 코드
    fs = re.findall(r"font-size:(\d+)px", st)
    if not fs:                          # font-size 값이 없으면 다음 태그로 넘어감
        continue

    # font-size 값을 정수로 변환
    fs = int(fs[0])

    # 현재 글꼴 크기가 설정되지 않았으면 현재 글꼴 크기로 설정
    if not cur_fs:
        cur_fs = fs

    # 현재 글꼴 크기와 동일한 경우 텍스트 추가
    if fs == cur_fs:
        cur_text += c.text
    # 글꼴 크기가 다른 경우
    else: 
        # 현재까지의 텍스트와 글꼴 크기를 snippets 리스트에 추가
        snippets.append((cur_text, cur_fs))
        # 현재 글꼴 크기와 텍스트 업데이트
        cur_fs = fs
        cur_text = c.text

# 마지막 텍스트와 글꼴 크기를 snippets 리스트에 추가
snippets.append((cur_text, cur_fs))

# 중복 스니펫 제거 전략 추가 가능성 (PDF의 헤더/푸터가 여러 페이지에 걸쳐 나타나므로 중복 발견 시 중복 정보로 간주 가능)

<small>

* `HTML` 문서에서 `동일한 글꼴 크기`를 가진 `텍스트 스니펫`을 `추출`하는 기능을 수행

<br>

* `BeautifulSoup`을 사용하여 `HTML 문서`를 `파싱`한 후, 각 `div` 태그 내의 `span` 태그에서 `글꼴 크기`를 추출하고, `동일한 글꼴 크기`를 가진 `텍스트`를 모아 **`리스트`에 저장**

  * 이 리스트는 `snippets` 변수에 저장되며

  * **각 요소는 (텍스트, 글꼴 크기)의 `튜플`**

In [None]:
from langchain_core.documents import Document

# 현재 인덱스 초기화
cur_idx = -1
# 의미론적 스니펫 리스트 초기화
semantic_snippets = []

# 제목 가정: 높은 글꼴 크기
for s in snippets:
    # 새 제목 판별: 현재 스니펫 글꼴 > 이전 제목 글꼴
    if (
        not semantic_snippets       # semantic_snippets가 비어있는 경우
        or s[1] > semantic_snippets[cur_idx].metadata["heading_font"]  
                                    # 현재 글꼴 크기가 이전 제목 글꼴 크기보다 큰 경우
    ):
        # 새 문서 생성
        metadata = {
            "heading": s[0],        # 제목으로 현재 텍스트 설정
            "content_font": 0,      # 내용 글꼴 초기화
            "heading_font": s[1]    # 제목 글꼴 크기 설정
        }
        metadata.update(docs[0].metadata)       # 기존 메타데이터 추가
        semantic_snippets.append(Document(page_content="", metadata=metadata))
        cur_idx += 1                # 인덱스 증가
        continue

    # 동일 섹션 내용 판별: 현재 스니펫 글꼴 <= 이전 내용 글꼴
    if (
        not semantic_snippets[cur_idx].metadata["content_font"]  
                                    # 내용 글꼴이 설정되지 않은 경우
        or s[1] <= semantic_snippets[cur_idx].metadata["content_font"]  
                                    # 현재 글꼴 크기가 이전 내용 글꼴 크기보다 작거나 같은 경우
    ):
        # 현재 섹션에 내용 추가
        semantic_snippets[cur_idx].page_content += s[0]                 # 텍스트 추가
        semantic_snippets[cur_idx].metadata["content_font"] = max(
            s[1], semantic_snippets[cur_idx].metadata["content_font"]   # 더 큰 글꼴 크기로 업데이트
        )
        continue

    # 새 섹션 생성 조건: 현재 스니펫 글꼴 > 이전 내용 글꼴, 이전 제목 글꼴 미만
    metadata = {
        "heading": s[0],            # 제목으로 현재 텍스트 설정
        "content_font": 0,          # 내용 글꼴 초기화
        "heading_font": s[1]        # 제목 글꼴 크기 설정
    }
    metadata.update(docs[0].metadata)                       # 기존 메타데이터 추가
    semantic_snippets.append(Document(page_content="", metadata=metadata))
    cur_idx += 1                    # 인덱스 증가

# 5번째 의미론적 스니펫 출력
print(semantic_snippets[4])

<small>

* **`PDF` 문서의 구조를 분석 → `의미론적 스니펫`을 `생성`하는 기능을 수행**

* `글꼴 크기`를 기반으로 `제목`과 `내용`을 구분하고, 각 `섹션`을 문서 객체로 생성

* **`semantic_snippets` 리스트** = 각 `섹션`의 `제목`, `내용`, `글꼴 크기 정보`가 포함된 `문서 객체 저장`

---

<small>

* 셀 출력

    ```makrdown

    page_content='KEY Contents
    n 미국 바이든 대통령이 ‘안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령’에 서명하고 
    광범위한  행정  조치를  명시
    n 행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 
    보호  △노동자  지원  △혁신과  경쟁  촉진  △국제협력을  골자로  함
    ' metadata={'heading': '미국,  안전하고  신뢰할  수  있는  AI  개발과  사용에  관한  행정명령  발표 \n', 'content_font': 12, 'heading_font': 15, 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf'}

    ```

---

### **`PyPDF 디렉토리`**

* 디렉토리에서 `PDF` 로드하기

In [None]:
from langchain_community.document_loaders import PyPDFDirectoryLoader

# 디렉토리 경로
loader = PyPDFDirectoryLoader("../06_Document_Loader/data/")

# 문서 로드
docs = loader.load()

# 문서의 개수 출력
print(len(docs))                        # 44

44


In [None]:
print(type(docs))           # <class 'list'>

In [None]:
print(docs)

<small>

* 셀 출력

    ```python
    [Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 0, 'page_label': '1'}, page_content='디지털 정부혁신 추진계획\n2019.10.29.\n 관계부처 합동'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 1, 'page_label': '2'}, page_content='순    서Ⅰ.개요· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1Ⅱ. 디지털 정부혁신 추진계획· · · · · · · · · · · · · · · · · · · · · · · 2  1. 우선 추진과제· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2     ① 선제적·통합적 대국민 서비스 혁신     ② 공공부문 마이데이터 활성화     ③ 시민참여를 위한 플랫폼 고도화     ④ 현장중심 협업을 지원하는 스마트 업무환경 구현     ⑤ 클라우드와 디지털서비스 이용 활성화     ⑥ 개방형 데이터·서비스 생태계 구축  2. 중장기 범정부 디지털 전환 로드맵 수립· · · · · · · · · · · · · · · · 4Ⅲ. 추진체계 및 일정· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4 [붙임] 디지털 정부혁신 우선 추진과제(상세)· · · · · · · · · · · 8'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 2, 'page_label': '3'}, page_content='Ⅰ. 개 요□ 추진 배경○우리나라는국가적초고속정보통신망투자와적극적인공공정보화사업추진에힘입어세계최고수준의전자정부를구축\n운영     * UN전자정부평가에서 2010‧12‧14년 1위, 16‧18년 3위, UN공공행정상 13회 수상○그러나,인공지능\n클라우드중심의디지털전환(DigitalTransformation)시대가도래함에따라기존전자정부의한계표출-축적된행정데이터에도불구하고기관간연계\n활용미흡,부처단위로단절된서비스,신기술활용을위한제도\n기반부족-디지털전환을위한컨트롤타워가없고,구체적전략도부재○이에,‘19.3월부터공공부문ICT활용현황및문제점검토에착수하여공공분야디지털전환을위한추진계획마련     * 관계부처 협의 21회(행안,과기정통,기재,복지,권익위,국정원 등), 민간전문가 의견청취 10회□ 문제점 진단 및 평가○(서비스)국민과최종이용자관점에서서비스혁신미흡-자격이있어도자신이받을수있는공공서비스를파악하기어려워사각지대가발생하고,온라인신청가능한서비스도제한적○(데이터)기관별로축적·보유한데이터의연계와활용부족-A기관에서서류를발급받아B기관에제출하는관행(연간증명서9.5억건‘18년발급)등데이터가국민편익향상에제대로활용되지못함○(시스템)디지털신기술의적기도입과활용곤란-기존복잡한용역개발방식은혁신주기가짧은디지털전환에부적합-사무실\nPC등고정된업무환경으로이동근무\n협업에한계○(거버넌스)디지털전환을위한부처간협업등추진체계취약'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 3, 'page_label': '4'}, page_content='Ⅱ. 디지털 정부혁신 추진계획‣ (비전) 디지털로 여는 좋은 세상   ※ 부제 : 대한민국이 먼저 갑니다.‣ (추진원칙) ① 최종 이용자의 관점에서 ② 공공서비스 수준 향상을 목표로③ 혁신 친화적인 방식으로 ④ 국민과 함께우선 추진과제1 선제적·통합적 대국민 서비스 혁신○(맞춤형안내)각기관에서제공하는급부적서비스를분류\nDB화하고,한번에안내\n추천\n신청\n결과확인까지가능한통합서비스환경구현     * PC, 스마트폰, AI스피커 등 다양한 기기에서 인공지능 기반의 채팅‧음성대화 지원○(생애주기서비스)출산·결혼·사망등생애주기상주요이벤트와관련된서비스를한번에안내받고신청할있는원스톱패키지확대     * 행복출산, 안심상속 등 2종 → ‘22년 10개 이상(든든임신, 온종일돌봄 등)○(선제적서비스)사회적취약계층의사전동의를받아맞춤형복지서비스를선제적으로지원하는가칭복지멤버십도입○(혁신적서비스)프로세스혁신,대국민서비스향상등기존한계를뛰어넘는디지털기반의공공서비스혁신사업적극발굴·추진     * 블록체인 기반 부동산거래 플랫폼(‘20~), 인공지능 출입국시스템 등 구축(’19~)○(서비스표준)정부웹사이트를쉽고편리하게이용할수있도록통합로그인체계및디지털서비스표준마련     * 공공 웹사이트 플러그인 완전제거, 통합 간편로그인 활성화, 웹사이트 UI·UX 표준화 등2 공공부문 마이데이터 활성화○(자기정보활용)국민이요청하면보유기관의동의없이도본인정보를민원처리에활용할수있도록행정정보공동이용제도개선     * (현행) ①근거법령+②보유기관 동의 ⇒ (개선) 민원인 동의○(자기정보다운로드)자기정보를데이터형태로다운로드하고안전하게유통(위변조방지,유통이력확인)할수있는마이데이터포털구축     * (현행) 증명서 제출 ⇒ (향후) 필요 최소한의 데이터 선별‧다운로드‧제공'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 4, 'page_label': '5'}, page_content='○(전자증명서)스마트폰(전자지갑)을활용해각종증명서를전자적으로발급\n보관하고,관공서\n은행등에방문없이제출     * (19년) 주민등록등·초본 → (20년) 가족관계증명서 등 100종 → (21년) 인감증명서 등 300종○(모바일신분증)위\n변조및도용우려가있는기존플라스틱카드보다안정성\n편의성이높은스마트폰기반디지털신분증도입     * 학생증, 공무원증 등 이용대상과 목적이 명확한 분야부터 안전성 점검 후 단계적 확대○(디지털고지\n수납)각종고지서·안내문*등을온라인(공공\n민간)으로받고,간편하게납부할수있도록디지털고지\n수납활성화     * 종이고지서 건수(‘18년 천만건) : 국세 1.1, 지방세 19.5, 4대보험 12.5, 자동차검사안내 2.33 시민 참여를 위한 플랫폼 고도화○(국민의소리)개별운영중인콜센터(118개기관,156개콜센터)시스템을통합하여,접수부터완결까지단절없는상담내역관리\n분석체계구축     * (기존) 신문고 등 문자민원 분석 → (개선) 신문고 + 전화상담 데이터 통합 분석○(도전.한국)일반적공모전과차별화*한가칭도전.한국플랫폼을운영하여사회문제해결을위한시민참여의장제공     * 도전적 문제 제시(현장공무원+전문가 참여), 과감한 포상과 후속 지원, 확실한 정책 반영○(취약계층지원)디지털취약계층의오프라인수수료감면*및비대면서비스확산(키오스크등)에대응한실생활중심콘텐츠개발\n보급     * 주민등록등본 발급의 경우, 온라인은 무료, 주민센터 발급은 400원의 수수료 부과4 현장중심 협업을 지원하는 스마트 업무환경 구현○(스마트업무환경)세종시이전에따른비효율극복,칸막이없는협업행정을위해사무실에고착된공무원의PC이용환경개선-공무원1인당2대의컴퓨터(내부망,인터넷망)이용중→1대의노트북으로교체하여이동\n출장중에도활용     * 예산절감을 위해 개방형OS, 클라우드기반 가상PC 도입 / 노트북 활용에 따른 보안대책 마련-클라우드기반웹오피스,G-드라이브저장소등협업도구고도화○(모바일행정)증대되는현장행정수요(현장조사·점검,안전등)에대응한모바일행정기반고도화전략수립'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 5, 'page_label': '6'}, page_content='5 클라우드와 디지털서비스 이용 활성화○(민간클라우드이용확대)안보·수사,내부시스템을제외한전체시스템을이용대상으로확대하고,내부시스템도부처협의를거쳐허용○(개방형플랫폼)AI,클라우드등을활용한서비스를쉽게개발\n운영할수있도록개방형전자정부클라우드플랫폼구축○(서비스전문계약)우수한민간서비스를정부가이용할수있도록디지털서비스전문계약제도를마련하고,유통플랫폼구축     * (영국) 클라우드전문계약 도입 후 계약금액 ‘12104억→’181조 7,421억원(중소기업 45%차지)6 개방형 데이터·서비스 생태계 구축○(데이터연계)데이터연계·수집·분석·활용을지원하는범정부데이터플랫폼을구축(‘19.중앙→’20.지자체\n공공)하고,협업을통한종합분석강화○(공공데이터개방)민간활용도높은공공데이터개방을확대하고,공익적가치가큰개인정보데이터는익명화를거쳐표본DB로개방○(공공서비스개방)정부가직접운영하는웹\n앱에서만가능한공공서비스(예:민원신청,생활불편신고등)를오픈API방식으로민간에개방중장기 범정부 디지털 전환 로드맵 수립○6대우선추진과제의조속한추진을통해낡은체제를극복할계기를마련하고,중장기관점의디지털전환을위한로드맵수립(‘20년)로드맵 핵심 내용 ① 공공서비스 全주기 혁신          ② 데이터-클라우드-인공지능 선순환 전략 ③ 데이터중심 정보보호 체제        ④ 개방형 디지털정부 생태계 조성 ⑤ 디지털 전환 제도‧절차 및 추진조직 정비, 핵심인재 확보, 공무원 역량강화Ⅲ. 추진체계 및 일정○디지털정부혁신기획단(BH),디자인\n개발전문가팀(한국형18F)신설     * 위원회 신설 없이 정부혁신추진협의회, 전자정부추진위 등과 연계‧협업○범정부T/F구성및과제별세부추진계획수립\n이행(11월초~)○정부혁신박람회,과제별연계홍보를통한공감대확산(11월~)'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 6, 'page_label': '7'}, page_content='참고1디지털 정부혁신 추진전략□ 비전         디지털로 여는 좋은 세상                  ※ 부제 : 대한민국이 먼저 갑니다.□ 추진원칙△ 최종 이용자의 관점에서△ 공공서비스 수준 향상을 목표로△ 혁신 친화적인 방식으로△ 국민과 함께□ 우선 추진과제편리한 맞춤형 서비스  연 계·공 유·개 방 데이터효율적인 유연한 시스템 통합적 거버넌스정부국민 \n  \n   1. 선제적·통합적 대국민 서비스 혁신 2. 공공부문 마이데이터 활성화 3. 시민참여 플랫폼 고도화      (Front-end)                  4. 현장 중심 스마트 업무환경 구현  5. 클라우드와 디지털 서비스 이용 활성화 6. 개방형 데이터·서비스 생태계 구축                                                                                            (Back-end)□ 중장기 범정부 디지털 전환 로드맵 수립□ 추진체계 강화△ 디지털정부혁신기획단, 디자인‧개발 전문가팀 신설△ 범정부 T/F 운영'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 7, 'page_label': '8'}, page_content='참고2주요 과제별·연도별 추진일정추진 과제추진일정관계부처2019202020212022상하상하상하상하1.선제적·통합적 대국민 서비스 혁신□1대국민 편익서비스 맞춤형 안내보조금ISP부처·지자체공공기관·단체고도화행안부, 각부처, 지자체시범본사업□2생애주기 서비스 대폭 확대2개4개7개10개행안‧복지‧교육‧고용부 등□3사각지대 예방을 위한 선제적 서비스 제공마스터플랜시스템구축시범본사업복지부‧각부처‧지자체법개정□4기존 한계를 뛰어넘는 공공서비스 혁신사업 추진21년예산반영행 안‧과 기 정 통 부‧각 부 처□5디지털서비스 표준 마련·적용사전표준 마련단계적적용확산행 안‧과 기 정 통 부‧각 부 처검토방안 확정2.공공부문 마이데이터 활성화□1민원사무에 대한 자기정보 활용법 개 정적용확산행안부, 각부처, 지자체□2스마트폰을 통한 전자증명서 발급·유통시범100종300종행안부□3공공부문 자기정보 다운로드 서비스 개시포털 구축행안부시범확대□4모바일 신분증 도입 1종3종확산행안‧교육‧여가‧인사처 등□5디지털 고지·수납 활성화BPR/ISP공통기반구축확산행안부, 각부처, 지자체자율 추진3.시민 참여를 위한 플랫폼 고도화□1국민의 소리 청취·분석 시스템 개선BPR/ISP1차2차확산권익위, 각부처, 지자체차 세 대개통전화내역통합□2도전.한국 플랫폼 운영계획공모확대행안부, 각부처수립착수적용□3디지털 취약계층을 위한 지원제도개선적용행 안‧과 기 정 통 부프로그램확대4.현장중심 협업 지원 스마트 업무환경 구현□1스마트 업무환경으로 단계적 전환계획개방형OS1PC 적용확산행안부‧국정원‧과기정통부 등수립노트북보안망□2모바일 행정 활성화사전전략예산행안‧복지‧과기정통부 등검토재수립반영5.클라우드와 디지털 서비스 이용 활성화□1민간 클라우드 이용범위 대폭 확대지침 행안부‧국정원‧과기정통부 등개정□2개방형 전자정부 클라우드 플랫폼 구축구축고도화고도화대구센터적용행 안‧과 기 정 통 부지원센터개소□3디지털 서비스 전문계약 활성화서 비 스 계 약  제 도 화활성화기재‧과기정통‧행안부‧조달청예산지침개정6.개방형 데이터·서비스 생태계 구축□1범정부 데이터 연계·활용 기반 강화중앙지 자 체·공 공 기 관행안부‧각부처활용기준마련□2국민에게 가치있는 공공데이터 개방 확대O pen API 개 방확대행안부‧각부처표본DB□3Open API를 통한 공공서비스 개방 추진대상계획예산활성화행 안‧과 기 정 통 부‧각 부 처검토확정반영※과제별추진일정은사업계획구체화및연차별예산확보상황등에따라일부변동가능'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 8, 'page_label': '9'}, page_content='참고3디지털 정부혁신 기대효과◈동방안을성공적으로추진하는경우,정부 디지털 서비스에서세계 최고 선도국으로재도약가능⇨2020년대중반UN 전자정부 평가 1위기대□(대국민)공공서비스에대한이용자 경험을획기적으로 개선○‘22년까지국민이편리하게맞춤형으로공공서비스를추천·안내받고신청·결과확인까지할수있는기반을조성하여이용자편익제고※자신만의전자지갑/사서함을통해각종증명서를전자적으로보완·제출하고,여권만료·취업훈련·건강검진등을사전에안내·고지받고,실시간으로신고·신청가능-사회적취약계층에대한선제적서비스제공으로사각지대예방○‘22년까지종이증명서를절반이하로감축하여3조원이상절감○국민에게친숙한민간서비스를통해공공서비스를제공하는등불편한정부온라인서비스환경을글로벌표준에맞도록개선□(정부내)국민과현장의요구에민감하게반응할 수 있는 정부로혁신○대국민서비스향상을위해데이터를막힘없이연계·활용하고,서비스수요에따라정보시스템의자원을유연한활용이가능○사무실중심민원처리에서벗어나국민의목소리에민감하게반응하고,안전·환경·복지등증대되는현장행정수요에능동적으로대처□(산업계)개방형생태계를기반으로 SW산업의글로벌 도약기대○오픈소스중심의디지털정부생태계와공공시장수요를바탕으로첨단디지털산업의혁신가속화와글로벌도약을위한전기마련※오픈API를통한데이터및공공서비스제공,마이데이터활성화,오픈소스클라우드플랫폼등을중심으로국내SW산업혁신생태계가크게활성화될것으로기대○장기적으로정부의디지털전환이적극추진되어스마트시티등도시행정전반의혁신으로파급되는경우막대한경제효과예상※국내공공\n도시분야디지털혁신으로16~30년까지105조원파급효과,10~30만명일자리증가(‘18.맥킨지)'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 9, 'page_label': '10'}, page_content='붙임디지털 정부혁신 우선 추진과제(상세)1선제적·통합적 대국민 서비스 혁신(신청주의에서 찾아가는 서비스로!)ㅇ국민 각자의 상황에 꼭 맞는 정부의 혜택을 똑똑하게 찾아서 알려드리고, 유아기에서 노년기까지 삶의 중요한 순간에 필요한 서비스를 통합 제공하겠습니다.ㅇ국민이 몰라서 혜택을 받지 못하거나 신청 방법을 알지 못해 불이익을 받지 않도록 하겠습니다.□1 대국민 편익 서비스 맞춤형 안내(20년말 시범→ 22년 고도화)     행안부,각부처·지자체○중앙정부\n지자체\n공공기관이제공하는각종급부적서비스를체계적으로파악·분류하여DB화※공공서비스DB를e나라도움,e호조,에듀파인등각종재정정보시스템과연계하여일관성확보-행복e음·건강보험·가족관계등각종자격확인시스템을연계(현재27종),자신이받을수있는서비스의편리한검색·확인을지원(조건입력최소화)○‘22년까지하나의대화형인터페이스*로각종맞춤형서비스를선제적으로추천·안내받고결과확인까지할수있는AI기반의통합서비스환경구축(’20년착수)*PC,스마트폰,AI스피커등다양한기기에서인공지능기반의채팅및음성대화지원□2 생애주기 서비스 대폭 확대(현재 2개→ 22년 10개 이상)         행안·복지·교육·고용부 등○출생,사망,결혼등생애주기상의주요이벤트에따른일련의서비스(부처별·지자체별)를한번에안내받고신청할있도록패키지화*현재:행복출산원스톱서비스(영유아단계),안심상속원스톱서비스(어르신단계)<행복출산원스톱서비스사례>ㅇ양육수당,아동수당등각종출산지원서비스를출생신고시한번에신청(부처별전국공통서비스7종+지자체별서비스3∼10종)-‘18년기준출산가구의99.4%가이용(33.2만건)※(경과)14.9서비스기획/부처협의→15.5추진계획수립→15.12시범사업→16.3전국서비스(방문신청)→17.11온라인신청→18.12온라인신청결과확인제공'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 10, 'page_label': '11'}, page_content='-범정부차원의생애주기패키지발굴→프로세스혁신→시스템연계\n구축을위한추진체계강화(협업정원,정부혁신평가,포상등활용)<생애주기패키지분야(예시)>\n:시행중인 서비스,  : 시행 준비 중인 서비스□3 사각지대 예방을 위한 선제적 서비스 제공(21년말 시행)       복지부,각부처·지자체○사회적취약계층을대상으로사전동의를받아주기적소득\n재산\n인적정보조사와이력관리를통해맞춤형서비스를선제적*으로지원하는(가칭)복지멤버십도입(’19.4월복지부기발표)*사회보장지원을희망하는개인\n가구를대상으로수급가능성이높은사업을먼저찾아안내-핵심성공요소인주민·가족관계·소득·금융·부동산·공공요금등정보및시스템연계를범정부적으로뒷받침(‘20년사회보장급여법개정)□4 기존 한계를 뛰어넘는 공공서비스 혁신사업 추진(계속)  행안·과기정통부,각부처○디지털관점에서△기존프로세스를혁신하거나,△공통플랫폼으로활용가능하거나,기타△대국민서비스를획기적으로향상시킬수있는디지털혁신사업적극발굴·추진(디지털정부혁신중점사업선정·지원)중점사업(예시) 현행개선블록체인기반부동산거래플랫폼(국토부)*20년ISP,23년구축완료부동산증명서통합(18→1종)에도종이문서유통여전(연간수수료1,300억),실거래가조작등시장교란행위포착곤란블록체인으로관공서·법원·은행·전자계약참여자간거래정보를공유(문서감축·이상거래탐지)하고,계약→대출→등기자동실행인공지능식별\n추적시스템(법무부\n과기정통부)*19∼22년경쟁적개발공공은출입국서비스개선을위한출입자식별과이상행동탐지알고리즘필요/민간은AI학습데이터확보곤란경쟁적기술개발(19∼22년)로인식률99.9%의식별알고리즘등확보→대기시간단축,범죄율20%이상감소기대'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 11, 'page_label': '12'}, page_content='□5 디지털 서비스 표준 마련·적용(20년 마련, 연차별 확대)     행안·과기정통부,각부처○정부웹사이트를쉽고편리하게이용할수있도록통합로그인체계및디지털서비스표준마련*공공웹사이트플러그인완전제거,통합간편로그인활성화,웹사이트UI·UX표준화등2공공부문 마이데이터* 활성화(종이증명서는 이제 그만!)ㅇ정부서비스를 받기 위해 타 기관에서 발급받은 증명서·확인서 등의 서류를 제출하는 일이 없도록 개선하겠습니다.ㅇ주민등록등본 등 각종 증명서와 우편물 고지서는 스마트폰으로 받을 수 있도록 하고, 신분증도 스마트폰에 안전하게 담아 이용할 수 있도록 하겠습니다. .*정보주체인이용자중심의데이터활용패러다임으로금융(英),의료(美)분야에서적용되어오다가최근유럽연합(EU)이데이터이동권으로법제화·시행(18.5)□1 민원사무에 대한 자기정보 활용(20년 하반기부터 적용)       행안부,각부처·지자체○국민이요청하면보유기관의동의없이도본인정보를민원처리에활용할수있도록행정정보공동이용제도개선(연내민원처리법개정)-(현행)①근거법령+②보유기관동의→(개선)민원인동의※현재의육안확인+수기입력방식으로데이터오류의주요원인으로작용<본인동의를통한공공시설이용료자동감면사례>☞(기존)공공시설이용료감면혜택을주기위해이용자에게각종증명서(장애인증명,기초생활수급확인서등)제출요구→서류제출부담은물론,민감정보노출,사회적낙인효과우려-(개선)18년본인동의만으로각종자격확인시스템(Y/N값만회신)을연계하여감면혜택을자동부여하는서비스도입(현재18개지자체→20년전국확대적용추진)□2 스마트폰(전자지갑)을 통한 전자증명서 발급·유통(20년말 100종)    행안부○각종증명서를전자적으로발급\n보관*하고,관공서는물론,은행·통신대리점등에서직접방문없이전자증명서로제출할수있도록지원-수요가많은증명서부터순차발급:(19년말)주민등록등·초본→(20년말)가족관계증명서등100종→(21년말)인감증명서등300종'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 12, 'page_label': '13'}, page_content='□3 공공부문 자기정보 다운로드 서비스 개시(20년 포털 구축)     행안부○국민이자기정보를검색\n다운로드하고안전하게유통(위변조방지+유통이력확인)할수있는마이데이터포털구축(‘20년)※본인만이접근가능한클라우드기반의‘자기정보저장소’구축·제공-활용처가분명한분야부터‘나의데이터’및‘꾸러미데이터’(은행대출·건강검진·신용회복꾸러미등)다운로드제공※현행증명서단위유통→향후필요최소한의데이터만선별·제공하는방식으로전환○공공부문자기정보제3자전송권은데이터3법입법이후본격검토※동의권의실질적보장,마이데이터이용내역확인및삭제권등보호조치마련□4 모바일 신분증 도입(20∼21년 안전성 검증)                     행안·교육·여가부·인사처○위\n변조및도용우려가있는기존플라스틱카드방식보다안전성과활용편의성이높은스마트폰기반의디지털신분증(ID)도입(원하는국민에게만기존신분증과병행발급)-공무원증,학생증등을대상으로안전성검증후,단계적으로확대*‘19.9월통신3사가신청한스마트폰기반운전면허확인서비스를규제샌드박스로허용□5 디지털 고지·수납 활성화(기관자율로 추진)                   행안부,각부처·지자체○국민이각종고지서*를원하는온라인채널(웹,공공앱,민간앱등)로받고간편납부도할수있도록개선(언제든지종이고지서로변경가능)*종이고지서건수(18년,천만건):국세1.1,지방세19.5,4대보험12.5,자동차검사안내23등-공공기관이공동활용할수있는디지털고지\n수납공통기반구축(’21년)※행안부는19.7월부터지방세디지털고지·납부시행<종이증명서·고지서감축에따른비용절감효과>☞민원처리시자기정보활용이나전자증명서대체로종이증명서가연간10%감축되는경우매년5천억원의사회적비용절감기대(오프라인발급율(16년46.6%)등고려)☞18년기준전국지자체의종이고지서제작·발송비용은1,000억원규모로디지털고지·수납이전체공공부문에확산될경우상당한비용절감전망'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 13, 'page_label': '14'}, page_content='3시민참여를 위한 플랫폼 고도화(국민의 소리를 소중히!)ㅇ정부의 각종 콜센터를 통합하여, 국민의 소리를 더욱 꼼꼼하게 듣고 분석하여 서비스 수준을 국민의 눈높이에 맞추겠습니다.ㅇ정부가 단독으로 해결하기 어려웠던 사회적 문제를 국민과 함께 해결하고, 디지털기기 사용이 어려운 분들이 차별없이 서비스를 받도록 지원하겠습니다.□1 국민의 소리 청취·분석 시스템 개선(22년)                 권익위,각부처·지자체○국민신문고(1,009개기관연계·통합)시스템과는달리개별·분절적*으로운영중인공공분야콜센터(118개기관,156개콜센터)시스템을통합*텍스트민원은신청-처리-분석까지통합관리되고있는반면,전화민원은전화가끊기거나전화를넘기는경우처음부터다시설명해야하는것은물론,상담자료수집·분석도미흡※국민신문고민원추이:(16)2,305,601→(17)3,101,601→(18)4,754,302정부콜센터(110)상담추이:(16)2,667,572→(17)2,931,598→(18)3,254,756-클라우드기반표준시스템을구축하여콜과데이터를기관간연계함으로써상담품질및상담원(9,450명)의근무환경을개선⇒(‘20년)시스템기획→(’21년)1차통합(11개)→(‘22년)2차통합(33개)※중앙부처소관콜센터부터우선통합후,희망하는지자체·공공기관으로확대○접수부터완결까지단절없이전화상담내역을종합관리하고,민원정보분석시스템에반영*⇒범정부고객관계관리시스템(CRM)완성*(기존)신문고등문자민원분석→(개선)신문고+전화상담데이터통합분석□2 시민참여 문제해결을 위한 (가칭) 도전.한국 플랫폼 운영(20년)   행안부,각부처○일반적공모전과차별화하여①도전적문제제시*(현장공무원+전문가참여),②과감한포상과후속지원(사안에따라1천만～1.5억원+필요시R&D/시제품제작지원),③확실한정책반영을통해,-사회문제해결을위한시민의아이디어가시민주도(개인·팀·기업)로실제구현되어공공정책으로현실화되는시민참여의場제공*문제해결과관련된가용데이터를함께제공(개인정보는익명화조치)'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 14, 'page_label': '15'}, page_content='<미국Challenge.gov사례>☞10년美오바마정부에서도입,현재까지100개연방기관에서1,000건이상의챌린지과제가제시되었고,2.5억달러의상금이지급된크라우드소싱방식의문제해결플랫폼-공모*유형은△데이터분석,△디자인,△과학적연구,△SW개발,△프로토타입개발등다양한형태로이루어지며,챌린지특성에맞는전문가자문단지원*마약성진통제남용방지,농업재해대응,화성생활지원/통신망확보,3D프린터로집짓기등□3 디지털 취약계층을 위한 지원(계속)                              행안·과기정통부○노령층등취약계층을위해개인정보일시위탁으로공무원이민원처리를대행하거나오프라인민원수수료를감면*추진(20년제도개선)*주민등록등본발급의경우,온라인은무료,주민센터발급은400원의수수료부과○전화,창구상담등오프라인채널서비스수준을개선하고,행정각부문에서찾아가는서비스확대(민원처리→서비스중심전환)※공공임대입주지원,주거급여등찾아가는주거상담(국토부),저소득층대상찾아가는장려금신청(국세청),장애학생을위한도서관정보활용교육(문체부)○비대면서비스확산(각종무인판매기,키오스크등)으로불편을겪고있는노령층을위한실생활중심의교육콘텐츠개발·보급(대한노인회등과협력)4현장 중심 협업을 지원하는 스마트 업무환경 구현(2PC가 사라진다!)ㅇ최신 정보통신기술을 이용하여 공무원들이 언제 어디서나 일할 수 있는 환경을 만들겠습니다.ㅇ사무실에 복귀하지 않고 현장에서 모바일로 행정업무를 마무리할 수 있도록 개선해 나가겠습니다.□1 스마트 업무환경으로 단계적 전환(22년까지 기반 완성)           행안부·국정원·과기정통부 등○칸막이없는협업행정과현장중심원격근무지원을위해사무실에고착된공무원의컴퓨터이용환경개선(19.下,연차별계획마련)-기존내부망과외부망의물리적구분을논리적망분리구조로전환하여현행2PC→1노트북체제로개편(21년)※업무특성에따라데스크톱PC사용가능'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 15, 'page_label': '16'}, page_content='・이를위해△민간클라우드기반의가상PC환경에서인터넷을이용하는방식으로전환*(DaaS:DesktopasaService)하고,△가상PC에는개방형운영체제(OS)**를도입하여비용절감도모 (20～21년행안·과기정통부등선도부처적용후→타부처확산)*DaaS이용시기존방식보다약70%예산절감효과추정**(필요성)특정OS종속개선,플러그인사용관행원천제거계기-기관內보안무선망(SecureWiFi)을구축하여사무공간혁신:기존고정좌석제에서탈피하여유연한이동및협업근무지원(21년)-최종적으로업무용노트북의외부반출을허용하여현장중심행정및원격협업활성화(21년선도부처적용→22년타부처확산)○스마트업무환경구현을소프트웨어적으로뒷받침할클라우드기반문서처리및협업서비스고도화추진(20～22년)※별도의SW설치없이인터넷브라우저로문서를작성·처리하는클라우드기반웹오피스를도입하고,메신저,영상회의,G-드라이브(문서저장소)등각종협업도구를통합\n연계○급격한환경변화에대응한변화관리전략을마련하고,면밀한보안성검토를통해선제적보안대책*적용지원(국가정보원협조)*기관외부에서사용시보안접속(GVPN)적용,클라우드에서만문서작성및저장허용등□2 모바일 행정 활성화(20.上 전략 재수립)                        행안·복지·과기정통부 등○현장조사\n점검,안전,보건,지역사회통합돌봄등증대되는현장행정수요에대응한모바일행정기반고도화전략수립※사무실복귀없이현장에서행정처리를완결할수있는업무를확대하고,공공\n민간의다양한서비스주체간의정보공유및협업을지원'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 16, 'page_label': '17'}, page_content='5클라우드*와 디지털 서비스 이용 활성화(용역개발에서 이용으로!)ㅇ기업의 클라우드 서비스를 정부가 널리 이용하고, 민간의 우수한 서비스를 이용할 수 있는 제도를 마련하여 디지털 신산업 발전을 적극 지원하겠습니다.ㅇ첨단기술을 활용한 정부 서비스를 보다 신속하고 효율적으로 개발하여 운영할 수 있도록 클라우드 플랫폼을 구축하겠습니다.*대형컴퓨터→분산처리→클라우드로이어지는컴퓨팅패러다임의전환을대표하는기술·산업으로자원공유를통해유연한ICT활용을지원(인프라,플랫폼,SW서비스로구분)□1 민간 클라우드 이용범위 대폭 확대(19.下 지침 개정)       행안부·국정원·과기정통부 등○(현재)△안보·수사,△개인정보영향평가대상정보,△중앙부처·지자체의내부시스템은민간클라우드이용제외○(개선)①△안보·수사,△내부시스템을제외한전체시스템을대상으로민간클라우드이용허용-②내부업무시스템등도관계부처협의를거쳐민간클라우드이용허용□2 개방형 전자정부 클라우드 플랫폼 구축(19.下 착수)         행안·과기정통부○개방형전자정부클라우드플랫폼*구축(‘19.下~)에착수,‘22년국가정보자원관리원대구센터에우선적용,대전\n광주센터로확산*AI등을활용한응용서비스를클라우드기반으로손쉽에개발·실행하고오픈소스로공유-기능개선과기술지원을전담할개방형클라우드플랫폼센터*설치(20년)*공공과민간,글로벌과국내오픈소스커뮤니티를연결하는구심점으로육성□3 디지털 서비스 전문계약 활성화(20.1분기 전문계약 제도 마련)  기재·과기정통·행안부·조달청○20.1분기까지각급기관이참고할수있는디지털서비스전문계약제도마련(국가계약법하위법령개정으로명확한근거제공)-△종량제,△장기계약,△서비스상세협상,△카탈로그방식등디지털서비스이용계약에필요한특성이잘반영될수있도록설계-전문계약제도의효율적운영을위해전문유통플랫폼운영(20년∼)'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 17, 'page_label': '18'}, page_content='<영국클라우드전문계약제도운영성과>☞영국은클라우드우선전략에따라클라우드전문계약제도(G-CloudFramework)를마련하고,12년부터전문유통플랫폼(DigitalMarketplace)을운영중-12→18년까지참여기업수가258→3,505개,등록서비스수가1,700→24,543개,계약금액이104억→1조7,421억원(英공공ICT예산의약1/5수준)으로증가⇒(대기업편중시정)중소기업이계약건수의71%,계약금액의45%를차지(지역편중시정)시행前런던12개기업이독점→영국전역에서4천여개기업참여○각급기관의디지털서비스이용을활성화할수있도록정부예산편성및집행지침개정(‘20.上,지자체\n공공기관관련지침에도반영)○혁신적디지털서비스도입을위한예정가격산정기준개선(‘20.上,SW사업대가산정가이드라인개정)6개방형 데이터·서비스 생태계 구축(민간과 함께 혁신한다!)ㅇ공공데이터 연계와 활용 수준을 강화하여 공공서비스 품질을 높이고, 국민이 원하고 국민에게 도움이 되는 공공데이터의 개방을 확대해 나가겠습니다.ㅇ정부 사이트에서만 이루어지던 민원신청, 생활불편 신고 등도 국민들이 자주 사용하는 민간서비스로 편리하게 이용할 수 있도록 개방하겠습니다.□1 범정부 데이터 연계·활용 기반 강화(20년)                          행안부,각부처○안전·보건·환경·고용·사회복지등공공서비스수준향상과과학적정책결정을위하여기관간데이터의연계·수집·분석·활용을지원하는범정부데이터플랫폼구축(19년중앙부처→20년지자체·공공기관)-다부처협업에의한종합분석강화,공무원데이터분석역량제고추진※기관간데이터제공및공동활용강화를위한데이터기반행정법(17.12월정부발의)조속입법추진○공공영역에서민간데이터(카드,통신등)의도입·활용을위한기준마련(‘20년)※민간데이터의수집기준·제공형태·제공방식등을정의하고,적정한제공비용등산정□2 국민에게 가치있는 공공데이터* 개방 확대(계속)                  행안부,각부처※18년전수조사결과,공공데이터규모는총419,525개로이중6.8%개방(28,400개)○민간에서활용도가높은공공데이터의OpenAPI*를통한개방을대폭확대** *OpenApplicationProgrammingInterface'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 18, 'page_label': '19'}, page_content='-기상·환경·교통·안전등국민체감분야의각종측정·관측데이터및자율주행·스마트시티등4차산업혁명지원데이터를적극발굴·개방○공익적가치가큰개인정보데이터도철저한익명화조치를거쳐표본DB방식(신용정보표본DB,환자정보코호드DB등)으로개방확대□3 오픈 API를 통한 공공서비스 개방 추진(20.上 종합계획 수립) 행안·과기정통부, 각부처○그간정부가직접운영하는사이트와앱에서만가능했던공공서비스(각종민원신청,생활불편·안전신고등)를OpenAPI방식으로민간에점진적개방-국민에게친숙한민간서비스를통한공공서비스이용환경조성※(예시)전자지갑을통한전자증명서발급·열람,나의데이터다운로드,디지털고지·수납등을OpenAPI를통해민간플랫폼에서이용가능-개인정보보호및보안체계를갖춘적격민간사업자대상개방※안전성확보를위한사전평가등공공서비스개방체계마련○공공기관에서직접개발·운영하고있는불편하고,활용도가낮은공공앱들은대폭감축※18년말기준총771개의공공앱운영중:총구축·운영비989억원,평균누적다운로드24.3만건,이용자수9.3만명,이용자평점2.8(이용자수가500명미만인앱도202개)○민간에서많이활용하는소셜로그인,간편결제,화상회의등의검증된온라인서비스를공공시스템에서도도입·활용확대※공공영역에서자연어처리,이미지·음성인식,인공지능,데이터분석등민간의첨단솔루션을전략적으로활용하여디지털신산업을육성하는방안적극추진'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 19, 'page_label': '20'}, page_content='참고4주요 서비스별 변화 모습□ 선제적 맞춤형서비스\n□ 생애주기 원스톱서비스\n□ 디지털 고지 활성화'), Document(metadata={'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 20, 'page_label': '21'}, page_content='□ 전자증명서 발급·유통\n□ 현장중심의 스마트 업무환경\n□ 공공서비스 개방'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 0, 'page_label': '1'}, page_content='2023년 12월호'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 1, 'page_label': '2'}, page_content='2023년 12월호\nⅠ. 인공지능 산업 동향 브리프 1. 정책/법제    ▹ 미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표  ·························1   ▹ G7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의···························2   ▹ 영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언···························3   ▹ 미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각·····································4   ▹ 미국 연방거래위원회, 저작권청에 소비자 보호와 경쟁 측면의 AI 의견서 제출·················5   ▹ EU AI 법 3자 협상, 기반모델 규제 관련 견해차로 난항···················································6  2. 기업/산업    ▹ 미국 프런티어 모델 포럼, 1,000만 달러 규모의 AI 안전 기금 조성································7   ▹ 코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개  ·······································8   ▹ 알리바바 클라우드, 최신 LLM ‘통이치엔원 2.0’ 공개 ······················································9   ▹ 삼성전자, 자체 개발 생성 AI ‘삼성 가우스’ 공개 ···························································10   ▹ 구글, 앤스로픽에 20억 달러 투자로 생성 AI 협력 강화 ················································11   ▹ IDC, 2027년 AI 소프트웨어 매출 2,500억 달러 돌파 전망···········································12   ▹ 빌 게이츠, AI 에이전트로 인한 컴퓨터 사용의 패러다임 변화 전망································13   ▹ 유튜브, 2024년부터 AI 생성 콘텐츠 표시 의무화····························································14 3. 기술/연구   ▹ 영국 과학혁신기술부, AI 안전 연구소 설립 발표······························································15   ▹ 구글 딥마인드, 범용 AI 모델의 기능과 동작에 대한 분류 체계 발표······························16   ▹ 갈릴레오의 LLM 환각 지수 평가에서 GPT-4가 가장 우수 ···········································17    4. 인력/교육        ▹ 영국 옥스퍼드 인터넷 연구소, AI 기술자의 임금이 평균 21% 높아·······························18       \nⅡ. 주요 행사   ▹CES 2024·····························································································································19   ▹AIMLA 2024·························································································································19   ▹AAAI Conference on Artificial Intelligence··································································19'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 2, 'page_label': '3'}, page_content='Ⅰ. 인공지능 산업 동향 브리프'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 3, 'page_label': '4'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육미국, 안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령 발표 n미국 바이든 대통령이 ‘안전하고 신뢰할 수 있는 AI 개발과 사용에 관한 행정명령’에 서명하고 광범위한 행정 조치를 명시n행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 보호 △노동자 지원 △혁신과 경쟁 촉진 △국제협력을 골자로 함\nKEY Contents\n£바이든 대통령, AI 행정명령 통해 안전하고 신뢰할 수 있는 AI 개발과 활용 추진n미국 바이든 대통령이 2023년 10월 30일 연방정부 차원에서 안전하고 신뢰할 수 있는 AI 개발과 사용을 보장하기 위한 행정명령을 발표∙행정명령은 △AI의 안전과 보안 기준 마련 △개인정보보호 △형평성과 시민권 향상 △소비자 보호 △노동자 지원 △혁신과 경쟁 촉진 △국제협력에 관한 내용을 포괄n(AI 안전과 보안 기준) 강력한 AI 시스템을 개발하는 기업에게 안전 테스트 결과와 시스템에 관한 주요 정보를 미국 정부와 공유할 것을 요구하고, AI 시스템의 안전성과 신뢰성 확인을 위한 표준 및 AI 생성 콘텐츠 표시를 위한 표준과 모범사례 확립을 추진∙△1026 플롭스(FLOPS, Floating Point Operation Per Second)를 초과하는 컴퓨팅 성능 또는 생물학적 서열 데이터를 주로 사용하고 1023플롭스를 초과하는 컴퓨팅 성능을 사용하는 모델 △단일 데이터센터에서 1,000Gbit/s 이상의 네트워킹으로 연결되며 AI 훈련에서 이론상 최대 1020 플롭스를 처리할 수 있는 컴퓨팅 용량을 갖춘 컴퓨팅 클러스터가 정보공유 요구대상n(형평성과 시민권 향상) 법률, 주택, 보건 분야에서 AI의 무책임한 사용으로 인한 차별과 편견 및 기타 문제를 방지하는 조치를 확대∙형사사법 시스템에서 AI 사용 모범사례를 개발하고, 주택 임대 시 AI 알고리즘 차별을 막기 위한 명확한 지침을 제공하며, 보건복지 부문에서 책임 있는 AI 배포와 사용을 위한 전략을 마련 n(소비자 보호와 근로자 지원) 의료 분야에서 책임 있는 AI 사용을 촉진하고 맞춤형 개인교습 등 학교 내 AI 교육 도구 관련 자원을 개발하며, AI로 인한 근로자 피해를 완화하고 이점을 극대화하는 원칙과 모범사례를 마련n(혁신과 경쟁 촉진) 국가AI연구자원(National Artificial Intelligence Research Resource, NAIRR)*을 통해 미국 전역의 AI 연구를 촉진하고, 중소기업과 개발자에 기술과 인프라를 지원* 국가 차원에서 AI 연구 인프라를 확충해 더 많은 AI 연구자에게 인프라를 지원하는 프로그램 ∙비자 기준과 인터뷰 절차의 현대화와 간소화로 AI 관련 주요 분야의 전문 지식을 갖춘 외국인들이 미국에서 공부하고 취업할 수 있도록 지원☞ 출처 : The White House, Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence (E.O. 14110), 2023.10.30.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 4, 'page_label': '5'}, page_content='SPRi AI Brief |  2023-12월호\n2\nG7, 히로시마 AI 프로세스를 통해 AI 기업 대상 국제 행동강령에 합의nG7이 첨단 AI 시스템을 개발하는 기업을 대상으로 AI 위험 식별과 완화를 위해 자발적인 채택을 권고하는 AI 국제 행동강령을 마련n행동강령은 AI 수명주기 전반에 걸친 위험 평가와 완화, 투명성과 책임성의 보장, 정보공유와 이해관계자 간 협력, 보안 통제, 콘텐츠 인증과 출처 확인 등의 조치를 요구\nKEY Contents\n£G7, 첨단 AI 시스템의 위험 관리를 위한 국제 행동강령 마련n주요 7개국(G7)*은 2023년 10월 30일 ‘히로시마 AI 프로세스’를 통해 AI 기업 대상의 AI 국제 행동강령(International Code of Conduct for Advanced AI Systems)에 합의∙G7은 2023년 5월 일본 히로시마에서 개최된 정상회의에서 생성 AI에 관한 국제규범 마련과 정보공유를 위해 ‘히로시마 AI 프로세스’를 출범**∙기업의 자발적 채택을 위해 마련된 이번 행동강령은 기반모델과 생성 AI를 포함한 첨단 AI 시스템의 위험 식별과 완화에 필요한 조치를 포함* 주요 7개국(G7)은 미국, 일본, 독일, 영국, 프랑스, 이탈리아, 캐나다를 의미** 5월 정상회의에는 한국, 호주, 베트남 등을 포함한 8개국이 초청을 받았으나, AI 국제 행동강령에는 우선 G7 국가만 포함하여 채택nG7은 행동강령을 통해 아래의 조치를 제시했으며, 빠르게 발전하는 기술에 대응할 수 있도록 이해관계자 협의를 통해 필요에 따라 개정할 예정∙첨단 AI 시스템의 개발 과정에서 AI 수명주기 전반에 걸쳐 위험을 평가 및 완화하는 조치를 채택하고, 첨단 AI 시스템의 출시와 배포 이후 취약점과 오용 사고, 오용 유형을 파악해 완화∙첨단 AI 시스템의 성능과 한계를 공개하고 적절하거나 부적절한 사용영역을 알리는 방법으로 투명성을 보장하고 책임성을 강화∙산업계, 정부, 시민사회, 학계를 포함해 첨단 AI 시스템을 개발하는 조직 간 정보공유와 사고 발생 시 신고를 위해 협력하고, 위험 기반 접근방식을 토대로 개인정보보호 정책과 위험 완화 조치를 포함하는 AI 거버넌스와 위험 관리 정책을 마련∙AI 수명주기 전반에 걸쳐 물리보안, 사이버보안, 내부자 위협 보안을 포함한 강력한 보안 통제 구현∙사용자가 AI 생성 콘텐츠를 식별할 수 있도록 워터마크를 비롯하여 기술적으로 가능한 기법으로 신뢰할 수 있는 콘텐츠 인증과 출처 확인 메커니즘을 개발 및 구축 ∙사회적 위험과 안전·보안 문제를 완화하는 연구와 효과적인 완화 대책에 우선 투자하고, 기후 위기 대응, 세계 보건과 교육 등 세계적 난제 해결을 위한 첨단 AI 시스템을 우선 개발∙국제 기술 표준의 개발 및 채택을 가속화하고, 개인정보와 지식재산권 보호를 위해 데이터 입력과 수집 시 적절한 보호 장치 구현☞ 출처: G7, Hiroshima Process International Code of Conduct for Advanced AI Systems, 2023.10.30.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 5, 'page_label': '6'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육영국 AI 안전성 정상회의에 참가한 28개국, AI 위험에 공동 대응 선언n영국 블레츨리 파크에서 개최된 AI 안전성 정상회의에 참가한 28개국들이 AI 안전 보장을 위한 협력 방안을 담은 블레츨리 선언을 발표n첨단 AI를 개발하는 국가와 기업들은 AI 시스템에 대한 안전 테스트 계획에 합의했으며, 영국의 AI 안전 연구소가 전 세계 국가와 협력해 테스트를 주도할 예정 \nKEY Contents\n£AI 안전성 정상회의 참가국들, 블레츨리 선언 통해 AI 안전 보장을 위한 협력에 합의n2023년 11월 1~2일 영국 블레츨리 파크에서 열린 AI 안전성 정상회의(AI Safety Summit)에 참가한 28개국 대표들이 AI 위험 관리를 위한 ‘블레츨리 선언’을 발표 ∙선언은 AI 안전 보장을 위해 국가, 국제기구, 기업, 시민사회, 학계를 포함한 모든 이해관계자의 협력이 중요하다고 강조했으며, 특히 최첨단 AI 시스템 개발 기업은 안전 평가를 비롯한 적절한 조치를 취하여 AI 시스템의 안전을 보장할 책임이 있다고 지적∙각국은 AI 안전 보장을 위해 첨단 AI 개발기업의 투명성 향상, 적절한 평가지표와 안전 테스트 도구 개발, 공공부문 역량 구축과 과학 연구개발 등의 분야에서 협력하기로 합의£영국 총리, 정부 주도의 첨단 AI 시스템 안전 테스트 계획 발표n리시 수낙 영국 총리는 AI 안전성 정상회의를 마무리하며 첨단 AI 모델에 대한 안전성 시험 계획 수립과 테스트 수행을 주도할 영국 AI 안전 연구소의 출범을 발표∙첨단 AI 모델의 안전 테스트는 국가 안보와 안전, 사회적 피해를 포함한 여러 잠재적 유해 기능에 대한 시험을 포함하며, 참석자들은 정부 주도의 외부 안전 테스트에 합의∙각국 정부는 테스트와 기타 안전 연구를 위한 공공부문 역량에 투자하고, 테스트 결과가 다른 국가와 관련된 경우 해당 국가와 결과를 공유하며, 적절한 시기에 공동 표준 개발을 위해 노력하기로 합의 n참가국들은 튜링상을 수상한 AI 학자인 요슈아 벤지오 교수가 주도하는 ‘과학의 현황(State of the Science)’ 보고서 작성에도 합의했으며, 보고서를 통해 첨단 AI의 위험과 가능성에 관한 기존 연구를 과학적으로 평가하고 향후 AI 안전 연구를 위한 우선순위를 제시할 계획 n한국은 영국 정부와 6개월 뒤에 온라인으로 AI 미니 정상회의를 공동 개최하기로 합의했으며, 프랑스 정부와는 1년 후 대면 정상회의를 개최할 예정☞ 출처: Gov.uk, The Bletchley Declaration by Countries Attending the AI Safety Summit, 1-2 November 2023, 2023.11.01.Gov.uk, World leaders, top AI companies set out plan for safety testing of frontier as first global AI Safety Summit concludes, 2023.11.02.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 6, 'page_label': '7'}, page_content='SPRi AI Brief |  2023-12월호\n4\n미국 법원, 예술가들이 생성 AI 기업에 제기한 저작권 소송 기각n미국 캘리포니아 북부지방법원은 미드저니, 스태빌리티AI, 디비언트아트를 대상으로 예술가 3인이 제기한 저작권 침해 소송을 기각n법원은 기각 이유로 고소장에 제시된 상당수 작품이 저작권청에 등록되지 않았으며, AI로 생성된 이미지와 특정 작품 간 유사성을 입증하기 어렵다는 점을 제시 \nKEY Contents\n£예술가들의 AI 저작권 침해 소송, 저작권 미등록과 증거불충분으로 기각n미국 캘리포니아 북부지방법원의 윌리엄 오릭(W illiam  Orrick) 판사는 2023년 10월 30일 미드저니(M id jou rn ey), 스태빌리티AI(Stability AI), 디비언트아트(DeviantArt)에 제기된 저작권 침해 소송을 기각 ∙2023년 1월 예술가 사라 앤더슨(Sarah Anderson), 캘리 맥커넌(Kelly McKernan), 칼라 오르티즈(Karla Ortiz)는 이미지 생성 AI 서비스를 개발한 3개 기업을 상대로 저작권 침해 소송을 제기∙예술가들은 3개 기업이 AI 모델을 학습시키기 위해 원작자 동의 없이 작품을 학습 데이터셋에 포함하여 저작권을 침해했다고 주장했으며, 법원은 지난 4월 피소 기업들이 제출한 기각 신청을 수용해 소송을 기각 n오릭 판사는 판결문에서 소송을 기각한 핵심 이유로 예술가들의 저작권 미등록을 제시∙판결문은 소송을 제기한 캘리 맥커넌과 칼라 오르티즈가 미국 저작권청에 예술 작품에 대한 저작권을 제출하지 않았다는 점을 지적했으며, 사라 앤더슨은 고소장에 인용된 수백 개의 작품 중 16개 작품에 대해서만 저작권을 보유n판결문은 또한 생성 AI 모델 훈련에 사용된 모든 이미지에 저작권이 있다거나, 생성 AI로 만든 이미지가 저작물을 이용해 훈련되었으므로 저작물의 파생 이미지라는 주장은 개연성이 부족하다고 지적∙AI는 새로운 이미지를 생성할 때 다양한 예술가의 작품을 참조하므로, 생성된 이미지와 저작권을 가진 특정 작품과의 실질적 유사성을 입증할 수 없다면 저작권 침해를 인정받기 어려움n오릭 판사는 원고 측에 고소장을 수정하고 저작권이 침해된 특정 이미지를 중심으로 소송 범위를 줄여 소송을 다시 제기할 것을 요청∙단, 사라 앤더슨이 저작권을 보유한 16개 작품을 무단으로 복제한 스태빌리티AI에 대한 저작권 침해 소송은 인정되어 계속 진행됨☞ 출처: Venturebeat, Midjourney, Stability AI and DeviantArt win a victory in copyright case by artists- but the fight continues, 2023.10.30.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 7, 'page_label': '8'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육미국 연방거래위원회, 저작권청에 소비자 보호와 경쟁 측면의 AI 의견서 제출n미국 FTC는 저작권청이 실시한 저작권과 AI 관련 질의공고에 대하여 소비자 보호와 경쟁 측면의 의견을 제시nFTC는 생성 AI로 인한 창작자와 소비자 피해의 가능성에 우려를 표시하는 한편, 일부 빅테크가 막대한 재원을 활용해 시장 지배력을 더욱 강화할 수 있다는 우려를 제기\nKEY Contents\n£FTC, 생성 AI로 인한 소비자와 창작자의 피해 및 빅테크의 시장 지배력 강화 우려n미국 연방거래위원회(FTC)가 2023년 10월 30일 저작권청(U.S. Copyright Office, USCO)이 지난 9월 발표한 저작권과 AI 관련 질의공고(Notice of Inquiry, NOI)에 대한 의견서를 발표∙저작권청은 생성 AI와 관련된 저작권법과 정책 이슈를 조사하고 있으며, 폭넓은 의견 수렴을 통해 입법과 규제 조치의 필요성을 검토할 계획∙FTC는 생성 AI의 개발과 배포가 소비자, 근로자, 중소기업에 피해를 줄 수 있다며 소비자의 개인정보 침해, 차별과 편견의 자동화, 사기 범죄 등 AI 사용과 관련된 위험에 주목nFTC는 저작권법에 따른 권리와 책임 범위를 넘어서는 저작권 문제에 주목하여 생성 AI로 인해 창작자의 경쟁력이 불공정한 피해를 볼 수 있으며, 소비자가 특정 창작자의 작품을 생성 AI가 만들었다고 오해할 소지가 있다고 지적∙저작권법에 저촉되는 행위는 불공정 경쟁이나 기만행위에도 해당될 수 있으며, 창작자의 평판 악화, 저작물의 가치 저하나 개인정보 유출로 소비자에 상당한 피해를 초래 가능nFTC는 일부 빅테크가 막대한 재원을 활용해 생성 AI 사용자의 이탈을 막고 저작권이 있는 상용 데이터에 대한 독점 라이선스를 확보해 시장 지배력을 더욱 강화할 수 있다는 우려도 제기∙이와 관련 FTC는 아마존 AI 비서 ‘알렉사(Alexa)’와 스마트홈 보안 기기 ‘링(Ring)’이 소비자의 사적 정보를 알고리즘 훈련에 사용하여 프라이버시를 침해한 혐의를 조사하는 등 법적 권한을 활용해 AI 관련 불법 행위에 대처하고 있음* FTC는 2023년 5월 31일 동의를 받지 않고 어린이들의 음성과 위치 정보를 활용한 ‘알렉사’와 고객의 사적 영상에 대하여 직원에게 무제한 접근 권한을 부여한 ‘링’에 3,080만 달러(약 420억 원)의 과징금을 부과  nFTC는 빠르게 발전하는 생성 AI가 여러 산업과 비즈니스에 변화를 가져올 수 있지만, 현행법상 AI에 관한 예외 조항은 없다며, 모든 권한을 활용해 소비자를 보호하고 개방적이고 공정한 경쟁 시장을 유지하겠다고 강조☞ 출처: FTC, In Comment Submitted to U.S. Copyright Office, FTC Raises AI-related Competition and Consumer Protection Issues, Stressing That It Will Use Its Authority to Protect Competition and Consumers in AI Markets, 2023.10.30.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 8, 'page_label': '9'}, page_content='SPRi AI Brief |  2023-12월호\n6\nEU AI 법 3자 협상, 기반모델 규제 관련 견해차로 난항n유럽의회, EU 집행위원회, EU 이사회가 진행 중인 AI 법 최종협상에서 프랑스, 이탈리아, 독일이 기반모델에 대한 규제에 반대하며 협상이 난관에 봉착n프랑스, 이탈리아, 독일 3개국은 기반모델 개발기업에 대하여 자율적 행동강령을 도입하고 준수를 의무화하는 방안을 제안\nKEY Contents\n£AI 법 3자 협상, 이사회 일부 국가가 기반모델 규제에 반대하며 차질n유럽의회, EU 집행위원회, EU 이사회가 ‘AI 법(AI act)’에 대한 최종협상을 진행 중인 가운데, 일부 국가가 기반모델에 대한 규제에 반대하며 협상이 난관에 봉착  ∙10월 24일 열린 3자 협상 회의에서는 사회에 더 큰 영향을 미치는 강력한 AI 모델에 더 엄격한 규칙을 적용하는 계층적 접근방식에 따라 기반 모델 규제에 대한 기본적인 합의에 도달∙그러나 11월 10일 열린 통신작업반 회의에서 EU 이사회의 프랑스, 독일, 이탈리아 대표가 기반모델에 대한 모든 유형의 규제에 반대하며 협상이 중단됨n유럽 정책 미디어 유랙티브(Euractive)에 따르면 프랑스 AI 기업 미스트랄(Mistral)이 로비를 통해 기반모델에 대한 규제 반대를 주도  ∙독일의 대표적인 AI 기업 알레프 알파(Aleph Alpha) 역시 독일 정부에 압력을 행사하고 있으며, 이들 기업은 EU의 AI 규제로 인해 미국과 중국의 경쟁사보다 뒤처질 것을 우려 £독일, 프랑스, 이탈리아 3개국, 기반모델에 대한 ‘의무적 자율규제’ 제안n통신작업반 회의가 결렬된 이후 독일, 프랑스, 이탈리아는 2023년 11월 19일 비공식 문서를 통해 ‘의무적 자율규제(Mandatory Self-regulation)’ 방식의 기반모델 규제를 제안∙3개국은 기반모델 전반에 대한 규제가 기술 중립적이고 위험 기반의 AI 규제 원칙에 어긋난다고 주장하며 기반모델 전반에 대한 규제가 아닌, 특정 용도로 사용될 수 있는 AI 시스템에 대한 규제를 요구  ∙3개국은 자발적인 행동강령을 도입하고 준수를 의무화하는 방안을 제안하며, 기반모델 개발기업에 머신러닝 기술 정보와 모델의 기능과 한계를 요약한 ‘모델 카드’ 작성을 요구하겠다고 설명∙3개국은 AI 감독기관이 모델 카드를 토대로 기반모델 개발기업의 행동강령 준수 여부를 확인하되, 위반 시 곧바로 제재를 가하지 않고 위반행위 분석과 영향 평가를 시행한 후 제재하는 방안을 제안☞ 출처: Euractiv, EU’s AI Act negotiations hit the brakes over foundation models, 2023.11.1. Euractiv, France, Germany, Italy push for ‘mandatory self-regulation’ for foundation models in EU’s AI law, 2023.11.19.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 9, 'page_label': '10'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육미국 프런티어 모델 포럼, 1,000만 달러 규모의 AI 안전 기금 조성n구글, 앤스로픽, 마이크로소프트, 오픈AI가 참여하는 프런티어 모델 포럼이 자선단체와 함께 AI 안전 연구를 위한 1,000만 달러 규모의 AI 안전 기금을 조성n프런티어 모델 포럼은 AI 모델의 취약점을 발견하고 검증하는 레드팀 활동을 지원하기 위한 모델 평가 기법 개발에 자금을 중점 지원할 계획\nKEY Contents\n£프런티어 모델 포럼, 자선단체와 함께 AI 안전 연구를 위한 기금 조성n구글, 앤스로픽, 마이크로소프트, 오픈AI가 출범한 프런티어 모델 포럼이 2023년 10월 25일 AI 안전 연구를 위한 기금을 조성한다고 발표∙참여사들은 맥거번 재단(Patrick J. McGovern Foundation), 데이비드 앤 루실 패커드 재단(The David and Lucile Packard Foundation) 등의 자선단체와 함께 AI 안전 연구를 위한 기금에 1,000만 달러 이상을 기부 ∙또한 신기술의 거버넌스와 안전 분야에서 전문성을 갖춘 브루킹스 연구소 출신의 크리스 메서롤(Chris Meserole)을 포럼의 상무이사로 임명n최근 AI 기술이 급속히 발전하면서 AI 안전에 관한 연구가 부족한 시점에, 포럼은 이러한 격차를 해소하기 위해 AI 안전 기금을 조성∙참여사들은 지난 7월 백악관 주재의 AI 안전 서약에서 외부자의 AI 시스템 취약점 발견과 신고를 촉진하기로 약속했으며, 약속을 이행하기 위해 기금을 활용해 외부 연구집단의 AI 시스템 평가에 자금을 지원할 계획£AI 안전 기금으로 AI 레드팀을 위한 모델 평가 기법 개발을 중점 지원할 계획n프런티어 모델 포럼은 AI 안전 기금을 통해 AI 레드팀 활동을 위한 새로운 모델 평가 기법의 개발을 중점 지원할 예정∙포럼에 따르면 AI 레드팀에 대한 자금 지원은 AI 모델의 안전과 보안 기준의 개선과 함께 AI 시스템 위험 대응 방안에 관한 산업계와 정부, 시민사회의 통찰력 확보에 도움이 될 전망으로, 포럼은 향후 몇 달 안에 기금 지원을 위한 제안 요청을 받을 계획n프런티어 모델 포럼은 출범 이후 업계 전반에 걸쳐 AI 레드팀 구성에 관한 모범사례 공유를 추진하는 한편, 첨단 AI 모델의 취약점이나 잠재적으로 위험한 기능 및 위험 완화 관련 정보를 공유할 수 있는 공개 절차도 개발 중☞ 출처: Google, Anthropic, Google, Microsoft and OpenAI announce Executive Director of the Frontier Model Forum and over $10 million for a new AI Safety Fund, 2023.10.25.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 10, 'page_label': '11'}, page_content='SPRi AI Brief |  2023-12월호\n8\n코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개n코히어와 12개 기관이  광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태, 작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기’ 플랫폼을 출시n대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의 구성과 계보도 추적 가능\nKEY Contents\n£데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상nAI 기업 코히어(Cohere)가 매사추세츠 공과⼤(MIT), 하버드⼤ 로스쿨, 카네기멜론⼤ 등 12개 기관과 함께 2023년 10월 25일 ‘데이터 출처 탐색기(Data Provenance Explorer)’ 플랫폼을 공개∙AI 모델 훈련에 사용되는 데이터셋의 불분명한 출처로 인해 데이터 투명성이 확보되지 않아 다양한 법적·윤리적 문제가 발생∙이에 연구진은 가장 널리 사용되는 2,000여 개의 미세조정 데이터셋을 감사 및 추적하여 데이터셋에 원본 데이터소스에 대한 태그, 재라이선스(Relicensing) 상태, 작성자, 기타 데이터 속성을 지정하고 이러한 정보에 접근할 수 있는 플랫폼을 출시∙대화형 플랫폼 형태의 데이터 출처 탐색기를 통해 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며, 주요 데이터셋의 구성과 데이터 계보도 추적 가능n연구진은 오픈소스 데이터셋에 대한 광범위한 감사를 통해 데이터 투명성에 영향을 미치는 주요 요인을 발견∙깃허브(GitHub), 페이퍼위드코드(Papers with Code)와 같은 크라우드소싱 플랫폼에서 수집한 데이터로 훈련된 오픈소스 LLM에서는 데이터 라이선스의 누락 비율이 72~83%에 달함 ∙또한 크라우드소싱 플랫폼이 할당한 라이선스는 데이터셋 원저작자의 의도보다 더 광범위한 사용을 허용한 경우가 상당수∙데이터 생태계 분석 결과, 부정확하거나 모호한 라이선스 문서화 등 데이터 출처 입증과 관련된 관행 전반에서 구조적 문제가 드러남n연구진은 데이터 출처 탐색기만으로는 해결이 어려운 법적 이슈도 존재한다며 일관된 법적 프레임워크의 필요성을 제기∙일례로 데이터를 수집한 지역, 모델 훈련 지역, 모델 배포 지역마다 규제가 다르면 어떤 법률을 적용해야 하는지 실무자의 판단이 어려울 수 있으며, 서로 다른 라이선스를 적용받는 개별 데이터셋을 하나로 통합해 사용하는 경우에도 각각의 라이선스 조건 준수에 어려움이 발생☞ 출처 : Cohere, Data Provenance Explorer Launches to Tackle Data Transparency Crisis, 2023.10.25.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 11, 'page_label': '12'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육알리바바 클라우드, 최신 LLM ‘통이치엔원 2.0’ 공개n알리바바 클라우드가 복잡한 지침 이해, 광고문구 작성, 추론, 암기 등에서 성능이 향상된 최신 LLM ‘통이치엔원 2.0’을 공개n알리바바 클라우드는 산업별로 특화된 생성 AI 모델을 공개하는 한편, 모델 개발과 애플리케이션 구축 절차를 간소화하는 올인원 AI 모델 구축 플랫폼도 출시\nKEY Contents\n£알리바바의 통이치엔원 2.0, 주요 벤치마크 테스트에서 여타 LLM 능가n중국의 알리바바 클라우드가 2023년 10월 31일 열린 연례 기술 컨퍼런스에서 최신 LLM ‘통이치엔원(Tongyi Qianwen) 2.0’을 공개∙알리바바 클라우드는 통이치엔원 2.0이 2023년 4월 출시된 1.0 버전보다 복잡한 지침 이해, 광고문구 작성, 추론, 암기 등에서 성능이 향상되었다고 설명∙통이치엔원 2.0은 언어 이해 테스트(MMLU), 수학(GSM8k), 질문 답변(ARC-C)과 같은 벤치마크 테스트에서 라마(Llama-2-70B)와 GPT-3.5를 비롯한 주요 AI 모델을 능가 ∙통이치엔원 2.0은 알리바바 클라우드의 웹사이트와 모바일 앱을 통해 대중에 제공되며 개발자는 API를 통해 사용 가능 n알리바바 클라우드는 여러 산업 영역에서 생성 AI를 활용해 사업 성과를 개선할 수 있도록 지원하는 산업별 모델도 출시∙산업 영역은 고객지원, 법률 상담, 의료, 금융, 문서관리, 오디오와 동영상 관리, 코드 개발, 캐릭터 제작을 포함n알리바바 클라우드는 급증하는 생성 AI 수요에 대응해 모델 개발과 애플리케이션 구축 절차를 간소화하는 올인원 AI 모델 구축 플랫폼 ‘젠AI(GenAI)’도 공개∙이 플랫폼은 데이터 관리, 모델 배포와 평가, 신속한 엔지니어링을 위한 종합 도구 모음을 제공하여 다양한 기업들이 맞춤형 AI 모델을 한층 쉽게 개발할 수 있도록 지원∙생성 AI 개발에 필요한 컴퓨팅과 데이터 처리 요구사항을 지원하기 위해 AI 플랫폼(PAI), 데이터베이스 솔루션, 컨테이너 서비스와 같은 클라우드 신제품도 발표n알리바바 클라우드는 AI 개발을 촉진하기 위해 올해 말까지 720억 개 매개변수를 가진 통이치엔원 모델을 오픈소스화한다는 계획도 공개☞ 출처 : Alibaba Cloud, Alibaba Cloud Launches Tongyi Qianwen 2.0 and Industry-specific Models to Support Customers Reap Benefits of Generative AI, 2023.10.31.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 12, 'page_label': '13'}, page_content='SPRi AI Brief |  2023-12월호\n10\n삼성전자, 자체 개발 생성 AI ‘삼성 가우스’ 공개n삼성전자가 온디바이스에서 작동 가능하며 언어, 코드, 이미지의 3개 모델로 구성된 자체 개발 생성 AI 모델 ‘삼성 가우스’를 공개n삼성전자는 삼성 가우스를 다양한 제품에 단계적으로 탑재할 계획으로, 온디바이스 작동이 가능한 삼성 가우스는 외부로 사용자 정보가 유출될 위험이 없다는 장점을 보유\nKEY Contents\n£언어, 코드, 이미지의 3개 모델로 구성된 삼성 가우스, 온디바이스 작동 지원n삼성전자가 2023년 11월 8일 열린 ‘삼성 AI 포럼 2023’ 행사에서 자체 개발한 생성 AI 모델 ‘삼성 가우스’를 최초 공개∙정규분포 이론을 정립한 천재 수학자 가우스(Gauss)의 이름을 본뜬 삼성 가우스는 다양한 상황에 최적화된 크기의 모델 선택이 가능∙삼성 가우스는 라이선스나 개인정보를 침해하지 않는 안전한 데이터를 통해 학습되었으며, 온디바이스에서 작동하도록 설계되어 외부로 사용자의 정보가 유출되지 않는 장점을 보유∙삼성전자는 삼성 가우스를 활용한 온디바이스 AI 기술도 소개했으며, 생성 AI 모델을 다양한 제품에 단계적으로 탑재할 계획n삼성 가우스는 △텍스트를 생성하는 언어모델 △코드를 생성하는 코드 모델 △이미지를 생성하는 이미지 모델의 3개 모델로 구성∙언어 모델은 클라우드와 온디바이스 대상 다양한 모델로 구성되며, 메일 작성, 문서 요약, 번역 업무의 처리를 지원∙코드 모델 기반의 AI 코딩 어시스턴트 ‘코드아이(code.i)’는 대화형 인터페이스로 서비스를 제공하며 사내 소프트웨어 개발에 최적화∙이미지 모델은 창의적인 이미지를 생성하고 기존 이미지를 원하는 대로 바꿀 수 있도록 지원하며 저해상도 이미지의 고해상도 전환도 지원nIT 전문지 테크리퍼블릭(TechRepublic)은 온디바이스 AI가 주요 기술 트렌드로 부상했다며, 2024년부터 가우스를 탑재한 삼성 스마트폰이 메타의 라마(Llama)2를 탑재한 퀄컴 기기 및 구글 어시스턴트를 적용한 구글 픽셀(Pixel)과 경쟁할 것으로 예상☞ 출처 : 삼성전자, ‘삼성 AI 포럼’서 자체 개발 생성형 AI ‘삼성 가우스’ 공개, 2023.11.08.삼성전자, ‘삼성 개발자 콘퍼런스 코리아 2023’ 개최, 2023.11.14.TechRepublic, Samsung Gauss: Samsung Research Reveals Generative AI, 2023.11.08.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 13, 'page_label': '14'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육구글, 앤스로픽에 20억 달러 투자로 생성 AI 협력 강화 n구글이 앤스로픽에 최대 20억 달러 투자에 합의하고 5억 달러를 우선 투자했으며, 앤스로픽은 구글과 클라우드 서비스 사용 계약도 체결n3대 클라우드 사업자인 구글, 마이크로소프트, 아마존은 차세대 AI 모델의 대표 기업인 앤스로픽 및 오픈AI와 협력을 확대하는 추세\nKEY Contents\n£구글, 앤스로픽에 최대 20억 달러 투자 합의 및 클라우드 서비스 제공n구글이 2023년 10월 27일 앤스로픽에 최대 20억 달러를 투자하기로 합의했으며, 이 중 5억 달러를 우선 투자하고 향후 15억 달러를 추가로 투자할 방침∙구글은 2023년 2월 앤스로픽에 이미 5억 5,000만 달러를 투자한 바 있으며, 아마존도 지난 9월 앤스로픽에 최대 40억 달러의 투자 계획을 공개∙한편, 2023년 11월 8일 블룸버그 보도에 따르면 앤스로픽은 구글의 클라우드 서비스 사용을 위해 4년간 30억 달러 규모의 계약을 체결∙오픈AI 창업자 그룹의 일원이었던 다리오(Dario Amodei)와 다니엘라 아모데이(Daniela Amodei) 남매가 2021년 설립한 앤스로픽은 챗GPT의 대항마 ‘클로드(Claude)’ LLM을 개발n아마존과 구글의 앤스로픽 투자에 앞서, 마이크로소프트는 차세대 AI 모델의 대표 주자인 오픈AI와 협력을 확대∙마이크로소프트는 오픈AI에 앞서 투자한 30억 달러에 더해 2023년 1월 추가로 100억 달러를 투자하기로 하면서 오픈AI의 지분 49%를 확보했으며, 오픈AI는 마이크로소프트의 애저(Azure) 클라우드 플랫폼을 사용해 AI 모델을 훈련£구글, 클라우드 경쟁력 강화를 위해 생성 AI 투자 확대n구글은 수익률이 높은 클라우드 컴퓨팅 시장에서 아마존과 마이크로소프트를 따라잡고자 생성 AI를 통한 기업 고객의 클라우드 지출 확대를 위해 AI 투자를 지속  ∙구글은 앤스로픽 외에도 AI 동영상 제작 도구를 개발하는 런웨이(Runway)와 오픈소스 소프트웨어 기업 허깅 페이스(Hugging Face)에도 투자∙구글은 챗GPT의 기반 기술과 직접 경쟁할 수 있는 차세대 LLM ‘제미니(Gemini)’를 포함한 자체 AI 시스템 개발에도 수십억 달러를 투자했으며, 2024년 제미니를 출시할 계획☞ 출처 : The Wall Street Journal, Google Commits $2 Billion in Funding to AI Startup Anthropic, 2023.10.27.Bloomberg, AI Startup Anthropic to Use Google Chips in Expanded Partnership, 2023.11.09.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 14, 'page_label': '15'}, page_content='SPRi AI Brief |  2023-12월호\n12\nIDC, 2027년 AI 소프트웨어 매출 2,500억 달러 돌파 전망nIDC의 예측에 의하면 AI 소프트웨어 시장은 2027년 2,510억 달러로 달할 전망이며, 생성 AI 플랫폼과 애플리케이션은 2027년까지 283억 달러의 매출을 창출할 전망 n2023년 기준 AI 소프트웨어 매출의 3분의 1을 차지하는 최대 시장인 AI 애플리케이션은 2027년까지 21.1%의 연평균 성장률을 기록할 전망\nKEY Contents\n£기업들의 AI 투자 증가에 힘입어 AI 소프트웨어 시장 급성장 예상n시장조사기관 IDC는 AI 소프트웨어 시장이 2022년 640억 달러에서 2027년 2,510억 달러로 연평균 성장률 31.4%를 기록하며 급성장할 것으로 예상∙AI 소프트웨어 시장은 AI 플랫폼, AI 애플리케이션, AI 시스템 인프라 소프트웨어(SIS), AI 애플리케이션 개발·배포(AI AD&D) 소프트웨어를 포괄∙협업, 콘텐츠 관리, 전사적 자원관리(ERM), 공급망 관리, 생산 및 운영, 엔지니어링, 고객관계관리(CRM)를 포함하는 AI 애플리케이션은 AI 소프트웨어의 최대 시장으로 2023년 전체 매출의 약 3분의 1을 차지하며 2027년까지 21.1%의 연평균 성장률을 기록할 전망∙AI 비서를 포함한 AI 모델과 애플리케이션의 개발을 뒷받침하는 AI 플랫폼은 두 번째로 시장 규모가 큰 분야로, 2027년까지 35.8%의 연평균 성장률이 예상됨∙분석, 비즈니스 인텔리전스, 데이터 관리와 통합을 포함하는 AI SIS는 기존 소프트웨어 시스템과 통합되어 방대한 데이터를 활용한 의사결정과 운영 최적화를 지원하며, 현재 매출 규모는 비교적 작지만 5년간 연평균 성장률은 32.6%로 시장 전체를 웃돌 전망∙애플리케이션 개발, 소프트웨어 품질과 수명주기 관리 소프트웨어, 애플리케이션 플랫폼을 포함하는 AI AD&D는 향후 5년간 카테고리 중 가장 높은 38.7%의 연평균 성장률이 예상됨nIDC에 따르면 경제적 불확실성과 시장 역학의 변화에도 AI와 자동화 기술에 대한 기업들의 투자 의지는 확고하며, 기업들은 AI 도입이 사업 성공과 경쟁우위에 필수적이라고 인식∙IDC 설문조사에 따르면 향후 12개월 동안 응답자의 3분의 1은 기업이 특정 사용 사례나 응용 영역에서 외부 AI 소프트웨어의 구매를 고려하거나 외부 AI 소프트웨어와 내부 자원의 결합을 고려n한편, AI 소프트웨어 시장에 포함되지 않는 생성 AI 플랫폼과 애플리케이션은 2027년까지 283억 달러의 매출을 창출할 전망 ☞ 출처 : IDC, IDC Forecasts Revenue for Artificial Intelligence Software Will Reach $279 Billion Worldwide in 2027, 2023.10.31.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 15, 'page_label': '16'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육빌 게이츠, AI 에이전트로 인한 컴퓨터 사용의 패러다임 변화 전망n빌 게이츠가 5년 내 일상언어로 모든 작업을 처리할 수 있는 AI 에이전트가 보급되며 컴퓨터를 사용하는 방식이 완전히 바뀔 것으로 예상n에이전트의 보급은 컴퓨터 분야를 넘어 산업 전 영역에 영향을 미칠 전망으로 특히 의료와 교육, 생산성, 엔터테인먼트·쇼핑 영역에서 고가로 제공되던 서비스가 대중화될 전망\nKEY Contents\n£5년 내 기기에 일상언어로 말하기만 하면 되는 AI 에이전트의 보급 예상n빌 게이츠 마이크로소프트 창업자가 2023년 11월 9일 공식 블로그를 통해 AI 에이전트가 컴퓨터 사용방식과 소프트웨어 산업을 완전히 변화시킬 것이라는 전망을 제시∙자연어에 반응하고 사용자에 대한 지식을 바탕으로 다양한 작업을 수행하는 소프트웨어를 의미하는 에이전트는 컴퓨터 사용방식이 키보드 입력에서 아이콘 클릭으로 바뀐 이후 최대의 컴퓨팅 혁명을 가져올 전망∙현재는 컴퓨터 작업 시 작업 내용에 따라 각각 다른 앱을 사용해야 하지만 5년 내 에이전트의 발전으로 기기에 일상언어로 말하기만 하면 되는 미래가 도래할 것∙온라인에 접속하는 모든 사람이 AI 기반의 개인 비서를 사용할 수 있게 되며, 에이전트는 사용자에 대한 풍부한 지식을 바탕으로 맞춤화된 대응이 가능하며 시간이 지날수록 개선됨∙일례로 여행 계획 수립 시 AI 챗봇이 예산에 맞는 호텔을 제안하는데 머문다면, 에이전트는 사용자의 여행 패턴을 분석해 여행지를 제안하고 관심사에 따른 활동을 추천하며 선호하는 스타일의 레스토랑 예약도 가능  £AI 에이전트가 의료와 교육, 생산성, 엔터테인먼트·쇼핑 영역의 서비스 대중화를 주도할 것n에이전트로 인해 주목할 만한 변화는 고비용 서비스의 대중화로 특히 △의료 △교육 △생산성 △엔터테인먼트·쇼핑의 4개 영역에서 대규모 변화 예상∙(의료) 에이전트가 환자 분류를 지원하고 건강 문제에 대한 조언을 제공하며 치료의 필요 여부를 결정하면서 의료진의 의사결정과 생산성 향상에 기여∙(교육) 에이전트가 1대 1 가정교사의 역할을 맡아 모든 학생에게 평등한 교육 기회를 제공할 수 있으며, 아이가 좋아하는 게임이나 노래 등을 활용해 시청각 기반의 풍부한 맞춤형 교육 경험을 제공∙(생산성) 사용자의 아이디어를 기반으로 에이전트가 사업계획과 발표 자료 작성, 제품 이미지 생성을 지원하며, 임원의 개인 비서와 같은 역할도 수행 ∙(엔터테인먼트·쇼핑) 쇼핑 시 에이전트가 모든 리뷰를 읽고 요약해 최적의 제품을 추천하고 사용자 대신 주문할 수 있으며 사용자의 관심사에 맞춤화된 뉴스와 엔터테인먼트를 구독 가능☞ 출처 : GatesNotes, AI is about to completely change how you use computers, 2023.11.09.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 16, 'page_label': '17'}, page_content='SPRi AI Brief |  2023-12월호\n14\n유튜브, 2024년부터 AI 생성 콘텐츠 표시 의무화 n유튜브가 몇 달 안에 생성 AI를 사용한 콘텐츠에 AI 라벨 표시를 의무화하기로 했으며, 이를 준수하지 않는 콘텐츠는 삭제하고 크리에이터에 대한 수익 배분도 중단할 수 있다고 설명n유튜브는 AI 생성 콘텐츠가 신원 파악이 가능한 개인을 모방한 경우 개인정보 침해 신고 절차에 따라 콘텐츠 삭제 요청도 받을 계획\nKEY Contents\n£유튜브, 생성 AI 콘텐츠에 AI 라벨 표시 안 하면 콘텐츠 삭제n유튜브가 2023년 11월 14일 공식 블로그를 통해 몇 달 안에 생성 AI를 사용한 콘텐츠에 AI 라벨을 표시하는 새로운 규칙을 시행한다고 발표 ∙실제로 일어나지 않은 사건을 사실적으로 묘사하거나 실제로 하지 않은 말이나 행동을 보여주는 콘텐츠와 같이 AI 도구를 사용해 사실적으로 변경되거나 합성된 콘텐츠에는 AI 라벨을 표시 필요∙유튜브는 이러한 규칙이 선거나 분쟁 상황, 공중 보건, 공직자 관련 문제와 같이 민감한 주제를 다루는 콘텐츠에서 특히 중요하다고 강조했으며, 크리에이터가 AI로 제작한 콘텐츠에 AI 라벨을 표시하지 않으면 해당 콘텐츠는 삭제되고 광고 수익을 배분하는 유튜브 파트너 프로그램도 정지될 수 있음∙유튜브는 두 가지 방식으로 AI를 이용한 콘텐츠의 변경이나 합성 여부를 시청자에게 전달할 계획으로 동영상 설명 패널에 라벨을 표시하는 방식이 기본이며, 민감한 주제를 다루는 특정 유형의 콘텐츠는 동영상 플레이어에 더욱 눈에 띄는 라벨을 적용 ∙유튜브는 커뮤니티 정책에 위반되는 일부 합성 콘텐츠에 대해서는 라벨 지정 여부와 관계없이 삭제할 방침으로, 가령 사실적인 폭력을 보여주는 합성 동영상이 시청자에게 충격이나 혐오감을 줄 수 있다면 삭제될 수 있음£유튜브, 특정인을 모방한 AI 생성 콘텐츠에 대한 삭제 요청에도 대응 계획n유튜브는 몇 달 내에 신원 파악이 가능한 개인의 얼굴이나 음성을 모방한 AI 생성 콘텐츠에 대하여 개인정보 침해 신고 절차를 마련해 삭제 요청을 받을 계획  ∙단, 모든 콘텐츠가 삭제 대상은 아니며 유튜브는 콘텐츠가 패러디나 풍자인지, 해당 영상에서 삭제 요청을 한 특정인을 식별할 수 있는지, 공직자나 유명인이 등장하는지 등 다양한 요소를 고려할 예정∙유튜브는 음반사가 아티스트의 고유한 노래나 목소리를 모방한 AI 생성 음악에 대하여 삭제를 요청할 수 있는 기능도 도입할 방침☞ 출처 : Youtube, Our approach to responsible AI innovation, 2023.11.14.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 17, 'page_label': '18'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육영국 과학혁신기술부, AI 안전 연구소 설립 발표n영국 과학혁신기술부가 첨단 AI 시스템에 대한 평가를 통해 안전성을 보장하기 위한 AI 안전 연구소를 설립한다고 발표nAI 안전 연구소는 핵심 기능으로 첨단 AI 시스템 평가 개발과 시행, AI 안전 연구 촉진, 정보교류 활성화를 추진할 계획\nKEY Contents\n£영국 AI 안전 연구소, 첨단 AI 시스템 평가와 AI 안전 연구, 정보 교류 추진n영국 과학혁신기술부가 2023년 11월 2일 첨단 AI 안전에 중점을 둔 국가 연구기관으로 AI 안전 연구소(AI Safety Institute)를 설립한다고 발표∙AI 안전 연구소는 첨단 AI의 위험을 이해하고 거버넌스 마련에 필요한 사회·기술적 인프라 개발을 통해 영국을 AI 안전 연구의 글로벌 허브로 확립하는 것을 목표로 함∙영국 정부는 향후 10년간 연구소에 공공자금을 투자해 연구를 지원할 계획으로, 연구소는 △첨단 AI 시스템 평가 개발과 시행 △AI 안전 연구 촉진 △정보 교류 활성화를 핵심 기능으로 함n(첨단 AI 시스템 평가 개발과 시행) 시스템의 안전 관련 속성을 중심으로 안전과 보안 기능을 이해하고 사회적 영향을 평가∙평가 우선순위는 △사이버범죄 조장, 허위 정보 유포 등 악의적으로 활용될 수 있는 기능 △사회에 미치는 영향 △시스템 안전과 보안 △인간의 통제력 상실 가능성 순∙연구소는 외부 기관과 협력해 자체 시스템 평가를 개발 및 수행하고, 평가와 관련된 의견 공유 및 지침 마련을 위해 전문가 커뮤니티를 소집할 계획n(AI 안전 연구 촉진) 외부 연구자를 소집하고 다양한 예비 연구 프로젝트를 통해 AI 안전 기초연구를 수행∙AI 시스템의 효과적 거버넌스를 위한 도구 개발* 및 안전한 AI 시스템 개발을 위한 새로운 접근 방식 연구를 수행* 편향된 훈련 데이터에 대한 분석기술, 민감한 정보를 포함하는 AI 시스템에 대한 미세 조정 방법n(정보 교류 활성화) 현행 개인정보보호와 데이터 규제 하에서 연구소와 정책입안자, 국제 파트너, 학계, 시민사회 및 일반 대중과 정보 공유 채널을 구축∙AI 안전성 정상회의(AI Safety Summit)에서 합의된 대로 첨단 AI 모델의 평가 후 해당 모델이 배포된 타국의 정부 및 연구소와 평가 결과를 공유하고, 학계와 대중이 AI 시스템의 피해와 취약점을 보고할 수 있는 명확한 절차를 수립☞ 출처 : Gov.uk, Introducing the AI Safety Institute, 2023.11.02.             Venturebeat, Researchers turn to Harry Potter to make AI forget about copyrighted material, 2023.10.06.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 18, 'page_label': '19'}, page_content='16\n구글 딥마인드, 범용 AI 모델의 기능과 동작에 대한 분류 체계 발표n구글 딥마인드 연구진이 성능과 범용성, 자율성을 기준으로 범용 AI(AGI)의 수준을 0~5단계까지 총 6단계로 구분한 프레임워크를 공개n현재 AGI는 단백질 구조를 예측하는 알파폴드와 같은 특정 용도에서는 5단계 수준을 달성했지만 광범위하게 활용될 수 있는 범용에서는 1단계 수준에 머물러 있음\nKEY Contents\n£챗GPT와 구글 바드와 같은 AI 챗봇은 범용 AI 1단계 수준n구글 딥마인드 연구진은 2023년 11월 4일 범용 AI(Artificial General Intelligence, AGI) 모델을 용도와 성능에 따라 분류하는 프레임워크를 제시한 논문을 발표∙프레임워크의 목적은 AGI의 성능, 범용성, 자율성 수준을 정의하여 모델 간 비교와 위험 평가, AGI 달성까지의 진행 상황을 측정할 수 있는 공통 기준을 제공하기 위함n연구진은 AGI 개념 정의에 필요한 기준을 수립하기 위한 6가지 원칙을 아래와 같이 도출∙(프로세스가 아닌 기능에 중점) AI가 어떻게 작동하는지보다 무엇을 할 수 있는지가 더 중요∙(범용성과 성능을 모두 평가) 진정한 AGI는 인간을 능가하는 폭넓은 범용성과 기술의 깊이를 모두 요구∙(인지와 메타인지 작업에 중점) 물리적 작업의 수행 능력은 AGI의 필수 전제조건이 아니며, 인지 작업과 메타인지 작업(예; 새로운 작업의 학습 능력, 인간에게 도움을 요청할 시점을 아는 능력)이 핵심∙(실제 구현보다 잠재력에 집중) 통제된 상황에서 발휘되는 성능에 따라 AGI를 규정하고 테스트를 진행 ∙(생태학적 타당도를 갖춘 벤치마크 사용) AGI에 대한 벤치마크는 사람들이 경제적· 사회적 또는 예술적으로 가치 있게 여기는 실질적인 작업을 대상으로 성능 평가 필요∙(종점이 아닌 AGI를 향한 경로에 중점) 단계별 접근방식을 통해 AGI의 발전 상태를 점진적으로 측정n연구진은 상기 원칙에 따라 AI를 성능에 따라 0~5단계와 광범위한 목적에 활용될 수 있는 범용 AI 및 특정 과업에 활용되는 특수 AI로 분류했으며, 특수 AI에서는 5단계까지 달성되었으나, 범용 AI는 현재 1단계 수준성능 특수 AI 예시범용 AI 예시0단계: AI 아님계산기 소프트웨어, 컴파일러아마존 메커니컬 터크1단계: 신진(숙련되지 않은 인간)GOFAI(Good Old Fashioned Artificial Intelligence) 챗GPT, 바드, 라마22단계: 유능(숙련된 인간의 50% 이상)스마트 스피커(애플 시리, 아마존 알렉사, 구글 어시스턴트), IBM 왓슨 미달성3단계: 전문가(숙련된 인간의 90% 이상)문법 교정기(그래머리), 생성 이미지 모델(달리2)미달성4단계: 거장(숙련된 인간의 99% 이상) 딥블루, 알파고미달성5단계: 초인간(인간을 100% 능가)알파폴드, 알파제로, 스톡피시미달성\n<구글 딥마인드의 범용 AI 분류 프레임워크> \n☞ 출처 : Arxiv.org, Levels of AGI: Operationalizing Progress on the Path to AGI, 2023.11.04.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 19, 'page_label': '20'}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육갈릴레오의 LLM 환각 지수 평가에서 GPT-4가 가장 우수n주요 LLM의 환각 현상을 평가한 ‘LLM 환각 지수’에 따르면 GPT-4는 작업 유형과 관계없이 가장 우수한 성능을 보였으며 GPT-3.5도 거의 동등한 성능을 발휘n오픈소스 모델 중에서는 메타의 라마2가 RAG 없는 질문과 답변 및 긴 형식의 텍스트 생성에서 가장 우수한 성능을 발휘\nKEY Contents\n£주요 LLM 중 GPT-4가 가장 환각 현상 적고 GPT-3.5 터보도 비슷한 성능 기록n머신러닝 데이터 관리 기업 갈릴레오(Galileo)가 2023년 11월 15일 주요 LLM의 환각 현상을 평가한 ‘LLM 환각 지수(LLM Hallucination Index)’를 발표∙생성 AI의 환각 현상은 AI 시스템이 잘못된 정보를 생성하거나, 현실과 다른 부정확한 결과를 내놓는 현상으로, 기업의 AI 도입을 가로막는 주요 장애물이며, 환각 지수는 신뢰할 수 있는 생성 AI 구축을 위해 환각을 평가하고 측정하는 구조화된 접근방식을 제공∙환각 지수는 △검색 증강 생성(Retrieval-Augmented Generation, RAG)*을 포함한 질문과 답변 △RAG 없는 질문과 답변 △긴 형식의 텍스트(보고서나 기사, 에세이) 생성의 3개 작업 유형에 대하여 환각을 기준으로 LLM의 순위를 평가* 기존에 학습된 데이터가 아닌 외부 소스(데이터셋, 데이터베이스, 문서 등)에서 가져온 정보를 검색해 활용하는 기술n3개의 작업 유형 평가 전체에서 오픈AI의 GPT-4가 최고의 성능을 기록했으며, GPT-3.5 터보도 GPT-4와 거의 동등한 성능을 발휘∙메타의 라마2(Llama-2-70b)는 RAG 없는 질문과 답변 유형에서 오픈소스 모델 가운데 가장 우수했고 긴 형식의 텍스트 생성에서도 GPT-4에 준하는 성능을 기록했으나, RAG 포함 질문과 답변에서는 허깅 페이스의  제퍼(Zephyr-7b)가 라마2를 능가\n<갈릴레오의 LLM 환각 지수(RAG 포함 질문과 답변 기준)>\n☞ 출처: Galileo, LLM Hallucination Index, 2023.11.15.'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 20, 'page_label': '21'}, page_content='18\n영국 옥스퍼드 인터넷 연구소, AI 기술자의 임금이 평균 21% 높아n옥스퍼드 인터넷 연구소의 연구에 따르면 특정 기술의 경제적 가치는 다른 기술과 결합 가능성이 높을수록 높게 평가됨 nAI의 확산은 기술의 경제적 가치에 크게 영향을 미치며, AI 기술을 가진 근로자는 평균 21%, 최대 40% 높은 임금을 받을 수 있음  \nKEY Contents\n£AI 기술 중 머신러닝, 텐서플로우, 딥러닝의 임금 프리미엄이 높게 평가n옥스퍼드 인터넷 연구소(Oxford Internet Institute)가 2023년 10월 24일 962개 기술과 2만 5천 명을 대상으로 한 연구에서 AI를 포함한 주요 기술의 경제적 가치를 분석한 결과를 발표 ∙연구에 따르면 한 기술의 경제적 가치는 근로자의 여타 역량과 얼마나 잘 결합하는지를 보여주는 ‘상보성(complementarity)’에 따라 결정됨∙특정 기술은 다른 기술과 결합 가능성이 높을수록 경제적 가치가 높아지며, 일례로 데이터 분석과 같은 기술은 여타 고부가가치 기술과 결합할 수 있어 가치가 높지만, 사진 리터칭 같은 기술은 특정 기술과만 결합할 수 있어 가치가 낮게 평가됨 ∙대부분 직업은 여러 기술의 조합이 필요하며, 근로자의 재교육에서 경제적 효율성을 높이려면 기존 기술과 신기술 간 상보성을 극대화할 필요nAI의 확산은 기술의 경제적 가치에 크게 영향을 미치는 요소로, AI 기술을 가진 근로자는 평균적으로 21% 높은 임금을 획득 가능∙AI 기술 중 근로자에 대한 경제적 가치(시간당 임금 증가율 기준) 측면에서 상위 5개 기술은 머신러닝(+40%), 텐서플로우(+38%), 딥러닝(+27%), 자연어처리(+19%), 데이터 과학(+17%) 순\n☞  출 처  : Oxford Internet Institute, AI com es out on top: Oxford Study identifies the econom ic value of specific skills, 2023.10.24.\n<AI 기술 유형 평균 기술 대비 갖는 임금 프리미엄>'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 21, 'page_label': '22'}, page_content='행사명행사 주요 개요\nCES 2024\n-미국 소비자기술 협회(CTA)가 주관하는 세계 최대 가전·IT·소비재 전시회로 5G, AR&VR, 디지털헬스, 교통·모빌리티 등 주요 카테고리 중심으로 기업들이 최신의 기술 제품군을 전시-CTA 사피로 회장은 가장 주목받는 섹터로 AI를 조명하였으며, 모든 산업을 포괄한다는 의미에서 ‘올 온(All on)’을 주제로 한 이번 전시에는 500곳 이상의 한국기업 참가 예정기간장소 홈페이지2024.1.9~12미국, 라스베가스https://www.ces.tech/\nAIMLA 2024\n-머신러닝 및 응용에 관한 국제 컨퍼런스(AIMLA 2024)는 인공지능 및 머신러닝의 이론, 방법론 및 실용적 접근에 관한 지식과 최신 연구 결과 공유-이론 및 실무 측면에서 인공지능, 기계학습의 주요 분야를 논의하고, 학계, 산업계의 연구자와 실무자들에게 해당 분야의 최첨단 개발 소식 공유기간장소 홈페이지2024.1.27~28덴마크, 코펜하겐https://ccnet2024.org/aimla/index\nAAAI Conference on Artificial Intelligence\n-AI 발전 협회 컨퍼런스(AAAI)는 AI 연구를 촉진하고, AI 분야 연구원, 실무자, 과학자, 학생 및 공학자 간 교류의 기회 제공-컨퍼런스에서 AI 관련 기술 발표, 특별 트랙, 초청 연사, 워크숍, 튜토리얼, 포스터 세션, 주제 발표, 대회, 전시 프로그램 등 진행   기간장소 홈페이지2024.2.20~27캐나다, 밴쿠버https://aaai.org/aaai-conference/\nⅡ. 주요 행사 일정'), Document(metadata={'producer': 'Hancom PDF 1.3.0.542', 'creator': 'Hwp 2018 10.0.0.13462', 'creationdate': '2023-12-08T13:28:38+09:00', 'author': 'dj', 'moddate': '2023-12-08T13:28:38+09:00', 'pdfversion': '1.4', 'source': '../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf', 'total_pages': 23, 'page': 22, 'page_label': '23'}, page_content='홈페이지 : https://spri.kr/보고서와 관련된 문의는 AI정책연구실(jayoo@spri.kr, 031-739-7352)으로 연락주시기 바랍니다.')]
    ```

In [None]:
# metadata 출력

print(docs[1].metadata)

<small>

* 셀 출력

    ```python
    {'producer': 'Call PDF v 2.4', 'creator': 'Call PDF', 'creationdate': '', 'title': '', 'author': '', 'subject': '', 'source': '../06_Document_Loader/data/디지털_정부혁신_추진계획.pdf', 'total_pages': 21, 'page': 1, 'page_label': '2'}
    ```

In [None]:
# 문서의 내용 출력

print(docs[3].page_content[:300])

<small>

* 셀 출력

    ```markdown
    Ⅱ. 디지털 정부혁신 추진계획‣ (비전) 디지털로 여는 좋은 세상   ※ 부제 : 대한민국이 먼저 갑니다.‣ (추진원칙) ① 최종 이용자의 관점에서 ② 공공서비스 수준 향상을 목표로③ 혁신 친화적인 방식으로 ④ 국민과 함께우선 추진과제1 선제적·통합적 대국민 서비스 혁신○(맞춤형안내)각기관에서제공하는급부적서비스를분류
    DB화하고,한번에안내
    추천
    신청
    결과확인까지가능한통합서비스환경구현     * PC, 스마트폰, AI스피커 등 다양한 기기에서 인공지능 기반의 채팅‧음성대화 지원○(생애주기서비스)출산·결혼·사망등생애주기상주요이벤트와관련된
    ```


---

### **`PDFlumber`**

* **`PyMuPDF`와 유사**

* 출력: **`PDF`와 그 페이지에 대한 자세한 `메타데이터`를 포함** + **`페이지 당 하나의 문서를 반환`**

In [None]:
from langchain_community.document_loaders import PDFPlumberLoader

# PDF 문서 로더 인스턴스 생성
loader = PDFPlumberLoader(FILE_PATH)

# 문서 로딩
docs = loader.load()

# 첫 번째 문서 데이터 접근
print(docs[10].page_content[:300])

<small>

* 셀 출력 (2.0s)

    ```markdown
    SPRi AI Brief |
    2023-12월호
    코히어, 데이터 투명성 확보를 위한 데이터 출처 탐색기 공개
    KEY Contents
    n 코히어와 12개 기관이 광범위한 데이터셋에 대한 감사를 통해 원본 데이터 출처, 재라이선스 상태,
    작성자 등 다양한 정보를 제공하는 ‘데이터 출처 탐색기’ 플랫폼을 출시
    n 대화형 플랫폼을 통해 개발자는 데이터셋의 라이선스 상태를 쉽게 파악할 수 있으며 데이터셋의
    구성과 계보도 추적 가능
    £데이터 출처 탐색기, 광범위한 데이터셋 정보 제공을 통해 데이터 투명성 향상
    n AI 기업 코히어(Cohere)
    ```

In [None]:
# 메타데이터 출력

show_metadata(docs)

<small>

* 셀 출력

    ```markdown
    [metadata]
    ['source', 'file_path', 'page', 'total_pages', 'Author', 'Creator', 'Producer', 'CreationDate', 'ModDate', 'PDFVersion']

    [examples]
    source       : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    file_path    : ../06_Document_Loader/data/SPRI_AI_Brief_2023년12월호_F.pdf
    page         : 0
    total_pages  : 23
    Author       : dj
    Creator      : Hwp 2018 10.0.0.13462
    Producer     : Hancom PDF 1.3.0.542
    CreationDate : D:20231208132838+09'00'
    ModDate      : D:20231208132838+09'00'
    PDFVersion   : 1.4
    ```

---

* *next: 한글(`HWP`)*

---