# 프랑켄슈타인 데이터 포맷 분석 예제

이 노트북은 프랑켄슈타인 디지털 에디션의 다양한 데이터 포맷(CSV, JSON, XML/TEI)을 Python에서 불러와 분석 및 시각화하는 예제를 보여준다.

각 파일에는 프랑켄슈타인 소설의 판본 비교 및 등장 캐릭터 정보, 인물 및 주석 정보 등이 저장되어 있으며, 이를 바탕으로 데이터를 분석하는 방법을 학습할 수 있다.

## 1. CSV 파일 분석: 등장 캐릭터 정보

CSV 파일 (`frankenstein_characters.csv`)에는 프랑켄슈타인 소설의 등장 캐릭터 정보가 저장되어 있다. 이 섹션에서는 Pandas를 이용해 CSV 파일을 불러오고, 각 캐릭터의 역할 분포를 분석하여 막대그래프로 시각화한다.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# CSV 파일 경로 (파일은 data 디렉토리에 있다고 가정)
csv_file = './data/frankenstein_characters.csv'

# CSV 파일 불러오기
char_data = pd.read_csv(csv_file)
print("CSV 데이터 미리보기:")
print(char_data.head())

# 역할별 등장 횟수 집계
role_counts = char_data['역할'].value_counts()
print("\n역할 분포:")
print(role_counts)

# 역할 분포 시각화
plt.figure(figsize=(6,4))
role_counts.plot(kind='bar', color='coral')
plt.title('프랑켄슈타인 등장 캐릭터 역할 분포')
plt.xlabel('역할')
plt.ylabel('캐릭터 수')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

## 2. JSON 파일 분석: 판본 및 인물 주석 정보

JSON 파일 (`frankenstein_sentence.json`)에는 프랑켄슈타인 소설의 문장 변이 정보와 함께 인물 및 주석 정보가 저장되어 있다. 아래 예제에서는 JSON 파일을 불러와 판본별 문장, 변화 유형, 주석 및 인물 정보를 출력한다.

In [None]:
import json

# JSON 파일 경로 (파일은 data 디렉토리에 있다고 가정)
json_file = './data/frankenstein_sentence.json'

# JSON 파일 불러오기
with open(json_file, 'r', encoding='utf-8') as f:
    json_data = json.load(f)

print("JSON 데이터:")
print(json.dumps(json_data, indent=2, ensure_ascii=False))

# 문장 및 인물 정보 출력
sentence_id = json_data.get("문장ID")
print(f"\n문장 ID: {sentence_id}")

print("판본별 문장 정보:")
for key, value in json_data.get("텍스트", {}).items():
    print(f"{key}: {value}")

print("\n변화 유형:", json_data.get("변화유형"))
print("주석:", json_data.get("주석"))

person = json_data.get("인물정보", {})
print("\n인물 정보:")
print(f"- 인물명: {person.get('인물명')}")
print(f"- 역할: {person.get('역할')}")
print(f"- 설명: {person.get('설명')}")

## 3. XML/TEI 파일 분석: 판본 비교 및 캐릭터 정보

XML/TEI 파일 (`frankenstein_tei.xml`)에는 프랑켄슈타인 소설의 판본 비교 정보와 인물(캐릭터) 정보가 TEI 마크업 형식으로 저장되어 있다. 아래 예제에서는 TEI 파일을 파싱하여 문서 제목, 판본 비교 정보( `<app>`와 `<rdg>` 요소) 및 인물 정보를 추출한다.

In [None]:
import xml.etree.ElementTree as ET

# XML 파일 경로 (파일은 data 디렉토리에 있다고 가정)
xml_file = './data/frankenstein_tei.xml'
tree = ET.parse(xml_file)
root = tree.getroot()

# TEI 네임스페이스 설정
ns = {'tei': 'http://www.tei-c.org/ns/1.0'}

# 제목 추출
title = root.find('.//tei:title', ns)
print("XML/TEI 데이터 - 문서 제목:")
if title is not None:
    print(title.text)
else:
    print("제목 정보를 찾을 수 없음.")

# TEI 내의 <app> 요소와 그 안의 <rdg> 요소 파싱 (판본 비교)
print("\nTEI 판본 비교 예시:")
for app in root.findall('.//tei:app', ns):
    print("---- App Element ----")
    for rdg in app.findall('tei:rdg', ns):
        wit = rdg.attrib.get('wit', 'N/A')
        text = rdg.text
        print(f"Witness ({wit}): {text}")

# 인물 정보 파싱 (예: <person> 태그)
print("\nTEI 인물 정보 예시:")
for person in root.findall('.//tei:person', ns):
    persName = person.find('tei:persName', ns)
    role = person.find('tei:role', ns)
    desc = person.find('tei:desc', ns)
    print(f"인물: {persName.text if persName is not None else 'N/A'}")
    print(f"  역할: {role.text if role is not None else 'N/A'}")
    print(f"  설명: {desc.text if desc is not None else 'N/A'}")
    note = person.find('tei:note', ns)
    if note is not None:
        print(f"  주석: {note.text.strip()}")
    print()

이처럼 CSV, JSON, XML/TEI 파일 각각에 저장된 프랑켄슈타인 관련 데이터를 Python을 통해 불러와 분석할 수 있으며, 시각화를 통해 데이터의 특징을 쉽게 파악할 수 있다.