# 인문 데이터 기초: 파일 다루기

이 노트북은 인문학 연구에서 자주 사용되는 다양한 형식의 파일을 다루는 기본적인 방법을 설명합니다.

## 목차
1. CSV/TSV 파일 다루기
2. 텍스트 파일 다루기
3. JSON 파일 다루기
4. XML 파일 다루기
5. 데이터 분석 및 저장

## 필요한 라이브러리 불러오기와 경로 설정

In [11]:
import pandas as pd
import json
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
import os

# 한글 폰트 설정
plt.rc('font', family='Malgun Gothic')

# 데이터 폴더 경로 설정
DATA_DIR = 'data'

## 1. CSV/TSV 파일 다루기

### 1.1 CSV 파일 읽기

In [12]:
# CSV 파일 읽기 (등장인물 정보)
csv_path = os.path.join(DATA_DIR, 'characters.csv')
df = pd.read_csv(csv_path)
print("CSV 파일 내용 (등장인물):")
print(df.head())

CSV 파일 내용 (등장인물):
     이름   신분  나이  성별          직업            성격특성    거주지                  가족관계
0    복녀   농민  28  여성         소작농     순박함,성실함,순종적  산골 마을  남편(정선달-사망), 자녀(딸-사망)
1  김 주사   지주  50  남성  지주겸 고리대금업자   탐욕스러움,교활함,이기적  산골 마을                    없음
2   정선달   농민  30  남성         소작농  성실함,가장으로서의 책임감  산골 마을         아내(복녀), 자녀(딸)
3    향란  하층민  25  여성          창기      세파에 닳은,현실적  인근 마을                    없음
4    방쇤  소작농  45  남성         소작농        약삭빠름,이기적  산골 마을                    없음


In [13]:
# TSV 파일 읽기 (주요 사건)
tsv_path = os.path.join(DATA_DIR, 'events.tsv')
df_tsv = pd.read_csv(tsv_path, sep='\t')
print("TSV 파일 내용 (주요 사건):")
print(df_tsv.head())

TSV 파일 내용 (주요 사건):
   장           사건        시기       장소     관련인물             내용           결과
0  1    남편과 딸의 죽음  이야기 시작 전    산골 마을   복녀,정선달  남편과 딸이 병으로 사망     복녀 혼자 남음
1  2  김 주사의 착취 시작         봄      감자밭  복녀,김 주사      소작료 인상 요구   복녀의 생활고 심화
2  3     감자 수확 실패        여름      감자밭       복녀  흉작으로 인한 수확 실패       빚이 늘어남
3  4  김 주사의 성적 착취        가을  김 주사의 집  복녀,김 주사  빚 대신 성적 착취 시작  복녀의 정신적 황폐화
4  5      향란과의 만남        겨울       주막    복녀,향란      향란의 꾐에 빠짐    매춘으로의 발걸음


### 1.2 특정 데이터 선택하기

In [16]:
# 특정 열 선택
print("등장인물의 이름과 신분:")
print(df[['이름', '신분']])

# 조건으로 선택
print("\n주요 인물 정보:")
print(df[df['이름'].isin(['복녀', '김 주사'])])

등장인물의 이름과 신분:
     이름   신분
0    복녀   농민
1  김 주사   지주
2   정선달   농민
3    향란  하층민
4    방쇤  소작농

주요 인물 정보:
     이름  신분  나이  성별          직업           성격특성    거주지                  가족관계
0    복녀  농민  28  여성         소작농    순박함,성실함,순종적  산골 마을  남편(정선달-사망), 자녀(딸-사망)
1  김 주사  지주  50  남성  지주겸 고리대금업자  탐욕스러움,교활함,이기적  산골 마을                    없음


## 2. 텍스트 파일 다루기

In [21]:
# 텍스트 파일 읽기
txt_path = os.path.join(DATA_DIR, 'novel.txt')
with open(txt_path, 'r', encoding='utf-8') as file:
    text = file.read()
print("텍스트 파일 미리보기 (처음 200자):")
print(text[:200])

텍스트 파일 미리보기 (처음 200자):
[감자]
작가: 김동인
발표: 1925년
장르: 단편소설

제1장.

복녀는 날이 밝기 전에 감자밭으로 갔다. 이제 막 캐기 시작한 감자는 작년보다도 더 시원찮았다. 더구나 올해는 소작료를 더 물어야 했다.

남편 선달이와 어린 딸아이를 병으로 잃은 뒤, 복녀는 혼자서 김 주사의 땅을 부치며 살았다. 마을에서 제일 큰 부자인 김 주사는 복녀의 가난한 처지를


## 3. JSON 파일 다루기

In [18]:
# JSON 파일 읽기
json_path = os.path.join(DATA_DIR, 'gamja.json')
with open(json_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

# 기본 정보 출력
print("작품 정보:")
print(f"제목: {data['작품']['제목']}")
print(f"저자: {data['작품']['저자']}")
print(f"출판년도: {data['작품']['출판년도']}")

# JSON을 DataFrame으로 변환
characters_data = data['작품']['주요_등장인물']
df_characters = pd.DataFrame(characters_data)
print("\n등장인물 정보:")
print(df_characters[['이름', '신분', '나이']])

작품 정보:
제목: 감자
저자: 김동인
출판년도: 1925

등장인물 정보:
     이름  신분  나이
0    복녀  농민  28
1  김 주사  지주  50


## 4. XML(TEI) 파일 다루기

In [19]:
# XML 파일 읽기
xml_path = os.path.join(DATA_DIR, 'gamja.xml')
tree = ET.parse(xml_path)
root = tree.getroot()

# 기본 정보 추출
ns = {'tei': 'http://www.tei-c.org/ns/1.0'}
title = root.find('.//tei:title', ns).text
author = root.find('.//tei:author', ns).text
print(f"제목: {title}")
print(f"작가: {author}")

# 등장인물 정보 추출
characters = []
for person in root.findall('.//tei:person', ns):
    character = {
        '이름': person.find('tei:persName', ns).text,
        '특성': [trait.text for trait in person.findall('tei:trait', ns)],
        '거주지': person.find('tei:residence', ns).text
    }
    characters.append(character)

df_xml_characters = pd.DataFrame(characters)
print("\n등장인물 정보 (XML):")
print(df_xml_characters)

제목: 감자
작가: 김동인

등장인물 정보 (XML):
     이름                  특성    거주지
0    복녀  [순박함, 성실함, 도덕적 타락]  산골 마을
1  김 주사        [탐욕스러움, 교활함]  산골 마을


## 5. 데이터 분석 및 저장

In [20]:
# 처리된 데이터를 저장할 폴더 생성
processed_dir = os.path.join(DATA_DIR, 'processed')
if not os.path.exists(processed_dir):
    os.makedirs(processed_dir)

# Excel 파일로 저장
output_path = os.path.join(processed_dir, '감자_분석.xlsx')
with pd.ExcelWriter(output_path) as writer:
    df_characters.to_excel(writer, sheet_name='등장인물_JSON', index=False)
    df_xml_characters.to_excel(writer, sheet_name='등장인물_XML', index=False)
print(f"데이터가 '{output_path}' 파일로 저장되었습니다.")

데이터가 'data\processed\감자_분석.xlsx' 파일로 저장되었습니다.
