<a href="https://colab.research.google.com/github/Song-yiJung/DH-Buddhist-Analysis-Tutorial/blob/main/2_%ED%8C%8C%EC%9D%B4%EC%8D%AC%EA%B3%BC_DH%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%A0%84%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 텍스트 데이터 다루기: **데이터 가져오기**

## 💡 텍스트 분석의 시작: 데이터를 어떻게 가져올까?
디지털 인문학 연구에서 방대한 텍스트 데이터를 분석하려면, 먼저 그 데이터를 내 컴퓨터(또는 코랩 환경)로 가져와야 한다.

* API 호출 (Application Programming Interface): 웹 서비스가 데이터를 '문'을 열어주는 방식으로, 코드를 통해 직접 데이터를 요청하고 받아온다.

* GitHub 리포지토리에서 파일 가져오기: 연구자들이 코드와 데이터를 공유하는 GitHub에서 직접 파일을 다운로드하는 방식이다.

* 로컬 파일 업로드 및 Google Drive 연동: 내 컴퓨터에 있는 텍스트 파일(XML, TXT, Excel 등)을 Google Drive에 올린 후, 코랩에서 그 파일을 불러와 사용한다.

## 1. API 호출로 텍스트 데이터 가져오기 (위키백과 예시)

In [None]:
# 필요한 라이브러리 가져오기
import requests # 웹 요청을 보내고 응답을 받는 라이브러리
import json     # JSON 형식의 데이터를 다루는 라이브러리

print("✅ requests, json 라이브러리 준비 완료!")

✅ requests, json 라이브러리 준비 완료!


In [None]:
# 위키백과 API 호출하여 '특정문서' 가져오기

# 위키백과 API 기본 URL
WIKIPEDIA_API_URL = "https://ko.wikipedia.org/w/api.php"

# API 요청에 필요한 매개변수 설정
# action=query: 정보를 요청하는 동작
# format=json: 응답 형식을 JSON으로 요청
# prop=extracts: 문서 내용(extract)을 요청
# exlimit=1: 하나의 문서만 요청
# titles=현진건: '현진건' 문서를 요청
# explaintext=1: HTML 태그 없이 순수 텍스트만 요청
# redirects=1: 리다이렉트(다른 문서로 연결)가 있으면 따라가도록 설정
params = {
    "action": "query",
    "format": "json",
    "prop": "extracts",
    "exlimit": "1",
    "titles": "현진건",
    "explaintext": "1",
    "redirects": "1"
}

print(f"--- 위키백과 API 호출: '{params['titles']}' 문서 가져오기 시작 ---\n")

# requests.get() 함수로 API에 요청을 보내고 응답을 받습니다.
response = requests.get(WIKIPEDIA_API_URL, params=params)

# 응답이 성공적인지 확인 (상태 코드 200은 성공을 의미)
if response.status_code == 200:
    # 응답 내용을 JSON 형식으로 파싱합니다.
    data = response.json()

    # JSON 데이터에서 문서 내용을 추출합니다.
    # 위키백과 API 응답 구조를 알면 원하는 부분을 찾을 수 있어요.
    pages = data['query']['pages']

    # 페이지 ID를 가져옵니다 (페이지 ID는 매번 다를 수 있으므로 첫 번째 페이지를 가져옴)
    page_id = list(pages.keys())[0]

    # 최종적으로 문서 텍스트를 추출합니다.
    hyun_jin_geon_wiki_text = pages[page_id]['extract']

    print("✅ 데이터 가져오기 성공!")
    print(f"\n--- '현진건' 위키백과 문서 내용 (일부) ---\n")
    # 내용이 너무 길 수 있으니 앞부분만 출력합니다.
    print(hyun_jin_geon_wiki_text[:500] + "...\n")
    print("------------------------------------------")

else:
    print(f"❌ 데이터 가져오기 실패! 상태 코드: {response.status_code}")

--- 위키백과 API 호출: '현진건' 문서 가져오기 시작 ---

✅ 데이터 가져오기 성공!

--- '현진건' 위키백과 문서 내용 (일부) ---

현진건(玄鎭健, 1900년 9월 2일~1943년 4월 25일)은 대한제국과 일제 강점 시대 조선(朝鮮)의 작가(문학 평론가 겸 수필가)이자, 소설가 겸 언론인, 독립 운동가였으며, 「운수 좋은 날」, 「술 권하는 사회」 등 20편의 단편소설과 7편의 중·장편 소설을 남겼다.
1943년 4월 25일, 일제강점기 경성부에서 장결핵으로 병사한, 그의 본관은 연주 현씨(延州 玄氏)이며, 호는 빙허(憑虛)이고, 일제 지배하의 민족의 수난적 운명에 대한 객관적인 현실 묘사를 지향한 사실주의의 선구자로 꼽힌다.


== 가계 ==
현진건의 집안인 연주 현씨는 역관(譯官) 등의 잡과(雜科) 출신을 많이 배출한 중인(中人) 집안에 해당한다. 현진건의 6대조로 왜역(倭譯) 즉 일본어 통역관이었던 태형(泰衡)부터 한역(漢譯) 즉 중국어 통역관이었던 5대조 상복(商福), 몽역(蒙譯) 즉 몽골어 통역관이었던 시석(時錫)에 이르기까지 모두 역관으로서 활약하였으며(각자의 처가도 또한 역관 집안이었다) 증조부 ...

------------------------------------------


 ## 2. GitHub 리포지토리에서 텍스트 파일 가져오기 (고전 소설 예시)

이후 3주차 실습에서

## 3. 로컬 파일 업로드 및 Google Drive 연동으로 텍스트 가져오기

In [None]:
from google.colab import drive

print("--- Google Drive 마운트 시작 (인증 필요) ---")
drive.mount('/content/drive') # 이 코드를 실행하면 인증 절차를 거쳐야 합니다.
print("\n✅ Google Drive 마운트 완료!")

--- Google Drive 마운트 시작 (인증 필요) ---
Mounted at /content/drive

✅ Google Drive 마운트 완료!


In [None]:
# TXT 파일 경로 (여러분의 파일 경로로 수정해주세요!)
txt_file_path = '/content/dila_buddhist_figures_analysis (1).xlsx'

print(f"--- TXT 파일 불러오기: '{txt_file_path}' ---\n")

try:
    with open(txt_file_path, 'r', encoding='utf-8') as f: # 'r'은 읽기 모드, 'utf-8'은 인코딩 방식
        loaded_txt_data = f.read() # 파일의 모든 내용을 읽어옵니다.

    print("✅ TXT 파일 불러오기 성공!")
    print(f"\n--- 불러온 TXT 파일 내용 (일부) ---\n")
    print(loaded_txt_data[:200] + "...\n")
    print("-----------------------------------")

except FileNotFoundError:
    print(f"❌ 오류: '{txt_file_path}' 파일을 찾을 수 없습니다. 경로가 정확한지 확인해주세요.")
except Exception as e:
    print(f"❌ 오류 발생: {e}")

--- TXT 파일 불러오기: '/content/dila_buddhist_figures_analysis (1).xlsx' ---

❌ 오류 발생: 'utf-8' codec can't decode byte 0xed in position 10: invalid continuation byte


In [None]:
import xml.etree.ElementTree as ET # XML 파싱을 위한 라이브러리

# XML 파일 경로 (여러분의 파일 경로로 수정해주세요!)
xml_file_path = '/content/drive/MyDrive/Colab_DH_Practice/my_dh_metadata.xml'

print(f"--- XML 파일 불러오기: '{xml_file_path}' ---\n")

try:
    tree = ET.parse(xml_file_path) # XML 파일을 파싱하여 트리 구조로 만듭니다.
    root = tree.getroot() # 트리의 가장 상위 요소(루트)를 가져옵니다.

    print("✅ XML 파일 불러오기 성공!")
    print("\n--- XML 파일에서 문서 메타데이터 추출 ---")

    # XML 구조를 순회하며 데이터를 추출합니다.
    for doc in root.findall('document'): # 'document' 태그를 모두 찾습니다.
        doc_id = doc.get('id') # 'document' 태그의 'id' 속성을 가져옵니다.
        title = doc.find('title').text # 'title' 태그의 텍스트 내용을 가져옵니다.
        author = doc.find('author').text # 'author' 태그의 텍스트 내용을 가져옵니다.
        excerpt = doc.find('excerpt').text # 'excerpt' 태그의 텍스트 내용을 가져옵니다.

        print(f"\n[문서 ID: {doc_id}]")
        print(f"제목: {title}")
        print(f"저자: {author}")
        print(f"내용 발췌: {excerpt[:50]}...") # 발췌 내용이 길 수 있으니 일부만 출력

    print("\n-------------------------------------------")

except FileNotFoundError:
    print(f"❌ 오류: '{xml_file_path}' 파일을 찾을 수 없습니다. 경로가 정확한지 확인해주세요.")
except Exception as e:
    print(f"❌ 오류 발생: {e}")

In [None]:
!pip install openpyxl # Excel 파일(.xlsx)을 읽기 위해 필요한 라이브러리 설치 (최초 1회)

import pandas as pd # 데이터를 표(DataFrame) 형태로 다루는 강력한 라이브러리

# Excel 파일 경로 (여러분의 파일 경로로 수정해주세요!)
excel_file_path = '/content/drive/MyDrive/Colab_DH_Practice/my_research_data.xlsx'

print(f"--- Excel 파일 불러오기: '{excel_file_path}' ---\n")

try:
    # pd.read_excel() 함수로 Excel 파일을 불러옵니다.
    df_research_data = pd.read_excel(excel_file_path)

    print("✅ Excel 파일 불러오기 성공!")
    print("\n--- 불러온 Excel 데이터 (상위 5개 행) ---\n")
    print(df_research_data.head()) # 데이터의 상위 5개 행만 출력
    print("\n-------------------------------------------")

    print("\n--- '저자' 컬럼의 데이터만 확인 ---")
    print(df_research_data['저자']) # '저자'라는 컬럼(열)의 데이터만 선택하여 출력
    print("\n----------------------------------")

except FileNotFoundError:
    print(f"❌ 오류: '{excel_file_path}' 파일을 찾을 수 없습니다. 경로가 정확한지 확인해주세요.")
except Exception as e:
    print(f"❌ 오류 발생: {e}")

# 텍스트 데이터 다루기: **전처리 기초와 파이썬 실습 입문**

## 💡 텍스트 전처리(Text Preprocessing)

텍스트 데이터는 우리가 생각하는 것보다 훨씬 '정돈되지 않은' 경우가 많다. 텍스트 분석을 시작하기 전에 이 데이터를 깨끗하게 만들고, 컴퓨터가 이해할 수 있는 형태로 바꿔주는 작업이 필요한데, 이것이 바로 **텍스트 전처리(Text Preprocessing)**이다.

## 1. 왜 텍스트 전처리가 필요할까요?

* 노이즈(Noise) 제거:
우리가 사용하는 글에는 오탈자, 불필요한 특수문자(예: !?@#), 의미 없는 공백, 중복된 단어 등이 많다. 이런 '노이즈'들은 컴퓨터가 텍스트를 정확하게 이해하고 분석하는 것을 방해한다.
** 예시: "넘흐 좋다!!" (오탈자+특수문자), "텍스트 분석은 재미있다." (불필요한 공백)

* 분석 효율성 증대:
컴퓨터는 '책을 읽다', '책 읽기', '책을 읽고'가 모두 '책을 읽는 행위'와 관련되어 있다는 걸 바로 알지 못한다. 각각 다른 단어로 인식한다. 이런 단어들을 하나의 대표 형태로 만들어주면 분석 효율성이 훨씬 높아진다. 문장 속에서 정말 중요한 단어(핵심 키워드)만 골라내면, 컴퓨터가 훨씬 빠르게 핵심 내용을 파악할 수 있다.

* 디지털 인문학에서 중요성: 역사적 사료나 문학 텍스트에는 필사 과정의 오류, 시대적 표현, 다양한 표기법 등 전통적인 연구에서도 중요한 '노이즈'가 많다. 정확한 전처리 없이는 텍스트 해석의 오류가 발생하거나, 미묘한 의미를 놓칠 수 있다.



## 2. 텍스트 전처리 단계에서 무엇을 할까? (주요 기법과 용어)

### 데이터 파싱(Data Parsing):

* 개념: XML, JSON, HTML처럼 특정 규칙을 가진 파일에서 우리가 원하는 텍스트 데이터만 '쏙쏙' 뽑아내는 과정.

* 예시: 웹페이지에서 본문 내용만 가져오거나, 구조화된 문서에서 책 제목만 추출하는 것.

* 디지털 인문학: 디지털 아카이브에서 제공하는 XML/JSON 형태의 사료나 문학 작품 파일에서 본문 텍스트를 효율적으로 추출할 때 사용한다.

### 토큰화(Tokenization) & 형태소 분석(Morpheme Analysis):

* 개념: 텍스트를 분석하기 위한 최소 의미 단위로 쪼개는 과정. 이 최소 단위를 **토큰(Token)**이라고 한다.

* 왜 중요할까: 특히 한국어는 '은/는/이/가' 같은 조사가 단어에 붙고, 동사/형용사의 어미가 변하는 교착어라서 단순히 띄어쓰기로만 쪼개면 의미를 정확히 알기 어렵다.

* 형태소: 의미를 가진 가장 작은 말의 단위 (예: '하늘이' = '하늘' + '이').

### 형태소 분석: 텍스트를 이 형태소 단위로 쪼개는 과정.

* 디지털 인문학: 한국 문학, 역사 기록 등을 분석할 때 단어의 정확한 원형과 의미를 파악하는 데 필수적.

### 품사 태깅(Part-of-Speech Tagging, POS Tagging):

* 개념: 쪼개진 형태소에 품사(Part-of-Speech) 이름표(예: 명사, 동사, 형용사)를 붙여주는 과정.

* 예시: '나는' -> '나(명사)', '는(조사)'; '먹었다' -> '먹(동사)', '었(어미)', '다(어미)'.

* 디지털 인문학: 품사 정보를 활용하면 '명사'만 골라 핵심 키워드를 찾거나, '동사'만으로 인물의 행동 패턴을 분석하는 등 정교한 분석이 가능하다.

### 정규화(Normalization):

* 개념: 텍스트 데이터의 형태를 일관되게 만드는 과정.

* 예시:

  (1) 대소문자 통일: 영어 텍스트의 'Text', 'text'를 모두 'text'로 통일.

  (2) 오탈자 교정: '안녕학세요'를 '안녕하세요'로 수정.

  (3) 불필요한 문자 제거: '텍스트!@#$'에서 특수문자 제거.

  (4) 공백 제거: '텍스트 분석'에서 불필요한 공백을 하나로 줄이기.

* 디지털 인문학: 고문헌의 다양한 이체자(異體字) 표기를 통일하거나, 시대별로 달라진 표현을 표준화하는 데 활용될 수 있어요.

### 불용어(Stop Words) 처리:

* 개념: 텍스트 분석에서 큰 의미가 없어 제거하는 단어들을 불용어라고한다. '은, 는, 이, 가, 그리고, 하다' 등 자주 나오지만 텍스트의 핵심 의미를 파악하는 데 방해가 되는 단어들이 대표적이다. 그러나 연구 주제에 따라 조사가 아닌 특정 단어가 불용어가 될 수 있다.

* 디지털 인문학: 특정 단어의 빈도를 높이거나, 텍스트의 핵심 주제를 가리는 불필요한 단어를 제거하여 분석의 정확도를 높인다.

### 표제어 추출(Lemmatization) vs. 어간 추출(Stemming):

* 개념: 단어의 다양한 변화 형태(예: '뛰다', '뛰는', '뛰어서')에서 기본형이나 원형을 찾아내는 기법.

* 표제어 추출 (Lemmatization): 단어의 **원형(기본 사전형)**을 찾는다. 품사를 고려하며, 실제로 존재하는 단어로 변환한다. (예: 'running' -> 'run', 'better' -> 'good')

* 어간 추출 (Stemming): 단어의 접미사 등을 제거하여 의미론적인 핵심 부분(어간)을 추출한다. 사전에 없는 형태가 나올 수도 있다. (예: 'running' -> 'run', 'better' -> 'better' 또는 'bett')

* 디지털 인문학 (한국어의 경우): 한국어는 어간과 어미가 결합하여 다양한 형태를 띠므로, 단순히 어간 추출보다는 **형태소 분석을 통한 표제어 추출(명사, 동사 원형 등)**이 훨씬 중요하고 정확하다.

In [None]:
import requests # 웹 요청을 보내고 응답을 받는 라이브러리
import json     # JSON 형식의 데이터를 다루는 라이브러리

print("✅ requests, json 라이브러리 준비 완료!")

✅ requests, json 라이브러리 준비 완료!


In [None]:
# 위키문서 API 기본 URL
WIKISOURCE_API_URL = "https://ko.wikisource.org/w/api.php"

# API 요청에 필요한 매개변수 설정
# action=query: 정보를 요청하는 동작
# format=json: 응답 형식을 JSON으로 요청
# prop=extracts: 문서 내용(extract)을 요청
# exlimit=1: 하나의 문서만 요청
# titles=부모은중경: '부모은중경' 문서를 요청
# explaintext=1: HTML 태그나 위키 문법 없이 순수 텍스트만 요청
# redirects=1: 리다이렉트(다른 문서로 연결)가 있으면 따라가도록 설정
params = {
    "action": "query",
    "format": "json",
    "prop": "extracts",
    "exlimit": "1",
    "titles": "부모은중경",
    "explaintext": "1",
    "redirects": "1"
}

print(f"--- 위키문서 API 호출: '{params['titles']}' 문서 가져오기 시작 ---\n")

# requests.get() 함수로 API에 요청을 보내고 응답을 받습니다.
response = requests.get(WIKISOURCE_API_URL, params=params)

# 응답이 성공적인지 확인 (HTTP 상태 코드 200은 성공을 의미)
if response.status_code == 200:
    # 응답 내용을 JSON 형식으로 파싱합니다.
    data = response.json()

    # JSON 데이터 구조를 탐색하여 문서 내용을 추출합니다.
    # 위키백과/위키문서 API 응답은 'query' -> 'pages' 아래에 페이지 ID가 키로 있는 구조입니다.
    pages = data['query']['pages']

    # 페이지 ID를 가져옵니다 (페이지 ID는 매번 다를 수 있으므로 첫 번째 페이지를 가져옴)
    page_id = list(pages.keys())[0]

    # 최종적으로 문서 텍스트를 추출합니다.
    text_bueonmo_eunjung_gyeong = pages[page_id]['extract']

    print("✅ '부모은중경' 텍스트 가져오기 성공!")
    print(f"\n--- 가져온 '부모은중경' 텍스트 내용 (일부 미리보기) ---\n")
    # 내용이 매우 길 수 있으니 앞부분 500자만 출력합니다.
    print(text_bueonmo_eunjung_gyeong[:500] + "...\n")
    print("--------------------------------------------------")

else:
    print(f"❌ 데이터 가져오기 실패! 상태 코드: {response.status_code}")
    text_bueonmo_eunjung_gyeong = "" # 실패 시 빈 문자열로 초기화하여 다음 단계 오류 방지

--- 위키문서 API 호출: '부모은중경' 문서 가져오기 시작 ---

✅ '부모은중경' 텍스트 가져오기 성공!

--- 가져온 '부모은중경' 텍스트 내용 (일부 미리보기) ---


== 서분 ==
이와 같이 나는 들었다.
어느 때 부처님께서는 사위국 왕사성의 기수급고독원에서 삼만팔천인의 대비구와 보살들과 함께 계시었다.


== 정종분 ==


=== 보은인연 ===
그때 세존께서는 대중을 거느리고 남방으로 가시다가, 한 무더기의 뼈를 보시고는 오체투지의 예배를 올리셨다. 이에 아난과 대중이 부처님께 아뢰었다.

세존이시여, 여래는 삼계의 큰 스승이요 사생의 자비로운 어버이시기에 수많은 사람들이 공경하고 귀의하옵니다. 그런데 어찌하여 이름모를 뼈무더기에 친히 절을 하시옵니까?
부처님께서 아난에게 말씀하셔다.

네가 비록 나의 으뜸가는 제자 중 한 사람이요 출가한 지도 오래 되었지만 아직 아는 것이 넓지 못하구나. 이 한무더기의 마른 뼈가 어쩌면 내 전생의 조상이거나 여러 대에 걸친 부모의 뼈일 수도 있기 때문에 내가 지금 예배한 것이니라.
부처님께서 아난에게 말씀하셨다.

이 한무더기의 마른 뼈를 둘로 나누어 보아라. 만일 남자의 뼈라면 희고 무거울 것이며,...

--------------------------------------------------


1.2. 위키문서 API 호출하여 '부모은중경' 문서 가져오기
이제 위키문서에서 '부모은중경' 문서를 API로 가져와 봅시다.

In [None]:
import re # 정규 표현식(Regular Expression)을 사용하기 위한 라이브러리

# 여러 줄 바꿈을 하나의 공백으로, 여러 공백을 하나의 공백으로 줄이는 정규화
cleaned_text = re.sub(r'\n+', ' ', text_bueonmo_eunjung_gyeong) # 여러 줄 바꿈을 공백 하나로
cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip() # 여러 공백을 공백 하나로, 앞뒤 공백 제거

print(f"--- 클리닝된 '부모은중경' 텍스트 (일부) ---\n")
print(cleaned_text[:500] + "...\n")
print("------------------------------------------------")

--- 클리닝된 '부모은중경' 텍스트 (일부) ---

== 서분 == 이와 같이 나는 들었다. 어느 때 부처님께서는 사위국 왕사성의 기수급고독원에서 삼만팔천인의 대비구와 보살들과 함께 계시었다. == 정종분 == === 보은인연 === 그때 세존께서는 대중을 거느리고 남방으로 가시다가, 한 무더기의 뼈를 보시고는 오체투지의 예배를 올리셨다. 이에 아난과 대중이 부처님께 아뢰었다. 세존이시여, 여래는 삼계의 큰 스승이요 사생의 자비로운 어버이시기에 수많은 사람들이 공경하고 귀의하옵니다. 그런데 어찌하여 이름모를 뼈무더기에 친히 절을 하시옵니까? 부처님께서 아난에게 말씀하셔다. 네가 비록 나의 으뜸가는 제자 중 한 사람이요 출가한 지도 오래 되었지만 아직 아는 것이 넓지 못하구나. 이 한무더기의 마른 뼈가 어쩌면 내 전생의 조상이거나 여러 대에 걸친 부모의 뼈일 수도 있기 때문에 내가 지금 예배한 것이니라. 부처님께서 아난에게 말씀하셨다. 이 한무더기의 마른 뼈를 둘로 나누어 보아라. 만일 남자의 뼈라면 희고 무거울 것이며, 여자의 뼈라면...

------------------------------------------------


2. 텍스트 전처리: 불교 경전 '부모은중경' 다듬기
가져온 '부모은중경' 텍스트는 긴 문자열 형태입니다. 이제 이 텍스트를 분석하기 좋게 다듬는 전처리(Preprocessing) 과정을 시작해 봅시다. 특히 불필요한 공백이나 줄 바꿈을 정리하고, 형태소 분석을 통해 단어를 추출할 거예요.

2.1. 텍스트 클리닝 (기본 정규화)
API에서 explaintext=1 옵션을 사용했기 때문에 대부분의 위키 문법은 제거되지만, 남은 불필요한 공백이나 줄 바꿈 문자 등을 제거하여 텍스트를 '정규화'하는 것이 좋습니다.