In [1]:
import re
from pathlib import Path
import pandas as pd

## Prepare Data
- Consolodate text documents into one dataframe

In [2]:
def get_files(path):
    """Return a list of files in a directory"""
    return [f for f in path.iterdir() if f.is_file()]

In [12]:
pro_files = get_files(Path('content/data/pro_nuclear/'))
anti_files = get_files(Path('content/data/anti_nuclear/'))

# pro_files = get_files(Path('content/nuclear_energy/pro'))
# anti_files = get_files(Path('content/nuclear_energy/anti/'))

In [17]:
def split_text(text):
    """Split text into sentences"""
    return re.split(r"\. \n\n|\.\n\n|\. |\n\n", text)

In [18]:
df = pd.DataFrame(columns=["text", "pro_nuclear", "source"])

for f in pro_files:
    df_sub = pd.DataFrame(columns=["text", "pro_nuclear", "source"])
    with open(str(f), 'r') as file:
        text = file.read()
        text = split_text(text)
        df_sub["text"] = text
        df_sub = df_sub.assign(pro_nuclear=1, source=f.name)
    df = pd.concat([df, df_sub], ignore_index=True)

for f in anti_files:
    df_sub = pd.DataFrame(columns=["text", "pro_nuclear", "source"])
    with open(str(f), 'r') as file:
        text = file.read()
        text = split_text(text)
        df_sub["text"] = text
        df_sub = df_sub.assign(pro_nuclear=0, source=f.name)
    df = pd.concat([df, df_sub], ignore_index=True)
    
df['pro_nuclear'] = df['pro_nuclear'].astype(bool)
df['source'] = df['source'].astype('category')

In [19]:
df.to_csv('content/data/processed_data.csv', index=False)

In [22]:
df

Unnamed: 0,text,pro_nuclear,source
0,## Carbon-free electricity,True,pro_nuclear-website_3.txt
1,While traditional fossil fuel generation sourc...,True,pro_nuclear-website_3.txt
2,That’s not to say that they don’t pollute at a...,True,pro_nuclear-website_3.txt
3,We’ll discuss nuclear waste’s role in all this...,True,pro_nuclear-website_3.txt
4,## Small land footprint,True,pro_nuclear-website_3.txt
...,...,...,...
356,It can be hard to measure the number of deaths...,False,anti_nuclear-website_5.txt
357,"For example, about 50 people died from acute r...",False,anti_nuclear-website_5.txt
358,But the United Nations estimates that the acci...,False,anti_nuclear-website_5.txt
359,Greenpeace puts the number closer to 90 000,False,anti_nuclear-website_5.txt


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 848 entries, 0 to 847
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   text         848 non-null    object  
 1   pro_nuclear  848 non-null    bool    
 2   source       848 non-null    category
dtypes: bool(1), category(1), object(1)
memory usage: 8.8+ KB


## Example w/ a single file

In [85]:
with open('content/data/pro_nuclear/pro_nuclear-namuwiki.txt', 'r') as f:
    raw_file = f.read()

In [86]:
# Split string into sentences (i.e. when a period is encountered with a trailing space, or trailing newline)
pro_nuclear = re.split(r'\. \n\n|\.\n\n|\. ', raw_file)
pro_nuclear

['## 평화는 공짜가 아니다',
 '국제사회가 핵무기의 확산에 긍정적이었던 적은 한 번도 없었고, 앞으로도 없을 것이기에 핵개발에 국제적 고립에 준하는 외교적 압박이 들어오는 것은 필연적이다',
 '그럼에도 불구하고 "핵개발을 마음먹은 국가는 국제사회의 제재만으로는 결코 멈출 수 없다"는 명제는 핵무장에 뛰어들었던 모든 국가들에서 단 한 차례의 예외도 없이 증명되어 왔다',
 '미국과 함께 맨해튼 프로젝트에 참여했던 영국만 해도 미국의 거센 반발과 방해에 직면했고, 프랑스 역시 영미와 소련의 반발과 방해는 물론 UN 안보리의 반대 결의안까지 무릅써야 했다',
 '중국도 먼저 핵무기를 개발한 소련에게 도움을 요청했다가 퇴짜를 맞았고, 인도 역시 미국과 소련 모두 기술적 지원을 거절하자 자력 개발했으며, 북한 역시 동일한 전철을 밟았다',
 '미국과 러시아를 제외한 현재 핵보유국들이 핵개발에 따르는 국제적 제재가 두려워서 핵개발을 포기했더라면 영국과 프랑스는 2차 대전 종전 후 크게 떨어진 국력과 위상을 회복하지 못 했을 것이고, 중국은 미국을 위협하는 세계의 패권국으로 발돋움할 수 없었을 것이며, 인도는 제 3세계 국가들의 선두주자라는 국제적 입지를 가질 수 없었을 것이다',
 '또한 파키스탄과 이스라엘은 명백히 적국보다 열세인 국력을 만회하지 못 하고 아예 지도상에서 사라졌을 가능성이 높다',
 '이렇듯 국제사회에서 강대국의 패권과 약소국의 안보 보장은 위험을 감수하면서 선택하고 도전하는 자에게 주어지는 것이다',
 '서방 진영에 속한 국가들의 경우, 명분으로는 북핵에 대한 대비책, 이면협상에서는 중국 위협론을 바탕으로 잘 설득한다면 지지까진 어렵더라도 묵인은 충분히 이끌어낼 수 있다',
 '유럽권 국가들의 경우, 북핵문제에서 드러나듯 겉으로는 우려를 표명하겠지만 실질적으로는 큰 관심 없이 적당히 넘어갈 확률이 높으며, 설령 정면으로 반발해도 경제적 교역규모로 보나 군사적, 지리적 거리로 보나 한국에 큰 타격을 주기 어려우니 한국 입장에서 실질적인 설득의 대