# 03. 크롤링한 text data를 전처리해서 저장하기
- 작성 : 정민정 (https://github.com/jeina7)

---
- 지금까지 수집한 모든 plain text 데이터를 일차적으로 전처리한다.


- 특정 필요한 특수문자 (`"."`, `","` 등의 구두점 등) 를 제외한 다른 특수문자는 모두 제거


- 자모음 (`'ㅋㅋㅋ'`, `'ㅜㅜ'` 등) 또한 우리가 생성할 수필 데이터에 부합하지 않으므로 모두 제거


---

### 1. 현재 디렉토리 상황 확인

In [2]:
!tree -d

[01;34m.[00m
├── [01;34mCrawling[00m
│   └── [01;34mtextcrawler[00m
│       ├── [01;34m__pycache__[00m
│       ├── [01;34mspiders[00m
│       │   └── [01;34m__pycache__[00m
│       ├── [01;34mtext_data_1[00m
│       ├── [01;34mtext_data_2[00m
│       └── [01;34muse_data[00m
├── [01;34mcommon[00m
│   ├── [01;34mdata[00m
│   ├── [01;34mmodels[00m
│   │   └── [01;34m345K[00m
│   ├── [01;34msamples[00m
│   │   ├── [01;34melc39_1[00m
│   │   └── [01;34melc39_2[00m
│   └── [01;34msrc[00m
│       └── [01;34m__pycache__[00m
└── [01;34mno_use_notebooks[00m

18 directories


- `common` 은 사전에 학교측에서 제공받은 코드 모음


- 우리가 수집한 crawling 코드는 `Crawling` 디렉토리에 있음


- 이 중 현재까지 수집한 text 데이터는 `Crawling/textcrawler/use_data` 내에 위치

In [4]:
!ls Crawling/textcrawler/use_data/

essay.txt    geulteen.txt


- `essay.txt`, `geulteen.txt` 두 가지 파일로 존재 (수필)

### 2. text를 전처리하는 함수 `PreProcess`
- 필요없는 부분 제거
- 자모음 제거
- `.`, `,`, `'`, `"`, `?`, `!` 를 제외한 특수문자 제거

In [5]:
import re

def PreProcess(text):
    text = re.sub(pattern='Posted on [0-9]{4} [0-9]{2} [0-9]{2} .+ Posted in \S+ \s?', \
                  repl='', string=text)
    text = re.sub(pattern='Posted on [0-9]{8} .+ Posted in \S+ \s?', \
                  repl='', string=text)
    text = re.sub(pattern='[0-9]{4}년 [0-9]{,2}월 [0-9]{,2}일 [0-9]{,2}시 [0-9]{,2}분 [0-9]{,2}초', \
                  repl='', string=text)
    text = re.sub(pattern='[0-9]{4}. [0-9]{,2}. [0-9]{,2}', \
                  repl='', string=text)
    _filter = re.compile('[ㄱ-ㅣ]+')
    text = _filter.sub('', text)
    _filter = re.compile('[^가-힣 0-9 a-z A-Z \. \, \' \" \? \!]+')
    text = _filter.sub('', text)
    return text

In [6]:
a = ".. 아아 ? >>"
PreProcess(a)

'.. 아아 ? '

### 3. 데이터를 합쳐서 저장하는 함수 `save_data`

In [10]:
from glob import glob

def save_data(file_path, save_path):
    print('{} data saving.'.format(file_path.split('/')[-1]))
    with open(file_path, 'r', encoding='utf-8') as f:
        text = f.read()
        text = PreProcess(text)

    with open(save_path, 'w') as f:
        f.write(text)

    print("\nAll saved.".format(file_path.split('/')[-1]))

### 4. 합칠 데이터와 새로 저장할 데이터 Path 지정

In [11]:
file_1 = './Crawling/textcrawler/use_data/essay.txt'
file_2 = './Crawling/textcrawler/use_data/geulteen.txt'
save_path_1 = './Crawling/textcrawler/use_data/data_1.txt'
save_path_2 = './Crawling/textcrawler/use_data/data_2.txt'

### 5. 함수 실행

In [12]:
save_data(file_1, save_path_1)
save_data(file_2, save_path_2)

essay.txt data saving.

All saved.
geulteen.txt data saving.

All saved.


### 6. 저장된 데이터 확인

In [13]:
with open(save_path_1, 'r') as f:
    data = f.read()

data[:500]

'나는 어려서부터 노래를 좋아했다. 설거지를 하거나 청소를 하며 흥얼흥얼 노래를 하면 시간이 빨리 간다. 아무리 답답해도 노래를 부르고 나면 기분이 상쾌해진다. 슬플 때에도 큰 소리로 노래를 하면 목이 메지만 속은 후련해진다. 장소에 따라 겉으로 부를 때도 있고 속으로 부르기도 한다. 실은 속으로 부를 때가 더 많다. 결혼을 해서 얼마 되지 않아 서로가 서먹할 때이다. 불같으신 시어머니의 꾸중을 들었다. 어떻게든 분위기를 바꿔 보려고 소리 내지 않고 속으로 성가 한 곡을 부르고 나니 거짓말처럼 어머님의 노여움이 풀어지신 듯 했다. 그 후로 자녀들과 언짢은 일이 있을 때에 속으로 노래를 해 보는데 효과가 있었다. 그러다 보니 속으로 부르는 노래가 저절로 습관이 되었다. 새벽부터 밤중까지 내가 부르는 노래는 수없이 많다. 사람들과 일상적인 이야기를 나누면서도 머리 속에는 항상 리듬이 흐른다. 속으로 부르는 노래는 내게 있어서 기도일 수도 있고, 내 삶의 버팀목이 되기도 한다. 성당에서 일'