## **1-2. 말뭉치 정돈 및 텍스트 전처리**
1. 한국어 말뭉치 전처리 과정에 필요한 다양한 모듈을 사용해봅니다.
2. 자연어처리 및 다양한 분야에서 많이 쓰이는 정규 표현식을 공부해봅시다. 


## 한국어 말뭉치 전처리 모듈

### [KoNLPy](https://konlpy.org/ko/latest/index.html)
KoNLPy는 한국어 정보처리를 위한 오픈소스 파이썬 패키지입니다.

In [1]:
# !pip install konlpy



한국어 말뭉치를 처리하기 위하여 각 문장의 품사를 분석이 필요한 경우가 있습니다.
KoNLPy는 이러한 품사 분석을 위한 다음과 같은 모듈을 제공합니다.

* Kkma
* Komoran
* Hannanum
* Okt
* Mecab
* ...

각 모듈들은 비슷한 기능을 제공하지만, 사용하는 [품사 태그](https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0)나 실행시간, 그리고 그 정확성에 [다소 차이](https://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes)가 있습니다. 

그 중에서 **한나눔(Hannanum)**, **크마(Kkma)** 모듈을 이용하여 한국어 문장의 품사 분석을 진행해봅시다.

In [2]:
from konlpy.tag import Hannanum
hannanum = Hannanum()
text = '환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?'
print(hannanum.morphs(text))  # 형태소 단위로 나누기 
print(hannanum.nouns(text))   # 명사만 뽑아내기
print(hannanum.pos(text))     # 품사 태깅

['환영', '하', 'ㅂ니다', '!', '자연어', '처리', '수업', '은', '재미있', '게', '듣', '고', '계시', 'ㄴ가', '요', '?']
['환영', '자연어', '처리', '수업']
[('환영', 'N'), ('하', 'X'), ('ㅂ니다', 'E'), ('!', 'S'), ('자연어', 'N'), ('처리', 'N'), ('수업', 'N'), ('은', 'J'), ('재미있', 'P'), ('게', 'E'), ('듣', 'P'), ('고', 'E'), ('계시', 'P'), ('ㄴ가', 'E'), ('요', 'J'), ('?', 'S')]


In [3]:
from konlpy.tag import Kkma
kkma = Kkma()
text = '환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?'
print(kkma.morphs(text))  # 형태소 단위로 나누기 
print(kkma.nouns(text))   # 명사만 뽑아내기 
print(kkma.pos(text))     # 품사 태킹

['환영', '하', 'ㅂ니다', '!', '자연어', '처리', '수업', '은', '재미있', '게', '듣', '고', '계시', 'ㄴ가요', '?']
['환영', '자연어', '처리', '수업']
[('환영', 'NNG'), ('하', 'XSV'), ('ㅂ니다', 'EFN'), ('!', 'SF'), ('자연어', 'NNG'), ('처리', 'NNG'), ('수업', 'NNG'), ('은', 'JX'), ('재미있', 'VA'), ('게', 'ECD'), ('듣', 'VV'), ('고', 'ECE'), ('계시', 'VXA'), ('ㄴ가요', 'EFQ'), ('?', 'SF')]


품사 태깅을 통하여 한 문장이 여러 형태소로 분리되고, 각 형태소에 품사가 매칭된 것을 확인할 수 있습니다.

### [PyKoSpacing](https://github.com/haven-jeon/PyKoSpacing)

한국어에서 띄어쓰기는 중요한 역할을 합니다. 그러나 웹사이트 등지에서 크롤링한 Raw 한국어 말뭉치는 띄어쓰기가 잘 지켜지지 않는 경우가 많죠

In [4]:
sent = '환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?'
new_sent = sent.replace(" ", '') # 띄어쓰기가 없는 문장으로 만들기
print(new_sent)

환영합니다!자연어처리수업은재미있게듣고계신가요?


이러한 부적절한 띄어쓰기가 포함된 문장을 전처리하기 위하여 많은 모델이 제안되었고, 최근에는 심층학습을 이용한 전처리기들이 두각을 드러내고 있습니다.

PyKoSpacing은 그러한 전처리기 중 하나로, RNN (Recurrent Neural Network) 중 하나인 [Gated Recurrent Unit (GRU)](https://arxiv.org/pdf/1406.1078v3.pdf)와 CNN을 다음과 같이 사용하여 모델을 구성 및 학습하였습니다.
![PyKoSpacing](https://github.com/haven-jeon/TrainKoSpacing/blob/master/img/kosapcing_img.png?raw=true)

이제 PyKoSpacing을 사용해봅시다.

In [8]:
# !conda install --y tensorflow
# !conda install --y keras
# !conda install --y git+https://github.com/haven-jeon/PyKoSpacing.git

Collecting package metadata (current_repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Solving environment: failed with repodata from current_repodata.json, will retry with next repodata source.
Collecting package metadata (repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: /home/kingstar/anaconda3/envs/ml2

  added / updated specs:
    - tensorflow


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    _tflow_select-2.3.0        |              mkl           2 KB
    abseil-cpp-20211102.0      |       hd4dd3e8_0        1020 KB
    absl-py-1.3.0              |   py38h06a4308_0         167 KB
    aiohttp-3.8.3              |   py38h5eee18b_0         455 KB
    aiosignal-1.2.0            |     pyhd3eb1b0_0          12 KB
    astunparse-1.6.3           |             py_0          17 KB
    async-timeo

 ... (more hidden) ...[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A[A

rsa-4.7.2            | 28 KB     | ##################################### | 100% [A[A


opt_einsum-3.3.0     | 57 KB     | ##################################### | 100% [A[A[A
werkzeug-2.2.3       | 342 KB    | ###########################7          |  75% [A




frozenlist-1.3.3     | 45 KB     | ##################################### | 100% [A[A[A[A[A




frozenlist-1.3.3     | 45 KB     | ##################################### | 100% [A[A[A[A[A



abseil-cpp-20211102. | 1020 KB   | ###4                                  |   9% [A[A[A[A





importlib-metadata-6 | 38 KB     | ###############4                      |  42% [A[A[A[A[A[A






yarl-1.8.1           | 87 KB     | ######8                               |  18% [A[A[A[A[A[A[A







libcurl-7.88.1       | 383 KB    | #5                                    |   4% [A[A[A[A[A[A[A[A





importlib-metadata-

Preparing transaction: done
Verifying transaction: done
Executing transaction: done
Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.
Collecting package metadata (repodata.json): done
Solving environment: failed with initial frozen solve. Retrying with flexible solve.

PackagesNotFoundError: The following packages are not available from current channels:

  - //github.com/haven-jeon/pykospacing.git

Current channels:

  - https://repo.anaconda.com/pkgs/main/linux-64
  - https://repo.anaconda.com/pkgs/main/noarch
  - https://repo.anaconda.com/pkgs/r/linux-64
  - https://repo.anaconda.com/pkgs/r/noarch

To search for alternate channels that may provide the conda package you're
looking for, navigate to

    https://anaconda.org

and use the search bar at the top of the 

In [5]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)

print('띄어쓰기가 없는 문장 :\n', new_sent) 
print('정답 문장:\n', sent) 
print('띄어쓰기 교정 후:\n', kospacing_sent)

띄어쓰기가 없는 문장 :
 환영합니다!자연어처리수업은재미있게듣고계신가요?
정답 문장:
 환영합니다! 자연어 처리 수업은 재미있게 듣고 계신가요?
띄어쓰기 교정 후:
 환영합니다! 자연어 처리 수업은 재미있게 듣고 계신 가요?


### [Py-Hanspell](https://github.com/ssut/py-hanspell)

비슷하게 기계학습으로 한국어 맞춤법을 교정하는 시도 역시 존재합니다. 이러한 모델을 직접 구축 및 학습하는 것도 하나의 방법이지만, 조금 더 쉬운 방법은 이미 있는 서비스를 적용하는 것입니다.
[네이버 한국어 맞춤법 검사기](https://search.naver.com/search.naver?where=nexearch&sm=top_sug.pre&fbm=1&acr=1&acq=%ED%95%9C%EA%B5%AD%EC%96%B4+%EB%A7%9E%EC%B6%A4%EB%B2%95&qdt=0&ie=utf8&query=%ED%95%9C%EA%B5%AD%EC%96%B4+%EB%A7%9E%EC%B6%A4%EB%B2%95+%EA%B2%80%EC%82%AC%EA%B8%B0)를 기반으로 하여 제작된 Py-Hanspell을 사용해봅시다.

In [6]:
!pip install git+https://github.com/ssut/py-hanspell.git

Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-scrhplry
  Running command git clone --filter=blob:none --quiet https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-scrhplry
  Resolved https://github.com/ssut/py-hanspell.git to commit 8e993cf46f97f9d665c15633a0fc78ac1b727713
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25ldone
[?25h  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4837 sha256=902a6a46513bfb8ca257f50394b980237c18fc8114cdf2a9c407570143849566
  Stored in directory: /tmp/pip-ephem-wheel-cache-ybqlhih_/wheels/3f/a5/73/e4d2806ae141d274fdddaabf8c0ed79be9357d36bfdc99e4b4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [7]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)

hanspell_sent = spelled_sent.checked
print(hanspell_sent)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

물론, 이런 오픈 소스가 아닌 상용 서비스에 기반한 모듈을 무단으로 상업적으로 사용하게 되면 법적인 문제가 발생할 수 있으니 주의바랍니다.

## 정규 표현식 (Regular Expression)

말뭉치를 전처리하다보면 주어진 문장에서 특정 단어를 찾아야하는 경우가 많습니다. 

In [8]:
text = """\
Whereas recognition of the inherent dignity and of the equal and inalienable rights of all members of the human family is the foundation of freedom, justice and peace in the world,
Whereas disregard and contempt for human rights have resulted in barbarous acts which have outraged the conscience of mankind, and the advent of a world in which human beings shall enjoy freedom of speech and belief and freedom from fear and want has been proclaimed as the highest aspiration of the common people,
Whereas it is essential, if man is not to be compelled to have recourse, as a last resort, to rebellion against tyranny and oppression, that human rights should be protected by the rule of law,
Whereas it is essential to promote the development of friendly relations between nations,
Whereas the peoples of the United Nations have in the Charter reaffirmed their faith in fundamental human rights, in the dignity and worth of the human person and in the equal rights of men and women and have determined to promote social progress and better standards of life in larger freedom,
Whereas Member States have pledged themselves to achieve, in co-operation with the United Nations, the promotion of universal respect for and observance of human rights and fundamental freedoms,
Whereas a common understanding of these rights and freedoms is of the greatest importance for the full realization of this pledge,

Now, therefore,
The General Assembly,
Proclaims this Universal Declaration of Human Rights as a common standard of achievement for all peoples and all nations, \
to the end that every individual and every organ of society, keeping this Declaration constantly in mind, \
shall strive by teaching and education to promote respect for these rights and freedoms and by progressive measures, \
national and international, to secure their universal and effective recognition and observance, \
both among the peoples of Member States themselves and among the peoples of territories under their jurisdiction.\
""" ### 세계 인권 선언 전문 발췌

위의 말뭉치에서 `human`이라는 단어가 나오는 위치들을 어떻게 찾을 수 있을까요?
가장 쉬운 방법은 python string의 `find` 함수를 사용하는 것일겁니다.

In [9]:
pattern = 'human'
start = -1
indices = []

while True:
    start = text.find(pattern, start+1)
    if start == -1:
        break
    indices.append(start)
print(indices)

[106, 216, 343, 637, 880, 926, 1231]


그런데 만약 `복수 형태의 단어`를 찾고 싶다면 어떨까요? 즉 `s`, `es`로 끝나는 단어들 말이죠. 
이러한 특수한 패턴을 찾기 위해서 python을 하드코딩하는 것도 하나의 방법이지만 `정규 표현식`을 이용하면 복잡한 패턴 형태를 쉽게 찾을 수 있습니다.

### 정규 표현식

정규 표현식은 사실상 완전 별개의 언어이기 때문에 [정규 표현식 연습장](https://regexr.com/)을 통해 연습해 보는 것을 권장합니다.
파이썬에서 정규 표현식을 사용하려면 `re` 패키지를 활용합니다.


In [10]:
import re

정규 표현식도 본질은 패턴을 찾는 것이기 때문에 일반 텍스트를 패턴으로 넣으면 `find` 함수와 유사하게 작동합니다.  

In [11]:
pattern = 'human'
for match in re.finditer(pattern, text):
    print(match.span())     # (시작 index, 끝 index + 1)을 반환합니다.

(106, 111)
(216, 221)
(343, 348)
(637, 642)
(880, 885)
(926, 931)
(1231, 1236)


역슬래시 "\\" (한국어 인코딩에서는 `￦`) 를 활용하면 특정 집합에 속한 문자 "하나"를 지칭할 수 있습니다. 
사용 가능한 대표적인 특수 글자는 다음과 같습니다:


| 특수 글자 | 설명 |
|---|---|
| \w | 영숫자 + 언더스코어("_") |
| \W | (영숫자 + "_")를 제외한 문자 |
| \d | 숫자 |
| \d | 숫자가 아닌 문자 |
| \s | 공백 문자 |
| \S | 공백이 아닌 문자 |
| \b | 단어 경계 |



In [12]:
pattern = r's\wa'  # \는 python에서 escape 문자로 쓰이기 때문에 정규표현식을 올바르게 사용하기 위해선 r''형태의 raw string을 사용해야합니다.
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))     # (시작 index, 끝 index + 1)과 들어맞는 패턴을 출력합니다.

(356, 359) sha
(1038, 1041) sta
(1292, 1295) sta
(1505, 1508) sta
(1651, 1654) sta
(1668, 1671) sha


정규 표현식에는 아래의 `메타 문자`가 있으며, 이 문자들은 특수한 의미를 가진 문법의 역할을 하기 때문에 사용이 불가능합니다.

`. ^ $ * + ? { } [ ] \ | ( )`

해당 문제를 그대로 매칭하고 싶다면 Escape 문자인 `\`를 붙여 사용해야합니다.

In [13]:
pattern = r"\(소괄호\)"
re.findall(pattern, "(소괄호)")

['(소괄호)']

이제 각각의 메타 문자들이 어떠한 의미를 가지는지 확인해봅시다.

### `.` 기호

아무 문자 하나를 지칭합니다. 공백은 포함하나, 줄 바꿈 문자 `\n`은 제외합니다.

In [14]:
pattern = r's.a'
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(254, 257) s a
(356, 359) sha
(570, 573) s a
(1025, 1028) s a
(1038, 1041) sta
(1242, 1245) s a
(1276, 1279) s a
(1292, 1295) sta
(1315, 1318) s a
(1491, 1494) s a
(1494, 1497) s a
(1505, 1508) sta
(1543, 1546) s a
(1651, 1654) sta
(1668, 1671) sha
(1741, 1744) s a
(1754, 1757) s a
(1930, 1933) s a


### `[ ]` 기호
[ ] 안에 있는 문자들 중에서 하나의 문자와 매치합니다.
* 범위를 지정할 수도 있습니다. Ex) A-Z, a-z, 0-9

In [15]:
pattern = r'[a-di]s'        # a, b, c, d, i
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(5, 7) as
(119, 121) is
(186, 188) as
(190, 192) is
(429, 431) as
(448, 450) as
(463, 465) as
(501, 503) as
(507, 509) is
(528, 530) is
(569, 571) as
(575, 577) as
(695, 697) as
(701, 703) is
(785, 787) as
(1045, 1047) ds
(1080, 1082) as
(1218, 1220) bs
(1275, 1277) as
(1330, 1332) is
(1390, 1392) is
(1452, 1454) is
(1493, 1495) as
(1633, 1635) is
(1777, 1779) as
(1870, 1872) bs
(1984, 1986) is


### `[^ ]` 기호
[^ ] 안에 있는 문자를 <u>제외한</u> 문자들 중에서 하나의 문자와 매치합니다.

In [16]:
pattern = r'[^a-di]s'        # a, b, c, d, i 제외
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(81, 83) ts
(96, 98) rs
(150, 152) us
(226, 228) ts
(235, 237) es
(253, 255) us
(258, 260) ts
(287, 289) ns
(353, 355) gs
(355, 357)  s
(378, 380)  s
(459, 461) es
(510, 512) es
(564, 566) rs
(580, 582) es
(604, 606) ns
(624, 626) es
(647, 649) ts
(649, 651)  s
(704, 706) es
(760, 762) ns
(776, 778) ns
(797, 799) es
(819, 821) ns
(890, 892) ts
(934, 936) rs
(960, 962) ts
(1010, 1012)  s
(1023, 1025) es
(1037, 1039)  s
(1094, 1096) es
(1113, 1115) ms
(1118, 1120) es
(1170, 1172) ns
(1196, 1198) rs
(1202, 1204) es
(1241, 1243) ts
(1266, 1268) ms
(1291, 1293) rs
(1306, 1308) es
(1314, 1316) ts
(1327, 1329) ms
(1345, 1347) es
(1430, 1432) As
(1447, 1449) ms
(1460, 1462) rs
(1490, 1492) ts
(1504, 1506)  s
(1542, 1544) es
(1558, 1560) ns
(1613, 1615)  s
(1650, 1652) ns
(1667, 1669)  s
(1673, 1675)  s
(1719, 1721) es
(1732, 1734) es
(1740, 1742) ts
(1753, 1755) ms
(1768, 1770) es
(1781, 1783) es
(1815, 1817)  s
(1834, 1836) rs
(1901, 1903) es
(1918, 1920) es
(1924, 1926) ms
(1929, 1931) es
(1

### `*` 기호
\* 는 바로 앞의 문자가 0개 이상일 경우를 나타냅니다.

In [17]:
pattern = r'om*.n'          # m이 없거나 한 개 이상 존재
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(11, 14) ogn
(127, 130) oun
(482, 487) ommon
(975, 979) omen
(1281, 1286) ommon
(1499, 1504) ommon
(1856, 1859) ogn


### `+` 기호

\+ 는 바로 앞의 문자가 최소 1개 이상일 경우를 나타냅니다.

In [18]:
pattern = r'om+.n'
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(482, 487) ommon
(975, 979) omen
(1281, 1286) ommon
(1499, 1504) ommon


이를 이용하여 해당 문서에서 s로 끝나는 단어를 뽑아내는 것이 가능합니다.

In [19]:
pattern = r'\w+s'
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(0, 7) Whereas
(77, 83) rights
(91, 98) members
(119, 121) is
(149, 152) jus
(181, 188) Whereas
(189, 192) dis
(222, 228) rights
(234, 237) res
(246, 255) barbarous
(256, 260) acts
(285, 289) cons
(349, 355) beings
(428, 431) has
(448, 450) as
(455, 461) highes
(463, 465) as
(496, 503) Whereas
(507, 509) is
(510, 513) ess
(528, 530) is
(559, 566) recours
(569, 571) as
(574, 577) las
(579, 582) res
(600, 606) agains
(620, 627) oppress
(643, 649) rights
(690, 697) Whereas
(701, 703) is
(704, 707) ess
(753, 762) relations
(771, 778) nations
(780, 787) Whereas
(792, 799) peoples
(814, 821) Nations
(886, 892) rights
(932, 936) pers
(956, 962) rights
(1018, 1026) progress
(1038, 1047) standards
(1075, 1082) Whereas
(1090, 1096) States
(1110, 1120) themselves
(1165, 1172) Nations
(1191, 1198) univers
(1201, 1204) res
(1217, 1220) obs
(1237, 1243) rights
(1260, 1268) freedoms
(1270, 1277) Whereas
(1287, 1293) unders
(1304, 1308) thes
(1310, 1316) rights
(1321, 1329) freedoms
(1330, 1332) is
(1

이러한 반복관련 기능들은 가능한 조합 중에서 가장 긴 것을 매칭합니다.

In [20]:
html = '<div> text1 </div> text2 <div> text3 </div>'        # <div>와 같은 HTML 태그를 뽑아내고 싶다고 가정합니다.
pattern = r'<.+>'
for match in re.finditer(pattern, html):
    print(match.span(), match.group(0))

(0, 43) <div> text1 </div> text2 <div> text3 </div>


반대로 가장 짧은 것을 매칭하기 위해선 반복관련 기호 뒤에 `?`를 붙이면 됩니다.

In [21]:
pattern = r'<.+?>'
for match in re.finditer(pattern, html):
    print(match.span(), match.group(0))

(0, 5) <div>
(12, 18) </div>
(25, 30) <div>
(37, 43) </div>


다만 `?`를 붙어 가장 짧은 것을 매칭하기보다 명시적으로 매칭되면 안되는 문자를 지정하는 것을 권장합니다.

In [22]:
pattern = r'<[^>]+>'
for match in re.finditer(pattern, html):
    print(match.span(), match.group(0))

(0, 5) <div>
(12, 18) </div>
(25, 30) <div>
(37, 43) </div>


### `?` 기호
? 는 바로 앞의 문자가 있을 수도 없을 수도 있는 경우를 나타냅니다.

In [23]:
pattern = r'om?.n'
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(11, 14) ogn
(127, 130) oun
(975, 979) omen
(1856, 1859) ogn


### `{ }` 기호
{ }는 `{숫자}` 형태로 사용되며, 바로 앞의 문자가 해당 `숫자`만큼 반복되는 경우를 나타냅니다.

In [24]:
pattern = r'om{2}.n'
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(482, 487) ommon
(1281, 1286) ommon
(1499, 1504) ommon


비슷하게 `{숫자1, 숫자2}` 형태는 바로 앞의 문자가 `숫자1` 이상 `숫자2` 이하 만큼 반복하는 경우를 뜻하며,
`{숫자,}` 형태는 앞의 문자가 `숫자` 이상 반복, `{,숫자}` 형태는 `숫자` 이하 반복을 뜻합니다.

### `^` 기호
글의 시작을 의미합니다.

In [25]:
pattern = r'^\w+'
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(0, 7) Whereas


줄이 나눠졌을 때 각 줄의 시작을 의미하고 싶다면 `Multi-line flag`를 지정해야합니다.

In [26]:
pattern = r'^\w+'
for match in re.finditer(pattern, text, re.MULTILINE):
    print(match.span(), match.group(0))

(0, 7) Whereas
(181, 188) Whereas
(496, 503) Whereas
(690, 697) Whereas
(780, 787) Whereas
(1075, 1082) Whereas
(1270, 1277) Whereas
(1402, 1405) Now
(1418, 1421) The
(1440, 1449) Proclaims


`Multi-line flag`외에도 다양한 Flag들이 존재합니다. 대표적으로 대소문자 미구분을 뜻하는 `Ignore case flag`가 있습니다.

In [27]:
pattern = 'human'
for match in re.finditer(pattern, text, re.IGNORECASE):
    print(match.span(), match.group(0))

(106, 111) human
(216, 221) human
(343, 348) human
(637, 642) human
(880, 885) human
(926, 931) human
(1231, 1236) human
(1480, 1485) Human


### `$` 기호
글의 끝을 의미합니다.

In [28]:
pattern = r'[\w\.,]+$'
for match in re.finditer(pattern, text, re.MULTILINE):
    print(match.span(), match.group(0))

(174, 180) world,
(488, 495) people,
(685, 689) law,
(771, 779) nations,
(1066, 1074) freedom,
(1260, 1269) freedoms,
(1393, 1400) pledge,
(1407, 1417) therefore,
(1430, 1439) Assembly,
(1981, 1994) jurisdiction.


### `|` 기호
일종의 `or` 기호로서 여러 패턴 중 하나랑 매칭합니다.

In [29]:
pattern = r'[ai]s|in|of'
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(5, 7) as
(20, 22) of
(27, 29) in
(48, 50) of
(65, 67) in
(84, 86) of
(99, 101) of
(119, 121) is
(137, 139) of
(167, 169) in
(186, 188) as
(190, 192) is
(243, 245) in
(296, 298) of
(303, 305) in
(323, 325) of
(334, 336) in
(351, 353) in
(376, 378) of
(429, 431) as
(448, 450) as
(463, 465) as
(474, 476) of
(501, 503) as
(507, 509) is
(528, 530) is
(569, 571) as
(575, 577) as
(603, 605) in
(682, 684) of
(695, 697) as
(701, 703) is
(741, 743) of
(785, 787) as
(800, 802) of
(827, 829) in
(865, 867) in
(894, 896) in
(919, 921) of
(943, 945) in
(963, 965) of
(995, 997) in
(1048, 1050) of
(1056, 1058) in
(1080, 1082) as
(1133, 1135) in
(1188, 1190) of
(1228, 1230) of
(1275, 1277) as
(1297, 1299) in
(1301, 1303) of
(1330, 1332) is
(1333, 1335) of
(1385, 1387) of
(1390, 1392) is
(1452, 1454) is
(1477, 1479) of
(1493, 1495) as
(1514, 1516) of
(1584, 1586) in
(1611, 1613) of
(1627, 1629) in
(1633, 1635) is
(1659, 1661) in
(1663, 1665) in
(1689, 1691) in
(1777, 1779) as
(1798, 1800) in
(1904, 1906

### `( )` 기호
텍스트을 캡쳐합니다. 캡쳐된 텍스트은 캡쳐된 순서대로 `\숫자` 형태로 불러오는 것이 가능합니다.
일종의 괄호이므로 우선 순위가 있습니다.

In [30]:
numbers = """\
010-1234-5678
010-4321-4321
051-9876-5432
010-1010-1010 
02-0101-1010
02-1111-1111\
"""                                                         # 중간 번호와 끝 번호가 같은 전화번호를 뽑아봅시다.

pattern = r'^\d{2,3}-(\d{4})-\1$'                           # 캡쳐된 텍스트는 1번부터 사용이 가능합니다.
for match in re.finditer(pattern, numbers, re.MULTILINE):
    print(match.span(), match.group(0), match.group(1))     # Group의 숫자를 지정하여 캡쳐된 텍스트를 출력. 0번 Group는 텍스트 전체를 의미합니다.

(14, 27) 010-4321-4321 4321
(70, 82) 02-1111-1111 1111


### `(?: )` 기호
일반 괄호입니다. 캡쳐를 하지 않습니다.

In [31]:
numbers = """\
010-1234-5678
+82-10-4321-4321
+82-51-9876-5432
010-1010-1010 
02-0101-1010
02-1111-1111\
"""

pattern = r'^(?:0|\+82-)\d{1,2}-(\d{4})-\1$'                # 캡쳐된 텍스트는 1번부터 사용이 가능합니다.
for match in re.finditer(pattern, numbers, re.MULTILINE):
    print(match.span(), match.group(0), match.group(1))     # Group의 숫자를 지정하여 캡쳐된 텍스트를 출력. 0번 Group는 텍스트 전체를 의미합니다.

(14, 30) +82-10-4321-4321 4321
(76, 88) 02-1111-1111 1111


### `(?= )` 기호
뒷 패턴을 확인합니다. `D(?=R)` 형태로 사용합니다. `R`이 바로 뒤에 있는 `D`를 매칭하며, `R`부분은 포함하지 않습니다.

In [32]:
pattern = r'\w+(?=ing)'                                     # ing가 뒤에 있는 텍스트를 매칭합니다.
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(349, 351) be
(1287, 1297) understand
(1623, 1627) keep
(1684, 1689) teach


### `(?<= )` 기호
앞 패턴을 확인합니다. `(?<=R)D` 형태로 사용합니다. `R`이 바로 앞에 있는 `D`를 매칭하며, `R`부분은 포함하지 않습니다.

In [33]:
pattern = r'(?<=all )\w+'                                     # 'all `이 앞에 있는 텍스트를 매칭합니다.
for match in re.finditer(pattern, text):
    print(match.span(), match.group(0))

(91, 98) members
(362, 367) enjoy
(1537, 1544) peoples
(1553, 1560) nations
(1674, 1680) strive


## 크롤링된 텍스트 전처리

네이버 영화 감상평을 크롤링하고 정제해봅시다.

In [36]:
!pip install beautifulsoup4

Collecting beautifulsoup4
  Downloading beautifulsoup4-4.12.0-py3-none-any.whl (132 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.2/132.2 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting soupsieve>1.2
  Using cached soupsieve-2.4-py3-none-any.whl (37 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.12.0 soupsieve-2.4


In [37]:
# 네이버 영화 한줄평 크롤링
from urllib.request import urlopen # 웹서버에 접근 모듈 
from bs4 import BeautifulSoup # 웹페이지 내용구조 분석 모듈
from time import sleep

reviews = []
for j in range(1, 11):
    sleep(0.5)                                                            # 시간차를 두지 않고 웹페이지 접속시 DDOS 공격으로 분류될 수 있음
    url='https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=187348&type=after&isActualPointWriteExecute=false&isMileageSubscriptionAlready=false&isMileageSubscriptionReject=false&page='+str(j)
    html=urlopen(url)
    html_source = BeautifulSoup(html,'html.parser',from_encoding='utf-8') # 댓글 페이지를 utf-8형식으로 html 소스가져오기

    for i in range(10):
        html_reviews = html_source.find('span',{'id': '_filtered_ment_'+str(i)}) 
        reviews.append(html_reviews.text.strip())

print(len(reviews))
print(reviews)

100
['명품 브랜드라 믿고 샀는데 안에 made in china가 적혀있었다', '자세히 보면 중국 문화 올려치는 영화입니다. 초반부터 똥양계는 무조건 한국인 취급하는데 우리는 당당히 중국인이다. ㅇㅈㄹ하고요. 깊고 정통한 중국 문화는 대를 이어서 간다. 마카오에서 K-POP 댄스 추는 거 보고 ...', '마블의 중국산 D-War', '이거 이 후로 퀀텀매니아까지 보고옴.. 이게 그나마 나았구나 싶네. 안녕 마블..ㅜㅜ', '마블의 탈을 쓴 중국 무협영화. 중국 시장과 자본을 지나치게 의식한 디즈니의 연이은 헛발질. CG 범벅에 협소한 공간에서 몇 안되는 인원들의 액션 등 스케일마저 왜 이리 작아진 건지...', '하 정말 재미없네요..', '마블 영화를 본 건지 중국 영화를 본 건지 모르겠지만 양조위는 너무 멋있더라....', '마블의 새로운 시작이다… 재밌어요', '아부지를 왜케 미워하는거지 훈련빡시케 시켰다고 그러는건가아부지를 죽인댔다가 갑자기 필요하다하고 개연성이 좀 부족..텐링즈의 전설이란 제목도 뭐 굳이...', '마블영화보면서 처음으로 졸았습니다 ㅜㅜ', '일라오이 VS 사일러스', '진짜 개노잼이다 와 이렇게 재미없는 마블영화도 첨', '마블 영화라 믿기지 않을 정도로 지루해.. 졸려 죽는 줄 알았다ㅠ', '노잼, 개연성 제로, 중국산 웹툰 느낌', '전형적인 서양에서 생각하는 온갖 동양 클리셰는 몽따 넣은 영화 .. 보면서 불편', '자기 어머니를 죽인 집단을, 다시 복수하는건데, 그걸 굳이 아버지를 미워하게 되는 관점이 좀 웃기긴함. 훈련과정속에서는 딱히 미워할요소가 없는데. 그리고 젤 황당했던게, 천년간 텐링즈끼고 잘 살아왔는데 난데없이 싸우...', '보는내내ㅠ드는 생각....왜 총안씀...?', '솔직히 샹치 캐릭터의 매력이 뭔지 잘모르겠고 용타고 날라다닐땐 마블이 왜 저러나싶음...샹치 표정연기 못해서 캐릭터 몰입안됨..미스캐스팅....연기도 별로...캐릭들의 감정 이입도 어색하고(양조위 제외) 진행 전개도...', '이게뭐냐 진

### 크롤링한 데이터 전처리
한글만 남기고 다른 글자 제거

In [38]:
import re

for index, review in enumerate(reviews):
    reviews[index] = re.sub('[^ 가-힣]', '', review)        # sub 함수를 사용하면 해당 패턴을 다른 텍스트로 대체가 가능합니다.
print(reviews)

['명품 브랜드라 믿고 샀는데 안에   가 적혀있었다', '자세히 보면 중국 문화 올려치는 영화입니다 초반부터 똥양계는 무조건 한국인 취급하는데 우리는 당당히 중국인이다 하고요 깊고 정통한 중국 문화는 대를 이어서 간다 마카오에서  댄스 추는 거 보고 ', '마블의 중국산 ', '이거 이 후로 퀀텀매니아까지 보고옴 이게 그나마 나았구나 싶네 안녕 마블', '마블의 탈을 쓴 중국 무협영화 중국 시장과 자본을 지나치게 의식한 디즈니의 연이은 헛발질  범벅에 협소한 공간에서 몇 안되는 인원들의 액션 등 스케일마저 왜 이리 작아진 건지', '하 정말 재미없네요', '마블 영화를 본 건지 중국 영화를 본 건지 모르겠지만 양조위는 너무 멋있더라', '마블의 새로운 시작이다 재밌어요', '아부지를 왜케 미워하는거지 훈련빡시케 시켰다고 그러는건가아부지를 죽인댔다가 갑자기 필요하다하고 개연성이 좀 부족텐링즈의 전설이란 제목도 뭐 굳이', '마블영화보면서 처음으로 졸았습니다 ', '일라오이  사일러스', '진짜 개노잼이다 와 이렇게 재미없는 마블영화도 첨', '마블 영화라 믿기지 않을 정도로 지루해 졸려 죽는 줄 알았다', '노잼 개연성 제로 중국산 웹툰 느낌', '전형적인 서양에서 생각하는 온갖 동양 클리셰는 몽따 넣은 영화  보면서 불편', '자기 어머니를 죽인 집단을 다시 복수하는건데 그걸 굳이 아버지를 미워하게 되는 관점이 좀 웃기긴함 훈련과정속에서는 딱히 미워할요소가 없는데 그리고 젤 황당했던게 천년간 텐링즈끼고 잘 살아왔는데 난데없이 싸우', '보는내내드는 생각왜 총안씀', '솔직히 샹치 캐릭터의 매력이 뭔지 잘모르겠고 용타고 날라다닐땐 마블이 왜 저러나싶음샹치 표정연기 못해서 캐릭터 몰입안됨미스캐스팅연기도 별로캐릭들의 감정 이입도 어색하고양조위 제외 진행 전개도', '이게뭐냐 진짜 마블 실망', '마블에서 디워를 만들면 이렇겠구나', '마블을 기대하고 갔다가 추억의 중국무술영화 보고옴 중국무술영화 좋아하던 분들은 재밌겠네 난 뭘 보고온거지', '보지마 그냥 길에 돈

중복 공백 제거

In [39]:
for index, review in enumerate(reviews):
    reviews[index] = re.sub(' +', ' ', review)        # sub 함수를 사용하면 해당 패턴을 다른 텍스트로 대체가 가능합니다.
print(reviews)

['명품 브랜드라 믿고 샀는데 안에 가 적혀있었다', '자세히 보면 중국 문화 올려치는 영화입니다 초반부터 똥양계는 무조건 한국인 취급하는데 우리는 당당히 중국인이다 하고요 깊고 정통한 중국 문화는 대를 이어서 간다 마카오에서 댄스 추는 거 보고 ', '마블의 중국산 ', '이거 이 후로 퀀텀매니아까지 보고옴 이게 그나마 나았구나 싶네 안녕 마블', '마블의 탈을 쓴 중국 무협영화 중국 시장과 자본을 지나치게 의식한 디즈니의 연이은 헛발질 범벅에 협소한 공간에서 몇 안되는 인원들의 액션 등 스케일마저 왜 이리 작아진 건지', '하 정말 재미없네요', '마블 영화를 본 건지 중국 영화를 본 건지 모르겠지만 양조위는 너무 멋있더라', '마블의 새로운 시작이다 재밌어요', '아부지를 왜케 미워하는거지 훈련빡시케 시켰다고 그러는건가아부지를 죽인댔다가 갑자기 필요하다하고 개연성이 좀 부족텐링즈의 전설이란 제목도 뭐 굳이', '마블영화보면서 처음으로 졸았습니다 ', '일라오이 사일러스', '진짜 개노잼이다 와 이렇게 재미없는 마블영화도 첨', '마블 영화라 믿기지 않을 정도로 지루해 졸려 죽는 줄 알았다', '노잼 개연성 제로 중국산 웹툰 느낌', '전형적인 서양에서 생각하는 온갖 동양 클리셰는 몽따 넣은 영화 보면서 불편', '자기 어머니를 죽인 집단을 다시 복수하는건데 그걸 굳이 아버지를 미워하게 되는 관점이 좀 웃기긴함 훈련과정속에서는 딱히 미워할요소가 없는데 그리고 젤 황당했던게 천년간 텐링즈끼고 잘 살아왔는데 난데없이 싸우', '보는내내드는 생각왜 총안씀', '솔직히 샹치 캐릭터의 매력이 뭔지 잘모르겠고 용타고 날라다닐땐 마블이 왜 저러나싶음샹치 표정연기 못해서 캐릭터 몰입안됨미스캐스팅연기도 별로캐릭들의 감정 이입도 어색하고양조위 제외 진행 전개도', '이게뭐냐 진짜 마블 실망', '마블에서 디워를 만들면 이렇겠구나', '마블을 기대하고 갔다가 추억의 중국무술영화 보고옴 중국무술영화 좋아하던 분들은 재밌겠네 난 뭘 보고온거지', '보지마 그냥 길에 돈과 시간을 

한국어 띄어쓰기 및 맞춤법 교정

In [40]:
from pykospacing import Spacing
from hanspell import spell_checker

spacing = Spacing()

for index, review in enumerate(reviews):
    review = spacing(review)
    reviews[index] = spell_checker.check(review).checked

print(reviews)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

###**콘텐츠 라이선스**

<font color='red'><b>**WARNING**</b></font> : **본 교육 콘텐츠의 지식재산권은 재단법인 네이버커넥트에 귀속됩니다. 본 콘텐츠를 어떠한 경로로든 외부로 유출 및 수정하는 행위를 엄격히 금합니다.** 다만, 비영리적 교육 및 연구활동에 한정되어 사용할 수 있으나 재단의 허락을 받아야 합니다. 이를 위반하는 경우, 관련 법률에 따라 책임을 질 수 있습니다.

