<a href="https://colab.research.google.com/github/sumunoh/study_assemble/blob/main/%E1%84%90%E1%85%A9%E1%84%8F%E1%85%B3%E1%86%AB%E1%84%87%E1%85%AE%E1%86%AB%E1%84%85%E1%85%B2_regex.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Python 정규표현/쉘 명령어/토크나이저 사용법



강의자 : 최정윤

##1. Regular Expression

정규표현식(정규식;Regular expression)은 문자열의 복잡한 패턴을 활용하여 처리할 때 사용하는 기법으로, Python 뿐 아니라 문자열을 다루는 모든 곳에서 사용합니다.
따라서 정규표현식은 그 자체로 독립된 영역의 학습 대상입니다. Python에서는 re라는 라이브러리에서 정규표현식 처리 함수를 제공합니다.

re를 사용하기 위해서는 `re` 패키지를 불러와야 합니다.

In [None]:
import re

###메타 문자

메타 문자는 정규표현식에서 특별한 용도로 사용하는 문자입니다.

#### 주요 메타문자 목록
```
. ^ $ * + ? { } [ ] \ | ( )
```
#### 메타문자별 의미와 예
```
[abc]        # a 혹은 b 혹은 c 
```
```
[0-9]        # 0부터 9까지의 정수값 중 하나. [0123456789]와 동일
```
```
[a-zA-Z]     # 소문자 a부터 z, 대문자 A부터 Z까지의 알파벳 중 하나
```
```
[^0-9]       # 0부터 9까지의 정수값이 아닌 값
```
```
[0-9]?       # 0부터 9까지의 정수값이 있거나 없거나
```
```
\d           # [0-9]와 동일
```
```
\D           # [^0-9]와 동일
```
```
\w           # 숫자 혹은 알파벳. [0-9a-zA-Z_]와 동일. 
```
```
\W           # 숫자 혹은 알파벳이 아닌 문자. [^0-9a-zA-Z_]와 동일. 
```
```
\s           # 공백. [ \t\n\r\f\v]과 동일
```
```
\S           # 공백이 아닌 문자. [^ \t\n\r\f\v]과 동일
```
```
ya?          # ya에서 a가 등장하지 않거나 1회 등장하거나. y, ya
```
```
ya+          # ya에서 a가 1회 이상 반복. ya, yaa, yaaa, ...
```
```
ya*          # ya에서 a가 0회 이상 반복. y, ya, yaa, yaaa, ...
```
```
ya{3}        # ya에서 a가 3회 반복. yaaa
```
```
ya{3,5}      # ya에서 a가 3회 이상 5회 이하 반복. yaaa, yaaaa, yaaaaa
```
```
ab|c|def   # ab 혹은 c 혹은 def
```
```
가.다         # .은 모든 문자와 매치. 가나다, 가a다, 가!다, 가0다, 가\t다, ...
```
```
^\d[a-z]     # 문자열의 맨 첫 두 문자가 숫자와 소문자 알파벳의 연쇄. 1z87384, 3t가나다라, 0r!>hi, ...
```
```
\d[a-z]$     # 문자열의 맨 끝 두 문자가 숫자와 소문자 알파벳의 연쇄. 873841z, 가나다라3t, !>hi0r, ...
```
```
^\d[a-z]$    # 문자열이 숫자로 시작해서 소문자 알파벳으로 끝남. 1z, 3t, 0r, ...
```
```
[wW]hy\?     # 메타 문자로서의 ?가 아닌 문장부호로서의 ?를 검색하고 싶을 경우 백슬래시로 escape. Why?, why?
```







###re.match

re.match는 문자열의 시작부터 정규식과 일치하는 부분을 찾아냅니다.

In [None]:
p = re.compile("[a-zA-Z]+") # alphabet 1회 이상 반복

In [None]:
# search success
m1 = p.match("Hello!")
print(m1)

<re.Match object; span=(0, 5), match='Hello'>


In [None]:
if m1:
  print(f"서치 성공: {m1.group()}, {m1.start()}, {m1.end()}, {m1.span()} ")
else:
  print(f"서치 실패: {m1}")

서치 성공: Hello, 0, 5, (0, 5) 


In [None]:
# search failure
m2 = p.match("2021, hello!")
if m2:
  print(f"서치 성공: {m2.group()}, {m2.start()}, {m2.end()}, {m2.span()} ")
else:
  print(f"서치 실패: {m2}")

서치 실패: None


### re.search

re.search는 문자열 전체를 검색하여 정규식과 일치하는 부분을 찾아냅니다.

In [None]:
p = re.compile("\w+") # alpha-numeric 1회 이상 반복
m = p.search("cat")
print(m)
print(m.group())
print(m.start())
print(m.end())
print(m.span())

<re.Match object; span=(0, 3), match='cat'>
cat
0
3
(0, 3)


In [None]:
p = re.compile("@\w+\.com") # email 주소 .com 패턴

In [None]:
# search success
m1 = p.search("aaa@google.com")
if m1:
  print(f"서치 성공: {m1.group()}, {m1.start()}, {m1.end()}, {m1.span()} ")
else:
  print(f"서치 실패: {m1}")


서치 성공: @google.com, 3, 14, (3, 14) 


In [None]:
# search failure
m2 = p.search("aaa@hanmail.net")
if m2:
    print(f"서치 성공: {m2.group()}, {m2.start()}, {m2.end()}, {m2.span()} ")
else:
  print(f"서치 실패: {m2}")

서치 실패: None


###re.findall

re.findall은 문자열 전체를 검색하여 정규식과 일치하는 부분 전체를 리스트로 반환합니다.

In [None]:
p = re.compile("하세요|하지요|싶어요")

In [None]:
result = p.findall("안녕하세요. 제 소개부터 드리도록 하지요. 저는 의미있는 일을 하고 싶어요. 건강하세요.")
print(result)

['하세요', '하지요', '싶어요', '하세요']


###re.finditer

re.finditer는 문자열 전체를 검색하여 정규식과 일치하는 부분을 반복 가능한 객체(match 객체)로 돌려줍니다.

In [None]:
p = re.compile("하세요|하지요|싶어요")         

In [None]:
result = p.finditer("안녕하세요. 제 소개부터 드리도록 하지요. 저는 의미있는 일을 하고 싶어요. 건강하세요.")
print(result)

<callable_iterator object at 0x7fa104928610>


In [None]:
result = p.finditer("안녕하세요. 제 소개부터 드리도록 하지요. 저는 의미있는 일을 하고 싶어요. 건강하세요.")
for r in result: 
  print(r)
  print(r.group())

<re.Match object; span=(2, 5), match='하세요'>
하세요
<re.Match object; span=(19, 22), match='하지요'>
하지요
<re.Match object; span=(38, 41), match='싶어요'>
싶어요
<re.Match object; span=(45, 48), match='하세요'>
하세요


###re.sub

re.sub은 정규식과 일치하는 부분을 다른 문자열로 치환합니다.

In [None]:
p = re.compile("(123)+")

In [None]:

result = p.sub("ttt", "123123kk123")
print(result)

tttkkttt


###Grouping

그루핑 메타 기호 ( )를 잘 활용하면, match 객체의 group 인덱스로 그루핑된 부분의 문자열을 추출할 수 있습니다.

In [None]:
p = re.compile("(\w+)\s+(\d+[-]\d+[-]\d+)")
m = p.search("park 010-1234-1234")
print(m.group(0))
print(m.group(1))
print(m.group(2))


park 010-1234-1234
park
010-1234-1234


###Backreferences

\1, \2, 등의 재참조 메타 기호를 사용하여 앞서 그루핑한 문자열을 재참조 할 수 있습니다.

In [None]:
p = re.compile(r"(\w+)\s+\1") # 재참조 기호 사용시, raw string임을 알리는 r을 꼭 붙여줘야 함.
result = p.search('Paris in the the spring').group()
print(result)

the the


###Look-ahead

전방 탐색(look-ahead)은 찾아내고자 하는 문자열의 패턴의 전방에 특정 조건을 걸고 싶을 때 사용합니다. 

전방에 X가 매치되는 조건을 걸고 싶을 때는 (?=X)

전방에 X가 매치되지 않는 조건을 걸고 싶을 때는 (?!X)

In [None]:
p = re.compile(".+(?=:)")
result = p.search("http://google.com").group()
print(result)

http


In [None]:
p = re.compile("[a-z]+(?![0-9])")
result = p.search("hello2021!").group()
print(result)

hell


###Look-behind

후방 탐색(look-behind)은 찾아내고자 하는 문자열의 패턴의 후방에 특정 조건을 걸고 싶을 때 사용합니다. 

후방에 X가 매치되는 조건을 걸고 싶을 때는 (?<=X)

후방에 X가 매치되지 않는 조건을 걸고 싶을 때는 (?<!X)

In [None]:
p = re.compile("(?<=://).+")
result = p.search("http://google.com").group()
print(result)

google.com


In [None]:
p = re.compile("(?<![a-z])\d+")
result = p.search("hello2021!").group()
print(result)

021


# 2. Basic shell commands

Colab notebook에서는 기본적으로 Python 코드를 실행할 수 있지만, 쉘 명령어 또한 실행할 수 있습니다. 쉘 명령어를 실행하기 위해서는 명령어 앞에 ‘!’ 기호를 입력하여 실행하면 됩니다.



쉘 명령어를 통해서 파일 출력 및 관리를 용이하게 할 수 있습니다. 우선 임의의 파일을 생성해보겠습니다.

In [None]:
nums = ""
for i in range(100):
  nums += str(i+1) + "번째 행입니다." + "\n"

f = open("test.txt", "w")
f.write(nums)
f.close()

In [1]:
s1 = {1,2,3,4}
list(s1)

[1, 2, 3, 4]

# head

head 명령어는 파일의 앞 부분의 내용을 출력합니다. (디폴트 10행)

In [None]:
!head test.txt

1번째 행입니다.
2번째 행입니다.
3번째 행입니다.
4번째 행입니다.
5번째 행입니다.
6번째 행입니다.
7번째 행입니다.
8번째 행입니다.
9번째 행입니다.
10번째 행입니다.


-n 옵션으로 몇 행을 출력할지 지정할 수 있습니다.

In [None]:
!head -n 3 test.txt

1번째 행입니다.
2번째 행입니다.
3번째 행입니다.


# tail

tail 명령어는 파일 뒷 부분의 내용을 출력합니다. (디폴트는 10행)

In [None]:
!tail test.txt

91번째 행입니다.
92번째 행입니다.
93번째 행입니다.
94번째 행입니다.
95번째 행입니다.
96번째 행입니다.
97번째 행입니다.
98번째 행입니다.
99번째 행입니다.
100번째 행입니다.


중간에 행 번호를 추가하여 지정한 라인부터 끝까지 출력할 수 있습니다. 

In [None]:
!tail +98 test.txt

98번째 행입니다.
99번째 행입니다.
100번째 행입니다.


-f 옵션을 주면 파일 출력이 지속됩니다. 파일의 내용이 추가되면 그 부분이 자동으로 출력되므로 파일의 내용이 계속 변할 때 사용하면 편리합니다. Ctrl+C을 누르면 f옵션이 종료됩니다. 

In [None]:
!tail -f test.txt

91번째 행입니다.
92번째 행입니다.
93번째 행입니다.
94번째 행입니다.
95번째 행입니다.
96번째 행입니다.
97번째 행입니다.
98번째 행입니다.
99번째 행입니다.
100번째 행입니다.
^C


# wc

wc 명령어는 'word count'를 의미하며, 파일의 줄(라인), 단어, 문자, 바이트 수 등을 출력할 수 있습니다. 

In [None]:
!wc test.txt 

 100  200 2292 test.txt


옵션을 사용하여 원하는 수치를 출력할 수 있습니다.

In [None]:
!wc -c test.txt # 파일의 byte 수
!wc -m test.txt # 문자 수
!wc -l test.txt # 행 수
!wc -w test.txt # 단어 수

2292 test.txt
1092 test.txt
100 test.txt
200 test.txt


# paste

paste 명령어는 다른 파일의 내용을 덧붙여서 출력합니다.

우선 두 개의 새로운 텍스트 파일을 만들고 출력해봅시다.

In [None]:
f1 = open("first.txt", "w")
f2 = open("second.txt", "w")
f1.write("안녕하세요, 첫 번째 파일입니다.")
f2.write("안녕하세요, 두 번째 파일입니다.")
f1.close()
f2.close()

In [None]:
!head first.txt second.txt

==> first.txt <==
안녕하세요, 첫 번째 파일입니다.
==> second.txt <==
안녕하세요, 두 번째 파일입니다.

In [None]:
!paste first.txt second.txt
!paste -d "&" first.txt second.txt # -d 옵션으로 구분자 지정

안녕하세요, 첫 번째 파일입니다.	안녕하세요, 두 번째 파일입니다.
안녕하세요, 첫 번째 파일입니다.&안녕하세요, 두 번째 파일입니다.


#cut

cut 명령어는 파일의 문자열을 잘라내서 새로운 문자열을 만들어냅니다. 

cut을 사용하기 위해서는 옵션을 필수로 추가해야합니다.

In [None]:
!cut test.txt

cut: you must specify a list of bytes, characters, or fields
Try 'cut --help' for more information.


In [None]:
sent = """
토마토, 오이, 사과 주세요! 감사합니다.
포도, 배, 감 주세요! 감사합니다.
포도, 오렌지, 토마토 주세요! 감사합니다.
총 9개 구매합니다.
안녕히계세요.....
"""

f = open("test2.txt", "w")
f.write(sent)
f.close()

사용법 : cut [OPTION] [FILE]

-f 옵션으로 몇 번째 필드를 출력할지 지정

-d 옵션으로 구분자(delimiter) 지정 (디폴트 tab)

In [None]:
!cut -f 2 -d "," test2.txt # 콤마를 구분자로 하여 2번째 필드를 출력


 오이
 배
 오렌지
총 9개 구매합니다.
안녕히계세요.....


In [None]:
!cut -d "!" -f2 test2.txt # 느낌표를 구분자로 하여 2번째 필드를 출력


 감사합니다.
 감사합니다.
 감사합니다.
총 9개 구매합니다.
안녕히계세요.....


#grep

grep 명령어는 파일의 내용에서 특정 문자열을 찾고자할 때 사용하는 명령어입니다. 

사용법: grep [OPTION] [PATTERN] [FILE]

In [None]:
!grep "토마토" test2.txt # "토마토"가 존재하는 라인 출력 (영어는 대소문자 구분)

토마토, 오이, 사과 주세요! 감사합니다.
포도, 오렌지, 토마토 주세요! 감사합니다.


앞서 배웠던 정규표현식 메타문자를 활용하여 입맛에 맞게 문자열을 검색해볼 수 있습니다. 

In [None]:
!grep "토마토.*감사합니다" test2.txt # "토마토"로 시작해서 "감사합니다"로 끝나는 라인 출력

토마토, 오이, 사과 주세요! 감사합니다.
포도, 오렌지, 토마토 주세요! 감사합니다.


In [None]:
!grep "[0-9]" test2.txt # 숫자가 존재하는 라인 출력

총 9개 구매합니다.


grep과 다양한 옵션을 조합해 볼 수 있습니다.

In [None]:
!grep -n "포도" test2.txt # 라인 앞에 라인 번호 출력

3:포도, 배, 감 주세요! 감사합니다.
4:포도, 오렌지, 토마토 주세요! 감사합니다.


In [None]:
!grep -F ".." test2.txt # 문자열 패턴 전체를 정규 표현식 메타 문자가 아닌 일반 문자로 검색

안녕히계세요.....


In [None]:
!grep ".." test2.txt

토마토, 오이, 사과 주세요! 감사합니다.
포도, 배, 감 주세요! 감사합니다.
포도, 오렌지, 토마토 주세요! 감사합니다.
총 9개 구매합니다.
안녕히계세요.....


In [None]:
!grep '\.\.' test2.txt

안녕히계세요.....


더 많은 옵션을 알고 싶은 경우, --help 를 통해서 해당 명령어의 사용법을 확인할 수 있습니다.

In [None]:
!grep --help

Usage: grep [OPTION]... PATTERN [FILE]...
Search for PATTERN in each FILE.
Example: grep -i 'hello world' menu.h main.c

Pattern selection and interpretation:
  -E, --extended-regexp     PATTERN is an extended regular expression
  -F, --fixed-strings       PATTERN is a set of newline-separated strings
  -G, --basic-regexp        PATTERN is a basic regular expression (default)
  -P, --perl-regexp         PATTERN is a Perl regular expression
  -e, --regexp=PATTERN      use PATTERN for matching
  -f, --file=FILE           obtain PATTERN from FILE
  -i, --ignore-case         ignore case distinctions
  -w, --word-regexp         force PATTERN to match only whole words
  -x, --line-regexp         force PATTERN to match only whole lines
  -z, --null-data           a data line ends in 0 byte, not newline

Miscellaneous:
  -s, --no-messages         suppress error messages
  -v, --invert-match        select non-matching lines
  -V, --version             display version information and exit
      

In [None]:
!paste --help

# +) pipe (|)

위의 쉘 명령어들을 조합해서 쓸 수는 없을까요? ex. grep으로 특정한 단어가 나오는 라인을 세고 싶을 경우...

파이프(|)를 이용하여 실행된 명령의 결과를 다른 명령으로 넘겨줄 수 있습니다. 
```
명령1 | 명령2 | 명령3
```
왼쪽 명령어의 결과(output)을 오른쪽에 있는 명령어에 입력(input)으로 전달합니다.

In [None]:
!grep "토마토" test2.txt

토마토, 오이, 사과 주세요! 감사합니다.
포도, 오렌지, 토마토 주세요! 감사합니다.


In [None]:
!grep "토마토" test2.txt | wc -l  # 첫번째 명령어의 결과값 : 토마토가 나오는 라인들  --> 라인 수를 출력하는 명령 wc -l의 입력으로 들어감.

2


In [None]:
!cut -d "," -f1 test2.txt


토마토
포도
포도
총 9개 구매합니다.
안녕히계세요.....


In [None]:
!cut -d "," -f1 test2.txt | grep "포도" | wc -l  # 첫번째 명령어의 결과값: 라인에서 ,를 구분자로 했을 때 첫번째 단어들 -> "포도"를 검색하는 명령어의 입력으로 들어감. 

2


# +) 쉘 명령어의 출력물을 파이썬의 변수로 사용하기

지금까지 본 명령어들로 파일 내용 확인을 용이하게 할 수 있지만, 조금 더 나아가 출력물을 파이썬의 변수로 전달해보겠습니다. 

Colab에서는 =을 통해 변수에 쉘 명령어의 출력물을 리스트의 형태로 저장할 수 있습니다.

In [None]:
tomato_lines = !grep "토마토" test2.txt
tomato_lines

['토마토, 오이, 사과 주세요! 감사합니다.', '포도, 오렌지, 토마토 주세요! 감사합니다.']

#3. How to use tokenizer

- 아래의 토크나이저를 활용하여 **seq.in, seq.out** 파일들을 만들어주시면 됩니다.
- 공유드라이브/강의자료/2주차/prepare_seq_토큰분류/{prepare_data,tokenizationK}.py 는 프로젝트 깃허브에 올려주시고, git clone하여 활용해주시면 됩니다
- 다만, vocab 파일은 구글 드라이브에 업로드하여 사용해주시기 바랍니다.
- prepare_data.py의 내용은 진행 상황에 맞게 수정해주시면 됩니다. 

In [None]:
!pip install tensorflow==1.15



In [None]:
import tensorflow as tf
print(tf.__version__)
# 2.x 이 출력될 경우, 런타임 재시작 후 다시 확인

1.15.0


In [None]:
!git clone https://github.com/InChil2/SlotTagging.git # [프로젝트 깃허브 주소]

Cloning into 'SlotTagging'...
remote: Enumerating objects: 71, done.[K
remote: Counting objects: 100% (71/71), done.[K
remote: Compressing objects: 100% (50/50), done.[K
remote: Total 71 (delta 17), reused 0 (delta 0), pack-reused 0[K
Unpacking objects: 100% (71/71), done.


In [None]:
from google.colab import drive
drive.mount("/content/drive") 

Mounted at /content/drive


In [None]:
# 드라이브 내 test 파일 경로 설정 - vocab.korean.rawtext.list 가 들어있는 경로를 설정
% cd /content/drive/MyDrive/test 

# 현재 디렉토리 내 파일 출력
% ls 

/content/drive/MyDrive/test
토크나이저_사용법.ipynb  tokenizationK.py
[0m[01;34m__pycache__[0m/             vocab.korean.rawtext.list


In [None]:
from tokenizationK import FullTokenizer
# ETRI 버트를 받으면 tokenization.py가 들어있는데 그거 말고 꼭 제가 제공해드린 tokenizationK.py를 쓰도록 해주세요.
tokenizer = FullTokenizer(vocab_file="/content/drive/MyDrive/test/vocab.korean.rawtext.list")
output = tokenizer.tokenize("안녕하세요, 저는 서브웨이 사장 홍길동입니다.")




In [None]:
print(output)

['안', '녕', '하', '세요', ',_', '저는_', '서', '브', '웨이_', '사', '장_', '홍', '길', '동', '입니다', '._']
