<a href="https://colab.research.google.com/github/susooo/data-collection/blob/main/%EC%A0%95%EA%B7%9C%ED%91%9C%ED%98%84%EC%8B%9D_regularexpression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#크롤링과 프로그래밍 고급 문자열 기술

## 정규표현식

### 세 라인의 코드를 추가하면 원하는 패턴의 특징을 추출할 수 있다.
<pre>
import re
regex = re.compile('[A-Za-z]+\.')
print(regex.findall('찾을 문자열'))
</pre>

<table>
    <thead>
        <tr style="font-size:1.2em">
            <th style="text-align:center">정규 표현식</th>
            <th style="text-align:center">축약 표현</th>
            <th style="text-align:left">사용 예</th>
        </tr>
    </thead>
    <tbody>
        <tr style="font-size:1.2em">
            <td style="text-align:center">[0-9]</td>
            <td style="text-align:center">\d</td>
            <td style="text-align:left">숫자를 찾음</td>
        </tr>
        <tr style="font-size:1.2em">
            <td style="text-align:center">[^0-9]</td>
            <td style="text-align:center">\D</td>
            <td style="text-align:left">숫자가 아닌 것을 찾음(텍스트, 특수 문자, white space(스페이스, 탭, 엔터 등등)를 찾을 때)</td>
        </tr>
        <tr style="font-size:1.2em">
            <td style="text-align:center">[ \t\n\r\f\v]</td>
            <td style="text-align:center">\s</td>
            <td style="text-align:left">white space(스페이스, 탭, 엔터 등등) 문자인 것을 찾음</td>
        </tr>
        <tr style="font-size:1.2em">
            <td style="text-align:center">[^ \t\n\r\f\v]</td>
            <td style="text-align:center">\S</td>
            <td style="text-align:left">white space(스페이스, 탭, 엔터 등등) 문자가 아닌 것을 찾음(텍스트, 특수 문자, 숫자를 찾을 때)</td>
        </tr>
        <tr style="font-size:1.2em">
            <td style="text-align:center">[A-Za-z0-9]</td>
            <td style="text-align:center">\w</td>
            <td style="text-align:left">문자, 숫자를 찾음</td>
        </tr>
        <tr style="font-size:1.2em">
            <td style="text-align:center">[^A-Za-z0-9]</td>
            <td style="text-align:center">\W</td>
            <td style="text-align:left">문자, 숫자가 아닌 것을 찾음</td>
        </tr>
    </tbody>
</table>

필요한 패턴은 직접 만들 수도 있다.

 Dot
* Dot \. 메타 문자는 줄바꿈 문자인 \n를 제외한 모든 문자(한 개)를 의미함
* 예: D.A 는 D + 모든 문자(한 개) + A 를 의미
  - DAA, DvA, D1A

####1. 정규 표현식 라이브러리 임포트하기

In [2]:
import re

####2. 정규 표현식 패턴 만들기

In [3]:
pattern = re.compile('D.A')

####3. 패턴에 매칭되는지 여부 확인하기

In [4]:
pattern.search("DAA")

<re.Match object; span=(0, 3), match='DAA'>

In [5]:
pattern.search("D1A")

<re.Match object; span=(0, 3), match='D1A'>

In [6]:
pattern.search("D00A")

In [7]:
pattern.search("DA")

In [8]:
pattern.search("d0A")

In [9]:
pattern.search("d0A D1A 0111")

<re.Match object; span=(4, 7), match='D1A'>

정말 Dot . 이 들어간 패턴을 찾으려면?
<pre>
\. 으로 표시하거나, [.] 으로 표시하면 된다.
</pre>

In [10]:
pattern = re.compile('D\.A')

In [11]:
pattern.search("D.A")

<re.Match object; span=(0, 3), match='D.A'>

In [12]:
pattern.search("DDA")

In [13]:
pattern = re.compile('D[.]A')

####4. 찾고 바꾸기 (특정 패턴이 매칭되는 것을 찾아서, 다른 문자열로 바꾸기)

In [14]:
string = "DDA D1A DDA DA"

In [15]:
# re.sub(패턴, 바꿀데이터, 원본데이터)
re.sub('D.A', 'Dave', string)    # 문자, 숫자가 아닌 데이터를 찾아서, '' 로 대체해라(삭제해라)

'Dave Dave Dave DA'

반복 ? , \* , +
* ? 는 앞 문자가 0번 또는 1번 표시되는 패턴 (없어도 되고, 한번 있어도 되는 패턴)
* \* 는 앞 문자가 0번 또는 그 이상 반복되는 패턴
* \+ 는 앞 문자가 1번 또는 그 이상 반복되는 패턴

? 사용

In [16]:
pattern = re.compile('D?A')     # 앞에 문자 D가 없거나, 여러번 반복되고 마지막이 A 인 문자열

In [17]:
pattern.search("A")

<re.Match object; span=(0, 1), match='A'>

In [18]:
pattern.search("DA")

<re.Match object; span=(0, 2), match='DA'>

In [19]:
pattern.search("DDDDDDA")

<re.Match object; span=(5, 7), match='DA'>

\* 사용

In [20]:
pattern = re.compile('D*A')     # 앞에 문자 D가 없거나, 여러번 반복되고 마지막이 A 인 문자열

In [21]:
pattern.search("A")

<re.Match object; span=(0, 1), match='A'>

In [22]:
pattern.search("DA")

<re.Match object; span=(0, 2), match='DA'>

In [23]:
pattern.search("DDDDDDDDDDDDDDDDDDDDDDDDDDDDA")

<re.Match object; span=(0, 29), match='DDDDDDDDDDDDDDDDDDDDDDDDDDDDA'>

In [24]:
pattern = re.compile('AD*A')     # 앞에 문자 D가 없거나, 여러번 반복되고 마지막이 A 인 문자열

In [25]:
pattern.search("ADA")

<re.Match object; span=(0, 3), match='ADA'>

In [26]:
pattern.search("ADDDDDDDDDDDDDDDDDDA")

<re.Match object; span=(0, 20), match='ADDDDDDDDDDDDDDDDDDA'>

+ 사용

In [27]:
pattern = re.compile('D+A')

In [28]:
pattern.search("A")

In [29]:
pattern.search("DA")

<re.Match object; span=(0, 2), match='DA'>

In [30]:
pattern.search("DDDDDDDDDDDDDDDDDDDDDDDDDDDDA")

<re.Match object; span=(0, 29), match='DDDDDDDDDDDDDDDDDDDDDDDDDDDDA'>

또다른 반복 표현: {n}, {m,n}
* {n} : 앞 문자가 n 번 반복되는 패턴
* {m, n} : 앞 문자가 m 번 반복되는 패턴부터 n 번 반복되는 패턴까지

{n} 사용

In [31]:
pattern = re.compile('AD{2}A')

In [32]:
pattern.search("ADA")

In [33]:
pattern.search("ADDA")

<re.Match object; span=(0, 4), match='ADDA'>

In [34]:
pattern.search("ADDDA")

{m,n} 사용

In [35]:
pattern = re.compile('AD{2,6}A')    # {m,n} 은 붙여 써야 함 {m, n} 으로 쓰면 안됨(특이함)

In [36]:
pattern.search("ADDA")

<re.Match object; span=(0, 4), match='ADDA'>

In [37]:
pattern.search("ADDDA")

<re.Match object; span=(0, 5), match='ADDDA'>

In [38]:
pattern.search("ADDDDDDA")

<re.Match object; span=(0, 8), match='ADDDDDDA'>

#### 6. [ ] 괄호 : 괄호 안에 들어가는 문자가 들어 있는 패턴
* 예:  [abc] 는 a, b, c 중 하나가 들어 있는 패턴을 말함

In [39]:
pattern = re.compile('[abcdefgABCDEFG]')    

In [40]:
pattern.search("a1234")

<re.Match object; span=(0, 1), match='a'>

In [41]:
pattern.search("z1234")  

하이픈(-)을 이용하면 알파벳 전체를 나타낼 수 있음
* 예:  [a-c] 는 a, b, c 중 하나가 들어 있는 패턴을 말함

In [42]:
pattern = re.compile('[a-z]')    

In [43]:
pattern.search("k1234")  

<re.Match object; span=(0, 1), match='k'>

In [44]:
pattern.search("Z1234")  

[a-zA-Z] 으로 표기하면 대소문자를 모두 포함해서 알파벳 전체를 나타낼 수 있음

In [45]:
pattern = re.compile('[a-zA-Z]') 

In [46]:
pattern.search("Z1234")  

<re.Match object; span=(0, 1), match='Z'>

[a-zA-Z0-9] 로 표기하면 대소문자를 모두 포함해서 알파벳 전체와 함께 숫자 전체도 나타낼 수 있음

In [47]:
pattern = re.compile('[a-zA-Z0-9]') 

In [48]:
pattern.search("1234---") 

<re.Match object; span=(0, 1), match='1'>

In [49]:
pattern.search("---------------!@#!@$!$%#%%%#%%@$!$!---") 

[ ] 괄호 안에서 [ 바로 뒤에 ^ 을 쓰면 그 뒤에 오는 문자가 아닌 패턴을 찾음
* 문자를 결국 알파벳, 숫자, 특수문자, whitespace(스페이스, 탭, 엔터등) 로 분류할 수 있으므로
* [^ \t\n\r\f\v] 는 이중에서 whitespace 가 아닌 알파벳, 숫자, 특수문자를 지칭함

In [50]:
pattern = re.compile('[^a-zA-Z0-9]') 

In [51]:
pattern.search("---------------!@#!@$!$%#%%%#%%@$!$!---") 

<re.Match object; span=(0, 1), match='-'>

In [52]:
pattern = re.compile('[^ \t\n\r\f\v]') 

In [53]:
pattern.search("-") 

<re.Match object; span=(0, 1), match='-'>

In [54]:
pattern.search(" ")

한글이 들어있는 패턴을 찾음 --> [가-힣]

In [55]:
pattern = re.compile('[가-힣]') 

In [56]:
pattern.search("안") 

<re.Match object; span=(0, 1), match='안'>

#### 7. 정규 표현식 라이브러리 함수 사용법

match 와 search 함수
* match : 문자열 처음부터 정규식과 매칭되는 패턴을 찾아서 리턴
* search : 문자열 전체를 검색해서 정규식과 매칭되는 패턴을 찾아서 리턴

In [57]:
import re
pattern = re.compile('[a-z]+')

In [58]:
matched = pattern.match('Dave')

In [59]:
searched = pattern.search("Dave")

In [60]:
print (matched)

None


In [61]:
print (searched)

<re.Match object; span=(1, 4), match='ave'>


findall 함수: 정규표현식과 매칭되는 모든 문자열을 리스트 객체로 리턴함

In [62]:
import re
pattern = re.compile('[a-z]+')
findalled = pattern.findall('Game of Life in Python')

In [63]:
print (findalled)

['ame', 'of', 'ife', 'in', 'ython']


In [64]:
pattern2 = re.compile('[A-Za-z]+')

In [65]:
findalled2 = pattern2.findall('Game of Life in Python')

In [66]:
print (findalled2)

['Game', 'of', 'Life', 'in', 'Python']


In [67]:
import re
pattern = re.compile('[a-z]+')
findalled = pattern.findall('GAME')
if len(findalled) > 0:
    print ("정규표현식에 맞는 문자열이 존재함")
else:
    print ("정규표현식에 맞는 문자열이 존재하지 않음")

정규표현식에 맞는 문자열이 존재하지 않음


split 함수: 찾은 정규표현식 패턴 문자열을 기준으로 문자열을 분리

In [68]:
import re
pattern2 = re.compile(':')
splited = pattern2.split('python:java')

In [69]:
print (splited)

['python', 'java']


sub 함수: 찾은 정규표현식 패턴 문자열을 다른 문자열로 변경

In [70]:
import re
pattern2 = re.compile('-')
subed = pattern2.sub('*', '801210-1011323')  # sub(바꿀문자열, 본래문자열)

In [71]:
print (subed)

801210*1011323


In [72]:
subed = re.sub('-', '*', '801210-1011323')  # sub(정규표현식, 바꿀문자열, 본래문자열)

In [73]:
print (subed)

801210*1011323


<예시1> 크롤링 결과중 [숫자] 부분 삭제하기<br>

In [75]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

res = urlopen('https://davelee-fun.github.io/blog/crawl_test_css.html')
soup = BeautifulSoup(res, "html.parser")

data = soup.select('ul#dev_course_list li.course')
for item in data:
    print (item.get_text())

(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


In [76]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import re

res = urlopen('https://davelee-fun.github.io/blog/crawl_test_css.html')
soup = BeautifulSoup(res, "html.parser")

data = soup.select('ul#dev_course_list li.course')
for item in data:
    print (re.sub('\[[0-9]+\]', '', item.get_text()) )

(초급) - 강사가 실제 사용하는 자동 프로그램 소개 
(초급) - 필요한 프로그램 설치 시연 
(초급) - 데이터를 엑셀 파일로 만들기 
(초급) -     엑셀 파일 이쁘게! 이쁘게! 
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 
