## 정규표현식 Regular Expression (regex)

In [2]:
# 정규표현식 패키지
import re

In [3]:
test1 = '안녕하세요 제 번호는 01023409769이고요 이메일은 Google의 gmail을 이용합니다.'
test2 = '<head>이것은 <b>제목</b>입니다</head>'
test3 = '친추는 페이스북에서 페친을 만들기 위한 친구 추가의 줄임말이다.'
test4 = '사회학!@9 붐은 $%^ 온_+다425&**!'
test5 = 'A spectre is haunting Europe'

In [4]:
lowercase_pattern = re.compile('[a-z]+')
uppercase_pattern = re.compile('[A-Z]+')
number_pattern = re.compile('[0-9]+')
korean_pattern = re.compile('[가-힣]+')

In [5]:
print(lowercase_pattern.findall(test1))
print(lowercase_pattern.findall(test2))
print(lowercase_pattern.findall(test3))
print(lowercase_pattern.findall(test4))
print(lowercase_pattern.findall(test5))

['oogle', 'gmail']
['head', 'b', 'b', 'head']
[]
[]
['spectre', 'is', 'haunting', 'urope']


In [6]:
print(uppercase_pattern.findall(test1))
print(uppercase_pattern.findall(test2))
print(uppercase_pattern.findall(test3))
print(uppercase_pattern.findall(test4))
print(uppercase_pattern.findall(test5))

['G']
[]
[]
[]
['A', 'E']


In [7]:
print(number_pattern.findall(test1))
print(number_pattern.findall(test2))
print(number_pattern.findall(test3))
print(number_pattern.findall(test4))
print(number_pattern.findall(test5))

['01023409769']
[]
[]
['9', '425']
[]


In [8]:
print(korean_pattern.findall(test1))
print(korean_pattern.findall(test2))
print(korean_pattern.findall(test3))
print(korean_pattern.findall(test4))
print(korean_pattern.findall(test5))

['안녕하세요', '제', '번호는', '이고요', '이메일은', '의', '을', '이용합니다']
['이것은', '제목', '입니다']
['친추는', '페이스북에서', '페친을', '만들기', '위한', '친구', '추가의', '줄임말이다']
['사회학', '붐은', '온', '다']
[]


In [9]:
number_pattern2 = re.compile('\d+')

In [10]:
print(number_pattern2.findall(test1))
print(number_pattern2.findall(test2))
print(number_pattern2.findall(test3))
print(number_pattern2.findall(test4))
print(number_pattern2.findall(test5))

['01023409769']
[]
[]
['9', '425']
[]


In [11]:
whitespace_pattern = re.compile('\s+')

In [12]:
print(whitespace_pattern.findall(test1))
print(whitespace_pattern.findall(test2))
print(whitespace_pattern.findall(test3))
print(whitespace_pattern.findall(test4))
print(whitespace_pattern.findall(test5))

[' ', ' ', ' ', ' ', ' ', ' ', ' ']
[' ']
[' ', ' ', ' ', ' ', ' ', ' ', ' ']
[' ', ' ', ' ']
[' ', ' ', ' ', ' ']


## Meta Characters

In [13]:
abcdefg = re.compile('[abcdefg]')
abcdefg.findall('Welcome to the Python World')

['e', 'c', 'e', 'e', 'd']

In [14]:
alphanumeric_pattern = re.compile('[A-Za-z0-9]+')
alphanumeric_pattern.findall('December 10 2019')

['December', '10', '2019']

In [15]:
alphanumeric_pattern = re.compile('[A-Za-z0-9]')
alphanumeric_pattern.findall('December 10 2019')

['D', 'e', 'c', 'e', 'm', 'b', 'e', 'r', '1', '0', '2', '0', '1', '9']

In [16]:
except_number = re.compile('[^0-9]')
except_number.findall('December 10 2019')

['D', 'e', 'c', 'e', 'm', 'b', 'e', 'r', ' ', ' ']

In [17]:
dot = re.compile('.')
dot.findall('December 10 2019')

['D',
 'e',
 'c',
 'e',
 'm',
 'b',
 'e',
 'r',
 ' ',
 '1',
 '0',
 ' ',
 '2',
 '0',
 '1',
 '9']

In [18]:
dot2 = re.compile('Hell.')
dot2.findall('Hello World')

['Hello']

In [19]:
dot2.findall('Hell Chosun')

['Hell ']

In [20]:
dot2.findall('Hell o Korea')

['Hell ']

In [21]:
print('Hell\no Korea')
print(dot2.findall('Hell\no Korea'))

Hell
o Korea
[]


In [22]:
anonymous = re.compile('김모*씨')
print(anonymous.findall('김씨'))
print(anonymous.findall('김모씨'))
print(anonymous.findall('김모모씨'))

['김씨']
['김모씨']
['김모모씨']


In [23]:
anonymous2 = re.compile('김모+씨')
print(anonymous2.findall('김씨'))
print(anonymous2.findall('김모씨'))
print(anonymous2.findall('김모모씨'))

[]
['김모씨']
['김모모씨']


In [24]:
anonymous3 = re.compile('김모{2,}씨')
print(anonymous2.findall('김씨'))
print(anonymous2.findall('김모씨'))
print(anonymous2.findall('김모모씨'))

[]
['김모씨']
['김모모씨']


In [25]:
anonymous4 = re.compile('[김박]모+씨')
print(anonymous4.findall('김씨'))
print(anonymous4.findall('김모씨'))
print(anonymous4.findall('박모씨'))
print(anonymous4.findall('김모모씨'))

[]
['김모씨']
['박모씨']
['김모모씨']


In [26]:
# example
date1 = '2012-01-01'
date2 = '2012-1-1'
date3 = '2012-12-12'
date4 = '2012년 1월 1일'

## Search Methods in re 

In [27]:
test = '<head>이것은 <b>제목</b>입니다</head>'
korean_pattern = re.compile('[^가-힣]')

In [28]:
korean_pattern.match(test)

<_sre.SRE_Match object; span=(0, 1), match='<'>

In [29]:
print(korean_pattern.match(test))

<_sre.SRE_Match object; span=(0, 1), match='<'>


In [30]:
numeric_pattern = re.compile('\d')
numeric_pattern.match(test)

In [31]:
print(numeric_pattern.match(test))

None


In [32]:
numeric_pattern.match(test) == None

True

In [33]:
test2 = '오늘의 날짜는 2월 7일입니다'
print(numeric_pattern.match(test2))

None


In [34]:
print(numeric_pattern.search(test2))

<_sre.SRE_Match object; span=(8, 9), match='2'>


In [35]:
numeric_pattern.search(test2) == None

False

In [36]:
print(numeric_pattern.search(test2[0]))

None


In [37]:
numeric_pattern.findall(test2)

['2', '7']

In [38]:
print(numeric_pattern.search(test2).group())
print(numeric_pattern.search(test2).start())
print(numeric_pattern.search(test2).end())

2
8
9


In [39]:
re.search('\d', test2).group()

'2'

In [40]:
re.findall('\d', test2)

['2', '7']

In [41]:
anonymous_name = re.compile('[김이박최A-Zㄱ-ㅎ]{1}\s*[모]*\s*[양군씨]+')

In [42]:
print(anonymous_name.search('김모씨').group())
print(anonymous_name.search('김모 씨').group())
print(anonymous_name.search('최 모 군').group())
print(anonymous_name.search('박모 양').group())
print(anonymous_name.search('A양').group())
print(anonymous_name.search('ㄱ 군').group())

김모씨
김모 씨
최 모 군
박모 양
A양
ㄱ 군


## 실제 데이터 갖고 문자열 교체 및 전처리 실험해보기

In [43]:
import requests
from bs4 import BeautifulSoup

soup = BeautifulSoup(requests.get('https://news.v.daum.net/v/20190130181604494').text, 'lxml')

In [44]:
article = soup.find('div', class_= 'news_view').text
article

'\n신화용씨 주도 \'아시아 앵그리 걸스 어소시에이션\' \'밧줄 묶은 여성\' 유명 사진작가 아라키 전시 반대 시위 "모델이 \'감정적 착취\' 폭로한 작가 전시하면 안 돼" "동아시아 여성들이 느낄 불편함 깨닫게 해주고 싶었다"\n\n\n\n\n\n           신화용(맨 앞)씨가 지난달 8일 베를린의 ‘C/0 베를린’ 갤러리 앞에서 ‘아시아 앵그리 걸스 어소시에이션’ 회원들과 함께 아라키 노부요시의 작품 전시에 반대하는 시위를 하고 있다.\n          \n\n 지난해 미투 논쟁에 휘말린 유명 사진작가 아라키 노부요시(78)의 작품들이 지난해 말부터 독일 베를린의 사진 갤러리 ‘C/O 베를린’ 에서 전시 중이다. 그의 작품은 벗은 여성을 밧줄로 묶어 표현한 사진으로 잘 알려져 있다. 15년간 그의 모델이 돼온 가오리는 보수도 제대로 못 받으면서 그의 작품 활동에 헌신했지만, 아라키가 동의도 없이 <가오리 섹스 다이어리>라는 책까지 발간하는 등 자신의 인격을 파괴하면서 착취했다고 주장했다.\n전시회 개막일인 지난달 8일 비오는 저녁, 아시아 여성 30여명이 모여 전시 반대 시위를 했다. 시위를 위해 ‘아시아 앵그리 걸스 어소시에이션’(AAGA)이라는 조직을 만들었다. 이들은 페이스북을 통해 전시 반대 운동을 펼치고 있다. 또 아라키를 고발한 모델 가오리와 연락을 주고받으며 연대하고 있다. 시위를 조직하고 주도한 신화용(26)씨를 최근 베를린 프렌츠라우어베르크에 있는 한 카페에서 만났다. ‘페미당당’ 회원이었던 신화용씨는 한국에서 시각디자인과를 졸업한 후 진학 준비를 하며 베를린에 머물고 있다. \n-어떻게 시위를 조직하게 됐나? \n“대여섯 명의 젊은 여성 예술가들이 주축이 됐다. 모두 할 수 있을 만큼의 일을 분담하고 시위를 조직했다. 페이스북으로 공지했는데, 고맙게도 많은 분들이 나와줬다. 다른 단체에서도 나왔다. 최근 뉴욕 전시 때도 시위가 있었고, 한국에서도 2003년 개인전이 있었을 때 ‘안티 아라키전’이 개최되기도 했다. \n\n\n

In [45]:
refined_article = re.sub('\n', '', article)
refined_article

'신화용씨 주도 \'아시아 앵그리 걸스 어소시에이션\' \'밧줄 묶은 여성\' 유명 사진작가 아라키 전시 반대 시위 "모델이 \'감정적 착취\' 폭로한 작가 전시하면 안 돼" "동아시아 여성들이 느낄 불편함 깨닫게 해주고 싶었다"           신화용(맨 앞)씨가 지난달 8일 베를린의 ‘C/0 베를린’ 갤러리 앞에서 ‘아시아 앵그리 걸스 어소시에이션’ 회원들과 함께 아라키 노부요시의 작품 전시에 반대하는 시위를 하고 있다.           지난해 미투 논쟁에 휘말린 유명 사진작가 아라키 노부요시(78)의 작품들이 지난해 말부터 독일 베를린의 사진 갤러리 ‘C/O 베를린’ 에서 전시 중이다. 그의 작품은 벗은 여성을 밧줄로 묶어 표현한 사진으로 잘 알려져 있다. 15년간 그의 모델이 돼온 가오리는 보수도 제대로 못 받으면서 그의 작품 활동에 헌신했지만, 아라키가 동의도 없이 <가오리 섹스 다이어리>라는 책까지 발간하는 등 자신의 인격을 파괴하면서 착취했다고 주장했다.전시회 개막일인 지난달 8일 비오는 저녁, 아시아 여성 30여명이 모여 전시 반대 시위를 했다. 시위를 위해 ‘아시아 앵그리 걸스 어소시에이션’(AAGA)이라는 조직을 만들었다. 이들은 페이스북을 통해 전시 반대 운동을 펼치고 있다. 또 아라키를 고발한 모델 가오리와 연락을 주고받으며 연대하고 있다. 시위를 조직하고 주도한 신화용(26)씨를 최근 베를린 프렌츠라우어베르크에 있는 한 카페에서 만났다. ‘페미당당’ 회원이었던 신화용씨는 한국에서 시각디자인과를 졸업한 후 진학 준비를 하며 베를린에 머물고 있다. -어떻게 시위를 조직하게 됐나? “대여섯 명의 젊은 여성 예술가들이 주축이 됐다. 모두 할 수 있을 만큼의 일을 분담하고 시위를 조직했다. 페이스북으로 공지했는데, 고맙게도 많은 분들이 나와줬다. 다른 단체에서도 나왔다. 최근 뉴욕 전시 때도 시위가 있었고, 한국에서도 2003년 개인전이 있었을 때 ‘안티 아라키전’이 개최되기도 했다.  -전시관 쪽에서 공식 토론을 제안했는데 거절했다고 들었다

In [46]:
re.findall('[가-힣]{2,4}\s*통신원|[가-힣]{2,4}\s*기자', refined_article)

['한주연 통신원']

In [47]:
refined_article += ' 오창동 기자'
refined_article

'신화용씨 주도 \'아시아 앵그리 걸스 어소시에이션\' \'밧줄 묶은 여성\' 유명 사진작가 아라키 전시 반대 시위 "모델이 \'감정적 착취\' 폭로한 작가 전시하면 안 돼" "동아시아 여성들이 느낄 불편함 깨닫게 해주고 싶었다"           신화용(맨 앞)씨가 지난달 8일 베를린의 ‘C/0 베를린’ 갤러리 앞에서 ‘아시아 앵그리 걸스 어소시에이션’ 회원들과 함께 아라키 노부요시의 작품 전시에 반대하는 시위를 하고 있다.           지난해 미투 논쟁에 휘말린 유명 사진작가 아라키 노부요시(78)의 작품들이 지난해 말부터 독일 베를린의 사진 갤러리 ‘C/O 베를린’ 에서 전시 중이다. 그의 작품은 벗은 여성을 밧줄로 묶어 표현한 사진으로 잘 알려져 있다. 15년간 그의 모델이 돼온 가오리는 보수도 제대로 못 받으면서 그의 작품 활동에 헌신했지만, 아라키가 동의도 없이 <가오리 섹스 다이어리>라는 책까지 발간하는 등 자신의 인격을 파괴하면서 착취했다고 주장했다.전시회 개막일인 지난달 8일 비오는 저녁, 아시아 여성 30여명이 모여 전시 반대 시위를 했다. 시위를 위해 ‘아시아 앵그리 걸스 어소시에이션’(AAGA)이라는 조직을 만들었다. 이들은 페이스북을 통해 전시 반대 운동을 펼치고 있다. 또 아라키를 고발한 모델 가오리와 연락을 주고받으며 연대하고 있다. 시위를 조직하고 주도한 신화용(26)씨를 최근 베를린 프렌츠라우어베르크에 있는 한 카페에서 만났다. ‘페미당당’ 회원이었던 신화용씨는 한국에서 시각디자인과를 졸업한 후 진학 준비를 하며 베를린에 머물고 있다. -어떻게 시위를 조직하게 됐나? “대여섯 명의 젊은 여성 예술가들이 주축이 됐다. 모두 할 수 있을 만큼의 일을 분담하고 시위를 조직했다. 페이스북으로 공지했는데, 고맙게도 많은 분들이 나와줬다. 다른 단체에서도 나왔다. 최근 뉴욕 전시 때도 시위가 있었고, 한국에서도 2003년 개인전이 있었을 때 ‘안티 아라키전’이 개최되기도 했다.  -전시관 쪽에서 공식 토론을 제안했는데 거절했다고 들었다

In [48]:
re.findall('[가-힣]{2,4}\s*통신원|[가-힣]{2,4}\s*기자', refined_article)[-1]

'오창동 기자'

In [49]:
soup = BeautifulSoup(requests.get('https://news.v.daum.net/v/20190203120044523').text, 'lxml')
article = soup.find('div', class_= 'news_view').text
article

"\n\n\n━[최은경의 옐로하우스 悲歌] ⑧\n\n\n\n\n\n\n\n\n           일러스트=김회룡 기자 aseokim@joongang.co.kr\n          \n\n\n\n\n\n\n1962년 생겨난 인천 미추홀구 숭의동의 집창촌 속칭 ‘옐로하우스’가 재개발된다. ‘1월 말까지 모두 비우라’는 최후통첩을 받았지만 10여 개 업소의 성매매 여성 40여 명은 갈 곳이 없다며 버티고 있다. 설연휴가 끝나면 강제 철거가 시작될 것이라는 얘기가 돌면서 불상사에 대한 우려도 커지고 있다. 벼랑에 몰린 여성들이 마음속 깊이 담아뒀던 그들만의 얘기를 꺼냈다. 집창촌에서 긴 시간을 보낸 B씨(53)의 증언을 ‘옐로하우스 비가(悲歌)’ 시리즈에서 소개한다.\n         \n\n\n\n\n\n\n\n\n           인천 미추홀구 숭의동 집창촌 '옐로하우스' 업소의 내부. 두 평 남짓한 방에 침대, TV, 에어컨 등이 있다. 김경록 기자\n          \n\n\n\n\n\n\n‘옐로하우스 비가’에 관한 다양한 의견 가운데 한 독자의 댓글이 눈에 띄었다. ‘(자활비) 지원이고 뭐고 다 떠나서 저 여성들은 어떤 사연이 있기에 젊은 나이에 저기에 있는지 궁금하다’는 내용이었다. 이 질문에 제대로 답하기 위해선 집창촌의 역사부터 짚어봐야 한다. 그래야 이 문제를 심도 있게 고민해볼 수 있다.\n         \n성매매를 전업으로 하는 집창촌에는 30대 이상의 생계형 여성이 많다. B씨 역시 돈을 벌기 위해 30여 년 동안 전국의 집창촌을 떠돌았다. 처음 발을 들인 것이 1980년대 중반이다. 격동의 시기라 불리는 80년대의 집창촌은 말 그대로 무법천지였다. 이곳에서 온갖 범죄가 일어났지만 바깥세상은 모르는 척했다.\n4남매의 맏이인 B씨는 막냇동생과 나이가 10살 이상 차이 난다. 사업을 하던 아버지 때문에 집에 빚이 조금씩 쌓이더니 어느새 5000만원까지 불어났다. 원래 몸이 약했던 어머니는 늘 아파 일을 할 수 없었다. 하루하루 버티다 B씨가 

In [50]:
anonymous_name = re.compile('[김이최양A-Zㄱ-ㅎ]{1}\s*[모]*\s*[양군씨]')
anonymous_name.findall(article)

['B씨', 'B씨', 'B씨', 'B씨', 'B씨', 'B씨', 'B씨', 'B씨', 'B씨', 'B씨', 'B씨']

In [51]:
anonymous_name = re.compile('[김이최양A-Zㄱ-ㅎ]{1}\s*[모]*\([0-9]{2}\)\s*[양군씨]')
anonymous_name.findall(article)

['김모(16)양', '김모(19)양', '양모(19)양']

In [52]:
article = re.sub('[김이최양A-Zㄱ-ㅎ]{1}\s*[모]*\([0-9]{2}\)\s*[양군씨]', '김모양', article)
article

"\n\n\n━[최은경의 옐로하우스 悲歌] ⑧\n\n\n\n\n\n\n\n\n           일러스트=김회룡 기자 aseokim@joongang.co.kr\n          \n\n\n\n\n\n\n1962년 생겨난 인천 미추홀구 숭의동의 집창촌 속칭 ‘옐로하우스’가 재개발된다. ‘1월 말까지 모두 비우라’는 최후통첩을 받았지만 10여 개 업소의 성매매 여성 40여 명은 갈 곳이 없다며 버티고 있다. 설연휴가 끝나면 강제 철거가 시작될 것이라는 얘기가 돌면서 불상사에 대한 우려도 커지고 있다. 벼랑에 몰린 여성들이 마음속 깊이 담아뒀던 그들만의 얘기를 꺼냈다. 집창촌에서 긴 시간을 보낸 B씨(53)의 증언을 ‘옐로하우스 비가(悲歌)’ 시리즈에서 소개한다.\n         \n\n\n\n\n\n\n\n\n           인천 미추홀구 숭의동 집창촌 '옐로하우스' 업소의 내부. 두 평 남짓한 방에 침대, TV, 에어컨 등이 있다. 김경록 기자\n          \n\n\n\n\n\n\n‘옐로하우스 비가’에 관한 다양한 의견 가운데 한 독자의 댓글이 눈에 띄었다. ‘(자활비) 지원이고 뭐고 다 떠나서 저 여성들은 어떤 사연이 있기에 젊은 나이에 저기에 있는지 궁금하다’는 내용이었다. 이 질문에 제대로 답하기 위해선 집창촌의 역사부터 짚어봐야 한다. 그래야 이 문제를 심도 있게 고민해볼 수 있다.\n         \n성매매를 전업으로 하는 집창촌에는 30대 이상의 생계형 여성이 많다. B씨 역시 돈을 벌기 위해 30여 년 동안 전국의 집창촌을 떠돌았다. 처음 발을 들인 것이 1980년대 중반이다. 격동의 시기라 불리는 80년대의 집창촌은 말 그대로 무법천지였다. 이곳에서 온갖 범죄가 일어났지만 바깥세상은 모르는 척했다.\n4남매의 맏이인 B씨는 막냇동생과 나이가 10살 이상 차이 난다. 사업을 하던 아버지 때문에 집에 빚이 조금씩 쌓이더니 어느새 5000만원까지 불어났다. 원래 몸이 약했던 어머니는 늘 아파 일을 할 수 없었다. 하루하루 버티다 B씨가 

In [53]:
anonymous_name = re.compile('[김이최양A-Zㄱ-ㅎ]{1}\s*[모]*\s*[양군씨]')
anonymous_name.findall(article)

['B씨',
 'B씨',
 'B씨',
 'B씨',
 'B씨',
 'B씨',
 'B씨',
 'B씨',
 'B씨',
 '김모양',
 '김모양',
 '김모양',
 'B씨',
 'B씨']

In [54]:
anonymous_name2 = re.compile('[김이최양A-Zㄱ-ㅎ]{1}\s*[모]*\s*([양군씨])')
anonymous_name2.sub('김\g<1>', article)

"\n\n\n━[최은경의 옐로하우스 悲歌] ⑧\n\n\n\n\n\n\n\n\n           일러스트=김회룡 기자 aseokim@joongang.co.kr\n          \n\n\n\n\n\n\n1962년 생겨난 인천 미추홀구 숭의동의 집창촌 속칭 ‘옐로하우스’가 재개발된다. ‘1월 말까지 모두 비우라’는 최후통첩을 받았지만 10여 개 업소의 성매매 여성 40여 명은 갈 곳이 없다며 버티고 있다. 설연휴가 끝나면 강제 철거가 시작될 것이라는 얘기가 돌면서 불상사에 대한 우려도 커지고 있다. 벼랑에 몰린 여성들이 마음속 깊이 담아뒀던 그들만의 얘기를 꺼냈다. 집창촌에서 긴 시간을 보낸 김씨(53)의 증언을 ‘옐로하우스 비가(悲歌)’ 시리즈에서 소개한다.\n         \n\n\n\n\n\n\n\n\n           인천 미추홀구 숭의동 집창촌 '옐로하우스' 업소의 내부. 두 평 남짓한 방에 침대, TV, 에어컨 등이 있다. 김경록 기자\n          \n\n\n\n\n\n\n‘옐로하우스 비가’에 관한 다양한 의견 가운데 한 독자의 댓글이 눈에 띄었다. ‘(자활비) 지원이고 뭐고 다 떠나서 저 여성들은 어떤 사연이 있기에 젊은 나이에 저기에 있는지 궁금하다’는 내용이었다. 이 질문에 제대로 답하기 위해선 집창촌의 역사부터 짚어봐야 한다. 그래야 이 문제를 심도 있게 고민해볼 수 있다.\n         \n성매매를 전업으로 하는 집창촌에는 30대 이상의 생계형 여성이 많다. 김씨 역시 돈을 벌기 위해 30여 년 동안 전국의 집창촌을 떠돌았다. 처음 발을 들인 것이 1980년대 중반이다. 격동의 시기라 불리는 80년대의 집창촌은 말 그대로 무법천지였다. 이곳에서 온갖 범죄가 일어났지만 바깥세상은 모르는 척했다.\n4남매의 맏이인 김씨는 막냇동생과 나이가 10살 이상 차이 난다. 사업을 하던 아버지 때문에 집에 빚이 조금씩 쌓이더니 어느새 5000만원까지 불어났다. 원래 몸이 약했던 어머니는 늘 아파 일을 할 수 없었다. 하루하루 버티다 김씨가 

In [55]:
## 토크나이즈(Tokenize)

In [56]:
import requests
from bs4 import BeautifulSoup

soup = BeautifulSoup(requests.get('https://genius.com/Bts-fake-love-rocking-vibe-mix-lyrics').text, 'lxml')

In [57]:
lyrics = soup.find('div', class_= 'lyrics').get_text(strip = True)
lyrics

"[방탄소년단의 Fake Love (Rocking Vibe Mix) 가사][Intro: V,Jungkook]널 위해서라면 난슬퍼도 기쁜 척 할 수가 있었어널 위해서라면 난아파도 강한 척 할 수가 있었어사랑이 사랑만으로 완벽하길내 모든 약점들은 다 숨겨지길이뤄지지 않는 꿈속에서피울 수 없는 꽃을 키웠어[Hook: Jimin,Jin]I'm so sick of this fake love, fake love, fake loveI'm so sorry but it's fake love, fake love, fake love[Verse 1: RM,RM & Jungkook,J-Hope]I wanna be a good manjust for you세상을 줬네just for you전부 바꿨어just for youNow I don't know me,who are you?우리만의 숲 너는 없었어내가 왔던 route 잊어버렸어나도 내가 누구였는지도 잘 모르게 됐어거울에다 지껄여봐 너는 대체 누구니[Pre-Chorus: Jimin,Jin]널 위해서라면 난슬퍼도 기쁜 척 할 수가 있었어널 위해서라면 난아파도 강한 척 할 수가 있었어사랑이 사랑만으로 완벽하길내 모든 약점들은 다 숨겨지길이뤄지지 않는 꿈속에서피울 수 없는 꽃을 키웠어[Chorus: Jungkook,V]Love you so bad, love you so bad널 위해 예쁜 거짓을 빚어내Love you so mad, love you so mad날 지워 너의 인형이 되려 해Love you so bad, love you so bad널 위해 예쁜 거짓을 빚어내Love you so mad, love you so mad날 지워 너의 인형이 되려 해[Hook: Jimin, Jin]I'm so sick of this fake love, fake love, fake loveI'm so sorry but it's fake love, fake love, fake love[Verse 2: RM,Suga]Why you sad? I don't know

In [58]:
# 품사추출 용도 라이브러리 임포팅(Konly 의 Komoran 모듈)
from konlpy.tag import Komoran
komoran = Komoran()

In [59]:
# 품사 태깅 기능들
komoran.morphs('하나의 유령이 유럽을 배회하고 있다')
komoran.pos('하나의 유령이 유럽을 배회하고 있다')
komoran.nouns('하나의 유령이 유럽을 배회하고 있다')

['유령', '유럽', '배회']

In [60]:
#기본 명사 추출
lyrics_nouns = komoran.nouns(lyrics)
lyrics_nouns

['방탄소년단',
 '가사',
 '난',
 '척',
 '수',
 '아',
 '파도',
 '척',
 '수',
 '사랑',
 '사랑',
 '완벽',
 '내',
 '약점',
 '꿈속',
 '수',
 '꽃',
 'RM',
 '세상',
 '전부',
 '우리',
 '숲',
 '거울',
 '대체',
 '난',
 '척',
 '수',
 '아',
 '파도',
 '척',
 '수',
 '사랑',
 '사랑',
 '완벽',
 '내',
 '약점',
 '꿈속',
 '수',
 '꽃',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '해',
 'Love',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '사랑해',
 '말',
 '이해',
 '수',
 '하네',
 '내',
 '하네',
 '예전',
 '내',
 '아냐',
 '눈',
 '사랑',
 '사랑',
 '날',
 '날',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '해',
 'Love',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '난',
 '척',
 '수',
 '아',
 '파도',
 '척',
 '수',
 '사랑',
 '사랑',
 '완벽',
 '내',
 '약점',
 '꿈속',
 '수',
 '꽃']

In [61]:
# 사용자 사전 추가
komoran = Komoran(userdic= 'd:/BTS_dic.txt')

In [62]:
# 사전 추가 후 명사 추출
lyrics_nouns = komoran.nouns(lyrics)
lyrics_nouns

['방탄소년단',
 '가사',
 '난',
 '척',
 '수',
 '아',
 '파도',
 '척',
 '수',
 '사랑',
 '사랑',
 '완벽',
 '내',
 '약점',
 '꿈속',
 '수',
 '꽃',
 'RM',
 '세상',
 '전부',
 '우리',
 '숲',
 '거울',
 '대체',
 '난',
 '척',
 '수',
 '아',
 '파도',
 '척',
 '수',
 '사랑',
 '사랑',
 '완벽',
 '내',
 '약점',
 '꿈속',
 '수',
 '꽃',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '해',
 'Love',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '사랑해',
 '말',
 '이해',
 '수',
 '하네',
 '내',
 '하네',
 '예전',
 '내',
 '아냐',
 '눈',
 '사랑',
 '사랑',
 '날',
 '날',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '해',
 'Love',
 '널',
 '거짓',
 '내',
 'Love',
 '날',
 '인형',
 '난',
 '척',
 '수',
 '아',
 '파도',
 '척',
 '수',
 '사랑',
 '사랑',
 '완벽',
 '내',
 '약점',
 '꿈속',
 '수',
 '꽃']