## 문자열과 정규표현식

[regexpr docs](https://docs.python.org/3/library/re.html)

In [9]:
import re

#### [1. 문자열의 분리 : re.split()]

'name : ykhong, age = 20; major/engineering' 

위와 같이 구분자가 일정하지 않은 경우 문자열을 분리하기 쉽지 않다.  
--> 정규표현식의 split() 사용

In [157]:
?re.split

In [15]:
line = 'name : ykhong, age = 20; major/engineering'

In [11]:
line.split(':')

['name ', ' ykhong, age = 20; major/engineering']

In [16]:
line.split(':,')

['name : ykhong, age = 20; major/engineering']

#1) : 분리

문자열 첫 문장부호인 콜론으로 분리해보면 아래와 같이  
name 과 나머지로 분리된다

In [3]:
re.split(':',line)

['name ', ' ykhong, age = 20; major/engineering']

#2) 콜론과 쉼표( :, ) 분리

In [8]:
re.split(':,',line)

['name : ykhong, age = 20; major/engineering']

아무것도 분리되지 않는다. 콜론과 쉼표가 붙어 있는 구분자를 찾기 때문이다.

- 방안 1 : | 삽입
- 방안 2 : [ ] 사용

In [161]:
# 방안1
re.split(':|,',line)

['name ', ' ykhong', ' age = 20; major/engineering']

In [163]:
# 방안2
re.split('[:,]',line)

['name ', ' ykhong', ' age = 20; major/engineering']

#3) line이 포함한 모든 기호 및 문장부호 사용 분리

In [13]:
re.split('[:,=;/]',line)

['name ', ' ykhong', ' age ', ' 20', ' major', 'engineering']

---

#### [생각해보기]

name 다음에 콜론이 2개 연속 붙어 있는 경우 어떤 패턴을 적용하는 것이 좋을까?

**line2 = 'name :: ykhong, age = 20; major/engineering'**

In [10]:
line2 = 'name :: ykhong, age = 20; major/engineering'

동일 패턴 [:,=;/]을 적용하면 빈문자열이 발생

In [181]:
re.split('[:,=;/]',line2)

['name ', '', ' ykhong', ' age ', ' 20', ' major', 'engineering']

콜론 2개를 붙여 [::,=;/] 적용한다고 해도 대괄호 안은 or 이기 때문에 결과는 같다.

In [196]:
re.split('[::,=;/]',line2)

['name ', '', ' ykhong', ' age ', ' 20', ' major', 'engineering']

+를 이용해 :+를 적용해도 마찬가지의 결과가 발생한다  
대괄호 안에서 ::으로 인식되는 것이 아니라 + 기호 역시 찾아야 하는 구분자일 뿐이다

In [28]:
re.split('[:+,=;/]',line2)

['name ', '', ' ykhong', ' age ', ' 20', ' major', 'engineering']

< idea0>  
대괄호 없이 :+ 적용

In [14]:
re.split(':+',line2)

['name ', ' ykhong, age = 20; major/engineering']

< idea1 >  
대괄호를 사용하지 않고 |로 연결

In [183]:
re.split('::|,|=|;|/', line2)

['name ', ' ykhong', ' age ', ' 20', ' major', 'engineering']

< idea2 >  
:: 를 :로 대체 후 동일 패턴 적용

In [192]:
re.sub('::',':',line2)

'name : ykhong, age = 20; major/engineering'

---

빈문자열 삭제

In [5]:
temp = re.split('[:+,=;/]',line2)

In [30]:
temp

['name ', '', ' ykhong', ' age ', ' 20', ' major', 'engineering']

In [6]:
list(filter(None, temp))

['name ', ' ykhong', ' age ', ' 20', ' major', 'engineering']

In [8]:
?re.sub

---

#4) \s 사용

- whitespace 문자 1개와 매치 

In [18]:
re.split("\s", line)

['name', ':', 'ykhong,', 'age', '=', '20;', 'major/engineering']

In [19]:
re.split("\s+", 'name :  ykhong, age = 20; major/engineering')

['name', ':', 'ykhong,', 'age', '=', '20;', 'major/engineering']

1칸의 whitespace를 구분자로 하여 분리시킨다. 따라서 whitespace를 없애는 효과가 있다

In [213]:
'name : ykhong, age = 20; major/engineering'

'name : ykhong, age = 20; major/engineering'

\s역시 활용 가능할 것으로 판단되니 패턴에 추가해서 적용해보자

In [234]:
re.split("[:,=;/\s]", line)

['name', '', '', 'ykhong', '', 'age', '', '', '20', '', 'major', 'engineering']

\s만 적용했을 때와 달리 오히려 빈문자열(empty string)이 대량 발생하며 오히려 처리하기 더 불편해졌다. 빈 문자열의 발생이유는 무엇일까?

In [236]:
re.split(":", line)

['name ', ' ykhong, age = 20; major/engineering']

콜론만 적용하면 'name '이 생성되고 이 결과에 바로 \s를 적용해보면 빈문자열이 생성됨을 알 수 있다.

In [238]:
re.split('\s', 'name ')

['name', '']

---

#### [생각해보기]

아래와 같은 output에서 empty string은 어떻게 제거할까?

In [20]:
re.split("[:,=;/\s]", line)

['name', '', '', 'ykhong', '', 'age', '', '', '20', '', 'major', 'engineering']

In [21]:
bool("")

False

In [33]:
temp = re.split("[:,=;/\s]", line)

<방안1>

In [23]:
temp = re.split("[:,=;/\s]", line)

In [252]:
result = [word for word in temp if bool(word) is True]

In [253]:
result

['name', 'ykhong', 'age', '20', 'major', 'engineering']

<방안2>

In [34]:
list(filter(None, temp))

['name', 'ykhong', 'age', '20', 'major', 'engineering']

---

**동일한 패턴을 반복해서 수행하는 경우 패턴을 계속적으로 만들어 적용하면 매우 불편**

#### [패턴 컴파일] : re.compile

In [26]:
pattern = re.compile("[:,=;/\s]")

In [5]:
re.split(pattern, line)

['name', '', '', 'ykhong', '', 'age', '', '', '20', '', 'major', 'engineering']

In [6]:
pattern.split(line)

['name', '', '', 'ykhong', '', 'age', '', '', '20', '', 'major', 'engineering']

---

**[Quiz]**

ex = 'name : ykhong, age = 20; major/engineering  hobby none'

위 데이터를 처리하고 name, age, major, hobby를 key로 가지는 dict로 변환해보세요

In [16]:
ex = 'name : ykhong, age = 20; major/engineering  hobby none'

In [27]:
temp = re.split(pattern, ex)

In [29]:
temp_result = [word for word in temp if bool(word) is True]

In [30]:
temp_result

['name', 'ykhong', 'age', '20', 'major', 'engineering', 'hobby', 'none']

In [33]:
temp_key = temp_result[::2]

In [34]:
temp_value = temp_result[1::2]

In [35]:
print(temp_key)
print(temp_value)

['name', 'age', 'major', 'hobby']
['ykhong', '20', 'engineering', 'none']


In [36]:
result = {key : value for key, value in zip(temp_key, temp_value)}

In [304]:
result

{'name': 'ykhong', 'age': '20', 'major': 'engineering', 'hobby': 'none'}

---

#### [2. 문자열 처음, 끝 간단 매칭]

In [37]:
ex.startswith('name')

True

In [38]:
ex.endswith('.txt')

False

매칭의 활용 : 특정 폴더 내 파일 검색 등

In [39]:
import os

In [40]:
filenames = os.listdir('examples')

In [41]:
filenames

['stock.txt', 'test.txt', 'test1.csv']

In [42]:
files = [file for file in filenames if file.endswith('.txt')]

In [43]:
files

['stock.txt', 'test.txt']

In [29]:
'examples'+'/'+files[0]

'examples/ex3.txt'

In [44]:
def read_files(loc, x):
    loc = loc+'/'+x
    with open(loc, 'r') as f:
        content = f.readlines()
    return content

In [45]:
content = []
loc = 'examples'
for file in files:
    content.append(read_files(loc, file))

In [32]:
read_files('examples', files[0])

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [33]:
content = []
loc = 'examples'
for file in files:
    content.append(read_files(loc, file))

In [34]:
content

[['            A         B         C\n',
  'aaa -0.264438 -1.026059 -0.619500\n',
  'bbb  0.927272  0.302904 -0.032399\n',
  'ccc -0.264273 -0.386314 -0.217601\n',
  'ddd -0.871858 -0.348382  1.100491\n'],
 ['IBM,AAPL,FB,HPQ,YHOO,ACME\n',
  '100,50,200,35,45,75\n',
  '91.1,543.22,21.09,31.75,16.35,115.65\n'],
 ['1번째 줄입니다.\n',
  '2번째 줄입니다.\n',
  '3번째 줄입니다.\n',
  '4번째 줄입니다.\n',
  '5번째 줄입니다.\n',
  '6번째 줄입니다.\n',
  '7번째 줄입니다.\n',
  '8번째 줄입니다.\n',
  '9번째 줄입니다.\n',
  '10번째 줄입니다.\n']]

---

#### [3. 텍스트 패턴 매칭]
- re.match(pattern, string)

간단한 매칭을 하려면 위와 같이 문자열 매소드로 충분하지만 패턴이 복잡해지면 마찬가지로 정규표현식을 활용한다

In [7]:
date = '4/27/2021'

숫자를 의미하는 [0-9]를 적용하면 첫번째 숫자 4를 매칭한다.  
매칭한 value에 0번 인덱스로([0]) 접근

In [52]:
re.match('[0-9]', date)

<re.Match object; span=(0, 1), match='4'>

In [12]:
re.match('[0-9]', date)[0]

'4'

마찬가지로 \d의 패턴을 사용할 수 있다.

In [53]:
re.match('\d', "19")

<re.Match object; span=(0, 1), match='1'>

In [54]:
re.match('\d+', "19")

<re.Match object; span=(0, 2), match='19'>

이어서 월/일까지 매칭하고 밸류를 추출해보자

In [55]:
re.match('\d/\d', date)

<re.Match object; span=(0, 3), match='4/2'>

In [57]:
re.match('\d/\d+', date)

<re.Match object; span=(0, 4), match='4/27'>

In [28]:
re.match('\d/\d', date)[0]

'4/2'

[+의 사용]  
'\d/\d'의 패턴을 사용했을 때 원하는 결과가 아닌 4/2만 추출되었다.  
매칭되는 숫자 한개만 나오기 때문

In [30]:
re.match('\d+/\d+', date)[0]

'4/27'

In [58]:
re.match('\d+/\d+/\d+', date)

<re.Match object; span=(0, 9), match='4/27/2021'>

In [59]:
re.match('\d+/\d+/\d+', '4/나27/2021')

In [31]:
re.match('\d+/\d+/\d+', date)[0]

'4/27/2021'

[활용]

text = '오늘은 4/27/2021. 어제는 4/26/2021'

In [61]:
text = '오늘은 4/27/2021. 어제는 4/26/2021'

In [38]:
re.match('\d+/\d+/\d+', text)

In [39]:
print(re.match('\d+/\d+/\d+', text))

None


re.match를 이용할 경우 아무런 결과를 볼 수 가 없다.  
re.match는 문자열 처음에서 매칭을 찾기 때문이다.  
프린트 문을 이용해보면 아무런 결과 없음을 알 수 있다

문자열 전체에서 해당 패턴을 찾고자 하면 re.findall()을 사용한다.

In [71]:
p = re.compile('\d+/\d+/\d+')

In [41]:
p.findall(text)

['4/27/2021', '4/26/2021']

In [63]:
re.findall('[가-힣]+', text)

['오늘은', '어제는']

In [68]:
re.findall('[가-힣ㅋㄷ]+', (text+"ㅋㄷ"))

['오늘은', '어제는', 'ㅋㄷ']

#### [Quiz]

위의 결과를 바탕으로 월, 일, 년을 모두 분리하고 2차원 리스트로 구성해보세요

목표 : [['4', '27', '2021'], ['4', '26', '2021']]

In [74]:
p.findall(text)

['4/27/2021', '4/26/2021']

In [73]:
[i.split("/") for i in p.findall(text)]

[['4', '27', '2021'], ['4', '26', '2021']]

In [46]:
p.findall(text)[0].split('/')

['4', '27', '2021']

In [50]:
[p.findall(text)[i].split('/') for i in range(len(p.findall(text)))]

[['4', '27', '2021'], ['4', '26', '2021']]

In [52]:
[p.findall(text)[i].split('/') for i in range(len(p.findall(text)))]

[['4', '27', '2021'], ['4', '26', '2021']]

type 변환

In [59]:
result = [p.findall(text)[i].split('/') for i in range(len(p.findall(text)))]

In [65]:
list(map(int, result[0]))

[4, 27, 2021]

#### [연습문제]

- <목표 1 : 연습 데이터의 생성 + csv 저장>

1) 다음과 같은 '월/일/년'('6/13/2021') 형태의 문자열형 날짜 데이터 1000개를 생성하고,  그 중 임의의 데이터 8개의 '일' 자료값을 '-'으로 변경한다

예시) '6/13/2021' --> '6/-/2021'

2) csv로 저장
 
- <목표 2 : 데이터 읽어오기 + 데이터 탐색> 

데이터를 다시 읽어온 후 데이터를 탐색하여 날짜 데이터가 정상적이지 않은 자료의  
<u>1) 인덱스 번호를 확인하고</u>,  
<u>2) 해당 데이터를 인덱싱하여 데이터의 문제점을 분석한다</u>

### *데이터 생성*

In [79]:
import numpy as np

In [80]:
month = np.random.choice(range(1,13), 1000)
day = np.random.choice(range(1,31), 1000)
year = np.random.choice(range(2001,2022), 1000)

In [81]:
date = np.zeros((1000,3), dtype = int)

In [93]:
?np.zeros

In [82]:
date[:,0] = month
date[:,1] = day
date[:,2] = year

In [83]:
date

array([[   5,   15, 2014],
       [   4,   20, 2010],
       [   8,   11, 2015],
       ...,
       [   7,    7, 2001],
       [   4,   23, 2002],
       [   3,   18, 2007]])

In [84]:
date1 = date.astype('str')

In [85]:
date_final = ['/'.join(date1[i]) for i in range(len(date1))]

In [86]:
date_final[:10]

['5/15/2014',
 '4/20/2010',
 '8/11/2015',
 '1/15/2009',
 '10/12/2006',
 '5/28/2018',
 '9/19/2014',
 '4/20/2008',
 '10/23/2002',
 '6/5/2017']

In [87]:
import numpy as np

wrong데이터 인덱스 랜덤 생성 및 데이터 변경

In [88]:
np.random.seed(100)
idx = np.random.choice(1000, 8)

In [89]:
idx

array([520, 792, 835, 871, 855,  79, 944, 906])

In [90]:
date11 = date1.copy()

In [91]:
date11[idx,1] = '-'

In [92]:
date11

array([['5', '15', '2014'],
       ['4', '20', '2010'],
       ['8', '11', '2015'],
       ...,
       ['7', '7', '2001'],
       ['4', '23', '2002'],
       ['3', '18', '2007']], dtype='<U11')

In [93]:
date_final2 = ['/'.join(date11[i]) for i in range(len(date11))]

In [94]:
date_final2[:10]

['5/15/2014',
 '4/20/2010',
 '8/11/2015',
 '1/15/2009',
 '10/12/2006',
 '5/28/2018',
 '9/19/2014',
 '4/20/2008',
 '10/23/2002',
 '6/5/2017']

In [95]:
with open('examples/date2.csv', 'w') as f:
    for line in date_final2:
        f.write(line+',')

이상 파일 생성 완료

---

In [151]:
with open('examples/date2.csv', 'r') as f:
    date22 = f.readlines()

In [152]:
date222 = date22[0].split(',')

In [153]:
date222 = date222[:1000]

In [155]:
len(date222)

1000

In [99]:
date222[:10]

['5/15/2014',
 '4/20/2010',
 '8/11/2015',
 '1/15/2009',
 '10/12/2006',
 '5/28/2018',
 '9/19/2014',
 '4/20/2008',
 '10/23/2002',
 '6/5/2017']

In [100]:
len(date222)

1000

In [101]:
p = re.compile('\d+/\d+/\d+')

In [102]:
bool(p.match(date222[0])) is True

True

<이상 데이터 인덱스 추출>

In [105]:
idx = [idx for idx, date in enumerate(date222) if bool(p.match(date222[idx])) is False]

In [106]:
idx

[79, 520, 792, 835, 855, 871, 906, 944]

In [107]:
result = []

for i in idx:
    result.append(date222[i])

In [108]:
result

['9/-/2002',
 '3/-/2018',
 '10/-/2021',
 '2/-/2006',
 '2/-/2003',
 '10/-/2004',
 '2/-/2012',
 '1/-/2005']

이상 결측 데이터 검사 완료

---

In [156]:
temp = [i.split("/") for i in date222]

In [157]:
dt = np.array(temp)

In [158]:
dt

array([['5', '15', '2014'],
       ['4', '20', '2010'],
       ['8', '11', '2015'],
       ...,
       ['7', '7', '2001'],
       ['4', '23', '2002'],
       ['3', '18', '2007']], dtype='<U4')

In [126]:
idx_wrong = np.array(idx)

In [127]:
idx_wrong

array([ 79, 520, 792, 835, 855, 871, 906, 944])

In [135]:
dt1 = np.delete(dt, idx_wrong, axis=0)

In [137]:
dt1.shape

(992, 3)

In [159]:
dt2 = dt1.astype('int')

In [144]:
# 월 최소값
dt2[:,0].min(axis = 0)

1

In [146]:
# 월 최대값
dt2[:,0].max(axis = 0)

12

In [160]:
# 일 최소값
dt2[:,1].min(axis = 0)

1

In [149]:
# 일 최대값
dt2[:,1].max(axis = 0)

30