### 텍스트 데이터를 문자열로 저장하기

<h5>1. 인코딩과 디코딩

: 문자열 데이터가 메모리에 저장될 때 컴퓨터 내부에서는 데이터가 0과 1로 변환돼 binary data로 다뤄진다.
<br/>
<br/>
이진 데이터의 최소 단위는 bit이고, bit가 8개 모이면 byte가 된다. 메모리에는 byte로 저장된다.

![%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20101138.jpg](attachment:%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20101138.jpg)

* 바이트(byte): 컴퓨터의 기본 저장 단위
    * 1바이트(1byte)는 8비트(8bit)이다.
    * 1바이트에는 2의 8승 즉, 256개의 고유한 값을 저장할 수 있다.
* 인코딩(encoding): 문자열을 바이트로 변환하는 과정
* 디코딩(decoding): 바이트를 문자열로 변환하는 과정

<h5>1.2 텍스트 데이터의 처리 과정

![%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20101513.jpg](attachment:%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20101513.jpg)

국제 표준 기구인 ISO(International Standards Organization)는 전 세계 문자를 모두 표시할 수 있는 표준 코드인 유니코드(Unicode)를 제정.
<br/>
유니코드는 오직 한 가지 버전만 존재하며, UTF-8, UTF-16 등은 유니코드로 정의된 텍스트를 메모리에 인코딩하는 방식을 말함.
<br/>
* [유니코드 영역](https://ko.wikipedia.org/wiki/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C_%EC%98%81%EC%97%AD)
* [유니코드와 UTF-8](https://jeongdowon.medium.com/unicode%EC%99%80-utf-8-%EA%B0%84%EB%8B%A8%ED%9E%88-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-b6aa3f7edf96)
* [UTF-8과 UTF-16](https://pickykang.tistory.com/13)
* [유니코드 테이블](http://titus.uni-frankfurt.de/unicode/unitestx.htm)

> 파이썬의 내장함수 ord()와 chr()
>> ord(): 해당 문자에 대응하는 유니코드 숫자를 반환.
<br/>chr(): 해당 유니코드 숫자에 대응하는 문자를 반환.

In [1]:
print(ord('a'))    
print(ord('A'))
print(chr(97))
print(ord('가'))
print(chr(0xAC00))   
#- 0xAC00은 44032의 16진수 표현입니다.

97
65
a
44032
가


<h5>1.3 파이썬에서 모든 문자열은 유니코드로 표현된다.

: 외부 데이터 및 데이터베이스로부터 데이터를 읽거나 보낼 때는 인코딩 혹은 디코딩 작업을 거쳐야 하며, 인코딩 규약은 내부적으로 유니코드(UTF-8)임을 의미한다.

In [3]:
#- 파이썬 3-#
#- bytes와 string으로 구분

str1 = b'hello'
str2 = 'hello'
str3 = u'hello'
print(type(str1), type(str2), type(str3))

<class 'bytes'> <class 'str'> <class 'str'>


* 파이썬 3부터는 문자열이 무조건 유니코드로 인코딩되므로 해당 텍스트가 인코딩되어 있는지 혹은 디코딩되어 있는지만 고려하면 됨.

<h5>2. 문자열 다루기

<h5>2.1 이스케이프 문자

: 이스케이프 문자 \[특정 문자] 형태로, 직접 입력할 수 없는 일부 문자를 문자열에 포함시킬 수 있는 특수 문자이다.

![%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20103148.jpg](attachment:%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20103148.jpg)

In [4]:
#- 줄 바꿈
print("사회적\n거리두기")
print('--------------------------')

#- 탭(tab)
print("사회적\t거리두기")
print('--------------------------')

#- 작은따옴표 포함
print('오늘부터 \'사회적 거리두기\'')

사회적
거리두기
--------------------------
사회적	거리두기
--------------------------
오늘부터 '사회적 거리두기'


<h5>2.3 원시 문자열(raw string)

: 이스케이프 문자를 무시하고 싶을 때 사용. <br/>
문자열 시작 따옴표 앞에 r을 붙이면 이스케이프 문자가 적용되지 않고, 있는 그대로 출력됨.

In [6]:
print('Please don\'t touch it')
print(r'Please don\'t touch it')

Please don't touch it
Please don\'t touch it


<h5>2.4 startswith, endswith

* startswith

In [7]:
EmployeeID = ['OB94382', 'OW34723', 'OB32308', 'OB83461', 
                                  'OB74830', 'OW37402', 'OW11235', 'OB82345'] 
Production_Employee = [P for P in EmployeeID if P.startswith('OB')]   # 'OB'로 시작하는 직원 ID를 다 찾기
Production_Employee

['OB94382', 'OB32308', 'OB83461', 'OB74830', 'OB82345']

* endswith

![%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20103822.jpg](attachment:%ED%99%94%EB%A9%B4%20%EC%BA%A1%EC%B2%98%202022-01-05%20103822.jpg)

.png 파일만 얻고 싶다면, endswith()를 통해 해당 파일을 찾을 수 있다.

In [8]:
import os
image_dir_path = os.getenv("HOME") + "/data/pictures"   
 
photo = os.listdir(image_dir_path )
png = [png for png in photo if png.endswith('.png')]
print(png)

['image5.png', 'image2.png', 'image12.png', 'image3.png', 'image8.png', 'image13.png', 'image6.png', 'image4.png', 'image14.png', 'image9.png', 'image10.png', 'image7.png', 'image11.png', 'image1.png']


<h5>2.5 공백문자 제거(trimming)

In [9]:
txt = "      Strip white spaces.      "
print('[{}]'.format(txt))
print('--------------------------')

#- 양쪽 공백 제거 : strip()
print('[{}]'.format(txt.strip()))
print('--------------------------')

#- 왼쪽 공백 제거 : lstrip()
print('[{}]'.format(txt.lstrip()))
print('--------------------------')

#- 오른쪽 공백 제거 : rstrip()
print('[{}]'.format(txt.rstrip()))

[      Strip white spaces.      ]
--------------------------
[Strip white spaces.]
--------------------------
[Strip white spaces.      ]
--------------------------
[      Strip white spaces.]


<h5>2.6 대소문자

* upper() : 모든 문자를 대문자로 변환.
* lower() : 모든 문자를 소문자로 변환.
* capitalize() : 첫 글자만 대문자로 변환.

In [10]:
#- 모든 문자를 대문자로 변환 : upper()
txt = "I fell into AIFFEL"
txt.upper()

'I FELL INTO AIFFEL'

In [11]:
#- 모든 문자를 소문자로 변환 : lower()
txt.lower()

'i fell into aiffel'

In [12]:
#- 첫 글자만 대문자로 변환 : capitalize()
txt.capitalize()

'I fell into aiffel'

<h5>2.7 isX

: 문자열의 구성에 따라 불린(boolean)의 값을 반환(return)해줌.
* isupper() : 문자열이 모두 대문자로만 되어 있으면 True, 그렇지 않으면 False를 반환
* islower() : 문자열이 모두 소문자로만 되어 있으면 True, 그렇지 않으면 False를 반환
* istitle(): 문자열의 첫 글자만 대문자로 되어 있으면 True, 그렇지 않으면 False를 반환
* isalpha(): 문자열이 모두 알파벳 문자로만 되어 있으면 True, 그렇지 않으면 False를 반환
* isalnum(): 문자열이 모두 알파벳 문자와 숫자로만 되어 있으면 True, 그렇지 않으면 False를 반환
* isdecimal(): 문자열이 모두 숫자로만 되어 있으면 True, 그렇지 않으면 False를 반환

In [13]:
print("aiffel".isupper())
print("aiffel".islower())
print("PYTHON".istitle())
print("python101".isalpha())
print("python101".isalnum())
print("101".isdecimal())

False
True
False
False
True
True


<h5>2.7 join()과 split()

: join()은 인자로 tuple, list, string 등 반복 가능한(iterable) 객체를 받는 메서드.<br/>join()은 각각의 원소를 모아 하나의 문자열로 합쳐준다.

In [14]:
#- join()
stages = ['fundamentals', 'exploration', 'goingdeeper']
stages
"_".join(stages)

'fundamentals_exploration_goingdeeper'

In [15]:
# 큰따옴표 안에 다양한 구분자(빈칸, 언더바, 온점 등)가 사용됨.
" ".join(stages)

'fundamentals exploration goingdeeper'

: split()은 반대로 하나의 문자열을 구분자를 기준으로 나누어 준다.<br/> 명시적으로 구분자를 지정하지 않으면 쉼표(,)를 기준으로 나누어 준다.

In [16]:
#- split()
'fundamentals,exploration,goingdeeper'.split(',')

['fundamentals', 'exploration', 'goingdeeper']

<h5>2.8 replace()

* replace() : replace(s1, s2) 형태로 문자열 내 문자열 s1을 s2로 바꿔준다.

In [17]:
sent = 'I can do it!'
sent.replace('can', 'You')

'I You do it!'

<h5>2.9 불변(immutable)의 문자열

* 가변 객체(mutable object)
    * 객체를 생성한 후 객체의 값을 수정할 수 있음.
    * 변수는 값이 수정된 같은 객체를 가리키게 된다.
    * e.g. list, set, dict

* 불변 객체(immutable object) 
    * 객체를 생성한 후 객체의 값을 수정할 수 없음.
    * 변수는 해당 값을 가진 다른 객체를 가리키게 된다.
    * e.g. int, float, complex, bool, string, tuple, frozen set

[Python 개념 정리 - 객체란 ( mutable vs immutable )](https://webnautes.tistory.com/1181) <br/>
[[Python 변수] mutable과 immutable의 차이](https://ledgku.tistory.com/54)

<h5>3. 정규 표현식

: 정규 표현식은 특정 규칙을 가진 문자열의 집합을 표현하는 형식 언어로, 찾고자 하는 문자열 패턴을 정의하고 기존 문자열과 일치하는지를 비교하여 문자열을 검색하거나 다른 문자열로 치환하는 데 사용.

* import re

: 파이썬에서는 표준 라이브러리인 re 모듈을 import 해서 정규 표현식을 사용

* Compile()

: 찾고자 하는 문자열의 패턴을 정의

In [19]:
import re

#1단계 :  "the"라는 패턴을 컴파일한 후 패턴 객체를 리턴. 
pattern = re.compile("the")    

# 2단계 : 컴파일된 패턴 객체를 활용하여 다른 텍스트에서 검색을 수행.
pattern.findall('of the people, for the people, by the people')

['the', 'the', 'the']

In [20]:
# 컴파일 과정 생략하고 2단계로 수행 가능

re.findall('the', 'of the people, for the people, by the people')

['the', 'the', 'the']

<h5>3.1 메서드

* search() : 일치하는 패턴 찾기 (일치 패턴이 있으면 MatchObject를 반환)
* match() : search()와 비슷하지만, 처음부터 패턴이 검색 대상과 일치해야 한다
* findall() : 일치하는 모든 패턴 찾기 (모든 일치 패턴을 리스트에 담아서 반환)
* split() : 패턴으로 나누기
* sub() : 일치하는 패턴으로 대체
* group() : 실제 결과에 해당하는 문자열을 반환

In [23]:
src = "My My name is My..."
regex = re.match("My", src)
print(regex)
if regex:
    print(regex.group())
else:
    print("No!")

<re.Match object; span=(0, 2), match='My'>
My


<h5>3.2 패턴: 특수문자, 메타문자

* \[ ] : 문자
* \- : 범위
* . : 하나의 문자
* ? : 0회 또는 1회 반복
* \* : 0회 이상 반복
* \+ : 1회 이상 반복
* {m, n} : m ~ n
* \d : 숫자, [0-9]와 동일
* \D : 비 숫자, [^0-9]와 동일
* \w : 알파벳 문자 + 숫자 + _, [a-zA-Z0-9_]와 동일
* \W : 비 알파벳 문자 + 비숫자, [^a-zA-Z0-9_]와 동일
* \s : 공백 문자, [ \t\n\r\f\v]와 동일
* \S : 비 공백 문자, [^ \t\n\r\f\v]와 동일
* \b : 단어 경계
* \B : 비 단어 경계
* \t : 가로 탭(tab)
* \v : 세로 탭(vertical tab)
* \f : 폼 피드
* \n : 라인 피드(개행문자)
* \r : 캐리지 리턴(원시 문자열)

In [24]:
#- 연도(숫자)
text = """
The first season of America Premiere League  was played in 1993. 
The second season was played in 1995 in South Africa. 
Last season was played in 2019 and won by Chennai Super Kings (CSK).
CSK won the title in 2000 and 2002 as well.
Mumbai Indians (MI) has also won the title 3 times in 2013, 2015 and 2017.
"""
pattern = re.compile("[1-2]\d\d\d")
pattern.findall(text)

['1993', '1995', '2019', '2000', '2002', '2013', '2015', '2017']

In [25]:
#- 전화번호(숫자, 기호)
phonenumber = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phone = phonenumber.search('This is my phone number 010-111-1111')
if phone:
  print(phone.group())
print('------')
phone = phonenumber.match ('This is my phone number 010-111-1111')
if phone:
  print(phone.group())

010-111-1111
------


In [26]:
#- 전화번호(숫자, 기호)
phonenumber = re.compile(r'\d{3}-\d{3}-\d{4}')
phone = phonenumber.search('This is my phone number 010-111-1111')
if phone:
  print(phone.group())
print('------')
phone = phonenumber.match ('This is my phone number 010-111-1111')
if phone:
  print(phone.group())

010-111-1111
------


In [27]:
#- 전화번호(숫자, 기호)
phonenumber = re.compile(r'(\d{3}-){2}\d{4}')
phone = phonenumber.search('This is my phone number 010-111-1111')
if phone:
  print(phone.group())
print('------')
phone = phonenumber.match ('This is my phone number 010-111-1111')
if phone:
  print(phone.group())

010-111-1111
------


In [28]:
#- 이메일(알파벳, 숫자, 기호)
text = "My e-mail adress is doingharu@aiffel.com, and tomorrow@aiffel.com"
pattern = re.compile("[0-9a-zA-Z]+@[0-9a-z]+\.[0-9a-z]+")
pattern.findall(text)

['doingharu@aiffel.com', 'tomorrow@aiffel.com']

: @기호를 중심으로 앞부분과 뒷부분으로 나눠보면, @ 앞에는 [0-9a-zA-Z]+이 나오고 뒤에는 [0-9a-z]+\.[0-9a-z]+가 나온다.
<br/>
앞부분 [0-9a-zA-Z]+를 보면 숫자 0~9, 알파벳 대소문자([0-9a-zA-Z])가 여러 번(+) 등장.
modu.lab@aiffel.com 형식의 메일 주소는 검출 불가
<br/>
뒷부분 [0-9a-z]+\.[0-9a-z]+은 다시 가운데 \.을 중심으로 앞부분과 뒷부분으로 나눠보면, [0-9a-z]+은 숫자 0~9, 알파벳 소문자가 여러 번 나타난다는 의미. 즉, 이메일 사이트 주소에 해당하는 부분.