# 4. 텍스트의 다양한 변신 (문자열, 파일 다루기)

## 1. 들어가며

### 학습 목표
---
* 파이썬에서 텍스트 데이터를 어떻게 처리하는지 알아본다.
* 파이썬에서 텍스트 파일과 디렉토리에 접근하는 방법을 알아본다.
* 텍스트 파일의 종류를 살펴보고 각각 다루는 방법을 연습해본다.

### 학습 내용
---
* 텍스트 데이터를 문자열로 저장한다는 것
    - 인코딩과 디코딩
    - 문자열 다루기
    - 정규 표현식
* 파일과 디렉토리
    - 파일
    - 디렉토리
    - 모듈과 패키지
* 여러가지 파일 포맷 다루기
    - CSV 파일
    - XML파일
    - JSON 파일

### 필수 패키지 설치
---
오늘 실습에 필요한 패키지는 아래와 같다. 미설치 상태라면 시작하기 전에 설치를 해보자.

```bash
$ pip install beautifulsoup4
```

## 2. 텍스트 데이터를 문자열로 저장한다는 것 (1) 인코딩과 디코딩

### 텍스트 데이터를 문자열로 저장한다는 것
---
우리 주변에는 수많은 텍스트 데이터가 있다.

텍스트 데이터는 과연 어떻게 나타낼까요? 바로 __문자열__(string)로 표현한다. 파이썬에서 문자열 리터럴(literal)은 작은따옴표(') 혹은 큰따옴표`(")`로 묶인 일련의 문자라고 볼 수 있다.

자, 일단 한번 텍스트 데이터를 변수에 저장해 출력해보자.

In [1]:
my_str = 'Welcome!'
ur_str = "You're welcome."

print(my_str)
print(ur_str)

#- 아래 주석을 제거해 각 변수의 자료형을 확인해보세요 :)
#type(my_str)
#type(ur_str)

Welcome!
You're welcome.


지금까지 데이터를 변수에 저장했다. 리스트를 사용해 배열로 저장하기도 하고, 따옴표를 이용해 문자열 형태로 저장해보기도 했다.

이렇게 변수에 데이터를 할당하면 이 데이터들은 컴퓨터의 주기억장치인 메모리(RAM)에 저장된다.

### 인코딩과 디코딩
---
이 문자열 데이터가 메모리에 저장될 때 컴퓨터 내부에서는 어떤 일이 일어날까?

컴퓨터 세상은 온통 숫자 0과 1 즉, 이진 데이터(binary data)로 표현되기 때문에 데이터도 마찬가지로 0과 1로 변환돼 다뤄지게 된다.

이진 데이터의 최소 단위는 비트(bit)이고, 비트가 8개 모이면 바이트(byte)가 된다. 메모리에는 바이트로 저장이 된다.

<img src="./image/binary.png" alt="binary data" />

####  잠깐, 정리해보자.

* __바이트(byte)__ : 컴퓨터의 기본 저장단위
    - 1바이트(1byte)는 8비트(8bit)이다.
    - 1바이트에는 2의 8승, 즉 256개의 고유한 값을 저장할 수 있다.
* __인코딩 (encoding)__: 문자열을 바이트로 변환하는 과정
* __디코딩 (decoding)__ : 바이트를 문자열로 변환하는 과정

#### 텍스트 데이터의 처리 과정

<img src="./image/encoding.png" alt="encoding" />

위 그림에서 볼 수 있듯이 사람이 이해할 수 있는 데이터는 텍스트 데이터, 엄밀히 말해 __문자열 데이터__를 의미한다. 그렇다면 어떻게 문자열을 이진수로 변환(인코딩)할까? 숫자를 이진수로 표현하는 것은 생각보다 간단한다. 문자 각각을 숫자에 대응시키고 이 숫자를 이진수로 변환하면 된다. 예를 들어 숫자 5를 이진수로 나타내면 101이 될 것이다.

여기서 잠깐 생각해보자. 같은 알파벳 a를 미국은 숫자 65로, 한국은 숫자 80으로 표현한다면 어떨까? 더 나아가 한자를 인코딩하는 규약이 명시되지 않았다면 한자로 쓰인 파일은 다 깨져버릴 것이다. 문자를 숫자로 대응시키는 방법이 이렇게 제각각이면 텍스트로 정보를 주고받는 과정에서 엄청난 혼란이 있을 것이라 직감할 수 있을 것이다.

하지만 이 방법을 전 세계가 통일시킨다면 텍스트 데이터를 오류없이 깔끔하게 처리할 수 있을 것이다. 그래서 국제표준기구인 ISO(International Standards Organization)는 전세계 문자를 모두 표시할 수 있는 표준코드를 제정하였다. 이것이 바로 유니코드(Unicode)이다.

그렇다면 UTF-8, UTF-16 등은 무엇일까? 흔히 UTF-8과 유니코드가 같은 것이라고 혼동하는 경우가 많아서, 여러가지 버전의 유니코드가 존재하는 것이 아닌가 오해할 수 있어서 정리한다.<br>
유니코드는 오직 한가지 버전만 존재한다. 그리고 UTF-8, UTF-16 등은 유니코드로 정의된 텍스트를 메모리에 인코딩하는 방식들을 말한다.

좀 더 개념을 정확히 이해하고 싶다면 아래 글들을 참고.

* [유니코드 테이블](https://ko.wikipedia.org/wiki/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C_%EC%98%81%EC%97%AD)
* [유니코드와 UTF-8](https://medium.com/@jeongdowon/unicode%EC%99%80-utf-8-%EA%B0%84%EB%8B%A8%ED%9E%88-%EC%9D%B4%ED%95%B4%ED%95%98%EA%B8%B0-b6aa3f7edf96)
* [UTF-8과 UTF-16](https://pickykang.tistory.com/13)

### 파이썬 내장함수 ord()와 chr()
---
* `ord()` : 해당 문자에 대응하는 유니코드 숫자를 반환한다.
* `chr()` : 해당 유니코드 숫자에 대응하는 문자를 반환한다.

In [None]:
print(ord('a'))    
print(ord('A'))
print(chr(97))
print(ord('가'))
print(chr(0xAC00))   
#- 0xAC00은 44032의 16진수 표현입니다.

### 파이썬에서 모든 문자열은 유니코드로 표현된다!
---

문자열은 내부적으로 -엄밀히 말하면 파이썬 3부터- 유니코드 규약에 따른다. 이는 외부 데이터 및 데이터베이스로부터 데이터를 읽거나 보낼 때는 인코딩 혹은 디코딩 작업을 거쳐야 하며, 인코딩 규약은 내부적으로 유니코드(UTF-8)임을 의미한다. 파이썬 2에서 문자열은 인코딩 및 디코딩 여부와 상관없이 (regular) string, unicode string으로 구분되었고, 파이썬 3부터는 인코딩 혹은 디코딩이 되어 있는지로 구분되었다. 아래 코드 및 실행 결과를 살펴보면 이 차이를 금방 이해할 수 있다.

```python
#- 파이썬 2 -#
#- string, unicode string으로 구분됩니다.

>>> str1 = b'hello'
>>> str2 = 'hello'
>>> str3 = u'hello'
>>> print(type(str1), type(str2), type(str3))
<type 'str'>, <type 'str'>, <type 'unicode'>
```

```python
#- 파이썬 3-#
#- bytes와 string으로 구분됩니다.

>>> str1 = b'hello'
>>> str2 = 'hello'
>>> str3 = u'hello'
>>> print(type(str1), type(str2), type(str3))
<type 'bytes'>, <type 'str'>, <type 'str'>
```

간단히 정리를 해보자면,

* 파이썬 2에서는 인코딩을 한 후에도 아스키(ascii) → 유니코드(unicode) 변환 등의 작업을 거쳐야 했던 반면에,
* 파이썬 3부터는 문자열이 무조건 유니코드로 인코딩되므로 해당 텍스트가 인코딩이 되어 있는지 혹은 디코딩이 되어 있는지만 고려하면 된다는 것이 포인트이다.


## 3. 텍스트 데이터를 문자열로 저장한다는 것 (2) 문자열 다루기
이제부터 텍스트 데이터를 다루기 위한 사전 작업으로 파이썬 문자열(string)을 살펴 볼텐데, 자주 쓰이는 메소드들을 예제와 함께 차근 차근 알아보자.

### **이스케이프 문자**

---

```python
s = 'I don't like Python!'
```

위와 같은 상황에서 텍스트를 파이썬 문자열로 만들려면 어떻게 해야 할까? 물론 큰따옴표로 둘러싼 문자열로 만들면 되지만, 반드시 작은따옴표로 둘러싸여야만 하는 상황이라면 어떻게 해야 할까? 문자열에 작은따옴표**`(')`**나 큰따옴표**`(")`**, 줄 바꿈 등의 특수문자를 포함하고 싶은데, 그 문자가 특수문자가 아닌 것처럼 처리하고 싶을 때 이스케이프 문자를 사용할 수 있다. 이스케이프 문자는 **`\[특정 문자]`** 형태로, 직접 입력할 수 없는 일부 문자를 문자열에 포함시킬 수 있는 특수 문자인데. 이 이스케이프 문자를 사용해서 한번 시도해보자.

<img src="./image/escape.png" />

In [None]:
#- 줄 바꿈
print("사회적\n거리두기")
print('--------------------------')

#- 탭(tab)
print("사회적\t거리두기")
print('--------------------------')

#- 작은따옴표 포함
print('오늘부터 \'사회적 거리두기\'')

### **원시 문자열**

---

그렇다면, 이스케이프 문자를 무시하고 싶을 때는 어떻게 해야 할까? 이때 사용하는 것이 **원시 문자열**(raw string) 이다. 문자열을 시작하는 따옴표 앞에 **`r`**을 붙이면 이스케이프 문자가 적용되지 않은 있는 그대로의 원시 문자열을 나타낼 수 있다.

설명이 조금 난해하다. 아래 예시 코드에서 출력된 두 문장을 비교해 보면 금방 이해할 수 있을 것이다.

In [None]:
#- 예제 코드2
print('Please don\'t touch it')
print(r'Please don\'t touch it')

### **startswith, endswith**

---

#### **startswith**

생산직은 **`OB`**로, 사무직은 **`OW`**로 시작되는 직원 ID가 저장된 데이터베이스가 있다고 해보자. 생산직에 속한 직원 ID만을 추려보고 싶을 때 **`startswith`**를 사용하면 되는데, 아래 코드로 한번 확인해 보겠다.

In [None]:
EmployeeID = ['OB94382', 'OW34723', 'OB32308', 'OB83461', 
                                  'OB74830', 'OW37402', 'OW11235', 'OB82345'] 
Production_Employee = [P for P in EmployeeID if P.startswith('OB')]   # 'OB'로 시작하는 직원 ID를 다 찾아봅니다
Production_Employee

#### endswith

<img src="./image/endswith.png" />

위 폴더에 그림 파일들이 저장되어 있다. **`.png`, `.jpg`, `.jpeg`** 등 다양하다.

여기서 **`.png`** 파일만 얻고 싶다면 어떻게 해야 할까? **`endswith()`**를 통해 해당 파일(들)을 찾을 수 있다. 아래와 같이 실행해 보았다.

```python
>>> import os
>>> photo = os.listdir('/Users/jooyoungson/Documents/photo')
>>> png = [png for png in photo if png.endswith('.png')]
>>> print(png)
metaflow.png
Pytorch.png
smartphone.png
TDG.png
```

In [None]:
import os
image_dir_path = os.getenv("HOME") + "/aiffel/test/rock_scissor_paper/paper"   
#- 각자의 사진이 보관된 디렉토리를 골라 주세요.
photo = os.listdir(image_dir_path )
jpg = [jpg for jpg in photo if jpg.endswith('.jpg')]
print(jpg)

### **공백 문자 처리 : trimming**

---

컴퓨터의 스페이스바(space bar)처럼 일상에서 자주 쓰고 접하는 띄어쓰기! 지금부터 살펴 볼 **공백 문자**는 이 띄어쓰기로 표기되는 항목이다. 문자열 작업에서는 다듬기 즉, **trimming**이라고 불린다. 프로그래밍에서 인식하는 공백 문자는 어떤 것들이 있을까? 한번 살펴보자.

#### **여러가지 공백 문자**

- 스페이스(space) : 한 칸 띄어쓰기
- 탭(tab) `\t` : 네 칸 띄어쓰기. 경우에 따라 두 칸 띄어쓰기로 표기되기도 한다.
- 줄 바꿈(new line) : 줄 바꿈
- 라인 피드 (line feed) `\n` : 줄 바꿈을 엄밀히 말하면 라인 피드라고 한다.
- 개행 복귀 (carriage return) `\r` : 커서를 맨 앞으로 이동시키는 것, 즉 커서를 원위치로 복귀(return)한다는 뜻이다.

아래 코드를 참고해 공백 문자의 차이를 확인해보자.

In [None]:
print("사회적 거리두기")
print('--------------------------')
print("사회적\t거리두기")
print('--------------------------')
print("사회적\n거리두기")
print('--------------------------')
print(r"사회적\r거리두기")

### **공백 문자 제거하기**
---
파이썬에서는 **`strip()`** 메서드를 사용해 공백 문자를 처리한다.

In [None]:
#txt = "      공백 문자를 제거해 보아요.      "
txt = "      Strip white spaces.      "
print('[{}]'.format(txt))
print('--------------------------')

#- 양쪽 공백 제거 : strip()
print('[{}]'.format(txt.strip()))
print('--------------------------')

#- 왼쪽 공백 제거 : lstrip()
print('[{}]'.format(txt.lstrip()))
print('--------------------------')

#- 오른쪽 공백 제거 : rstrip()
print('[{}]'.format(txt.rstrip()))

### **대소문자 관련**

---

알파벳으로 구성된 문자열에서 대소 문자를 쉽게 변경할 수 있는 방법이 있는데, 한번 알아보자.

* **`upper()`** : 모든 문자를 대문자로 변환한다.
* **`lower()`** : 모든 문자를 소문자로 변환한다.
* **`capitalize()`** : 첫 글자만 대문자로 변환한다.

직접 실행해 보면서 어떻게 바뀌는지 확인해보자.

In [None]:
#- 모든 문자를 대문자로 변환 : upper()
txt = "I fell into AIFFEL"
txt.upper()

In [None]:
#- 모든 문자를 소문자로 변환 : lower()
txt.lower()

In [None]:
#- 첫 글자만 대문자로 변환 : capitalize()
txt.capitalize()

### **isX**

---

다음 소개할 메소드는 isX 형태의 메소드들이다. 문자열의 구성에 따라 불린(boolean)의 값을 반환(return)해준다.

* **`isupper()`** : 문자열이 모두 **대문자**로만 되어 있으면 True, 그렇지 않으면 False를 반환
* **`islower()`** : 문자열이 모두 **소문자**로만 되어 있으면 True, 그렇지 않으면 False를 반환
* **`istitle()`** : 문자열의 **첫 글자만 대문자**로 되어 있으면 True, 그렇지 않으면 False를 반환
* **`isalpha()`** : 문자열이 모두 **알파벳 문자**로만 되어 있으면 True, 그렇지 않으면 False를 반환
* **`isalnum()`** : 문자열이 모두 **알파벳 문자**와 숫자로만 되어 있으면 True, 그렇지 않으면 False를 반환
* **`isdecimal()`**: 문자열이 모두 **숫자**로만 되어 있으면 True, 그렇지 않으면 False를 반환

In [None]:
print("aiffel".isupper())
print("aiffel".islower())
print("PYTHON".istitle())
print("python101".isalpha())
print("python1ㄱ01".isalnum())
print("101".isdecimal())

### **join()과 split()**

---

**`join()`**은 인자로 tuple, list, string 등 반복 가능한(iterable) 객체를 받는 메소드이다. 이 **`join()`**은 각각의 원소를 모아 하나의 문자열로 합쳐 주는데, 일단 한번 실행해보자.

In [None]:
#- join()
stages = ['fundamentals', 'exploration', 'goingdeeper']
",".join(stages)

**`split()`**은 반대로 하나의 문자열을 구분자를 기준으로 나누어준다. 명시적으로 구분자를 지정하지 않으면 쉼표 **`(,)`**를 기준으로 나누어 준다.

자세히 보니 **`split()`**은 리스트를 반환하고 **`join()`**은 문자열을 반환한다는 차이가 보인다.

In [None]:
#- split()
'fundamentals,exploration,goingdeeper'.split(',')

### **replace()**

---

* replace() : **`replace(s1, s2)`** 형태로 문자열 내 문자열 **`s1`**을 **`s2`**로 바꾼다.

In [None]:
sent = 'I can do it!'
sent.replace('I', 'You')

### **불변(immutable)의 문자열**

---

mutable은 값이 변한다는 뜻이고, immutable은 반대로 값이 변하지 않는다는 의미이다.

* 가변객체(mutable object)
    - 객체를 생성한 후 객체의 값을 수정할 수 있다.
    - 변수는 값이 수정된 같은 객체를 가리키게 된다.
    - e.g. **`list`**, **`set`**, **`dict`**

* 불변객체(immutable object)
    - 객체를 생성한 후 객체의 값을 수정할 수 없다.
    - 변수는 해당 값을 가진 다른 객체를 가리키게 된다.
    - e.g. **`int`**, **`float`**, **`complex`**, **`bool`**, **`string`**, **`tuple`**, **`frozen set`**

[하나](http://webnautes.tistory.com/1181), [둘](http://ledgku.tistory.com/54)을 살펴 보고 이해해보자.

#### 잠깐, 쉬는타임. 

'I fell into AIFFEL'이라는 문장 속 알파벳을 전부 대문자로 바꾸고 싶다. 딱 떠오르는 것은 방금 배운 **`upper()`** 메소드를 사용하면 될 것 같다.

아래 두 개의 코드 블락을 비교해 보며, 지금까지 배운 메소드들을 왜 사용하는지 그리고 어떻게 사용해야 하는지를 각자 생각해 보는 시간을 가져 보자. **`id(sent)`** 를 확인해보는 것도 도움이 될 것이다.

In [None]:
sent = 'I fell into AIFFEL'
print(sent)
print(id(sent))
sent.upper()
print(sent)
print(id(sent))

In [None]:
sent = 'I fell into AIFFEL'
print(sent)
print(id(sent))
sent = sent.upper()
print(sent)
print(id(sent))

## 4. 텍스트 데이터를 문자열로 저장한다는 것 (3) 정규 표현식

어떤 특정한 단어를 검색할 때 자주 사용하는 **`Ctrl+F`**, 거의 모든 운영 체제가 이 단어 검색 기능을 지원하고 있는데, 이러한 기능이 바로 **정규 표현식**(regular expression, regex)에 근거해 만들어진 기능이다. 정규표현식은 이처럼 대부분의 운영 체제, 다양한 프로그래밍 언어, 그리고 텍스트 편집기와 같은 프로그램들이 지원을 하고 있다.

### **문자열 vs 정규 표현식**

---

자, **`'I can do it!'`**이라는 문장에서 **`I`**를 **`You`**로 바꾸고 싶다. 어떻게 하면 될까? 가장 간단한 방법으로 앞에서 다룬 **`replace()`** 메소드를 이용할 수 있다.

```python
sent = 'I can do it!'
sent.replace("I", "You")
```

또 다른 방법이 바로 '정규 표현식'을 이용하는 것이다.

In [None]:
import re
sent = 'I can do it!'
pattern = re.sub("I", "You", sent)
pattern

정규 표현식은 우리가 찾고자 하는 문자열 패턴을 정의하고 기존 문자열과 일치하는지를 비교하는 것이다. 세상에는 패턴화된 문자열이 굉장히 많다. 이메일, 주민등록번호, 전화번호, 우편번호, URL 등등 ... 정말 방대하다. 이럴 때마다 문자열 메소드를 사용하면 굉장히 버거울 것이다.

<img src="./image/string.png" />

위 그림에서 Source 문자열과 Pattern 문자열의 단어를 잘 기억해보자. 자, 이제부터 본격적으로 시작해 보겠다.

### 정규 표현식 시작하기
---

#### **import re**

파이썬에서는 표준 라이브러리인 **`re`** 모듈을 **`import`** 해서 정규 표현식을 사용할 수 있다.

```python
import re
```

#### Compile()

정규 표현식의 사용법은 크게 1) 찾고자 하는 문자열의 패턴을 정의하고 2) 정의된 패턴과 매칭되는 경우를 찾아 다양한 처리를 하는 2단계로 나누어진다.<br>
이중 1)에 해당하는 과정을 컴파일(compile)이라고 한다.

아래는 위 두 단계에 대한 간략한 예시코드이다.

In [None]:
#1단계 :  "the"라는 패턴을 컴파일한 후 패턴 객체를 리턴합니다. 
pattern = re.compile("the people")    

# 2단계 : 컴파일된 패턴 객체를 활용하여 다른 텍스트에서 검색을 수행합니다.
pattern.findall('of the people, for the people, by the people')

하지만, 정규 표현식을 활용하기 위해 꼭 명시적으로 re.compile()으 호출해야 하는 것은 아니다. 아래 코드는 위에서 2단계로 수행했던 내역을 명시적 컴파일 과정 없이 한줄로 동일하게 처리하고 있다.

In [None]:
re.findall('the', 'of the people, for the people, by the people')

아래쪽 경우가 간결해서 더 좋은 것 같다. 하지만 명시적으로 패턴 객체를 생성한 경우 해당 객체를 반복 사용 가능하다는 점이 장점이 될 때가 있다.

### **메소드**

---

정규 표현식의 객체를 컴파일했으니 이제 위 2단계에서 패턴 객체를 활용해서 호출 가능한 메소드와 속성을 알아 볼 차례이다. 많이 사용되고 있는 메소드들을 정리해 보았는데, 한번 가볍게 살펴보자.

* **`search()`** : 일치하는 패턴 찾기 * 일치 패턴이 있으면 MatchObject를 반환한다.
* **`match()`** : **`search()`**와 비슷하지만, 패턴이 검색대상에 처음부터 일치해야 한다.
* **`findall()`** : 일치하는 모든 패턴 찾기 * 모든 일치 패턴을 리스트에 담아서 반환한다.
* **`split()`** : 패턴으로 나누기 **`sub()`** : 일치하는 패턴으로 대체하기

아래는 **`search()`**, **`match()`** 등이 리턴하는 MatchObject가 가진 메소드이다.

* **`group()`** : 실제 결과에 해당하는 문자열을 반환한다.

In [None]:
src = "My name is..."
regex = re.match("My", src)
if regex:
    print(regex.group())
else:
    print("No!")

### **패턴 : 특수문자, 메타문자**

---

패턴이야말로 정규 표현식을 강력하게 해주는 도구 인데, 특수문자 혹은 메타문자라 불리는 **`[]. -. . ? * + {} /`** 등을 이용해 특수한 패턴을 만들 수 있다. 자, 어떤 것들이 있는지 보자.

- **`[ ]`** : 문자
- **`-`** : 범위
- **`.`** : 하나의 문자
- **`?`** : 0회 또는 1회 반복
- **`*`** : 0회 이상 반복
- **`+`** : 1회 이상 반복
- **`{m, n}`** : m ~ n
- **`\d`** : 숫자
- **`\D`** : 비숫자
- **`\w`** : 알파벳 문자
- **`\W`** : 비알파벳 문자
- **`\s`** : 공백 문자
- **`\S`** : 비공백 문자
- **`\b`** : 단어 경계
- **`\B`** : 비 단어 경계

훑어만 보아도 이 많은 것들을 당장 외우기는 힘들어 보인다. 그래서 이 중 몇 가지를 실습해 볼 예제를 준비해 보았다. 아래 실습을 통해 정규 표현식의 패턴들을 차근차근 익혀보자.

### 예제
---

In [None]:
#- 연도(숫자)
text = """
The first season of America Premiere League  was played in 1993. 
The second season was played in 1995 in South Africa. 
Last season was played in 2019 and won by Chennai Super Kings (CSK).
CSK won the title in 2000 and 2002 as well.
Mumbai Indians (MI) has also won the title 3 times in 2013, 2015 and 2017.
"""
pattern = re.compile("[1]\d\d\d")
pattern.findall(text)

In [None]:
#- 전화번호(숫자, 기호)
phonenumber = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phone = phonenumber.search('This is my phone number 010-111-1111')
if phone:
    print(phone.group())
print('------')
phone = phonenumber.match ('This is my phone number 010-111-1111')
if phone:
    print(phone.group())

In [None]:
#- 이메일(알파벳, 숫자, 기호)
text = "My e-mail adress is doingharu@aiffel.com, and tomorrow@aiffel.com"
pattern = re.compile("[0-9a-zA-Z]+@[0-9a-z]+\.[0-9a-z]+")
pattern.findall(text)

### **구현 순서**

---

위 예제들에서 정규 표현식을 구현한 순서를 그림과 함께 간단히 정리하고 넘어가보자. 패턴들이 덜 익숙한 것 뿐 정규식의 구현 과정은 매우 간단한 것을 확인할 수 있을 것이다.

* **`import re`** 를 통해 정규식 모듈을 가져온다. 
* **`re.compile()`** 함수로 Regex 객체를 만든다. 
* 검색할 문자열을 Regex 객체의 **`search()`** , **`findall()`** 메소드로 전달한다.

<img src="./image/compile.png" />

## 5. 파일과 디렉토리 (1) 파일

우리는 지금까지 텍스트 데이터를 문자열로 나타낸 후 변수에 저장했다. 변수에 저장되는 데이터는 컴퓨터 메모리에 저장된다. 메모리에 저장되는 데이터는 빠르다는 장점이 있지만, 일정 전원이 공급되어야지만 데이터가 보존된다. 즉, 프로그램이 실행되는 동안에만 데이터가 저장된다.

우리 일상에서 **파일**(file)은 너무나도 익숙한 존재이다. 사용자의 중요한 정보가 담긴 파일이 매번 휘발되어 없어지면 안돼기 때문이다. 이러한 데이터를 영구적으로 보존할 필요가 있기 때문에 우리는 ROM(Read Only Memory)이라는 보조기억장치에 데이터를 저장한다. 이것을 파일이라고 한다.

### 파일
---

### write

디스크상에 저장된 파일을 읽거나, 수정하거나, 혹은 데이터를 파일로 저장하려면 어떻게 해야 할까? 우선 열어야한다. 파일을 열고 객체로 만들어 주는 작업을 한번 해 보겠다.

In [None]:
f = open("hello.txt","w") 
#- open(파일명, 파일모드)
#- 파일을 열고 파일 객체를 반환합니다. 
for i in range(10):
    f.write("안녕")
    #- write() 메소드로 '안녕'을 10번 씁니다.
f.close()
#- 작업이 끝나면 close() 메소드로 닫아줍니다. *필수!

#### **read**

위에서 **`hello.txt`** 파일이 잘 만들어졌다. 정상적으로 만들어졌다면 주피터 커널을 실행했던 경로에 생성되어 있을 것이다. 파일 탐색기를 이용해 실제로 만들어진 것을 확인해보자. 이번에는 파일을 읽어 보겠다. 방금 생성된 **`hello.txt`** 한번 읽어보자

In [None]:
with open("hello.txt", "r") as f:
    print(f.read())

**`hello.txt`** 파일에 저장된 내용이 읽힌 것을 확인할 수 있었을 것이다.

여기서 **`with`** 구문을 사용해서 파일을 열어서 파일 객체를 **`f`**로 받아서 **`f.read()`**를 통해 내용을 읽었는데, **`f.close()`**를 명시적으로 호출하지 않고 있다. 이것은 실수가 아니라, **`with`**를 통해 **`open`**된 객체는 **`with`**문이 종료될 때 자동으로 **`close`**되는 것이 보장되기 때문이다. 시스템 리소스의 안정적 사용을 위해 **`with`**문 활용을 권장한다.

마지막으로 파일 관련 메소드를 간단히 정리해 본 뒤 다음 스텝으로 넘어가자

#### 파일 관련 메소드

* **`f.read()`** : 파일을 읽는다.
* **`f.readline()`** : 파일을 한 줄씩 읽는다.
* **`f.readlines()`** : 파일 안의 모든 줄을 읽어 그 값을 리스트로 반환한다.
* **`f.write(str)`** : 파일에 쓴다. 문자열 타입을 인자로 받는다.
* **`f.writelines(str)`** : 파일에 인자를 한 줄씩 쓴다.
* **`f.close()`** : 파일을 닫는다.
* **`f.seek(offset)`** : 새 파일의 위치를 찾는다.

## 6. 파일과 디렉토리 (2) 디렉토리

### **디렉토리**

---

우리가 파일을 다룰 때 중요한 것이 하나 더 있다. 바로 파일이 저장되어 있는 위치이다. 파일이 어느 폴더(디렉토리)에 저장되어 있는가가 매우 중요하다. 방금 윈도우 10 노트북에 저장한 파일명이 **`project.txt`**이고 그 경로가 **`C:\Users\person\Documents`**라고 해보자. 무슨 의미일까? 그렇다. **`C 드라이브`** 에 있는 **`Users`** 폴더에 속한 **`person`** 폴더에 있는 **`Documents`** 폴더에 **`project.txt`**라는 파일이 저장되어 있다는 뜻이다.

<img src="./image/directory.png" />

참고로 이러한 경로의 최상위 폴더를 루트 디렉토리(root directory)라고 부른다.

* Window 운영 체제 : **`C:\`**
* Linux 계열 운영 체제 : **`/`**

Window와 Linux계열이 조금 달라 보인다. 우분투(ubuntu)라는 리눅스 계열의 운영 체제를 사용하기에 리눅스 파일 시스템에 대해 조금 더 알아 보겠다.

[![리눅스 파일 시스템](http://img.youtube.com/vi/hZ6j_g_O3Ts/0.jpg)](https://youtu.be/hZ6j_g_O3Ts?t=0s) 

__리눅스에서 실행 파일을 보관하는 폴더__

* /bin (단, 시스템 실행파일의 경우 /sbin)

__대표적인 리눅스 명령어__

* 리눅스 기본 명령어를 정리한 블로그를 소개한다. 이미 파이썬 설치 하면서 몇 개는 보았을 것이다. [https://itholic.github.io/linux-basic-command/](https://itholic.github.io/linux-basic-command/)



## 7. 파일과 디렉토리 (3) 모듈과 패키지

### **파이썬 파일은 어디에 저장될까?**

---

파이썬에서는 지원하는 디렉토리 관련 표준 라이브러리는 다음과 같다.

* sys
* os
* glob

이 모듈들을 **`import`** 해서 디렉토리 관련 작업을 하는 것이다. 파이썬 프로그램의 실행 파일(**`python.exe`**)은 어디에 저장돼 있는지 확인해 보겠다.

In [None]:
#- 현재 실행되고 있는 파이썬 실행 파일의 디렉토리를 반환합니다.
import sys
sys.executable

사실 실행 파일은 파이썬이 실행될 때 참조하는 것으로 운영 체제 및 파이썬 인터프리터가 참조하는 경로이다. 따라서 실제로 프로그래밍할 때 이런 항목을 확인하지는 않는다. 우리가 필요한 것은 아마도 **`pip`** 이나 **`conda`** 명령어를 통해 설치한 라이브러리 관련 파일의 위치를 확인하는 것이다.

In [None]:
#- 임포트할 때 불러 오는 모듈들이 위치한 경로입니다.
sys.path

### 파이썬 모듈 및 패키지 개념 정리
---

<img src="./image/module.png" />

#### 개념

* **모듈**(module) : 파이썬으로 만든 코드가 들어간 파일 **`.py`**
* **패키지**(package) : **`__init__.py`**가 포함된 폴더로 흔히 라이브러리라고 칭함
* **PIP**(Package Installer for Python) : 패키지 관리자로 파이썬을 설치하면 기본으로 설치됨
* **PyPA**(Python Packaging Authority) : 파이선 패키지를 관리하고 유지하는 그룹
* **PyPI**(The Python Package Index) : 파이썬 패키지들의 저장소

#### 함수

* **`sys.path`** : 현재 폴더와 파이썬 모듈들이 저장되어 있는 위치를 리스트 형태로 반환
* **`sys.path.append()`** : 자신이 만든 모듈의 경로를 **`append`** 함수를 이용해서 추가함으로써 추가한 디렉토리에 있는 파이썬 모듈을 불러와 사용할 수 있다.
* **`os.chdir()`** : 디렉토리 위치 변경
* **`os.getcwd()`** : 현재 자신의 디렉터리 위치를 반환
* **`os.mkdir()`** : 디렉토리 생성
* **`os.rmdir()`** : 디렉토리 삭제 (단, 디렉토리가 비어 있을 경우)
* **`glob.glob()`** : 해당 경로 안의 디렉토리나 파일들을 리스트 형태로 반환
* **`os.path.join()`** : 경로(path)를 병합하여 새 경로 생성
* **`os.listdir()`** : 디렉토리 안의 파일 및 서브 디렉토리 리스트
* **`os.path.exists()`** : 파일 혹은 디렉토리의 경로 존재 여부 확인
* **`os.path.isfile()`** : 파일 경로의 존재 여부 확인
* **`os.path.isdir()`** : 디렉토리 경로의 존재 여부 확인
* **`os.path.getsize()`** : 파일의 크기 확인

## 8. 여러가지 파일 포맷 다루기 (1) CSV 파일

### **CSV**

---

**CSV**는 Comma Seperated Value의 약자로, 쉼표로 구분된 파일을 말한다.

각각의 칼럼(column)을 쉼표(**`,`**)로 구분하는데, 간단한 csv 파일을 만들어 보겠다.

아래 데이터는 빌보드 차트 1위 ~ 5위까지의 곡들이다. 각 키(key)는 순위를, 값(value)은 곡명, 가수, 그리고 발매일에 대한 정보를 가지고 있다. 코드 실행을 통해 **`billboardchart.csv`** 파일을 생성해보자.

In [None]:
billboardchart = {
                 1 : ["Tho Box","Roddy Ricch","2019-12-19"],
                 2 : ["Don't Start Now", "Dua Lipa", "2019-11-01"],
                 3 : ["Life Is Good", "Future Featuring Drake", "2020-02-10"],
                 4 : ["Blinding", "The Weeknd", "2019-11-29"],
                 5 : ["Circles", "Post Malone","2019-08-30"]}

with open("billboardchart.csv","w") as f:
    for i in billboardchart.values():
        data = ",".join(i)
        f.write(data+"\n")

csv 파일은 주피터 실행 경로에 저장되어 있을 것이다. 파일을 검색 해 열어 보면 각각의 데이터가 쉼표**`(,)`**로 구분돼 있는 것을 확인할 수 있을 것이다. 각 칼럼이 무엇을 의미하는지 추가하면 좋을 것 같은데, 첫 번째 줄에 **`title`**, **`singer`**, **`released date`** 를 헤더로 추가해 본 후 다시 확인해보자.

In [None]:
import csv

header = ["title", "singer", "released date"]

with open("billboardchart.csv","r") as inputfile:
    with open("billboardchart_out.csv","w", newline='\n') as outputfile:
        fi = csv.reader(inputfile, delimiter=',')
        fo = csv.writer(outputfile, delimiter=',')
        fo.writerow(header)
        for row in fi:
            fo.writerow(row)

### **CSV 파일과 Pandas**

---

판다스(pandas)의 DataFrame은 **`to_csv`** 메소드를 지원한다. 이 메소드를 이용하면 csv 파일로 쉽게 저장할 수 있다. 데이터를 준비한 뒤 판다스를 활용 해 csv 파일로 저장해 보겠다.

In [None]:
#- 1. 데이터를 준비합니다.
fields = ["title", "singer", "released date"]
rows = [ ["Tho Box","Roddy Ricch","2019-12-19"],
               ["Don't Start Now", "Dua Lipa", "2019-11-01"],
               ["Life Is Good", "Future Featuring Drake", "2020-02-10"],
               ["Blinding", "The Weeknd", "2019-11-29"],
               ["Circles", "Post Malone","2019-08-30"]]

In [None]:
#- 2. 판다스를 이용해 데이터를 csv 파일로 저장합니다.
import pandas as pd

df=pd.DataFrame(rows, columns=fields)
df.to_csv('pandas.csv',index=False)

In [None]:
#- 3. 동일한 내용을 csv.writer를 이용해 수행해 봅니다.
import csv 

filename = "test.csv"
with open(filename, 'w+', newline='\n') as csv_file: 
    csv_writer = csv.writer(csv_file) 
    csv_writer.writerow(fields) 
    csv_writer.writerows(rows)

#- test.csv 파일을 직접 열어서 눈으로 살펴 보세요. -#

반대로, csv 파일을 DataFrame으로 변환시키면 데이터 분석 등 사용자가 편집하기에 용이할 것이다. 마찬가지로 매우 간단하다.

<img src="./image/csv.png" />

In [None]:
df = pd.read_csv('pandas.csv')
df.head()

## 9. 여러가지 파일 포맷 다루기 (2) XML 파일

### **XML**

---

XML은 Extensible Markup Language의 약자로, 다목적 마크업 언어이다.

기존에 HTML을 접한 적이 있다면 마크업 언어가 익숙하실 수 있을텐데, 인터넷 웹상에서 문서 즉, 내용을 교환할 때 이러한 마크업 언어를 이용한다. 마크업 언어를 아주 간단하게 말한다면, 태그라고 불리는 꺽쇠 모양의 괄호(**`<>`**)로 구분된 언어라고 할 수 있다. API에서 데이터를 요청하고 저장할 때 **`XML`** 이나 **`JSON`** 형식을 이용해 데이터를 교환한다. 간단한 XML 파일을 한번 살펴보자.

```xml
<Person>
    <Name>이펠</Name>
    <Age>28</Age>
    <Place>강남</Place>
</Person>

#- 꺽쇠 괄호 안에 태그 이름을 정의하고, 태그 사이에 데이터를 기록하는 형식입니다.
#- 참고로, 태그 이름은 사용자가 마음대로 지정할 수 있습니다.
```

#### **WHO athena API GHO**

아래 예시는 세계보건기구(WHO)에서 제공하는 데이터 API 정보의 XML 파일 일부를 추출한 것이다. XML 파일이 어떤 식으로 구성이 되어 있는지 가볍게 살펴본 후 넘어가 보도록 하겠다. 전체 파일은 [여기](http://apps.who.int/gho/athena/api/GHO)에서 다운로드 할 수 있다. 단, 웹사이트에서 다운로드 할 경우 데이터의 내용이 업데이트 될 수 있으므로 이 점 유의하자.

```xml
<?xml version="1.0" encoding="utf-8"?>
#- XML의 버전과 인코딩을 명시하는 태그입니다. *필수!
<Workbook xmlns="urn:schemas-microsoft-com:office:spreadsheet"
          xmlns:o="urn:schemas-microsoft-com:office"
          xmlns:x="urn:schemas-microsoft-com:excel"
          xmlns:ss="urn:schemas-microsoft-com:spreadsheet"
          xmlns:html="http://www.w3.org/TR/REC-html40">
   <DocumentProperties/>
   <Styles>
      <Style ss:ID="Hyperlink" ss:Name="Hyperlink">
         <Font ss:Color="#0000FF" ss:Underline="Single"/>
      </Style>
      <Style ss:ID="header">
         <Alignment ss:Vertical="Bottom" ss:WrapText="1"/>
         <NumberFormat ss:Format="@"/>
      </Style>
   </Styles>
   <Worksheet ss:Name="notice">
      <Table>
         <Row>
            <Cell>
               <Data ss:Type="String">Notice</Data>
            </Cell>
         </Row>
         <Row/>
         <Row>
            <Cell>
               <Data ss:Type="String">Date generated</Data>
            </Cell>
         </Row>
```

XML 파일을 훑어보니 꺽쇠(**`<글자>`**)가 정말 많이 보인다. 이 부분을 태그(tag)라고 부르는데, 위 파일에는 **`<Workbook>`**, **`<Data>`** 등의 태그들로 구성되어 있음을 확인할 수 있다. 태그는 기본적으로 **`<태그> 내용 </태그>`** 형태로 구성되어 있지만 아래의 오른쪽 그림처럼 태그에 속성(attribute)값이 포함될 수도 있다.

<img src="./image/tag.jpg" />

하나만 더 짚고 넘어 가보자. 상위 태그 안에 하위 태그가 속해 있을 수 있는데, 이런 관계를 부모-자식 관계라고 한다. 위에서 살펴 보았던 예시에서 그 유형을 찾아 보겠다. 아래를 보면 **`<Table>`** 태그는 **`<Row>`**, **`<Cell>`**, 그리고 **`<Data>`** 태그를 자식 태그로 가지고 있다.

```xml
   <Table>
         <Row>
            <Cell>
               <Data ss:Type="String">Notice</Data>
            </Cell>
         </Row>
```

자, 지금까지 배운 내용들을 간략히 정리해보자.

1. XML은 다목적 마크업 언어(Extensible Markup Language)이다.
2. 마크업 언어는 태그(tag)로 이루어진 언어를 말하며, 상위(부모)태그 - 하위(자식)태그의 계층적 구조를 가지고 있다.
3. XML은 요소(element)들로 이루어져 있다.
4. 요소는 **`<열린태그> 내용 </닫힌태그>`**가 기본적인 구조이며, 속성(attribute)값을 가질 수도 있다.

### **XML 파일 만들기**

---

자, 그럼 지금부터 간단한 XML 파일을 만들어 보겠다.

#### **ElementTree**

파이썬 표준 라이브러리인 ElementTree는 XML 관련 기능을 다음과 같이 제공한다.

* **`Element()`** : 태그 생성
* **`SubElement()`** : 자식 태그 생성
* **`tag`** : 태그 이름
* **`text`** : 텍스트 내용 생성
* **`attrib`** : 속성 생성

#### **dump()**

생성된 XML 요소 구조를 시스템(sys.stdout)에 사용한다.

* **`write()`** : XML 파일로 저장리스트(list)와 유사한 메소드를 제공
    - append, insert, remove, pop

아래는 맨 처음에 사용한 person XML을 만드는 코드이다.

In [None]:
import xml.etree.ElementTree as ET

person = ET.Element("Person")
name = ET.Element("name")
name.text = "이펠"
person.append(name)

age = ET.Element("age")
age.text = "28"
person.append(age)

ET.SubElement(person, 'place').text = '강남'

ET.dump(person)

다음과 같은 XML 파일이 만들어진다.

```xml
<Person>
<name>이펠</name>
<age>28</age>
<place>강남</place>
</Person>
```

속성값은 **`attrib`** 란 메소드를, name 태그명은 **`tag`** 메소드를 이용해 변경할 수 있다.

In [None]:
person.attrib["id"] = "0x0001"
name.tag = "firstname"
ET.dump(person)

```xml
<Person id="0x0001">
<firstname>이펠</firstname>
<age>28</age>
<place>강남</place>
</Person>
```

이번에는 새롭게 lastname이라는 태그를 firstname 태그 다음으로 삽입하고 속성에 date를 넣어 보겠다.

In [None]:
lastname = ET.Element('lastname', date='2020-03-20')
lastname.text = '아'
person.insert(1,lastname)
ET.dump(person)

속성은 태그를 생성하는 함수인 **`Element`** 의 인자로 넣어 주어도 된다. firstname 태그의 다음이니까 인덱스 번호는 1번이 되겠다. **`insert`** 를 이용해 인덱스 번호와 태그 이름을 삽입했다. 리스트의 **`insert`** 와 형태가 동일하다.

```xml
<Person id="0x0001">
<firstname>이펠</firstname>
<lastname date='2020-03-20'>아</lastname>
<age>28</age>
<place>강남</place>
</Person>
```

삭제는 **`remove`** 혹은 **`pop`** 을 이용하면 된다. age 태그를 지우고 싶다면 다음과 같이 하면 된다.

In [None]:
person.remove(age)

자, 이제 마지막으로 XML 파일로 저장을 해 보겠다.

In [None]:
ET.ElementTree(person).write('person.xml')

**`person.xml`** 파일이 잘 저장되었다.

### **XML 파싱하기**

---

그럼 이제 본격적으로 XML 파일을 파싱해 보도록 하겠다.

파이썬에서는 그 방법으로 크게 2가지를 제공하는데, 위에서 살펴 본 ElementTree가 첫 번째이고, 다른 하나가 바로 BeautifulSoup 라이브러리이다. 지금부터 이 BeautifulSoup을 이용해 파싱을 시도해 보도록 하겠다.

* 예제 파일 : [books.xml](https://docs.microsoft.com/en-us/previous-versions/windows/desktop/ms762271(v%3Dvs.85))

#### **(1) 설치**

**[BeautifulSoup](http://pypi.org/project/beautifulsoup4/), [lxml](http://pypi.org/project/lxml/)**은 표준 라이브러리가 아니기 때문에 pip install로 설치한다.

```python
pip install beautifulsoup4
pip install lxml
```

#### (2) books.xml 파일의 "title" 태그의 내용만 가져오기
방금 다운로드 받은 books.xml 파일을 저장한 후, 해당 파일의 title 태그에 속한 내용만 가져오는 코드를 작성해 보겠다.

In [None]:
from bs4 import BeautifulSoup
with open("books.xml", "r", encoding='utf8') as f:
    booksxml = f.read() 
    #- 파일을 문자열로 읽기
 
soup = BeautifulSoup(booksxml,'lxml') 
#- BeautifulSoup 객체 생성 : lxml parser를 이용해 데이터 분석

for title in soup.find_all('title'): 
#-  태그를 찾는 find_all 함수 이용
    print(title.get_text())

BeautifulSoup의 더욱 다양한 메소드들을 알고 싶다면 [링크](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#parsing-xml)를 확인해보자

## 10. 여러가지 파일 포맷 다루기 (3) JSON 파일

### **JSON**

---

JSON은 JavaScript Object Notation의 약자로, 웹 언어인 JavaScript의 데이터 객체 표현 방식이다. 웹 브라우저와 다른 애플리케이션 사이에서 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 포맷중 하나로, XML과 더불어 웹 API나 config 데이터를 전송할 때 많이 쓰인다.

대표적인 예로 트위터는 [개발자용 사이트](https://developer.twitter.com/en)를 통해 여러가지 API를 JSON 형태로 제공한다.

JSON 데이터의 예시를 함께 살펴보자.

```json
person = {
      "first name" : "Yuna",
      "last name" : "Jung",
      "age" : 33,
      "nationality" : "South Korea",
      "education" : [{"degree":"B.S degree", "university":"Daehan university", "major": "mechanical engineering", "graduated year":2010}]
       }
```

얼핏 보아도 파이썬의 dictionary 타입과 매우 유사한 구조를 가지고 있다. CSV 파일에 비해 좀 더 유연하게 데이터를 표현할 수 있고 XML 파일보다 파일을 쉽게 읽고 쓸 수 있다는 장점이 있다. 뿐만 아니라 Javascript로 작성된 프로그램에서 쉽게 다룰 수 있다고 하는데, 웹에서 JavaScript나 JavaScript 기반의 Framework가 많이 사용되고 있는 점을 미루어 봤을 때 이는 큰 강점이 될 수 있다.

### JSON 파싱
---

#### (1) json 파일 저장
파이썬 dictionary 타입은 JSON으로 저장할 수 있다. 위 예시로 보인 person이라는 dict 객체를 JSON 파일로 저장해 보겠다.

In [None]:
import json

person = {
      "first name" : "Yuna",
      "last name" : "Jung",
      "age" : 33,
      "nationality" : "South Korea",
      "education" : [{"degree":"B.S degree", "university":"Daehan university", "major": "mechanical engineering", "graduated year":2010}]
       } 

with open("person.json", "w") as f:
    json.dump(person , f)

#### (2) json 파일 읽기
반대로, JSON 파일의 내용을 아래처럼 파이썬 dict 객체로 쉽게 읽어들일 수 있다.

In [None]:
import json

with open("person.json", "r", encoding="utf-8") as f:
    contents = json.load(f)
    print(contents["first name"])
    print(contents["education"])