## 1. 다양한 데이터 포멧 이해하기: Plain Text

- Plain Text: 특정 데이터 포멧을 사용하지 않는, 일반적인 텍스트를 의미함
- 주요 데이터 포멧
  - csv, xml, json
  - 참고: https://www.data.go.kr/search/index.do
  
> 통상적으로 데이터 처리에서 다루는 Plain Text 보다는 특정 데이터 포멧을 사용하는 경우가 많음


<img src="https://www.fun-coding.org/00_Images/data_roadmap_analysis.jpg" />

## 데이터 전처리 실습 예제
- https://public.flourish.studio/visualisation/2897018/

## 데이터 전처리부터 시각화 및 분석 
- 브라질 Olist 이커머스 사이트 구매 데이터 분석
  - 얼마나 많은 고객이 있는가?
  - 고객은 어디에 주로 사는가?
  - 고객은 주로 어떤 지불방법을 사용하는가?
  - 평균 거래액은 얼마일까?
  - 일별, 주별, 월별 판매 트렌드는?
  - 어떤 카테고리가 가장 많은 상품이 팔렸을까?

### 1.1 파일 오픈 (Plain Text)
- 프로그래밍에서 파일은 다음과 같은 3가지 명령의 순서로 처리할 수 있음
  - 파일 오픈
  - 파일 읽기 또는 쓰기
  - 파일 닫기
  
- 파일디스크립터변수 = open(파일이름, 파일열기모드)

```
data_file = open('00_data/text_data.txt', 'r', encoding='utf-8-sig')
```
    
- 파일 디스크립터 (file descriptor) 변수: 오픈한 파일 객체를 가리키고 있는 변수
- 파일 이름 명시시, open 함수 실행 위치와 파일 이름이 저장된 위치를 파일 절대 경로 또는 상대 경로로 정확히 명시해야 함
- 파일 열기 모드

| 파일열기모드 | 설명                                                                 |
|:------------:|:----------------------------------------------------------------------|
|       r      | 읽기 모드: 파일을 읽기만 할 때 사용함                                |
|       w      | 쓰기 모드: 파일에 데이터를 쓸 때 사용함 (기존 파일 데이터는 삭제됨)  |
|       a      | 추가 모드: 파일의 기존 데이터 끝에서부터 데이터를 추가할 때 사용함   |

- encoding
  - open(파일이름, 파일열기모드, encoding='utf-8-sig') 와 같이 끝에 encoding 구문 추가 가능 (옵션)
  - 파일 오픈시, 해당 파일의 인코딩 방식을 명시해주는 것임

In [3]:
data_file = open('00_data/text_data.txt', 'r', encoding='utf-8-sig')

### 참고: 인코딩과 utf-8 과 utf-8-sig

#### 인코딩이란?
<img src="https://www.fun-coding.org/00_Images/encoding_example.jpg" />

#### utf-8 과 utf-8-sig
- 기존에는 영어 인코딩, 한국어 인코딩 방식이 달랐음. 이에 따라 각 국가에서 작성된 파일을 읽을 수 없는 경우가 발생
- 모든 언어를 지원하는 인코딩 방식을 통해 다른 언어 지원, 이를 유니코드 라고 함
- 각 인코딩 방식마다 이름이 존재 하며, 유니코드는 utf-8 이라는 이름을 사용함
- 각 인코딩 방식에 맞게, 데이터를 저장하고, 데이터를 읽을 때에는 해당 인코딩 방식을 명시해주어, 데이터를 알맞게 읽을 수 있음
- utf 방식도 세부적으로는 utf-8, utf-16, utf-32 등 다양한 방식이 있으며, 이를 구별하기 위해, 윈도우의 텍스트 편집기들은 데이터 저장시 앞부분에 특정 기호(signature)를 추가함
  - 해당 기호(signature)를 Byte Order Mark(BOM) 이라고 부름
  - 문제는 해당 기호(signature)를 맥 또는 리눅스등 다른 운영체제 환경에서는 지원하지 않아서 잘못 인식할 수 있음
  - 근본적으로 윈도우를 개발한 MS사가 표준과 다른, 자기만의 signature를 넣는 방식을 썼다는 것이 문제임
  - 그래서, 데이터 오픈시, BOM이 있다면, BOM 빼고, 데이터를 읽을 수 있도록 하여, 호환성 문제를 해결하는 방식이 utf-8-sig 임

- 파일 데이터 오픈시, 인코딩에 문제가 있어 보일 경우, 또는 기본적으로 encoding='utf-8-sig' 를 사용하면 큰 문제가 없음 

### 참고: 파일 절대 경로와 상대 경로
- 절대 경로
  -  최초의 시작점으로 경유한 경로를 전부 기입하는 방식
  - 윈도우 예: 드라이브명부터 시작, C:\ 등
    ```
    C:\Users\UserID\Desktop\test.txt
    ```
  - 맥 예: 최상단 디렉토리를 나타내는 / 부터 시작
    ```
    맥: /Users/davelee/test.txt
    ```

- 상대 경로
  - 파일을 찾는 위치부터 상대적인 경로를 기입하는 방식
  - 예
    - 현재 폴더가 /Users/davelee/code 인 상태에서 동일 폴더에 있는 testfile.txt 를 찾는 경우
      ```
      testfile.txt
      ```
    - 현재 폴더가 /Users/davelee/code 인 상태에서 하위 폴더인 /Users/davelee/code/data 폴더에 있는 testfile.txt 를 찾는 경우
      - 현재 폴더 안에 있는 폴더를 하위 폴더라고 함
      - 하위 폴더명/파일명 과 같은 형태로 상대 경로를 작성하면 됨
      ```
      data/testfile.txt
      ```
    - 현재 폴더가 /Users/davelee/code 인 상태에서 상위 폴더인 /Users/davelee/ 폴더에 있는 testfile.txt 를 찾는 경우
      - 현재 폴더를 포함하고 있는 상위에 있는 폴더를 상위 폴더라고 함
      - 상위 폴더는 ../ 로 명시할 수 있음
      ```
      ../testfile.txt
      ```
      
<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제</font><br>

1. 다음 상황에서 파일 절대 경로와 상대 경로 작성하기<br>

   - 현재 폴더: /Users/davelee/code <br>
   - 파일 위치: /Users/ <br>
   - 파일 명: testfile.txt <br>
    
<br>

2. 다음 상황에서 파일 절대 경로와 상대 경로 작성하기<br>

   - 현재 폴더: /Users/davelee/code <br>
   - 파일 위치: /Users/davelee/code/program/data <br>
   - 파일 명: testfile.txt <br>

</div>


1. 답
  - 절대경로: /Users/testfile.txt
  - 상대경로: ../../testfile.txt

2. 답
  - 절대경로: /Users/davelee/code/program/data/testfile.txt
  - 상대경로: program/data/testfile.txt


### 1.2 파일 닫기 (Plain Text)
- 파일디스크립터변수.close() 함수로 파일을 닫을 수 있음
- 항상 오픈한 파일은 닫아야 함 (파일을 오픈한 채로 놔두면, 컴퓨터에서 관련 자원을 계속 사용중인 상태가 될 수 있음)

In [2]:
data_file = open('00_data/text_data.txt', 'r', encoding='utf-8-sig')
data_file.close()

- 자동으로 파일을 닫기 위해 with 구문을 사용활용할 수 있음
  - with open() 명령 as 파일디스크립터: 
  - with 구문 안에서 동작할 코드를 탭으로 들여쓰기 해서 사용하면, with 구문이 모두 끝난 후, 자동으로 해당 파일을 닫아줌

In [3]:
with open('00_data/text_data.txt', 'r', encoding='utf-8-sig') as file_desc:
    print ('test')

test


### 1.3 파일 읽기 
#### readlines() 함수 사용하기
  - 오픈한 파일 디스크립터.readlines() 함수를 호출해서, 전체 데이터를 한줄씩 리스트타입으로 읽어올 수 있음

In [4]:
data_file = open('00_data/text_data.txt', 'r', encoding='utf-8-sig')
data_lines = data_file.readlines()
data_lines

['안녕하세요. Dave Lee 입니다.\n', '본 예제는 Plain Text 파일 예제입니다.\n', '감사합니다.']

- 리스트 타입 변수는 항상 for 구문을 사용해서, 각 아이템을 가져오기

In [5]:
for data_line in data_lines:
    print (data_line)
data_file.close()

안녕하세요. Dave Lee 입니다.

본 예제는 Plain Text 파일 예제입니다.

감사합니다.


#### readline() 함수 사용하기
  - 오픈한 파일 디스크립터.readline() 함수를 호출해서, 현재까지 읽은 파일 데이터의 다음 한 줄을 문자열 타입으로 읽을 수 있음

In [6]:
data_file = open('00_data/text_data.txt', 'r', encoding='utf-8-sig')
data_line = data_file.readline()
print (data_line)

안녕하세요. Dave Lee 입니다.



In [7]:
data_line = data_file.readline()
print (data_line)

본 예제는 Plain Text 파일 예제입니다.



In [8]:
data_line = data_file.readline()
print (data_line)

감사합니다.


In [9]:
data_file.close()

#### read() 함수 사용하기
- 오픈한 파일 디스크립터.read() 함수를 호출해서, 전체 파일 데이터를 문자열 타입으로 읽을 수 있음

In [10]:
data_file = open('00_data/text_data.txt', 'r', encoding='utf-8-sig')
data = data_file.read()
data

'안녕하세요. Dave Lee 입니다.\n본 예제는 Plain Text 파일 예제입니다.\n감사합니다.'

In [11]:
data_file.close()

### 1.4 파일 쓰기
#### write() 함수 사용하기
- open() 함수에 파일열기모드를 'w' 로 해서, 파일 쓰기

| 파일열기모드 | 설명                                                                 |
|:------------:|:----------------------------------------------------------------------|
|       r      | 읽기 모드: 파일을 읽기만 할 때 사용함                                |
|       w      | 쓰기 모드: 파일에 데이터를 쓸 때 사용함 (기존 파일 데이터는 삭제됨)  |
|       a      | 추가 모드: 파일의 기존 데이터 끝에서부터 데이터를 추가할 때 사용함   |

#### 예제1: 파일 써보기

In [12]:
data_file = open('00_data/text_data_write.txt', 'w', encoding='utf-8-sig')
data_file.write('안녕하세요')
data_file.write('Dave Lee 입니다.')
data_file.close()

#### 예제2: 라인을 바꾸려면?

In [13]:
data_file = open('00_data/text_data_write.txt', 'w', encoding='utf-8-sig')
data_file.write('안녕하세요\n')
data_file.write('Dave Lee 입니다.\n')
data_file.close()

### 1.5 기존 파일에 데이터 추가하기
- open() 함수에 파일열기모드를 'a' 로 해서, 파일 쓰기

| 파일열기모드 | 설명                                                                 |
|:------------:|:----------------------------------------------------------------------|
|       r      | 읽기 모드: 파일을 읽기만 할 때 사용함                                |
|       w      | 쓰기 모드: 파일에 데이터를 쓸 때 사용함 (기존 파일 데이터는 삭제됨)  |
|       a      | 추가 모드: 파일의 기존 데이터 끝에서부터 데이터를 추가할 때 사용함   |

In [14]:
data_file = open('00_data/text_data_write.txt', 'a', encoding='utf-8-sig')
data_file.write('본 파일은 임시 파일입니다.')
data_file.close()

<div class="alert alert-block" style="border: 1px solid #FFB300;background-color:#F9FBE7;">
<font size="4em" style="font-weight:bold;color:#3f8dbf;">연습문제</font><br>

1. 00_data/text_data_practice.txt 파일 만들고, 다음 내용 쓰기 (각 데이터별 라인을 바꿔주도록 저장)

유치원A <br>
초등학교B <br>
중학교C <br>
고등학교D <br>
<br>

2. 00_data/text_data_practice.txt 파일에 다음 내용 추가하기 <br>

대학교E <br>
<br>

3. 00_data/text_data_practice.txt 파일 읽고, 다음과 같이 출력되는지 확인하기

유치원A <br>
초등학교B <br>
중학교C <br>
고등학교D <br>
대학교E <br>

</div>

In [15]:
data_file = open('00_data/text_data_practice.txt', 'w', encoding='utf-8-sig')
data_file.write('유치원A\n')
data_file.write('초등학교B\n')
data_file.write('중학교C\n')
data_file.write('고등학교D\n')
data_file.close()

In [16]:
data_file = open('00_data/text_data_practice.txt', 'a', encoding='utf-8-sig')
data_file.write('대학교E\n')
data_file.close()