# Ch 07. 서식을 갖춘 CSV 파일로 합쳐 봅시다
## 목표 정하기
1. 결과물을 저장할 빈 csv 파일을 생성한다.
2. csv 파일에 헤더(header)를 삽입한다.
3. personal_info 폴더 내부의 파일을 하나씩 읽어와 보기 좋게 다듬는다.
4. 다듬은 내용물을 결과 파일에 옮겨 적는다.
5. 내용물 작성이 완료되었다면 파일을 종료한다.

## 목표를 달성하기 위해 필요한 작업들
1. personal_info 폴더 안의 내용물을 목록으로 만들기 -> os.listdir()
2. 목록 안의 내용물을 처음부터 끝까지 훑으며, 한개씩 파일을 읽어오기 -> 반복문
3. 읽어온 파일에서 내용물을 뽑아내기 -> readline(), read()
4. 파일에 내용을 기록하고 저장하기 -> write(), close()
5. 파일을 읽어와 헤더와 콘텐츠를 분리하기 -> 핵심~!
6. 첫 줄에만 헤더를 삽입하고 그 다음 줄부터는 콘텐츠만 삽입하기

In [14]:
import time
import os

## split()
- String을 쪼개는 함수 (Default는 스페이스를 기준으로 쪼갬)
- 괄호안에 있는 문자를 지정하면 그 문자를 기준으로 쪼갠다. 
- 쪼갠 string들을 리스트로 반환
- 대량의 데이터를 일정한 규칙으로 나눠야할 때 많이 사용한다.

In [1]:
a = "name : half_bottle"
a

'name : half_bottle'

In [3]:
a.split(":")

['name ', ' half_bottle']

In [4]:
b = a.split(":")
b

['name ', ' half_bottle']

In [5]:
"a b c d e".split()

['a', 'b', 'c', 'd', 'e']

In [6]:
"패스트캠퍼스 업무 자동화 강의".split()

['패스트캠퍼스', '업무', '자동화', '강의']

In [7]:
"a b c d e".split("c")

['a b ', ' d e']

In [9]:
"a:b:c:d:e".split(":")

['a', 'b', 'c', 'd', 'e']

## strip()
- 좌우 공백을 없애는 함수 (스페이스, 줄바꿈)
- 공백이 중간에 있는 경우 없애지 않는다.

In [10]:
a = "  bbb   "
a.strip()

'bbb'

In [12]:
b = '   bbb   \n\n\n'
b.strip()

'bbb'

In [13]:
c = 'abc def gh  '
c.strip()

'abc def gh'

## txt 파일 내용을 headers 와 contents로 분리

In [15]:
a = os.listdir("personal_info")

In [16]:
a

['0_조채아.txt',
 '100_조도아.txt',
 '101_최예준.txt',
 '102_김예윤.txt',
 '103_박윤원.txt',
 '104_조채윤.txt',
 '105_정지아.txt',
 '106_임주윤.txt',
 '107_최지우.txt',
 '108_윤주우.txt',
 '109_강도후.txt',
 '10_윤예윤.txt',
 '110_강서서.txt',
 '111_조주서.txt',
 '112_이지우.txt',
 '113_윤예준.txt',
 '114_윤도서.txt',
 '115_정윤연.txt',
 '116_최예진.txt',
 '117_강서후.txt',
 '118_윤도아.txt',
 '119_김서은.txt',
 '11_윤하준.txt',
 '120_최지연.txt',
 '121_윤지진.txt',
 '122_김주서.txt',
 '123_박서연.txt',
 '124_강하진.txt',
 '125_윤민은.txt',
 '126_최서진.txt',
 '127_정지준.txt',
 '128_강민연.txt',
 '129_임윤후.txt',
 '12_박지윤.txt',
 '130_이채진.txt',
 '131_강윤서.txt',
 '132_장서진.txt',
 '133_최윤서.txt',
 '134_김하후.txt',
 '135_윤현후.txt',
 '136_최서호.txt',
 '137_최서서.txt',
 '138_김예호.txt',
 '139_조민아.txt',
 '13_장지원.txt',
 '140_최주아.txt',
 '141_박예진.txt',
 '142_장서후.txt',
 '143_김도후.txt',
 '144_임하호.txt',
 '145_이예우.txt',
 '146_박채호.txt',
 '147_최도후.txt',
 '148_강민진.txt',
 '149_박채준.txt',
 '14_박도은.txt',
 '150_조도호.txt',
 '151_윤도준.txt',
 '152_정예윤.txt',
 '153_김현준.txt',
 '154_김윤연.txt',
 '155_윤주후.txt',
 '156_강예서.txt',

In [17]:
b = a[-4]
b

'998_강민준.txt'

In [25]:
c = open("personal_info/"+b)

In [26]:
c

<_io.TextIOWrapper name='personal_info/998_강민준.txt' mode='r' encoding='cp949'>

In [27]:
d = c.readline() #위에서부터 한 줄 씩 읽어오기

'name : 강민준\n'

In [28]:
d

'name : 강민준\n'

- split() 활용하여 headers 와 contents로 쪼갠다
- 쪼갠 내용에 공백이 없게 strip()으로 한번 더 가공한다.

In [29]:
splits = d.split(":")

In [30]:
splits

['name ', ' 강민준\n']

In [31]:
splits[-1]

' 강민준\n'

In [32]:
splits[-1].strip()

'강민준'

- contents와 headers라는 빈 리스트에 append()로 내용 추가하기

In [35]:
contents = []

In [36]:
contents.append(splits[-1].strip())
contents

['강민준']

In [37]:
headers = []

In [38]:
headers.append(splits[0].strip())

In [39]:
headers

['name']

- 다시 빈 리스트를 불러와서 코드 실행해보기

In [40]:
contents = []
headers = []

In [41]:
file = open("personal_info/" + b)

In [42]:
for line in file:
    # 엑셀 파일의 양식과 내용물을 분리합니다.
    if ":" in line:
        splits = line.split(":")
        contents.append(splits[-1].strip())

        # 헤더를 정리합니다. 최초 1회만 실행됩니다.
        if len(contents) > len(headers):
            headers.append(splits[0].strip())

In [43]:
contents

['강민준', '35', '3ml9ruci@bhban.com', 'rbz', '010-1535-3415', 'female']

In [44]:
headers

['name', 'age', 'e-mail', 'division', 'telephone', 'sex']

## join()
- split()의 반대로 리스트 내용을 한 string으로 합쳐준다.
- 합치는 구분자는 . 앞에 문자를 활용
- csv는 ,로 구분하기 때문에 적절히 활용하면 csv 파일을 쉽게 만들 수 있다.

In [46]:
", ".join(headers)

'name, age, e-mail, division, telephone, sex'

In [47]:
"A".join(headers)

'nameAageAe-mailAdivisionAtelephoneAsex'

In [48]:
"@".join(headers)

'name@age@e-mail@division@telephone@sex'

In [49]:
q = ["a", "b", "c", "d", "e"]
q

['a', 'b', 'c', 'd', 'e']

In [50]:
", ".join(q)

'a, b, c, d, e'

In [51]:
"AAAA".join(q)

'aAAAAbAAAAcAAAAdAAAAe'

- headers를 join()으로 csv에 적합한 , 구분자로 구분된 하나의 string으로 만든다

In [52]:
header = ", ".join(headers)
header

'name, age, e-mail, division, telephone, sex'

- contents도 마찬가지

In [53]:
contents

['강민준', '35', '3ml9ruci@bhban.com', 'rbz', '010-1535-3415', 'female']

In [55]:
newline = ", ".join(contents)
newline

'강민준, 35, 3ml9ruci@bhban.com, rbz, 010-1535-3415, female'

## 예제 의의
1. split(), strip(), join() 활용
2. 반복문 내 조건문을 활용한 __반복문 제어 방식__
3. 반복문 내의 코드가 다 반복되지 않도록 제어할 수 있다! 
   - (이번 예시에서는 초기 한 번만 실행되도록 제어하기)
4. 조건문 내의 continue를 활용한 예외처리