# 특별한 형식의 텍스트 파일: CSV, INI, YAML 파일과 파이썬 프로그램 파일

## CSV 파일

표 형식의 테이터를 텍스트 파일로 저장할 때 사용하는 파일 형식이 CSV 파일이다.
CSV가 comma-separated values지만 빈칸이나 탭(tab)으로 값을 구분한 파일도 일반적으로 CSV 파일로 분류한다.
그러니까 CSV 파일은 일반적으로 delimiter-separated format(구분자로 분리하는 형식)로 생각할 수 있다.
CSV 파일의 MIME 타입은 "text/csv"이다.

### CSV 파일의 데이터 저장 형식

1. 행(row)/레코드(record)는 줄바꿈 문자(newline character, enter eky, \n)로 구분한다.
2. 행은 여러 값으로 구성되며 구분자로 구분한다.
3. 모든 행에는 동일한 개수의 값을 동일한 순서로 기재한다.
4. 모든 값은 문자열이다.
5. 따라서 값을 큰 따옴표로 감쌀 수 있다. 구분자를 포함하는 값은 반드시 큰 따옴표로 감싸야 한다.
6. 값이 큰 따옴표를 포함할 경우에는 값에 포함된 큰 따옴표를 이중 큰 따옴표로 나타낸다.
7. 첫 번째 행에 열 이름을 기재할 수 있다.

### CSV 파일의 읽기와 쓰기

`csv` 모듈에 정의된 클래스를 이용하여 CSV 파일을 읽고 쓸 수 있지만 `pandas` 모듈의 `read_csv()`를 이용해서 `DataFrame` 객체로 만드는 것이 가장 좋은 방법이다.

In [1]:
import pandas as pd
df = pd.read_csv('./datasets/sample.csv', sep=',',  # 값을 구분하는 구분문자를 지정한다.
                 header='infer', # 열 이름이 기재된 행의 번호를 쓴다. 쓰지 않으면 자동 추출을 시도한다.
                 names=None,     # 열 이름을 리스트로 지정한다.
                 index_col=None, # 행 이름을 사용할 열 이름을 지정한다.
                 skiprows=None,  # 파일 앞 부분에서 읽지 않고 건너뛸 줄의 수를 지정한다.
                 skipfooter=0,   # 파일 뒷 부분에서 읽지 않고 건너뛸 줄의 수를 지정한다.
                 nrows=None,     # 몇 행만 읽을 것인지를 지정한다.
                 na_values=None) # 결측치를 나타내는 문자열을 리스트로 지정할 수 있다.

In [2]:
df.head()

Unnamed: 0,region,sex,nb_voters,percent
0,서울,남,4065823,9.58
1,서울,여,4301830,10.14
2,부산,남,1438478,3.39
3,부산,여,1509375,3.56
4,대구,남,1002006,2.36


데이터를 `DataFrame` 객체로 만들면 CSV 파일로 쉽게 저장할 수 있다.

In [3]:
df.to_csv("./datasets/sample_backup.csv",
          sep=',',      # 구분문자를 지정한다.
          na_rep='',    # 결측치를 나타낼 문자열 지정한다.
          columns=['region', 'sex', 'nb_voters'], # 파일에 출력할 열 이름을 지정한다.
                        #모든 열을 다 저장하려면 column 매개변수를 지정하지 않는다.
          header=True,  # 열 이름을 출력할 것인지를 지정한다.
          index=False   # 행 이름을 출력할 것인지를 지정한다.
)

## INI 파일

확장자가 `.ini`인 텍스트 파일을 INI 파일이라고 하며 주로 소프트웨어의 설정 파일로 사용된다.

### INI 파일의 데이터 저장 형식

1. INI 파일에 저장하는 기본적인 항목을 키(key) 또는 속성(property)이라고 한다.
2. 속성은 이름(name)과 값(value)을 가진다.
3. 이름과 값은 =로 구분한다.
4. 등호의 왼쪽이 속성의 이름이고 오른쪽이 속성의 값이다.
5. 여러 속성을 집단으로 나눌 수 있으며 집단은 섹션(section)이라고 한다.
6. 섹션의 이름은 `[]` 감싸며 독립된 한 줄에 나타낸다.
7. 섹션 이름과 속성 이름은 case-insensitive하다.
8. ;로 시작하는 줄은 주석이다.

### INI 파일의 읽기와 쓰기

`configparser` 모듈에 정의된 `ConfigParser` 클래스를 이용해서 INI 파일을 읽을 수 있다.

**Note:** INI 파일을 ANSI encoding으로 저장해야 할지도 모른다.

In [4]:
from configparser import ConfigParser
config = ConfigParser()
config.read('./datasets/sample.ini')

['./datasets/sample.ini']

섹션의 목록은 `sections()` 메소드로 구한다.

In [5]:
config.sections()

['database', 'Formats', 'attributes', 'BIB1attributes']

`options()` 메소드에 섹션 이름을 인자로 주면 특정한 섹션에 들어 있는 속성의 이름을 리스트로 구할 수 있다.

In [6]:
config.options('database')

['zbasedbtype',
 'dbname',
 'remotezdbname',
 'longname',
 'fulltext',
 'recordsyntax',
 'supportssort',
 'supportsscan',
 'illservice',
 'servername',
 'serverinifile']

특정 색션의 특정 속성의 값을 구할 때는 `get()` 메소드로 구한다.
섹션 이름과 속성 이름을 `get()` 메소드의 인자로 주면 된다.

In [7]:
config.get('database', 'longname')

'Everglades Online'

다음은 INI 파일을 구성해서 저장하는 예제 코드이다.
모든 섹션은 사전 객체이며, 각 섹션에 속하는 속성의 이름과 값도 사전 객체로 처리된다.

In [8]:
conf = ConfigParser()
conf['DEFAULT'] = {'ServerAliveInterval': '45',
                      'Compression': 'yes',
                      'CompressionLevel': '9'}
conf['bitbucket.org'] = {}
conf['bitbucket.org']['User'] = 'hg'
conf['topsecret.server.com'] = {}
conf['topsecret.server.com']['Port'] = '50022'
conf['topsecret.server.com']['ForwardX11'] = 'no'
conf['DEFAULT']['ForwardX11'] = 'yes'

fo = open('./datasets/new_sample.ini', 'w')
conf.write(fo)
fo.close()

## YAML 파일

INI 파일과 같이 설정 파일로 사용되는 파일 형식으로 YAML 파일이 있다.
YAML은 YAML Ain't Markup Language의 약자이다.
YAML 파일의 확장자는 `.yml` 또는 `.yaml`이다.

### YAML 파일의 저장 형식

1. 구조를 나타내기 위해 들여쓰기를 이용한다.
2. 들여쓰기 할 때 탭은 사용하지 않는다.
3. #은 주석의 시작을 나타낸다. 주석은 줄의 어디에서나 시작할 수 있으며 줄의 끝까지가 주석으로 처리된다.
4. 리스트의 원소는 쉼표로 구분하고 `[]`로 감싼다..
5. 리스트의 원소를 한 줄에 하나씩 나타낼 수 있다. 이때 각 줄은 -(hyphen)으로 시작한다.
6. 사전과 같은 연관 배열은 쉼표로 구분한 `키:값`을 `{}`로 감싼다.
7. 연관 배열의 모든 `키:값`을 `{}`로 감싸지 않고 한 줄에 `키:값` 하나 씩 기재할 수 있다. 이때 각 줄은 하이펀으로 시작한다.
7. 문자열은 큰 따옴표나 작은 따옴표로 감싼다.
8. 하나의 스트림에 여러 YAML 문서를 저장할 수 있다. 각 문서의 시작을 3개 이상의 하이펀으로 구분한다.
9. 각 문서의 끝은 3개의 마침표로 지정할 수 있다.

### YAML 파일의 읽기와 쓰기

YAML 파일을 지원하는 패키지는`PyYAML`이다.
사용법은 INI 파일과 거의 같다.

In [9]:
import yaml
fi = open('./datasets/sample.yml', 'r')
conf = yaml.load(fi)
fi.close()
conf

{'cloud': {'database_service_type': 'db2',
  'description': 'Controller + N Compute Topology - x86 KVM',
  'features': {'platform_resource_scheduler': 'enabled',
   'self_service_portal': 'enabled'},
  'messaging_service_type': 'rabbitmq',
  'name': 'MyCloudName',
  'password': 'MyCloudPassword',
  'topology': {'controller_node_name': 'controller',
   'database_node_name': 'controller',
   'kvm_compute_node_names': 'kvm_compute',
   'self_service_portal_node_name': 'controller'}},
 'environment': {'base': 'example-ibm-os-single-controller-n-compute',
  'default_attributes': None,
  'override_attributes': None},
 'nodes': [{'description': 'Cloud controller node',
   'fqdn': 'controllername.company.com',
   'identity_file': None,
   'name': 'controller',
   'nics': {'data_network': 'eth1', 'management_network': 'eth0'},
   'password': 'passw0rd'},
  {'attribute_file': None,
   'description': 'Cloud KVM compute node',
   'fqdn': 'kvmcomputename.company.com',
   'identity_file': '/root/ide

In [10]:
conf['cloud']

{'database_service_type': 'db2',
 'description': 'Controller + N Compute Topology - x86 KVM',
 'features': {'platform_resource_scheduler': 'enabled',
  'self_service_portal': 'enabled'},
 'messaging_service_type': 'rabbitmq',
 'name': 'MyCloudName',
 'password': 'MyCloudPassword',
 'topology': {'controller_node_name': 'controller',
  'database_node_name': 'controller',
  'kvm_compute_node_names': 'kvm_compute',
  'self_service_portal_node_name': 'controller'}}

In [11]:
conf['cloud']['name']

'MyCloudName'

YAML 파일의 모든 것은 사전으로 처리되므로 데이터를 사전으로 정리한 다음 YAML 파일로 저장할 수 있다.

In [12]:
conf = {'web_server': ['192.168.0.2', '192.168.0.3'], 'db_server': ['192.168.10.7'],
       'users':{'joongyang': '12345', 'park': 'abcde', 'gnu': 'abc123'}}
fo = open('./datasets/new_sample.yml', 'w')
fo.write(yaml.dump(conf, default_flow_style=False))
fo.close()

## JSON 파일

JSON(JavaScript Object Notation)는 통신에서 데이터를 전달하는데 주로 사용하는 텍스트 형식이다.

### JSON 파일의 저장 형식

1. 숫자는 소숫점을 포함할 수 있으며 과학적 표기법으로 나타낼 수도 있다.
2. 문자열은 0개 이상의 유니코드 문자의 열이다.
3. 문자열은 큰 따옴표롤 감싸며 이스케이프 시퀀스를 허용한다.
4. 논리값을 true와 false로 나타낸다.
5. 배열은 쉼표로 구분한 값을 `[]`로 감싼다.
6. 여러 개의 속성과 값을 가진 객체는 `{}`로 감싼다. 속성과 값은 `속성:값` 형식으로 기재하고 쉼표로 구분한다.
7. 결측치는 null로 표기한다.

### JSON 파일의 읽기와 쓰기

`json` 패키지를 이용하면 JSON 파일을 읽고 쓸 수 있다


In [13]:
import json
fi = open('./datasets/sample.json', 'r')
js = json.load(fi)
fi.close()
js

{'concurrency': 10,
 'description': 'This is a topology',
 'environment': 'os-single-controller-n-compute',
 'name': 'Topology1',
 'nodes': [{'chef_client_options': ['-i 3600', '-s 600'],
   'description': 'This is the controller node',
   'fqdn': 'controllername.company.com',
   'name': 'controller',
   'password': 'passw0rd',
   'quit_on_error': True,
   'run_order_number': 1,
   'runlist': ['role[ibm-os-single-controller-node]']},
  {'allow_update': False,
   'attributes': '{"openstack":{"compute":{"libvirt":{"virt_type":"qemu"}}}}',
   'description': 'This is a KVM qemu compute node',
   'fqdn': 'computename.company.com',
   'identity_file': '/root/identity.pem',
   'name': 'KVM qemu compute',
   'run_order_number': 2,
   'runlist': ['role[ibm-os-compute-node-kvm]'],
   'user': 'admin'}],
 'run_sequentially': False,
 'secret_file': 'data_bags/example_data_bag_secret'}

In [14]:
js.keys()

dict_keys(['name', 'description', 'environment', 'secret_file', 'run_sequentially', 'concurrency', 'nodes'])

In [15]:
js['nodes']

[{'chef_client_options': ['-i 3600', '-s 600'],
  'description': 'This is the controller node',
  'fqdn': 'controllername.company.com',
  'name': 'controller',
  'password': 'passw0rd',
  'quit_on_error': True,
  'run_order_number': 1,
  'runlist': ['role[ibm-os-single-controller-node]']},
 {'allow_update': False,
  'attributes': '{"openstack":{"compute":{"libvirt":{"virt_type":"qemu"}}}}',
  'description': 'This is a KVM qemu compute node',
  'fqdn': 'computename.company.com',
  'identity_file': '/root/identity.pem',
  'name': 'KVM qemu compute',
  'run_order_number': 2,
  'runlist': ['role[ibm-os-compute-node-kvm]'],
  'user': 'admin'}]

In [16]:
js['nodes'][1]

{'allow_update': False,
 'attributes': '{"openstack":{"compute":{"libvirt":{"virt_type":"qemu"}}}}',
 'description': 'This is a KVM qemu compute node',
 'fqdn': 'computename.company.com',
 'identity_file': '/root/identity.pem',
 'name': 'KVM qemu compute',
 'run_order_number': 2,
 'runlist': ['role[ibm-os-compute-node-kvm]'],
 'user': 'admin'}

In [17]:
js['nodes'][1].keys()

dict_keys(['name', 'description', 'fqdn', 'user', 'identity_file', 'run_order_number', 'allow_update', 'runlist', 'attributes'])

In [18]:
js['nodes'][1]['user']

'admin'

내용을 수정한 다음 JSON 파일로 저장해보자.

In [19]:
del js['name']
del js['description']
del js['environment']
del js['secret_file']
js['department'] = {'name': 'information statistics', 'year': '1988', 'nb_prof': '7'}

In [20]:
js

{'concurrency': 10,
 'department': {'name': 'information statistics',
  'nb_prof': '7',
  'year': '1988'},
 'nodes': [{'chef_client_options': ['-i 3600', '-s 600'],
   'description': 'This is the controller node',
   'fqdn': 'controllername.company.com',
   'name': 'controller',
   'password': 'passw0rd',
   'quit_on_error': True,
   'run_order_number': 1,
   'runlist': ['role[ibm-os-single-controller-node]']},
  {'allow_update': False,
   'attributes': '{"openstack":{"compute":{"libvirt":{"virt_type":"qemu"}}}}',
   'description': 'This is a KVM qemu compute node',
   'fqdn': 'computename.company.com',
   'identity_file': '/root/identity.pem',
   'name': 'KVM qemu compute',
   'run_order_number': 2,
   'runlist': ['role[ibm-os-compute-node-kvm]'],
   'user': 'admin'}],
 'run_sequentially': False}

In [21]:
fo = open('./datasets/new_sample.json', 'w')
json.dump(js, fo, indent=3)
fo.close()

## 파이썬 프로그램 읽고 실행하기

확장자가 `.py`인 파이썬 프로그램 파일(모듈이라고도 한다)도 텍스트 파일이다.
따라서 파이썬 프로그램이 저장된 파일에서 프로그램을 읽어 와서 실행할 수 있다.

In [22]:
fi = open('./datasets/sample.py', 'r')
prog = fi.read()
fi.close()
print(prog)

def say_hello(name):
    print('Good morning, ' + name + '?')

name = input('What is your name? ')
say_hello(name)



In [23]:
exec(prog)

What is your name? joongyang
Good morning, joongyang?


파이썬 프로그램이 저장된 문자열을 컴파일한 결과를 저장해두면 프로그램을 반복해서 실행할 때 더 좋은 성능을 얻을 수 있다.

In [24]:
cprog = compile(prog, '<string>', 'exec')
exec(cprog)

What is your name? park
Good morning, park?


또는 다음과 같이 프로그램 파일을 바로 컴파일할 수도 있다.

In [25]:
cprog = compile(prog, './datasets/sample.py', 'exec')
exec(cprog)

What is your name? kim
Good morning, kim?


## 컴파일 코드의 저장과 실행

컴파일한 결과를 이진 파일로 저장할 수 있다.
이때 확장자는 `.pyc`를 사용한다.
다음은 `py_compile` 모듈을 이용해서 `samplke.py`를 컴파일한 결과를 `sample.pyc`에 저장하는 예이다.

In [26]:
import py_compile
py_compile.compile('./datasets/sample.py', './datasets/sample.pyc')

'./datasets/sample.pyc'

컴파일된 코드가 저장된 파일은 이진 파일로 읽어야 한다.
machine's native format, bite order, timestamp가 저장된 첫 12바이트를 건너 뛰고 나머지만 읽어들이면 된다.

In [27]:
import marshal

s = open('./datasets/sample.pyc', 'rb')
s.seek(12)
code_obj = marshal.load(s)
exec(code_obj)

What is your name? joongyang
Good morning, joongyang?
