# Python for Data Analysis - part6

##### Python의 numpy, pandas 등을 정리하였으며 파이썬 라이브러리를 활용한 데이터분석(2판)을 참고하여 작성하였습니다.
##### 해당 자료는 python 3.6 기반으로 작성되었습니다.

## 6. 데이터 로딩과 저장, 파일 형식
### 6.1 텍스트 파일에서 데이터를 읽고 쓰는 법

In [9]:
import pandas as pd

df = pd.read_csv('examples/ex1.csv')
print(df)
print('-------------------------------------------')

# Read_table 구분자 추가
print(pd.read_table('examples/ex1.csv', sep = ','))
print('-------------------------------------------')

print(pd.read_csv('examples/ex2.csv', header = None))
print('-------------------------------------------')

print(pd.read_csv('examples/ex2.csv', names = ['a', 'b', 'c', 'd', 'message']))
print('-------------------------------------------')

# index가 될 col 지정
names = ['a', 'b', 'c', 'd', 'message']
print(pd.read_csv('examples/ex2.csv', names = names, index_col = 'message'))
print('-------------------------------------------')

parsed = pd.read_csv('examples/csv_mindex.csv', index_col = ['key1', 'key2'])
print(parsed)
print('-------------------------------------------')

# 구분자가 없는 경우 - 정규표현식 사용(여러 개의 공백 문자)
result = pd.read_table('examples/ex3.txt', sep='\s+')
print(result)
print('-------------------------------------------')

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
-------------------------------------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
-------------------------------------------
   0   1   2   3      4
0  1   2   3   4  hello
1  5   6   7   8  world
2  9  10  11  12    foo
-------------------------------------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
-------------------------------------------
         a   b   c   d
message               
hello    1   2   3   4
world    5   6   7   8
foo      9  10  11  12
-------------------------------------------
           value1  value2
key1 key2                
one  a          1       2
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16
---------

In [13]:
# skiprow - 건너 뛸 row 선택
print(pd.read_csv('examples/ex4.csv', skiprows = [0,2,3]))
print('-------------------------------------------')

result = pd.read_csv('examples/ex5.csv')
print(result)
print('-------------------------------------------')
print(pd.isnull(result))
print('-------------------------------------------')

# na_values - 누락된 값을 처리
result = pd.read_csv('examples/ex5.csv', na_values=['NULL'])
print(result)
print('-------------------------------------------')

sentinels = {'message' : ['foo', 'NA'], 'something' : ['two']}
print(pd.read_csv('examples/ex5.csv', na_values=sentinels))
print('-------------------------------------------')

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
-------------------------------------------
  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo
-------------------------------------------
   something      a      b      c      d  message
0      False  False  False  False  False     True
1      False  False  False   True  False    False
2      False  False  False  False  False    False
-------------------------------------------
  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo
-------------------------------------------
  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       NaN  5   6   NaN   8   world
2     three  9  10  11.0  12     NaN
-------------------------------------------


#### - read_csv와 read_table 인자 : path(경로), sep(구분자), delimiter(구분자), header(컬럼으로 사용할 로우 번호), index_col(index로 사용할 컬럼 번호나 이름), names(컬럼 이름으로 사용할 리스트, header = None과 사용), skiprows(무시할 행의 수, 로우 번호가 담긴 리스트), na_values(na값으로 처리할 값들의 목록), parse_dates(datetime 변환 여부), keep_date_col(datetime 변환 시 원래 컬럼 남겨둘 지 여부), nrows(불러올 row 수), encoding(유니코드 인코딩 종류), squeeze(컬럼이 1개면 series 반환) 

#### 6.1.1 텍스트 파일 조금씩 읽어오기

In [14]:
# pandas 출력 설정 변경 - 최대 10개 출력
pd.options.display.max_rows = 10

In [19]:
result = pd.read_csv('examples/ex6.csv')
print(result)
print('-------------------------------------------')

# nrows = 처음 n 줄만 읽기를 원할 때 
print(pd.read_csv('examples/ex6.csv', nrows = 5))
print('-------------------------------------------')

# chunksize - 파일을 여러 조각 나누어서 읽을 때 
chunker = pd.read_csv('examples/ex6.csv', chunksize = 1000)
print(chunker)
print('-------------------------------------------')

tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value =0)
tot = tot.sort_values(ascending = False)

print(tot[:10])
print('-------------------------------------------')

           one       two     three      four key
0     0.467976 -0.038649 -0.295344 -1.824726   L
1    -0.358893  1.404453  0.704965 -0.200638   B
2    -0.501840  0.659254 -0.421691 -0.057688   G
3     0.204886  1.074134  1.388361 -0.982404   R
4     0.354628 -0.133116  0.283763 -0.837063   Q
...        ...       ...       ...       ...  ..
9995  2.311896 -0.417070 -1.409599 -0.515821   L
9996 -0.479893 -0.650419  0.745152 -0.646038   E
9997  0.523331  0.787112  0.486066  1.093156   K
9998 -0.362559  0.598894 -1.843201  0.887292   G
9999 -0.096376 -1.012999 -0.657431 -0.573315   0

[10000 rows x 5 columns]
-------------------------------------------
        one       two     three      four key
0  0.467976 -0.038649 -0.295344 -1.824726   L
1 -0.358893  1.404453  0.704965 -0.200638   B
2 -0.501840  0.659254 -0.421691 -0.057688   G
3  0.204886  1.074134  1.388361 -0.982404   R
4  0.354628 -0.133116  0.283763 -0.837063   Q
-------------------------------------------
<pandas.io.parsers.Tex

  


#### 6.1.2 데이터를 텍스트 형식으로 기록하기

In [23]:
data = pd.read_csv('examples/ex5.csv')
print(data)
print('-------------------------------------------')

# to_csv() - csv로 저장
#  data.to_csv('examples/out.csv')

# sys.stdout() - 실제 파일에 기록하지 않은 채 콘솔에서 확인
import sys

# 저장 구분자 변경
print(data.to_csv(sys.stdout, sep='|'))
print('-------------------------------------------')

# 누락된 값을 원하는 값으로 변경
print(data.to_csv(sys.stdout, na_rep='NULL'))
print('-------------------------------------------')

# 행, 열이름 포함 안함
print(data.to_csv(sys.stdout, index = False, header=False))
print('-------------------------------------------')

# 일부 컬럼만 저장, 순서도 직접 지정
print(data.to_csv(sys.stdout, index = False, columns = ['a', 'b', 'c']))
print('-------------------------------------------')

  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo
-------------------------------------------
|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo
None
-------------------------------------------
,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo
None
-------------------------------------------
one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo
None
-------------------------------------------
a,b,c
1,2,3.0
5,6,
9,10,11.0
None
-------------------------------------------


#### 6.1.3 구분자 형식 다루기

In [24]:
import csv
f = open('examples/ex7.csv')
reader = csv.reader(f)

for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [26]:
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))
    
header, values = lines[0], lines[1:]

data_dict = {h:v for h, v in zip(header, zip(*values))}
print(data_dict)
print('-------------------------------------------')

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}
-------------------------------------------


#### csv 관련 옵션 - delimiter(필드 구분자, 기본은 ',') , lineterminator(파일 저장 시 사용할 개행 문자), quotechar(필드에서 값을 둘러싸고 있는 문자), quoting(값을 읽거나 쓸 때 둘러쌀 문자 컨벤션), skipinitialspace(구분자 뒤 공백문자 무시 여부), doublequote(값을 둘러싸는 문자가 필드 내 존재할 경우 처리 여부)

#### 6.1.4 JSON 데이터

In [28]:
import json

# json.loads() / json.dumps() - json 문자열을 파이썬 형태로 변환 / 파이썬 객체를 json으로 변환
# result = json.loads(obj)
# print(result)
# print('-------------------------------------------')

#### 6.1.5 XML과 HTML: 웹 스크래핑 - 생략
#### - lxml 사용

### 6.2 이진 데이터 형식 - 생략
#### - pickle 파일 그냥 쓰자....

### 6.3 웹 API와 함께 사용하기 - 생략
#### - requests 패키지 활용

### 6.4 데이터베이스와 함께 사용하기 - 생략
#### - sqlite3 사용