## 파이썬 라이브러리를 활용한 데이터 분석 2판
https://github.com/wesm/pydata-book

### Chapter 6. 데이터 로딩과 저장, 파일 형식 p237

- 텍스트 파일에서 데이터를 읽고 쓰는법
|함수|설명|
|----|----|
|read_csv|파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.|
|read_table|파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')을 기본으로 한다.|
|read_fwf|고정폭 칼럼 형식에서 데이터를 읽어온다(구분자가 없는 데이터).|
|read_clipboard|클립보드에 있는 데이터를 읽어오는 read_table 함수. 웹페이지에서 표를 읽어올 때 유용하다.|
|read_excel|엑셀 파일(XLS, XLSX)에서 표 형식의 데이터를 읽어온다.|
|read_hdf|pandas에서 저장한 HDFS 파일에서 데이터를 읽어온다.|
|read_html|HTML 문서 내의 모든 테이블의 데이터를 읽어온다.|
|read_json|JSON 문자열에서 데이터를 읽어온다.|
|read_msgpack| 메시지팩 바이너리 포맷으로 인코딩된 pandas 데이터를 읽어온다.|
|read_pickle|파이썬 피클 포맷으로 저장된 객체를 읽어온다.|
|read_sas|SAS 시스템의 사용자 정의 저장 포맷으로 저장된 데이터를 읽어온다.|
|read_sql|SQL 쿼리 결과를 pandas의 DataFrame 형식으로 읽어온다.|
|read_stata|Stata 파일에서 데이터를 읽어온다.|
|read_feather|Feather 바이너리 파일 포맷으로부터 데이터를 읽어온다.|

In [9]:
import pandas as pd

df = pd.read_html('https://dietshin.com/calorie/calorie_main.asp',encoding = 'utf-8')
df

[    순위  순위.1             음식명          단위          칼로리
 0    1   NaN              쌀밥   1공기(210g)     310 kcal
 1    2   NaN           삶은 달걀     1개(50g)      68 kcal
 2    3   NaN             바나나    1개(100g)      93 kcal
 3    4   NaN           방울토마토     1개(13g)       2 kcal
 4    5   NaN           계란프라이     1개(46g)      89 kcal
 5    6   NaN              사과    1회(100g)      57 kcal
 6    7   NaN            배추김치  1소접시(100g)      25 kcal
 7    8   NaN      토마토 (중간크기)    1개(100g)      14 kcal
 8    9   NaN              참외    1개(200g)      62 kcal
 9   10   NaN             아몬드      1개(1g)       7 kcal
 10  11   NaN             잡곡밥   1공기(210g)     340 kcal
 11  12   NaN             현미밥   1공기(210g)     321 kcal
 12  13   NaN              상추   1회분(100g)      18 kcal
 13  14   NaN              수박    1회(100g)      36 kcal
 14  15   NaN           아메리카노   1잔(240ml)       4 kcal
 15  16   NaN            찐고구마    1회(100g)     130 kcal
 16  17   NaN              오이    1개(210g)      19 kcal
 17  18   

In [101]:
import pandas as pd

df = pd.read_html('https://dietshin.com/calorie/calorie_main.asp', encoding='utf-8')
df

[    순위  순위.1             음식명          단위          칼로리
 0    1   NaN              쌀밥   1공기(210g)     310 kcal
 1    2   NaN           삶은 달걀     1개(50g)      68 kcal
 2    3   NaN             바나나    1개(100g)      93 kcal
 3    4   NaN           방울토마토     1개(13g)       2 kcal
 4    5   NaN           계란프라이     1개(46g)      89 kcal
 5    6   NaN              사과    1회(100g)      57 kcal
 6    7   NaN            배추김치  1소접시(100g)      25 kcal
 7    8   NaN      토마토 (중간크기)    1개(100g)      14 kcal
 8    9   NaN              참외    1개(200g)      62 kcal
 9   10   NaN             아몬드      1개(1g)       7 kcal
 10  11   NaN             잡곡밥   1공기(210g)     340 kcal
 11  12   NaN             현미밥   1공기(210g)     321 kcal
 12  13   NaN              상추   1회분(100g)      18 kcal
 13  14   NaN              수박    1회(100g)      36 kcal
 14  15   NaN           아메리카노   1잔(240ml)       4 kcal
 15  16   NaN            찐고구마    1회(100g)     130 kcal
 16  17   NaN              오이    1개(210g)      19 kcal
 17  18   

In [103]:
df = pd.read_clipboard()
df

Unnamed: 0,1,동등,쌀밥,1공기(210g),310 kcal
0,2,동등,삶은 달걀,1개(50g),68 kcal
1,3,동등,바나나,1개(100g),93 kcal
2,4,상승,방울토마토,1개(13g),2 kcal
3,5,동등,계란프라이,1개(46g),89 kcal
4,6,하락,사과,1회(100g),57 kcal
5,7,하락,배추김치,1소접시(100g),25 kcal
6,8,상승,토마토 (중간크기),1개(100g),14 kcal
7,9,하락,참외,1개(200g),62 kcal


In [17]:
'''
헤더가 있는 데이터

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
'''
!head "emxaples/ex.csv"

'head'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [25]:
import pandas as pd
df = pd.read_csv('examples/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [26]:
pd.read_table('examples/ex1.csv',sep='.') # read_table()은 구분자를 따로 지정할 때 사용하는 함수

Unnamed: 0,"a,b,c,d,message"
0,"1,2,3,4,hello"
1,"5,6,7,8,world"
2,"9,10,11,12,foo"


In [None]:
'''
헤더가 없는 데이터
ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo
'''

In [52]:
import pandas as pd
# 헤더가 되는 행 번호(헤더가 없으면 None)
print(pd.read_csv('examples/ex2.csv', header=None))
print()
print(pd.read_csv('examples/ex2.csv', header=0)) #0번재 행을 헤더로 지정
print()
# # 데이터는 헤더행 이후부터
print(pd.read_csv('examples/ex2.csv',header=1)) #1번째 행을 헤더로 지정, 위쪽 데이터는 제거됨


# # 칼럼 이름 지정
print(pd.read_csv('examples/ex2.csv', names = ['a','b','c','d','message']))

   0   1   2   3      4
0  1   2   3   4  hello
1  5   6   7   8  world
2  9  10  11  12    foo

   1   2   3   4  hello
0  5   6   7   8  world
1  9  10  11  12    foo

   5   6   7   8 world
0  9  10  11  12   foo
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


In [32]:
'''
칼럼 이름을 직접 지정 및 인덱스 열 지정
'''

names = ['a','b','c','d','message']
pd.read_csv('examples/ex2.csv',names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [54]:
'''
계층적(다중) 색인 지정

key1, key2, value1, value2
one, a, 1, 2
one, b, 3, 4
````
two.c, 13, 14
two.d, 15, 16
'''
parsed = pd.read_csv('examples/csv_mindex.csv', 
                     index_col=['key1','key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [55]:
'''
고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓은 경우
'''
list(open('examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [56]:
'''
정규 표현식
https://wikidocs.net/4308
https://regexr.com
'''
# 정규 표현식 사용(공백 한개 이상)
result = pd.read_table('examples/ex3.txt',sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [57]:
# p.242
'''
examples/ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who read CSV files with computers, anyway?
. . .
5,6,7,8,world
9,10,11,12,foo
'''
pd.read_csv('examples/ex4.csv', skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [99]:
# p.242
'''
examples/ex5.csv

pandas 는 NA 나 NULL 처럼 통용되는 문자를 비어 있는 값으로 사용함.

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo
'''
print()
result = pd.read_csv('examples/ex5.csv')
print(result)
print()
print(pd.isnull(result))


  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo

   something      a      b      c      d  message
0      False  False  False  False  False     True
1      False  False  False   True  False    False
2      False  False  False  False  False    False


In [66]:
# p.243
'''
na_values 는 리스트나 문자열을 받아 누락된 값을 처리함.

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo
'''
result = pd.read_csv('examples/ex5.csv', na_values=['null','na','foo'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,


In [68]:
# p.247
'''
데이터를 csv 파일로 저장하기
'''
data = pd.read_csv('examples/ex5.csv')
data

data.to_csv('examples/out.csv')
'''
,something,a,b,c,d,message
0,one,1,2,3.0,4
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo
'''

#### JSON 데이터 p251
```
웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 주고 받을 때 널리 사용하는 표준 파일 형식 중 하나
 
JSON(JavaScript Object Notation)은 CSV 같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식
 
몇 가지 미묘한 차이를 제외하면 파이썬 딕셔너리와 거의 유사함
    - 리스트의 마지막에 쉼표가 있으면 안 됨
    - 객체의 키는 반드시 문자열이어야 함
    - ...
```

In [78]:
obj ="""
{"name":"Wes",
"places_lived":["United States", "Spain", "Germany"],
"pet":null,
"siblings":[{"name":"Scott", "age":30, "pets":["Zeus","Zuko"]},
            {"name":"Katie","age":38,
            "pets":["Sixes","Stache","Cisco"]}]

}
"""

In [82]:
# print(type(result))
import json
result = json.loads(obj) # JOSN String을 파이썬 객체로 변환
print(result)
print(type(result))

{'name': 'Wes', 'places_lived': ['United States', 'Spain', 'Germany'], 'pet': None, 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']}, {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}
<class 'dict'>


In [81]:
asjson = json.dumps(result) # 파이썬 객체를 JSON형태로 변환
print(asjson)
print(type(asjson))

{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}
<class 'str'>


In [83]:
# p.253
'''
[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]
'''
data = pd.read_json('examples/example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


#### 6.1.5 XML 과 HTML: 웹 스크래핑 p.253

```
파이썬에는 lxml, Beautiful Soup, 그리고 html5lib 같은 HTML 과 XML 형식의 데이터를 읽고 쓸 수 있는 라이브러리가 많다.
 
그 중에서 lxml 은 가장 빠르게 동작하고 깨진 HTML 과 XML 파일도 잘 처리해준다.
 
XML: eXtensible Markup Language (확장 가능한 마크업 언어)
    시작 태그와 종료 태그가 존재하는 트리 구조의 데이터 형식
    데이터를 저장하거나 주고 받는 것이 목적
 
    <language>
        <Korean>안녕하세요.</Korean>
        <English>Hello.</English>
    </language>
 
HTML: Hyper Text Markup Language
    XML 과 유사한 데이터 형식을 가짐
    데이터를 화면에 출력하는 것이 목적

라이브러리 설치
    conda install lxml
    pip install beautifulsoup4 html5lib
```

In [85]:
'''
pandas 의 내장함수 read_html은 lxml이나 Beautiful Soup같은 라이브러리를 사용해서
자동으로 HTML파일을 파싱하여 DataFrame으로 변환해줌
'''
tables = pd.read_html('examples/fdic_failed_bank_list.html')
print(len(tables))
failures = tables[0]
failures.head()

1


Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [86]:
failures.dtypes

Bank Name                object
City                     object
ST                       object
CERT                      int64
Acquiring Institution    object
Closing Date             object
Updated Date             object
dtype: object

In [91]:
'''
Closing Date
September 23, 2016
August 19, 2016
May 6 2016
'''
print(close_timestamps.dt.date)
print("======="*10)
print(close_timestamps.dt.year)
print("======="*10)
print(close_timestamps.dt.month)
print("======="*10)
print(close_timestamps.dt.day)
print("======="*10)

close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts()

0      2016-09-23
1      2016-08-19
2      2016-05-06
3      2016-04-29
4      2016-03-11
          ...    
542    2001-07-27
543    2001-05-03
544    2001-02-02
545    2000-12-14
546    2000-10-13
Name: Closing Date, Length: 547, dtype: object
0      2016
1      2016
2      2016
3      2016
4      2016
       ... 
542    2001
543    2001
544    2001
545    2000
546    2000
Name: Closing Date, Length: 547, dtype: int64
0       9
1       8
2       5
3       4
4       3
       ..
542     7
543     5
544     2
545    12
546    10
Name: Closing Date, Length: 547, dtype: int64
0      23
1      19
2       6
3      29
4      11
       ..
542    27
543     3
544     2
545    14
546    13
Name: Closing Date, Length: 547, dtype: int64


2010    157
2009    140
2011     92
2012     51
2008     25
2013     24
2014     18
2002     11
2015      8
2016      5
2001      4
2004      4
2003      3
2007      3
2000      2
Name: Closing Date, dtype: int64

### 마이크로소프트 엑셀 파일에서 데이터 읽어오기

In [92]:
frame = pd.read_excel('examples/ex1.xlsx','Sheet1')
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [93]:
frame.to_excel('examples/ex2.xlsx')

### 웹 API와 함께 사용하기
- API : Application Programming Interface

In [94]:
import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
print(resp)
print(resp.text)

<Response [200]>


In [95]:
data = resp.json()
data[0]['title']

'BUG: read_json changes dtype (object => int) '

In [96]:
issues = pd.DataFrame(data, columns=['number','title','lables','state'])
issues

Unnamed: 0,number,title,lables,state
0,41408,BUG: read_json changes dtype (object => int),,open
1,41407,DOC: Unclear first example in pandas.DataFrame...,,open
2,41406,BUG: fix TypeError when looking up a str subcl...,,open
3,41405,BUG: Rolling.__iter__ includes on index column...,,open
4,41404,BUG: hashing's are the same for different key ...,,open
5,41403,REF: set _selection only in __init__,,open
6,41402,DOC: Adding Cylon under ecosystem/out of core,,open
7,41401,REF: groupby remove _selection_name,,open
8,41400,DOC: Remove multiple blank lines in ipython di...,,open
9,41399,WIP: groupby skipna,,open
