# chapter 3 DataFrame의 생성과 유지

* 1.DataFrame 만들기 - column별, row별
* 2.csv파일 저장하고 읽기
* 3.대용량 csv 파일을 읽기 위한 메모리 줄이기
* 4.zip파일 읽기    
   


* 5.데이터베이스 데이터 읽기
* 6.JSON파일
* 7.html파일

In [165]:
import pandas as pd
import numpy as np 
pd.set_option('max_columns', 4, 'max_rows', 10, 'max_colwidth', 12)

## 1. DataFrame 만들기: pd.DataFrame

### (1) 열별 DataFrame  생성

In [150]:
# pd.DataFrame 함수에 데이터를 column별 형식으로 맞춰서 넣어줘야 함
# column별 데이터 형태: {"칼럼명" : [데이터1,데이터2,... 데이터n], "칼럼명2":[데이터1,데이터2,... 데이터n] , ...}

#데이터들을 리스트 형태로 만듬
fname = ['Paul', 'John', 'Richard', 'George']
lname = ['McCartney', 'Lennon', 'Starkey', 'Harrison']
birth = [1942, 1940, 1940, 1943]

people = {'first': fname, 'last': lname, 'birth': birth}

In [151]:
# pd.DataFrame 함수에 딕셔너리를 넣어 데이터프레임 생성

beatles = pd.DataFrame(people)
beatles = pd.DataFrame({'first': ['Paul', 'John', 'Richard', 'George'],
                         'last': ['McCartney', 'Lennon', 'Starkey', 'Harrison'],
                        'birth': [1942, 1940, 1940, 1943]}
                      )
beatles

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


###  (2) 행별 DataFrame 생성

In [152]:
# pd.DataFrame 함수에 데이터를 행별 형식으로 맞춰서 넣어줘야 함
# 행별 데이터 형식 :{"컬럼명1":"데이터1","컬럼명2":"데이터2", "컬럼명3":데이터3} 
# 행의 개수만큼의 딕셔너리들을 리스트로 묶어 pd.dataframe 에 넣어주면 생성

pd.DataFrame(
[{"first":"Paul","last":"McCartney", "birth":1942},
 {"first":"John","last":"Lennon", "birth":1940},
 {"first":"Richard","last":"Starkey", "birth":1940},
 {"first":"George","last":"Harrison", "birth":1943}])

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [153]:
# 복잡하지만 column 순서에 상관없이 데이터 입력가능 
# column(열) 순서는 columns 매개변수로 정할 수 있음

pd.DataFrame(
 [{"first":"Paul","last":"McCartney", "birth":1942},
 {"first":"John","last":"Lennon", "birth":1940},
 {"first":"Richard","last":"Starkey", "birth":1940},
 {"last":"Harrison", "birth":1943,"first":"George"}],
columns=['last', 'first', 'birth']) # column의 순서를 결정할 수 있음

Unnamed: 0,last,first,birth
0,McCartney,Paul,1942
1,Lennon,John,1940
2,Starkey,Richard,1940
3,Harrison,George,1943


In [172]:
# 행별 DataFrame 생성 - 리스트로만
# 간단하지만 데이터가 많아지면 칼럼 순서가 헷갈릴 수 있음

pd.DataFrame([['Paul', 'McCartney',1942],
              ['John','Lennon',1940],
              ['Richard','Starkey',1940]])

Unnamed: 0,0,1,2
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940


###  (3) DataFrame에 인덱스 지정하기

In [154]:
# pandas 는 DataFrame 생성되면 RangeIndex 생성(0부터~)

beatles.index # 디폴트값

RangeIndex(start=0, stop=4, step=1)

In [155]:
# index 매개변수로 인덱스를 따로 지정해 줄 수 있음

people = {'first': fname, 'last': lname, 'birth': birth}
pd.DataFrame(people, index=['a', 'b', 'c', 'd'])

Unnamed: 0,first,last,birth
a,Paul,McCartney,1942
b,John,Lennon,1940
c,Richard,Starkey,1940
d,George,Harrison,1943


## 데이터 작업 시

* 데이터를 받아오는 과정에서 파일을 읽거나


* 우리가 가진 데이터를 파일로 저장


## 2. CSV파일   




### (1) csv파일 읽기: read_csv

In [None]:
# pd.read_csv("파일경로 + 파일이름")

### (2) DataFrame을 CSV파일 저장: to_csv 

In [156]:
beatles

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [173]:
from io import StringIO  
fout = StringIO()         

beatles.to_csv(fout)      # 함수사용시 바로 '파일경로+ 파일이름'으로 저장됨

In [158]:
# 교재에서 데이터 결과를 보여주기 위해 stringio 사용 
print(fout.getvalue())

,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943



### (2) read_csv, to_csv 인덱스 설정 
* read_csv로 파일을 읽을 때 설정
* to_csv로 파일을 저장할 때 설정

In [159]:
## read_csv 로 csv파일을 읽을 때
# 아무런 변경 없이 read_csv를 사용해 csv파일을 읽으면 첫 column 'unnamed:0'이 생성됨

_ = fout.seek(0)
pd.read_csv(fout)

Unnamed: 0.1,Unnamed: 0,first,last,birth
0,0,Paul,McCartney,1942
1,1,John,Lennon,1940
2,2,Richard,Starkey,1940
3,3,George,Harrison,1943


In [162]:
# read_csv로 읽을 때, index_column 지정해 줄 수 있다

_ = fout.seek(0)
pd.read_csv(fout, index_col=0) # 0번째 열을 인덱스로 지정

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [148]:
# to_csv로 저장할 때 인덱스를 지정해줄 수 있다.

fout = StringIO()
beatles.to_csv(fout, index=False) 
print(fout.getvalue())

first,last,birth
Paul,McCartney,1942
John,Lennon,1940
Richard,Starkey,1940
George,Harrison,1943



## 3. 대형 csv 파일 읽기(메모리 줄이기)   
* 1. read_csv의 nrows로 읽을 데이터 제한
* 2. read_csv의 dtype을 더 세밀한 수치형식으로 지정
* 3. dtype의 매개변수를 사용하여 객체형식(object)->범주형(category) 변경
* 4. usecolos를 사용하여 필요한 column만 남기기
* 5. chunksize 사용(한번에 읽을 데이터량을 줄이기)

In [36]:
# (1) pd.read_csv의 매개변수 nrows를 통해 읽을데이터 제한

diamonds = pd.read_csv('./data/diamonds.csv', nrows=1000)
diamonds

Unnamed: 0,carat,cut,...,y,z
0,0.23,Ideal,...,3.98,2.43
1,0.21,Premium,...,3.84,2.31
2,0.23,Good,...,4.07,2.31
3,0.29,Premium,...,4.23,2.63
4,0.31,Good,...,4.35,2.75
...,...,...,...,...,...
995,0.54,Ideal,...,5.34,3.26
996,0.72,Ideal,...,5.74,3.57
997,0.72,Good,...,5.89,3.48
998,0.74,Premium,...,5.77,3.58


In [37]:
diamonds.info()  #1000개 행이 78.2 KB 메모리 사용

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    1000 non-null   float64
 1   cut      1000 non-null   object 
 2   color    1000 non-null   object 
 3   clarity  1000 non-null   object 
 4   depth    1000 non-null   float64
 5   table    1000 non-null   float64
 6   price    1000 non-null   int64  
 7   x        1000 non-null   float64
 8   y        1000 non-null   float64
 9   z        1000 non-null   float64
dtypes: float64(6), int64(1), object(3)
memory usage: 78.2+ KB


In [40]:
# (2) read_csv의 dtype매개변수를 사용하여 더 정확한 수치형식 지정

diamonds2 = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,  # float64-> float32 로 변경
           'table': np.float32, 'x': np.float32,
           'y': np.float32, 'z': np.float32,
           'price': np.int16})

In [41]:
diamonds2.info()  # 메모리 78.2KB -> 49.0KB 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    1000 non-null   float32
 1   cut      1000 non-null   object 
 2   color    1000 non-null   object 
 3   clarity  1000 non-null   object 
 4   depth    1000 non-null   float32
 5   table    1000 non-null   float32
 6   price    1000 non-null   int16  
 7   x        1000 non-null   float32
 8   y        1000 non-null   float32
 9   z        1000 non-null   float32
dtypes: float32(6), int16(1), object(3)
memory usage: 49.0+ KB


In [42]:
# 바뀌기전과 후의 데이터의 차이가 있는 지 확인

diamonds.describe()

Unnamed: 0,carat,depth,...,y,z
count,1000.0,1000.0,...,1000.0,1000.0
mean,0.68928,61.7228,...,5.59918,3.45753
std,0.195291,1.758879,...,0.611974,0.389819
min,0.2,53.0,...,3.75,2.27
25%,0.7,60.9,...,5.63,3.45
50%,0.71,61.8,...,5.76,3.55
75%,0.79,62.6,...,5.91,3.64
max,1.27,69.5,...,7.05,4.33


In [43]:
diamonds2.describe()

Unnamed: 0,carat,depth,...,y,z
count,1000.0,1000.0,...,1000.0,1000.0
mean,0.689281,61.722824,...,5.59918,3.457533
std,0.195291,1.758878,...,0.611972,0.389819
min,0.2,53.0,...,3.75,2.27
25%,0.7,60.900002,...,5.63,3.45
50%,0.71,61.799999,...,5.76,3.55
75%,0.79,62.599998,...,5.91,3.64
max,1.27,69.5,...,7.05,4.33


In [45]:
# (3) dtype매개변수를 사용해 객체형식(object)-> 범주형(category)으로 변경 
# 각각의 모든 종류 -> 5가지 범주형으로

diamonds2.cut.value_counts()

Ideal        333
Premium      290
Very Good    226
Good          89
Fair          62
Name: cut, dtype: int64

In [46]:
diamonds2.color.value_counts()

E    240
F    226
G    139
D    129
H    125
I     95
J     46
Name: color, dtype: int64

In [47]:
diamonds2.clarity.value_counts()

SI1     306
VS2     218
VS1     159
SI2     154
VVS2     62
VVS1     58
I1       29
IF       14
Name: clarity, dtype: int64

In [48]:
# 'cut', 'color','clarity' column들을 object -> category 로 변경

diamonds3 = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,
           'table': np.float32, 'x': np.float32,
           'y': np.float32, 'z': np.float32,
           'price': np.int16,
           'cut': 'category', 'color': 'category',
           'clarity': 'category'})

In [49]:
diamonds3.info() # 메모리 49.0KB -> 29.4KB 로 축소됨

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    1000 non-null   float32 
 1   cut      1000 non-null   category
 2   color    1000 non-null   category
 3   clarity  1000 non-null   category
 4   depth    1000 non-null   float32 
 5   table    1000 non-null   float32 
 6   price    1000 non-null   int16   
 7   x        1000 non-null   float32 
 8   y        1000 non-null   float32 
 9   z        1000 non-null   float32 
dtypes: category(3), float32(6), int16(1)
memory usage: 29.4 KB


In [50]:
# (4) usecols매개변수를 사용하여 필요한 column만 사용 (x,y,z를 제외함)

cols = ['carat', 'cut', 'color', 'clarity', 'depth', 'table', 'price']
diamonds4 = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,
           'table': np.float32, 'price': np.int16,
           'cut': 'category', 'color': 'category',
           'clarity': 'category'},
    usecols=cols)

In [51]:
diamonds4.info() # 메모리 29.4KB -> 17.7KB 축소

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    1000 non-null   float32 
 1   cut      1000 non-null   category
 2   color    1000 non-null   category
 3   clarity  1000 non-null   category
 4   depth    1000 non-null   float32 
 5   table    1000 non-null   float32 
 6   price    1000 non-null   int16   
dtypes: category(3), float32(3), int16(1)
memory usage: 17.6 KB


In [53]:
# (5) chunksize 매개변수 사용
#     한꺼번에 전체 데이터를 메모리에 읽어 들이지 않고 일부만 처리해도 될때

cols = ['carat', 'cut', 'color', 'clarity', 'depth', 'table', 'price']
diamonds_iter = pd.read_csv('data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,
           'table': np.float32, 'price': np.int16,
           'cut': 'category', 'color': 'category',
           'clarity': 'category'},
    usecols=cols,
    chunksize=200)

In [54]:
def process(df):
    return f'processed {df.size} items'

In [55]:
for chunk in diamonds_iter:
    process(chunk)

### *Pandas에서 데이터의 dtype 결정 

In [108]:
# 열의 모든 값이 정수, 결측치 없다면 -> int64
# 열이 수치지만 정수가 아닌 경우, 결측치가 있다면 -> float64

# pandas 0.24부터 결측치 있는 정수 -> Int64

# 열이 숫자가 아니라면 object로 변환 후 문자열 취급(문자 각각을 파이썬 문자열로 저장되므로 많은 메모리차지)


### iinfo(), finfo()

In [56]:
#int8 사용시 정보손실 발생
# Numpy iinfo 함수로 Numpy integer 형식의 범위를 볼 수 있음

np.iinfo(np.int8)

iinfo(min=-128, max=127, dtype=int8)

In [57]:
# 부동소수점수 형식의 정보 finfo 함수 사용

np.finfo(np.float16)

finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)

#### memory_usage : DataFrame, Series에 사용할 바이트 지정 가능 

In [58]:
diamonds.price.memory_usage()

8128

In [59]:
diamonds.price.memory_usage(index=False)

8000

In [60]:
diamonds.cut.memory_usage()

8128

In [61]:
diamonds.cut.memory_usage(deep=True) # 객체 형식의 사용량을 알 수 있다, 시스템 전체 메모리 사용량을 파악할 수 있음

63461

In [164]:
# 이진형식 저장

# diamonds4.to_feather('/data/d.arr')
# diamonds5 = pd.read_feather('/data/d.arr')

In [64]:
# diamonds4.to_parquet('/tmp/d.pqt')

### 엑셀 파일 사용  : csv 와 동일한 방식

In [74]:
beatles.to_excel('./data/beat.xls')

  beatles.to_excel('./data/beat.xls')


In [75]:
beatles.to_excel('./data/beat.xlsx')

In [76]:
beat2 = pd.read_excel('./data/beat.xls')
beat2

Unnamed: 0.1,Unnamed: 0,first,last,birth
0,0,Paul,McCartney,1942
1,1,John,Lennon,1940
2,2,Richard,Starkey,1940
3,3,George,Harrison,1943


In [77]:
beat2 = pd.read_excel('./data/beat.xls', index_col=0)
beat2

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [78]:
beat2.dtypes

first    object
last     object
birth     int64
dtype: object

### How it works\...

### There\'s more\...

In [130]:
xl_writer = pd.ExcelWriter('/tmp/beat.xlsx')
beatles.to_excel(xl_writer, sheet_name='All')
beatles[beatles.birth < 1941].to_excel(xl_writer, sheet_name='1940')
xl_writer.save()

## 4. ZIP 파일로 작업   
* zip파일 안에 csv 파일이 1개 있을 때 : read_csv
* zip파일 안에 csv 파일이 여러개 있을 때 : zipfile 모듈 사용

In [79]:
# csv파일이 zip파일에 들어있는 유일한 파일일때: read_csv
autos = pd.read_csv('data/vehicles.csv.zip')
autos

  exec(code_obj, self.user_global_ns, self.user_ns)


Unnamed: 0,barrels08,barrelsA08,...,phevHwy,phevComb
0,15.695714,0.0,...,0,0
1,29.964545,0.0,...,0,0
2,12.207778,0.0,...,0,0
3,29.964545,0.0,...,0,0
4,17.347895,0.0,...,0,0
...,...,...,...,...,...
39096,14.982273,0.0,...,0,0
39097,14.330870,0.0,...,0,0
39098,15.695714,0.0,...,0,0
39099,15.695714,0.0,...,0,0


In [81]:
# zip 파일에 csv파일이 여러개 담겨있을 경우: zipfile 모듈 사용
import zipfile

In [82]:
# kaggle-survey-2018.zip 파일에서 여러 csv파일 중 multipleChoiceResponses.csv파일 읽기

with zipfile.ZipFile('data/kaggle-survey-2018.zip') as z:
    print('\n'.join(z.namelist()))  # csv파일이 3개(= z) 있는걸 확인
    
    kag = pd.read_csv(z.open('multipleChoiceResponses.csv'))  # z중 하나의 csv파일을 읽는다
    kag_questions = kag.iloc[0]  # 설문지 질문 
    survey = kag.iloc[1:]        # 응답

multipleChoiceResponses.csv
freeFormResponses.csv
SurveySchema.csv


  exec(code_obj, self.user_global_ns, self.user_ns)


In [83]:
print(survey.head(2).T)

                        1          2
Time from...          710        434
Q1                 Female       Male
Q1_OTHER_...           -1         -1
Q2                  45-49      30-34
Q3            United S...  Indonesia
...                   ...        ...
Q50_Part_5            NaN        NaN
Q50_Part_6            NaN        NaN
Q50_Part_7            NaN        NaN
Q50_Part_8            NaN        NaN
Q50_OTHER...           -1         -1

[395 rows x 2 columns]


## 5. 데이터베이스 데이터 읽기

In [88]:
import sqlite3
con = sqlite3.connect('data/beat.db')  # 'con' 이라는 데이터베이스 생성
with con:
    cur = con.cursor()  #보통 SQL 구문을 호출해서 데이터를 조작-> SQL 구문을 호출하려면 Cursor객체가 필요 
    cur.execute("""DROP TABLE Band""") 
    cur.execute("""CREATE TABLE Band(id INTEGER PRIMARY KEY,
        fname TEXT, lname TEXT, birthyear INT)""")
    cur.execute("""INSERT INTO Band VALUES(
        0, 'Paul', 'McCartney', 1942)""")
    cur.execute("""INSERT INTO Band VALUES(
        1, 'John', 'Lennon', 1940)""")
    _ = con.commit()

# CREATE TABLE Band: 'Band'라는 테이블을 만든다는 SQL 구문 
# INSERT INTO :해당하는 데이터를 'Band'테이블에 로우로 추가

# COMMIT(): 작업한 내용을 실제로 'con' 데이터베이스에 반영

In [89]:
# 테이블을 읽으려면 SQLAlchemy와 연결 필요 : 데이터베이스를 추상화해주는 라이브러리
# 대부분의 sql데이터베이스와 소통 가능

import sqlalchemy as sa
engine = sa.create_engine(
  'sqlite:///data/beat.db', echo=True)
sa_connection = engine.connect()

In [90]:
# pd.read_sql 사용

beat = pd.read_sql('Band', sa_connection, index_col='id')
beat

2022-02-03 20:01:21,000 INFO sqlalchemy.engine.Engine PRAGMA main.table_info("Band")
2022-02-03 20:01:21,002 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-03 20:01:21,005 INFO sqlalchemy.engine.Engine SELECT name FROM sqlite_master WHERE type='table' ORDER BY name
2022-02-03 20:01:21,006 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-03 20:01:21,009 INFO sqlalchemy.engine.Engine PRAGMA main.table_xinfo("Band")
2022-02-03 20:01:21,010 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-03 20:01:21,013 INFO sqlalchemy.engine.Engine SELECT sql FROM  (SELECT * FROM sqlite_master UNION ALL   SELECT * FROM sqlite_temp_master) WHERE name = ? AND type = 'table'
2022-02-03 20:01:21,015 INFO sqlalchemy.engine.Engine [raw sql] ('Band',)
2022-02-03 20:01:21,017 INFO sqlalchemy.engine.Engine PRAGMA main.foreign_key_list("Band")
2022-02-03 20:01:21,019 INFO sqlalchemy.engine.Engine [raw sql] ()
2022-02-03 20:01:21,020 INFO sqlalchemy.engine.Engine PRAGMA temp.foreign_key_list("Band")
2022-02

Unnamed: 0_level_0,fname,lname,birthyear
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Paul,McCartney,1942
1,John,Lennon,1940


In [87]:
# 파이썬으로 쿼리 가능

sql = '''SELECT fname, birthyear from Band'''
fnames = pd.read_sql(sql, con)
fnames

Unnamed: 0,fname,birthyear
0,Paul,1942
1,John,1940


## 6. JSON 파일 읽기: read_json   
* read_json 함수  
* pandas가 로드할 수 있는 특정 형식이어야 함

In [115]:
# json 모듈을 통해 인코딩 디코딩을 하여 JSON파일을 읽을 수 있다

import json
encoded = json.dumps(people)
encoded

'{"first": ["Paul", "John", "Richard", "George"], "last": ["McCartney", "Lennon", "Starkey", "Harrison"], "birth": [1942, 1940, 1940, 1943]}'

In [116]:
json.loads(encoded)

{'first': ['Paul', 'John', 'Richard', 'George'],
 'last': ['McCartney', 'Lennon', 'Starkey', 'Harrison'],
 'birth': [1942, 1940, 1940, 1943]}

In [117]:
beatles = pd.read_json(encoded)
beatles

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [118]:
records = beatles.to_json(orient='records')
records

'[{"first":"Paul","last":"McCartney","birth":1942},{"first":"John","last":"Lennon","birth":1940},{"first":"Richard","last":"Starkey","birth":1940},{"first":"George","last":"Harrison","birth":1943}]'

In [119]:
pd.read_json(records, orient='records')

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [120]:
split = beatles.to_json(orient='split')
split

'{"columns":["first","last","birth"],"index":[0,1,2,3],"data":[["Paul","McCartney",1942],["John","Lennon",1940],["Richard","Starkey",1940],["George","Harrison",1943]]}'

In [121]:
pd.read_json(split, orient='split')

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [122]:
index = beatles.to_json(orient='index')
index

'{"0":{"first":"Paul","last":"McCartney","birth":1942},"1":{"first":"John","last":"Lennon","birth":1940},"2":{"first":"Richard","last":"Starkey","birth":1940},"3":{"first":"George","last":"Harrison","birth":1943}}'

In [123]:
pd.read_json(index, orient='index')

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [124]:
values = beatles.to_json(orient='values')
values

'[["Paul","McCartney",1942],["John","Lennon",1940],["Richard","Starkey",1940],["George","Harrison",1943]]'

In [125]:
pd.read_json(values, orient='values')

Unnamed: 0,0,1,2
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [126]:
(pd.read_json(values, orient='values')
   .rename(columns=dict(enumerate(['first', 'last', 'birth'])))
)

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


In [127]:
table = beatles.to_json(orient='table')
table

'{"schema":{"fields":[{"name":"index","type":"integer"},{"name":"first","type":"string"},{"name":"last","type":"string"},{"name":"birth","type":"integer"}],"primaryKey":["index"],"pandas_version":"0.20.0"},"data":[{"index":0,"first":"Paul","last":"McCartney","birth":1942},{"index":1,"first":"John","last":"Lennon","birth":1940},{"index":2,"first":"Richard","last":"Starkey","birth":1940},{"index":3,"first":"George","last":"Harrison","birth":1943}]}'

In [128]:
pd.read_json(table, orient='table')

Unnamed: 0,first,last,birth
0,Paul,McCartney,1942
1,John,Lennon,1940
2,Richard,Starkey,1940
3,George,Harrison,1943


### How it works\...

### There\'s more\...

In [129]:
output = beat.to_dict()
output

{'fname': {0: 'Paul', 1: 'John'},
 'lname': {0: 'McCartney', 1: 'Lennon'},
 'birthyear': {0: 1942, 1: 1940}}

In [130]:
output['version'] = '0.4.1'
json.dumps(output)

'{"fname": {"0": "Paul", "1": "John"}, "lname": {"0": "McCartney", "1": "Lennon"}, "birthyear": {"0": 1942, "1": 1940}, "version": "0.4.1"}'

## 7. HTML 테이블 읽기: read_html    
* column들이 순서대로 있지 않다
* 직접 수작업으로 정리해줘야 한다
* Beautifulsoup 라이브러리를 활용하면 html 콘텐츠를 좀 더 쉽게 처리할 수 있다


In [131]:
url ='https://en.wikipedia.org/wiki/The_Beatles_discography'
dfs = pd.read_html(url)
len(dfs)

58

In [132]:
dfs[0]

Unnamed: 0,The Beatles discography,The Beatles discography.1
0,The Beat...,The Beat...
1,Studio a...,13 (core...
2,Live albums,6
3,Compilat...,54
4,Video al...,22
5,Music vi...,68
6,EPs,36
7,Singles,63
8,Mash-ups,2
9,Box sets,17


In [133]:
url ='https://en.wikipedia.org/wiki/The_Beatles_discography'
dfs = pd.read_html(url, match='List of studio albums', na_values='—')
len(dfs)

1

In [134]:
dfs[0].columns

MultiIndex([(               'Title',          'Title'),
            (       'Album details',  'Album details'),
            ('Peak chart positions',       'UK[6][7]'),
            ('Peak chart positions',         'AUS[8]'),
            ('Peak chart positions',         'CAN[9]'),
            ('Peak chart positions',        'FRA[10]'),
            ('Peak chart positions',        'GER[11]'),
            ('Peak chart positions',        'NOR[12]'),
            ('Peak chart positions',     'US[13][14]'),
            (      'Certifications', 'Certifications')],
           )

In [135]:
url ='https://en.wikipedia.org/wiki/The_Beatles_discography'
dfs = pd.read_html(url, match='List of studio albums', na_values='—',
    header=[0,1])
len(dfs)

1

In [136]:
dfs[0]

Unnamed: 0_level_0,Title,Album details,...,Peak chart positions,Certifications
Unnamed: 0_level_1,Title,Album details,...,US[13][14],Certifications
0,Please P...,Released...,...,,BPI: Pla...
1,With the...,Released...,...,,BPI: Gol...
2,Introduc...,Released...,...,2,RIAA: Pl...
3,Meet the...,Released...,...,1,MC: Plat...
4,Twist an...,Released...,...,,MC: 3× P...
...,...,...,...,...,...
22,The Beat...,Released...,...,1,BPI: 2× ...
23,Yellow S...,Released...,...,2,BPI: Gol...
24,Abbey Road,Released...,...,1,BPI: 8× ...
25,Let It Be,Released...,...,1,BPI: Pla...


In [137]:
dfs[0].columns

MultiIndex([(               'Title',          'Title'),
            (       'Album details',  'Album details'),
            ('Peak chart positions',       'UK[6][7]'),
            ('Peak chart positions',         'AUS[8]'),
            ('Peak chart positions',         'CAN[9]'),
            ('Peak chart positions',        'FRA[10]'),
            ('Peak chart positions',        'GER[11]'),
            ('Peak chart positions',        'NOR[12]'),
            ('Peak chart positions',     'US[13][14]'),
            (      'Certifications', 'Certifications')],
           )

In [139]:
# 컬럼 순서를 직접 지정

df = dfs[0]
df.columns = ['Title', 'Release', 'UK', 'AUS', 'CAN', 'FRA', 'GER',
    'NOR', 'US', 'Certifications']
df

Unnamed: 0,Title,Release,...,US,Certifications
0,Please P...,Released...,...,,BPI: Pla...
1,With the...,Released...,...,,BPI: Gol...
2,Introduc...,Released...,...,2,RIAA: Pl...
3,Meet the...,Released...,...,1,MC: Plat...
4,Twist an...,Released...,...,,MC: 3× P...
...,...,...,...,...,...
22,The Beat...,Released...,...,1,BPI: 2× ...
23,Yellow S...,Released...,...,2,BPI: Gol...
24,Abbey Road,Released...,...,1,BPI: 8× ...
25,Let It Be,Released...,...,1,BPI: Pla...


In [140]:
res = (df
  .pipe(lambda df_: df_[~df_.Title.str.startswith('Released')])
  .iloc[:-1]
  .assign(release_date=lambda df_: pd.to_datetime(
             df_.Release.str.extract(r'Released: (.*) Label')
               [0]
               .str.replace(r'\[E\]', '')
          ),
          label=lambda df_:df_.Release.str.extract(r'Label: (.*)')
         )
   .loc[:, ['Title', 'UK', 'AUS', 'CAN', 'FRA', 'GER', 'NOR',
            'US', 'release_date', 'label']]
)
res

  df_.Release.str.extract(r'Released: (.*) Label')


Unnamed: 0,Title,UK,...,release_date,label
0,Please P...,1,...,1963-03-22,Parlopho...
1,With the...,1,...,1963-11-22,Parlopho...
2,Introduc...,,...,1964-01-10,Vee-Jay ...
3,Meet the...,,...,1964-01-20,Capitol ...
4,Twist an...,,...,1964-02-03,Capitol ...
...,...,...,...,...,...
21,Magical ...,31,...,1967-11-27,Parlopho...
22,The Beat...,1,...,1968-11-22,Apple
23,Yellow S...,3,...,1969-01-13,Apple (U...
24,Abbey Road,1,...,1969-09-26,Apple


### How it works\...

### There is more\...

In [141]:
url = 'https://github.com/mattharrison/datasets/blob/master/data/anscombes.csv'
dfs = pd.read_html(url, attrs={'class': 'csv-data'})
len(dfs)

1

In [None]:
dfs[0]