### 다양한 포맷으로 된 파일을 DataFrame으로 로딩하는 API 

1.  read_excel()


2.  read_csv()         
    - 기본 구분자 콤마(,)


3.  read_table() : 기본 구문자가 탭(\t)이다
               read_csv('파일명','\t') 동일하다
                   
4.  read_fwf() : Fixed Width (고정길이) 기반의 컬럼 포맷을 읽어오는 함수




##### [참고]  utf-8 관련 에러 발생한다면?
    - read_csv('data/temp.csv', encoding=cp949)
    - cp949 : 윈도우에서의 한글

In [3]:
import pandas as pd

# csv 파일로 저장하기
mysource = {
    '시도':['서울','경기','인천','부산','대전'],
    '구분':['특별시','도','광역시','광역시','광역시'],
    '인구':['999만','1300만','400만','600만','300만'],
    '면적':[600.9, 10171, 1234.5, 747.8, 459.1]
}

df = pd.DataFrame(mysource)
df

#df.to_csv('./result/temp.csv')
#df.to_excel('result/temp2.xlsx')

In [4]:
# csv 파일을 읽어오는 방법
df2 = pd.read_csv('result/temp.csv')
df2

Unnamed: 0.1,Unnamed: 0,시도,구분,인구,면적
0,0,서울,특별시,999만,600.9
1,1,경기,도,1300만,10171.0
2,2,인천,광역시,400만,1234.5
3,3,부산,광역시,600만,747.8
4,4,대전,광역시,300만,459.1


In [5]:
# 컬럼명을 인덱스로 지정
df2 = pd.read_csv('result/temp.csv',index_col='Unnamed: 0')
df2

Unnamed: 0,시도,구분,인구,면적
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [7]:
df2 = pd.read_csv('result/temp.csv',names=['No','시도','구분','인구','면적'],index_col='No',skiprows=[0])
df2

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [8]:
# 불필요한 행 제외하고 로딩하기
df2 = pd.read_csv('result/temp.csv',names=['No','시도','구분','인구','면적'],index_col='No',skiprows=[0],nrows=3)
df2

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5


In [14]:
# 출력행수 지정
df3 = pd.read_excel('./data/인구주택총조사2015.xlsx',nrows=10,usecols='C:H')
df3

Unnamed: 0,남자,여자,내국인계,내국인_남자,내국인_여자,외국인계
0,25608502,25460873,49705663,24819839,24885824,1363712
1,2360708,2256094,4467697,2262853,2204844,149105
2,2455898,2318980,4546520,2291860,2254660,228358
3,20791896,20885799,40691446,20265126,20426320,986249
4,4859535,5044777,9567196,4694317,4872879,337116
5,1701347,1747390,3404667,1675339,1729328,44070
6,1228511,1237541,2436770,1211219,1225551,29282
7,1455017,1435434,2822601,1414793,1407808,67850
8,748867,754014,1481289,736656,744633,21592
9,772243,766151,1519314,763310,756004,19080


In [7]:
# 엑셀 파일 로딩하기


In [8]:
# 컬럼 지정 (컬럼의 종류가 너무 많은데 필요한 부분이 작은 경우에 사용한다)


### 텍스트파일 읽어오기

In [20]:
# 텍스트파일 읽어오기
# 미리 엑셀파일에서 5줄 복사해서 메모장에 넣고 (탭구분상태)로 저장한다.
df4 = pd.read_csv('data/TextData.txt','\t',encoding='cp949')
df4

Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자
0,전국,51069375,25608502,25460873,49705663,24819839
1,읍부,4616802,2360708,2256094,4467697,2262853
2,면부,4774878,2455898,2318980,4546520,2291860
3,동부,41677695,20791896,20885799,40691446,20265126


### JSON 파일 읽어오기

In [27]:
# JSON 파일 읽어오기
import json
df5 = json.load(open('data/JsonData.json'))
df5

{'kind1': 'koreanfood',
 'region': ['nosong', 'bibim', 'jungsung'],
 'food_name': {'best-of-best': 'bibimbab', 'one-of-best': 'bulgogi'}}

In [28]:
df5['food_name']['best-of-best']

'bibimbab'

In [29]:
df5['region'][1]

'bibim'