### 다양한 포맷으로 된 파일을 DataFrame으로 로딩하는 API 

1.  read_excel()


2.  read_csv()         
    - 기본 구분자 콤마(,)


3.  read_table() : 기본 구문자가 탭(\t)이다
               read_csv('파일명','\t') 동일하다
                   
4.  read_fwf() : Fixed Width (고정길이) 기반의 컬럼 포맷을 읽어오는 함수




##### [참고]  utf-8 관련 에러 발생한다면?
    - read_csv('data/temp.csv', encoding=cp949)
    - cp949 : 윈도우에서의 한글

In [7]:
import pandas as pd

# csv 파일로 저장하기
mysource = {
    '시도':['서울','경기','인천','부산','대전'],
    '구분':['특별시','도','광역시','광역시','광역시'],
    '인구':['999만','1300만','400만','600만','300만'],
    '면적':[600.9, 10171, 1234.5, 747.8, 459.1]
}

df = pd.DataFrame(mysource)
df

df.to_csv('./result/temp.csv')
df.to_excel('./result/temp2.xlsx')

In [8]:
# csv 파일을 읽어오는 방법

df2 = pd.read_csv('./result/temp.csv')
df2

Unnamed: 0.1,Unnamed: 0,시도,구분,인구,면적
0,0,서울,특별시,999만,600.9
1,1,경기,도,1300만,10171.0
2,2,인천,광역시,400만,1234.5
3,3,부산,광역시,600만,747.8
4,4,대전,광역시,300만,459.1


In [10]:
# 컬럼명을 인덱스로 지정
df2 = pd.read_csv('./result/temp.csv', index_col='Unnamed: 0')
df2

Unnamed: 0,시도,구분,인구,면적
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [16]:
# 컬럼명 직접 지정
df2 = pd.read_csv('./result/temp.csv', names=['No', '시도', '구분', '인구', '면적'], index_col="No")
df2

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,시도,구분,인구,면적
0.0,서울,특별시,999만,600.9
1.0,경기,도,1300만,10171.0
2.0,인천,광역시,400만,1234.5
3.0,부산,광역시,600만,747.8
4.0,대전,광역시,300만,459.1


In [17]:
# 불필요한 행 제외하고 로딩하기
df2 = pd.read_csv('./result/temp.csv', names=['No', '시도', '구분', '인구', '면적'], index_col="No", skiprows=[0]) # 0번쨰 행을 뺌
df2

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [18]:
# 출력행수 지정
df2 = pd.read_csv('./result/temp.csv', names=['No', '시도', '구분', '인구', '면적'], index_col="No", skiprows=[0], nrows=3) # 몇 행을 가져올지
df2

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5


In [24]:
# 엑셀 파일 로딩하기
#df3 = pd.read_excel('./data/인구주택총조사2015.xlsx')
df3 = pd.read_excel('./data/인구주택총조사2015.xlsx', nrows=10) # 10행만 확인

df3

Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자,내국인_여자,외국인계,외국인_남자,외국인_여자,...,일반가구,집단가구,외국인가구,주택계,단독주택,아파트,연립주택,다세대주택,비거주용건물내주택,주택이외의거처
0,전국,51069375,25608502,25460873,49705663,24819839,24885824,1363712,788663,575049,...,19111030,16464,433109,16367006,3973961,9806062,485349,1898090,203544,607195
1,읍부,4616802,2360708,2256094,4467697,2262853,2204844,149105,97855,51250,...,1695508,2189,39718,1614808,544351,864404,66387,112764,26902,49554
2,면부,4774878,2455898,2318980,4546520,2291860,2254660,228358,164038,64320,...,1927621,4284,49128,1982064,1524970,334810,31485,61366,29433,78036
3,동부,41677695,20791896,20885799,40691446,20265126,20426320,986249,526770,459479,...,15487901,9991,344263,12770134,1904640,8606848,387477,1723960,147209,479605
4,서울특별시,9904312,4859535,5044777,9567196,4694317,4872879,337116,165218,171898,...,3784490,2261,128069,2793244,355039,1636896,117235,654372,29702,150951
5,부산광역시,3448737,1701347,1747390,3404667,1675339,1729328,44070,26008,18062,...,1335900,686,11729,1164352,225697,738068,32120,154253,14214,50810
6,대구광역시,2466052,1228511,1237541,2436770,1211219,1225551,29282,17292,11990,...,928528,574,8471,738100,155801,509068,9381,53098,10752,15304
7,인천광역시,2890451,1455017,1435434,2822601,1414793,1407808,67850,40224,27626,...,1045417,713,20167,942244,102914,577346,21589,232346,8049,39964
8,광주광역시,1502881,748867,754014,1481289,736656,744633,21592,12211,9381,...,567157,438,5586,486527,88401,376731,7396,8517,5482,10625
9,대전광역시,1538394,772243,766151,1519314,763310,756004,19080,8933,10147,...,582504,420,5471,468885,81292,338250,10068,34151,5124,10676


In [8]:
# 컬럼 지정 (컬럼의 종류가 너무 많은데 필요한 부분이 작은 경우에 사용한다)
df3 = pd.read_excel('./data/인구주택총조사2015.xlsx', nrows=10, usecols='C:H') # 10행, C열부터 H열까지(알파벳은 엑셀파일 기준)

### 텍스트파일 읽어오기

In [27]:
# 텍스트파일 읽어오기
# 미리 엑셀파일에서 5줄 복사해서 메모장에 넣고 (탭구분상태)로 저장한다.

# 텍스트파일도 csv파일 읽기로 가능한 듯
df4 = pd.read_csv('data/TextData.txt', '\t', encoding='cp949')  # 기본구분자인 ','가 아닌 '\t(탭)'으로 구분함..
df4

Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자
0,전국,51069375,25608502,25460873,49705663,24819839
1,읍부,4616802,2360708,2256094,4467697,2262853
2,면부,4774878,2455898,2318980,4546520,2291860
3,동부,41677695,20791896,20885799,40691446,20265126


### JSON 파일 읽어오기

In [28]:
# JSON 파일 읽어오기
import json

df5 = json.load( open('data/JsonData.json') )
df5

{'kind1': 'koreanfood',
 'region': ['nosong', 'bibim', 'jungsung'],
 'food_name': {'best-of-best': 'bibimbab', 'one-of-best': 'bulgogi'}}

In [32]:
# df5에서 비빔밥 추출
df5['food_name']['best-of-best']

'bibimbab'