### 다양한 포맷으로 된 파일을 DataFrame으로 로딩하는 API 

1.  read_excel()


2.  read_csv()         
    - 기본 구분자 콤마(,)


3.  read_table() : 기본 구문자가 탭(\t)이다
               read_csv('파일명','\t') 동일하다
                   
4.  read_fwf() : Fixed Width (고정길이) 기반의 컬럼 포맷을 읽어오는 함수




##### [참고]  utf-8 관련 에러 발생한다면?
    - read_csv('data/temp.csv', encoding=cp949)
    - cp949 : 윈도우에서의 한글

In [3]:
import pandas as pd

# csv 파일로 저장하기
mysource = {
    '시도':['서울','경기','인천','부산','대전'],
    '구분':['특별시','도','광역시','광역시','광역시'],
    '인구':['999만','1300만','400만','600만','300만'],
    '면적':[600.9, 10171, 1234.5, 747.8, 459.1]
}

df = pd.DataFrame(mysource)
df

df.to_csv('result/temp.csv') # 한글이 안깨짐
df.to_excel('result/temp.xlsx') # 엑셀로 열었을때 한글이 깨져 있음


In [4]:
# csv 파일을 읽어오는 방법
df1 = pd.read_csv('result/temp.csv',index_col='Unnamed: 0')
df1

Unnamed: 0,시도,구분,인구,면적
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [7]:
# 컬럼명 지정
df1 = pd.read_csv('result/temp.csv',names=['번호','시도','군구','인구수','넓이'], skiprows=[0], index_col=['번호'])
df1

Unnamed: 0_level_0,시도,군구,인구수,넓이
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [4]:
# 컬럼명을 인덱스로 지정
df1 = pd.read_csv('result/temp.csv',names=['번호','시도','군구','인구수','넓이'], skiprows=[0], index_col=['번호'])
df1

In [5]:
# 불필요한 행 제외하고 로딩하기
df1 = pd.read_csv('result/temp.csv',names=['번호','시도','군구','인구수','넓이'], skiprows=[0], index_col=['번호'])
df1

In [8]:
# 출력행수 지정
df1 = pd.read_csv('result/temp.csv',names=['번호','시도','군구','인구수','넓이'], skiprows=[0], index_col=['번호'], nrows=3)
df1

Unnamed: 0_level_0,시도,군구,인구수,넓이
번호,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5


In [12]:
# 엑셀 파일 로딩하기
df2 = pd.read_excel('data/인구주택총조사2015.xlsx')
df2

Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자,내국인_여자,외국인계,외국인_남자,외국인_여자,...,일반가구,집단가구,외국인가구,주택계,단독주택,아파트,연립주택,다세대주택,비거주용건물내주택,주택이외의거처
0,전국,51069375,25608502,25460873,49705663,24819839,24885824,1363712,788663,575049,...,19111030,16464,433109,16367006,3973961,9806062,485349,1898090,203544,607195
1,읍부,4616802,2360708,2256094,4467697,2262853,2204844,149105,97855,51250,...,1695508,2189,39718,1614808,544351,864404,66387,112764,26902,49554
2,면부,4774878,2455898,2318980,4546520,2291860,2254660,228358,164038,64320,...,1927621,4284,49128,1982064,1524970,334810,31485,61366,29433,78036
3,동부,41677695,20791896,20885799,40691446,20265126,20426320,986249,526770,459479,...,15487901,9991,344263,12770134,1904640,8606848,387477,1723960,147209,479605
4,서울특별시,9904312,4859535,5044777,9567196,4694317,4872879,337116,165218,171898,...,3784490,2261,128069,2793244,355039,1636896,117235,654372,29702,150951
5,부산광역시,3448737,1701347,1747390,3404667,1675339,1729328,44070,26008,18062,...,1335900,686,11729,1164352,225697,738068,32120,154253,14214,50810
6,대구광역시,2466052,1228511,1237541,2436770,1211219,1225551,29282,17292,11990,...,928528,574,8471,738100,155801,509068,9381,53098,10752,15304
7,인천광역시,2890451,1455017,1435434,2822601,1414793,1407808,67850,40224,27626,...,1045417,713,20167,942244,102914,577346,21589,232346,8049,39964
8,광주광역시,1502881,748867,754014,1481289,736656,744633,21592,12211,9381,...,567157,438,5586,486527,88401,376731,7396,8517,5482,10625
9,대전광역시,1538394,772243,766151,1519314,763310,756004,19080,8933,10147,...,582504,420,5471,468885,81292,338250,10068,34151,5124,10676


In [14]:
# 컬럼 지정 (컬럼의 종류가 너무 많은데 필요한 부분이 작은 경우에 사용한다)
df2 = pd.read_excel('data/인구주택총조사2015.xlsx',usecols='C:J')
df2

Unnamed: 0,남자,여자,내국인계,내국인_남자,내국인_여자,외국인계,외국인_남자,외국인_여자
0,25608502,25460873,49705663,24819839,24885824,1363712,788663,575049
1,2360708,2256094,4467697,2262853,2204844,149105,97855,51250
2,2455898,2318980,4546520,2291860,2254660,228358,164038,64320
3,20791896,20885799,40691446,20265126,20426320,986249,526770,459479
4,4859535,5044777,9567196,4694317,4872879,337116,165218,171898
5,1701347,1747390,3404667,1675339,1729328,44070,26008,18062
6,1228511,1237541,2436770,1211219,1225551,29282,17292,11990
7,1455017,1435434,2822601,1414793,1407808,67850,40224,27626
8,748867,754014,1481289,736656,744633,21592,12211,9381
9,772243,766151,1519314,763310,756004,19080,8933,10147


### 텍스트파일 읽어오기

In [18]:
# 텍스트파일 읽어오기
# 미리 엑셀파일에서 5줄 복사해서 메모장에 넣고 (탭구분상태)로 저장한다.
df3 = pd.read_csv('data/TextData.txt','\t',encoding='cp949' )
df3


Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자
0,전국,51069375,25608502,25460873,49705663,24819839
1,읍부,4616802,2360708,2256094,4467697,2262853
2,면부,4774878,2455898,2318980,4546520,2291860
3,동부,41677695,20791896,20885799,40691446,20265126


### JSON 파일 읽어오기

In [19]:
# JSON 파일 읽어오기
import json

df4 = json.load(open('data/JsonData.json'))
type(df4)
df4

{'kind1': 'koreanfood',
 'region': ['nosong', 'bibim', 'jungsung'],
 'food_name': {'best-of-best': 'bibimbab', 'one-of-best': 'bulgogi'}}

In [20]:
df4['kind1']

'koreanfood'

In [21]:
df4['food_name']['best-of-best']

'bibimbab'