### 다양한 포맷으로 된 파일을 DataFrame으로 로딩하는 API 

1.  read_excel()


2.  read_csv()         
    - 기본 구분자 콤마(,)


3.  read_table() : 기본 구문자가 탭(\t)이다
               read_csv('파일명','\t') 동일하다
                   
4.  read_fwf() : Fixed Width (고정길이) 기반의 컬럼 포맷을 읽어오는 함수




##### [참고]  utf-8 관련 에러 발생한다면?
    - read_csv('data/temp.csv', encoding=cp949)
    - cp949 : 윈도우에서의 한글

In [9]:
import pandas as pd

# csv 파일로 저장하기
mysource = {
    '시도':['서울','경기','인천','부산','대전'],
    '구분':['특별시','도','광역시','광역시','광역시'],
    '인구':['999만','1300만','400만','600만','300만'],
    '면적':[600.9, 10171, 1234.5, 747.8, 459.1]
}


In [20]:
df = pd.DataFrame(mysource)
df

df.to_csv('./result/temp.csv') # 한글깨짐
df.to_excel('./result/temp.xlsx')

In [21]:
# csv 파일을 읽어오는 방법
df2 = pd.read_csv('./result/temp.csv')
df2

Unnamed: 0.1,Unnamed: 0,시도,구분,인구,면적
0,0,서울,특별시,999만,600.9
1,1,경기,도,1300만,10171.0
2,2,인천,광역시,400만,1234.5
3,3,부산,광역시,600만,747.8
4,4,대전,광역시,300만,459.1


In [22]:
# 컬럼명을 인덱스로 지정
df2 = pd.read_csv('./result/temp.csv', index_col='Unnamed: 0')
df2

Unnamed: 0,시도,구분,인구,면적
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [27]:
# 불필요한 행 제외하고 로딩하기 ( 경기, 서울 제외)
df3 = pd.read_csv('./result/temp.csv', index_col='Unnamed: 0', skiprows=[1, 2])
df3

Unnamed: 0,시도,구분,인구,면적
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [6]:
# 출력행수 지정


In [7]:
# 엑셀 파일 로딩하기


In [37]:
# 컬럼 지정 (컬럼의 종류가 너무 많은데 필요한 부분이 작은 경우에 사용한다)
# df = pd.read_excel('data/인구주택총조사2015.xlsx')
# df

# usecols 는 읽어오는 파일 엑셀의 열 이름
df = pd.read_excel('data/인구주택총조사2015.xlsx', nrows=10, usecols='E:J')

# df.columns # 컬럼 목록
# df.shape # 행 갯수, 전체 레코드 수
df

Unnamed: 0,내국인계,내국인_남자,내국인_여자,외국인계,외국인_남자,외국인_여자
0,49705663,24819839,24885824,1363712,788663,575049
1,4467697,2262853,2204844,149105,97855,51250
2,4546520,2291860,2254660,228358,164038,64320
3,40691446,20265126,20426320,986249,526770,459479
4,9567196,4694317,4872879,337116,165218,171898
5,3404667,1675339,1729328,44070,26008,18062
6,2436770,1211219,1225551,29282,17292,11990
7,2822601,1414793,1407808,67850,40224,27626
8,1481289,736656,744633,21592,12211,9381
9,1519314,763310,756004,19080,8933,10147


### 텍스트파일 읽어오기

In [41]:
# 텍스트파일(data/TextData.txt) 읽어오기
# 미리 엑셀파일에서 5줄 복사해서 메모장에 넣고 (탭구분상태)로 저장한다.
df = pd.read_csv('data/TextData.txt', '\t', encoding='cp949') # '\t' 구분자 Tab 지정
df

Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자
0,전국,51069375,25608502,25460873,49705663,24819839
1,읍부,4616802,2360708,2256094,4467697,2262853
2,면부,4774878,2455898,2318980,4546520,2291860
3,동부,41677695,20791896,20885799,40691446,20265126


### JSON 파일 읽어오기

In [45]:
# JSON 파일(data/JsonData.json) 읽어오기
# pd.read_json() 있음
import json

df = json.load(open('data/JsonData.json'))
df

{'kind1': 'koreanfood',
 'region': ['nosong', 'bibim', 'jungsung'],
 'food_name': {'best-of-best': 'bibimbab', 'one-of-best': 'bulgogi'}}

In [49]:
# bibimbab 추축
df['food_name']['best-of-best']

'bibimbab'