### 다양한 포맷으로 된 파일을 DataFrame으로 로딩하는 API 

1.  read_excel()


2.  read_csv()         
    - 기본 구분자 콤마(,)


3.  read_table() : 기본 구문자가 탭(\t)이다
               read_csv('파일명','\t') 동일하다
                   
4.  read_fwf() : Fixed Width (고정길이) 기반의 컬럼 포맷을 읽어오는 함수




##### [참고]  utf-8 관련 에러 발생한다면?
    - read_csv('data/temp.csv', encoding=cp949)
    - cp949 : 윈도우에서의 한글

In [1]:
import pandas as pd

# csv 파일로 저장하기
mysource = {
    '시도':['서울','경기','인천','부산','대전'],
    '구분':['특별시','도','광역시','광역시','광역시'],
    '인구':['999만','1300만','400만','600만','300만'],
    '면적':[600.9, 10171, 1234.5, 747.8, 459.1]
}
df = pd.DataFrame(mysource)
df.to_csv('result/temp.csv')  # 한글깨지
df.to_excel('result/temp.xlsx')



In [2]:
# csv 파일을 읽어오는 방법
df1 = pd.read_csv('result/temp.csv') 
    # utf-8 관련 에러 발생한다면? read_csv('data/temp.csv', encoding=cp949)
    # cp949 : 윈도우에서의 한글
df1

Unnamed: 0.1,Unnamed: 0,시도,구분,인구,면적
0,0,서울,특별시,999만,600.9
1,1,경기,도,1300만,10171.0
2,2,인천,광역시,400만,1234.5
3,3,부산,광역시,600만,747.8
4,4,대전,광역시,300만,459.1


In [3]:
# 컬럼명 지정
df1 = pd.read_csv('data/temp.csv', names=['No','시도','구분','인구','면적']) 
df1      # 제목 한 줄이 데이타처럼 되어 있음

Unnamed: 0,No,시도,구분,인구,면적
0,,시도,구분,인구,면적
1,0.0,서울,특별시,999만,600.9
2,1.0,경기,도,1300만,10171.0
3,2.0,인천,광역시,400만,1234.5
4,3.0,부산,광역시,600만,747.8
5,4.0,대전,광역시,300만,459.1


In [4]:
# 컬럼명을 인덱스로 지정
df1 = pd.read_csv('data/temp.csv', 
                  names=['No','시도','구분','인구','면적'], index_col='No')
df1

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,시도,구분,인구,면적
0.0,서울,특별시,999만,600.9
1.0,경기,도,1300만,10171.0
2.0,인천,광역시,400만,1234.5
3.0,부산,광역시,600만,747.8
4.0,대전,광역시,300만,459.1


In [5]:
# 불필요한 행 제외하고 로딩하기
df1 = pd.read_csv('data/temp.csv', 
                  names=['No','시도','구분','인구','면적'], 
                  index_col='No', skiprows=[0])
df1

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5
3,부산,광역시,600만,747.8
4,대전,광역시,300만,459.1


In [6]:
# 출력행수 지정
df1 = pd.read_csv('data/temp.csv', 
                  names=['No','시도','구분','인구','면적'], 
                  index_col='No', skiprows=[0], nrows=3)
df1

Unnamed: 0_level_0,시도,구분,인구,면적
No,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,서울,특별시,999만,600.9
1,경기,도,1300만,10171.0
2,인천,광역시,400만,1234.5


In [7]:
# 엑셀 파일 로딩하기
# 인구주택총조사2015.csv을 read_csv()하면 OSError 왜그럴까?
# df2 = pd.read_csv('data/인구주택총조사2015.csv', nrows=5, engine='python')
# df2

# 행수 지정
df2 = pd.read_excel('data/인구주택총조사2015.xlsx', nrows=5)
df2
# header=1  첫번째 줄이 컬럼명으로 되는것인가?

Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자,내국인_여자,외국인계,외국인_남자,외국인_여자,...,일반가구,집단가구,외국인가구,주택계,단독주택,아파트,연립주택,다세대주택,비거주용건물내주택,주택이외의거처
0,전국,51069375,25608502,25460873,49705663,24819839,24885824,1363712,788663,575049,...,19111030,16464,433109,16367006,3973961,9806062,485349,1898090,203544,607195
1,읍부,4616802,2360708,2256094,4467697,2262853,2204844,149105,97855,51250,...,1695508,2189,39718,1614808,544351,864404,66387,112764,26902,49554
2,면부,4774878,2455898,2318980,4546520,2291860,2254660,228358,164038,64320,...,1927621,4284,49128,1982064,1524970,334810,31485,61366,29433,78036
3,동부,41677695,20791896,20885799,40691446,20265126,20426320,986249,526770,459479,...,15487901,9991,344263,12770134,1904640,8606848,387477,1723960,147209,479605
4,서울특별시,9904312,4859535,5044777,9567196,4694317,4872879,337116,165218,171898,...,3784490,2261,128069,2793244,355039,1636896,117235,654372,29702,150951


In [11]:
# 컬럼 지정 (컬럼의 종류가 너무 많은데 필요한 부분이 작은 경우에 사용한다)
df2 = pd.read_excel('data/인구주택총조사2015.xlsx', nrows=5, usecols='C:K')
df2
  
# df2 = pd.read_excel('data/인구주택총조사2015.xlsx', nrows=5, usecols='3:10') -> 에러발생
# df2

ValueError: Invalid column name: 3

위의 인구조사 데이타에서 정보를 추출

### 텍스트파일 읽어오기

In [7]:
# 텍스트파일 읽어오기
# 미리 엑셀파일에서 5줄 복사해서 메모장에 넣고 (탭구분상태)로 저장한다.
df3 = pd.read_table('data/TextData.txt', encoding='cp949')  # encoding 안하면 에러
df3

  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,행정구역별,총인구,남자,여자,내국인계,내국인_남자
0,전국,51069375,25608502,25460873,49705663,24819839
1,읍부,4616802,2360708,2256094,4467697,2262853
2,면부,4774878,2455898,2318980,4546520,2291860
3,동부,41677695,20791896,20885799,40691446,20265126


### JSON 파일 읽어오기

In [8]:
# JSON 파일 읽어오기
import json
df4 = json.load(open('data/JsonData.json'))
df4

{'kind1': 'koreanfood',
 'region': ['nosong', 'bibim', 'jungsung'],
 'food_name': {'best-of-best': 'bibimbab', 'one-of-best': 'bulgogi'}}

In [9]:
df4.keys()

dict_keys(['kind1', 'region', 'food_name'])

In [10]:
df4['food_name'].keys()

dict_keys(['best-of-best', 'one-of-best'])

In [11]:
df4['region'].keys() -> 에러

AttributeError: 'list' object has no attribute 'keys'

In [13]:
df4['food_name']

{'best-of-best': 'bibimbab', 'one-of-best': 'bulgogi'}

In [14]:
df4['food_name']['best-of-best']

'bibimbab'