# 판다스 데이터 입출력 도구
### http://pandas.pydata.org

|File Format|Reader|Writer|
|-----------|------|------|
|CSV|read_csv|to_csv|
|JSON|read_json|to_json|
|HTML|read_htmlto_html|
|Local clipboard|read_clipboard|
|MS Excel|read_excel|to_excel|
|HDF5 Format|read_hdf|to_hdf|
|SQL|read_sql|to_sql|

## 1-1 CSV 파일

### CSV(comma-separated-values)
### 쉽표(,)로 열을 구분하고 줄바꿈으로 행을 구분한다.
### CSV 파일 -> 데이터프레임 : pandas.read_csv("파일 경로")

In [2]:
# 라이브러리 불러오기
import pandas as pd

In [3]:
# 파일 경로를 찾고, 변수 file_path에 저장
file_path = './read_csv_sample.csv'

In [4]:
# read_csv() 함수로 데이터프레임 변환. 변수 df1에 저장
df1 = pd.read_csv(file_path)
print(df1)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


In [5]:
# 변수 df2에 저장. header = None 옵션
df2 = pd.read_csv(file_path, header = None)
print(df2)

    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


In [6]:
# 변수 df3에 저장. index_col = None 옵션
df3 = pd.read_csv(file_path, index_col = None)
print(df3)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


In [7]:
# 변수 df4에 저장. indes_col = 'c0' 옵션
df4 = pd.read_csv(file_path, index_col = 'c0')
print(df4)

    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


###  read_csv() 함수 옵션
|옵션|설명|
|----|----|
|path|파일의 위치(파일명 포함), URL|
|sep(또는 delimiter)|텍스트 데이터를 필드별로 구분하는 문자|
|header|열 이름으로 사용될 행의 번호(기본값은 0)|
|index_col|행 인덱스로 사용할 열의 번호 또는 열 이름|
|names|열 이름으로 사용할 문자열의 리스트|
|skiprows|처음 몇 줄을 skip할 것인지 설정(숫자 입력), 리스트로 설정 가능|
|parse_dates|날짜 텍스트를 datetime64로 변환할 것인지 설정(기본값은 False)|
|skip_footer|마지막 몇 줄을 skip할 것인지 설정(숫자 입력)|
|encoding|텍스트 인코딩 종류를 지정|

## 1-2 Excel 파일

### 확장자 .xlsx
### 데이터프레임의 행, 열로 일대일 대응
### Excel 파일 -> 데이터프레임 : pandas.read_excel("파일 경로")
### xlsx 확장자-> engine 옵션에 'openpyxl' 지정
### xls 확장자 -> engine 옵션에 'xlrd' 지정

In [9]:
# read_excel() 함수로 데이터프레임 변환
df1 = pd.read_excel('./남북한발전전력량.xlsx', engine = 'openpyxl')# header = 0(default 옵션)
df2 = pd.read_excel('./남북한발전전력량.xlsx', engine = 'openpyxl', header = None)

In [10]:
print(df1)

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...  2007  \
0        남한     합계  1077  1186  1310  1444  1650  1847  2055  2244  ...  4031   
1       NaN     수력    64    51    49    60    41    55    52    54  ...    50   
2       NaN     화력   484   573   696   803  1022  1122  1264  1420  ...  2551   
3       NaN    원자력   529   563   565   581   587   670   739   771  ...  1429   
4       NaN    신재생     -     -     -     -     -     -     -     -  ...     -   
5        북한     합계   277   263   247   221   231   230   213   193  ...   236   
6       NaN     수력   156   150   142   133   138   142   125   107  ...   133   
7       NaN     화력   121   113   105    88    93    88    88    86  ...   103   
8       NaN    원자력     -     -     -     -     -     -     -     -  ...     -   

   2008  2009  2010  2011  2012  2013  2014  2015  2016  
0  4224  4336  4747  4969  5096  5171  5220  5281  5404  
1    56    56    65    78    77    84    78    58    66  
2  2658  2802  

In [11]:
print(df2)

          0       1     2     3     4     5     6     7     8     9   ...  \
0  전력량 (억㎾h)  발전 전력별  1990  1991  1992  1993  1994  1995  1996  1997  ...   
1         남한      합계  1077  1186  1310  1444  1650  1847  2055  2244  ...   
2        NaN      수력    64    51    49    60    41    55    52    54  ...   
3        NaN      화력   484   573   696   803  1022  1122  1264  1420  ...   
4        NaN     원자력   529   563   565   581   587   670   739   771  ...   
5        NaN     신재생     -     -     -     -     -     -     -     -  ...   
6         북한      합계   277   263   247   221   231   230   213   193  ...   
7        NaN      수력   156   150   142   133   138   142   125   107  ...   
8        NaN      화력   121   113   105    88    93    88    88    86  ...   
9        NaN     원자력     -     -     -     -     -     -     -     -  ...   

     19    20    21    22    23    24    25    26    27    28  
0  2007  2008  2009  2010  2011  2012  2013  2014  2015  2016  
1  4031  4224  4336  474

## 1-3 JSON 파일

### 확장자 .json
### 데이터 공유를 목적으로 개발된 특수한 파일 형식
### 'key : value' 구조
### 구조가 중첩되는 방식에 따라 다르게 적용
### JSON 파일 -> 데이터프레임 : pandas.read_json("파일 경로")

In [13]:
# read_json() 함수로 데이터프레임 변환
df = pd.read_json('./read_json_sample.json')
print(df)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


In [14]:
print(df.index)

Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')
