**판다스는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수를 제공한다.** 어떤 파일이든 판다스 객체인 데이터프레임으로 변환되고 나면 판다스의 모든 함수와 기능을 자유롭게 사용할 수 있다. 반대로 데이터프레임을 다양한 유형의 파일로 저장할 수도 있다.

<h3> CSV 파일 </h3>
데이터 값을 쉼표(,)로 구분하고 있다는 의미로 **CSV(comma-seperated values)**라고 부르는 텍스트 파일이다. 쉼표(,)로 열을 구분하고 줄바꿈으로 행을 구분한다. 판다스 **read_csv() 함수**에 파일 경로 혹은 이름을 입력하면 CSV 파일을 읽어와서 데이터프레임으로 변환한다.

* **CSV 파일 -> 데이터프레임: pandas.read_csv( "파일 경로(이름)" )**

read_csv() 함수의 **header 옵션**은 데이터프레임의 열 이름으로 사용할 행을 지정한다. header 매개변수의 기본값은 0이고 0행을 열 이름으로 사용하게된다. 1행을 열 이름으로 사용하고 싶다면 header를 1로 지정하면된다. 혹은 열 이름을 지정하고 싶지 않다면 None으로 지정하면 된다. <br>
**index_col() 옵션**은 데이터프레임의 행 인덱스가 되는 열을 지정한다. 기본값은 False로 인덱스를 지정하지 않아 정수 0, 1, 2가 자동으로 지정된다.

CSV 파일에 따라 쉼표(,)대신 탭(\t)이나 공백(" ")으로 텍스트를 구분하기도 한다. 이때는 구분자(sep 또는 delimiter) 옵션을 알맞게 입력해야한다.

* 매개변수 정리
* path: 파일 위치(파일명 포함), URL
* sep(또는 delimiter): 텍스트 데이터를 필드별로 구분하는 문자
* header: 열 이름으로 사용될 행의 번호(기본값은 0), header가 없고 첫 행부터 데이터가 있는 경우 None으로 지정 가능
* index_col: 행 인덱스로 사용할 열의 번호 또는 열 이름
* names: 열 이름으로 사용할 문자열의 리스트
* skiprows: 처음 몇 줄을 skip할 것인지 설정(숫자 입력), skip하려는 행의 번호를 담은 리스트로 설정 가능(예: [1, 3, 5])
* parse_dates: 날짜 텍스트를 datetime64로 변환할 것인지 설정(기본값은 False)
* skip_footer: 마지막 몇 줄을 skip할 것인지 설정(숫자 입력)
* encoding: 텍스트 인코딩 종류를 지정(예: 'utf-8')

In [None]:
import pandas as pd

# read_csv() 함수로 데이터프레임으로 변환한다.
df1 = pd.read_csv('read_csv_sample.csv')
print(df1)
print('\n')

# header 매개변수를 None으로 지정하고 데이터프레임으로 변환한다.
df2 = pd.read_csv('read_csv_sample.csv', header = None)
print(df2)
print('\n')

# index_col 매개변수를 None으로 지정하고 데이터프레임으로 변환한다.
df3 = pd.read_csv('read_csv_sample.csv', index_col = None)
print(df3)
print('\n')

# index_col 매개변수를 c0로 지정하고 데이터프레임으로 변환한다.
df4 = pd.read_csv('read_csv_sample.csv', index_col = 'c0')
print(df4)

   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    0   1   2   3
0  c0  c1  c2  c3
1   0   1   4   7
2   1   2   5   8
3   2   3   6   9


   c0  c1  c2  c3
0   0   1   4   7
1   1   2   5   8
2   2   3   6   9


    c1  c2  c3
c0            
0    1   4   7
1    2   5   8
2    3   6   9


<h3> Excel 파일 </h3>

Excel 파일의 행과 열은 데이터프레임의 행, 열로 일대일 대응된다. **read_excel() 함수**의 사용법은 read_csv() 함수와 거의 동일하다.

* **Excel 파일 -> 데이터프레임: pandas.read_excel( "파일 경로(이름)" )**

**engine 매개변수**는 Excel 파일이 xlsx 확장자인 경우 'openpyxl'을 지정해야 하고, xls인 경우 'xlrd'를 지정해야한다.

In [None]:
df1 = pd.read_excel('남북한발전전력량.xlsx', engine = 'openpyxl') # header = 0 (default 옵션)
df2 = pd.read_excel('남북한발전전력량.xlsx', engine = 'openpyxl', header = None) # header 옵션 미적용 

print(df1)
print('\n')
print(df2)

  전력량 (억㎾h) 발전 전력별  1990  1991  1992  1993  ...  2011  2012  2013  2014  2015  2016
0        남한     합계  1077  1186  1310  1444  ...  4969  5096  5171  5220  5281  5404
1       NaN     수력    64    51    49    60  ...    78    77    84    78    58    66
2       NaN     화력   484   573   696   803  ...  3343  3430  3581  3427  3402  3523
3       NaN    원자력   529   563   565   581  ...  1547  1503  1388  1564  1648  1620
4       NaN    신재생     -     -     -     -  ...     -    86   118   151   173   195
5        북한     합계   277   263   247   221  ...   211   215   221   216   190   239
6       NaN     수력   156   150   142   133  ...   132   135   139   130   100   128
7       NaN     화력   121   113   105    88  ...    79    80    82    86    90   111
8       NaN    원자력     -     -     -     -  ...     -     -     -     -     -     -

[9 rows x 29 columns]


          0       1     2     3     4   ...    24    25    26    27    28
0  전력량 (억㎾h)  발전 전력별  1990  1991  1992  ...  2012  2013  2014

<h3> JSON 파일 </h3>
JSON 파일(확장자: .json)은 데이터 공유 목적으로 개발된 특수한 파일 형식이다. 파이썬 딕셔너리와 비슷하게 'key : value' 구조를 갖는데 구조가 중첩되는 방식에 따라 다르게 적용한다.

* **JSON 파일 -> 데이터프레임: pandas.read_json(" 파일 경로(이름) ")**

**read_json() 함수**를 사용하면 JSON 파일을 데이터프레임으로 변환한다.

In [None]:
df = pd.read_json('read_json_sample.json')
print(df)
print('\n')
print(df.index)

           name  year        developer opensource
pandas           2008    Wes Mckinneye       True
NumPy            2006  Travis Oliphant       True
matplotlib       2003   John D. Hunter       True


Index(['pandas', 'NumPy', 'matplotlib'], dtype='object')
