# 외부 파일 읽기

- 판다스는 다양한 형태의 외부 파일을 읽어와서 데이터프레임으로 변환하는 함수를 제공
- 판다스 데이터프레임으로 변환된 이후에는 판다스의 모든 함수와 기능 사용 가능

- 파일 형식
    - csv
    - json
    - html
    - ms excel
    - sql
    ...
    
- reader
    - read_csv
    - read_json
    - ....
    
- writer
    - to_csv
    - to_json
    - ....

## csv

- 데이터 값을 쉼표(,)로 구분한다는 의미로 CSV(comma-seperated values) 라고 부르는 텍스트 파일
- 쉼표(,)로 열을 구분하고 줄바꿈으로 행을 구분

In [1]:
import pandas as pd

In [2]:
file_path = "./data/read_csv_sample.csv"

df1 = pd.read_csv(file_path)

In [3]:
df1

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [4]:
df2 = pd.read_csv(file_path, header = None)
df2

Unnamed: 0,0,1,2,3
0,c0,c1,c2,c3
1,0,1,4,7
2,1,2,5,8
3,2,3,6,9


In [5]:
df3 = pd.read_csv(file_path, index_col = "c1")
df3

Unnamed: 0_level_0,c0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,4,7
2,1,5,8
3,2,6,9


- read_csv() 함수의 옵션
    - path
        - 파일의 위치(파일명 포함) 또는 url
    - sep 또는 delimiter
        - 텍스트 데이터를 필드별로 구분하는 문자
        - 쉼표 대신 탭이나 공백으로 텍스트를 구분하는 경우 사용
        
    - header
        - 열 이름으로 사용될 행의 번호
        - 기본값은 0
            - header가 없고 첫 행부터 데이터가 있는 경우 None으로 지정
            
    - index_col
        - 행 인덱스로 사용할 열의 번호 또는 열 이름
        
    - names
        - 열 이름으로 사용할 문자열의 리스트
        
    - skiprows
        - 처음 몇 줄을 skip할 것인지 설정(숫자 입력)
        - skip 하려는 행의 번호를 담은 리스트로 설정 가능
        
    - parse_dates
        - 날짜 텍스트를 datetime64로 변환할 것인지 설정
        - 기본값은 False
        
    - skip footer
        - 마지막 몇 줄을 skip할 것인지 설정(숫자 입력)
        
    - encoding
        - 텍스트 인코딩 종류를 지정

## excel

- excel 파일의 행과 열은 데이터 프레임의 행과 열로 일대일 대응
- read_excel() 함수의 사용법은 read_csv() 와 유사
    - header, index_col 등 대부분의 옵션을 그대로 사용 가능

In [7]:
df1 = pd.read_excel("./data/남북한발전전력량.xlsx")
df1

Unnamed: 0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
1,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
2,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
3,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
4,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
5,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
6,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
7,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
8,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


In [8]:
df2 = pd.read_excel("./data/남북한발전전력량.xlsx", header = None)
df2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,19,20,21,22,23,24,25,26,27,28
0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,...,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
1,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,...,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
2,,수력,64,51,49,60,41,55,52,54,...,50,56,56,65,78,77,84,78,58,66
3,,화력,484,573,696,803,1022,1122,1264,1420,...,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
4,,원자력,529,563,565,581,587,670,739,771,...,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
5,,신재생,-,-,-,-,-,-,-,-,...,-,-,-,-,-,86,118,151,173,195
6,북한,합계,277,263,247,221,231,230,213,193,...,236,255,235,237,211,215,221,216,190,239
7,,수력,156,150,142,133,138,142,125,107,...,133,141,125,134,132,135,139,130,100,128
8,,화력,121,113,105,88,93,88,88,86,...,103,114,110,103,79,80,82,86,90,111
9,,원자력,-,-,-,-,-,-,-,-,...,-,-,-,-,-,-,-,-,-,-


- 실행 환경에 따라 특정 라이브러리 설치 후 engine 옵션에 값을 지정해야 할 수도 있음
    - xlsx 확장자를 갖는 경우 openpyxl
    - xls 확장자를 갖는 경우 xlrd 등

## json

- 데이터 공유를 목적으로 개발된 특수한 파일 형식
- 파이썬 딕셔너리와 비슷한 "key":"value" 구조

In [9]:
df = pd.read_json("./data/read_json_sample.json")

In [10]:
df

Unnamed: 0,name,year,developer,opensource
pandas,,2008,Wes Mckinneye,True
NumPy,,2006,Travis Oliphant,True
matplotlib,,2003,John D. Hunter,True


## html 웹페이지에서 표 속성 가져오기

- read_html()
    - html 웹 페이지에 있는 \<table\> 태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환
    - 각각 별도의 데이터프레임으로 변환되기 때문에 여러 개의 데이터프레임(표)을 원소로 갖는 리스트가 반환

In [11]:
tables = pd.read_html("./data/sample.html") # html 파일 경로 또는 웹페이지 주소를 지정

In [12]:
# 표의 개수 확인
len(tables)

2

In [13]:
# tables 리스트의 원소를 반복하면서 각각 출력
for i in range(len(tables)):
    print(f"tables[{i}]")
    print(tables[i])

tables[0]
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9
tables[1]
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True


# 데이터 저장

## CSV파일로 저장

- 판다스 데이터프레임은 2차원 배열로 구조화된 데이터이기 때문에 2차원 구조를 갖는 csv파일로 변환 가능
- to_csv()

In [14]:
data = {"name" : ["Jerry", "Riah", "Paul"],
       "algol" : ["A", "A+", "B"],
       "basic" : ["C", "B", "B+"]}

df = pd.DataFrame(data)
df = df.set_index("name")

In [15]:
df

Unnamed: 0_level_0,algol,basic
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Jerry,A,C
Riah,A+,B
Paul,B,B+


In [16]:
df.to_csv("./df_sample.csv")

In [17]:
df2 = pd.DataFrame(data)
df2

Unnamed: 0,name,algol,basic
0,Jerry,A,C
1,Riah,A+,B
2,Paul,B,B+


In [19]:
df2.to_csv("./df_sample2.csv")

In [20]:
pd.read_csv("./df_sample2.csv")

Unnamed: 0.1,Unnamed: 0,name,algol,basic
0,0,Jerry,A,C
1,1,Riah,A+,B
2,2,Paul,B,B+


In [21]:
df2.to_csv("./df_sample2.csv", index = False)

In [22]:
pd.read_csv("./df_sample2.csv")

Unnamed: 0,name,algol,basic
0,Jerry,A,C
1,Riah,A+,B
2,Paul,B,B+


## json 파일로 저장

In [23]:
df.to_json("./df_sample.json")

In [24]:
pd.read_json("./df_sample.json")

Unnamed: 0,algol,basic
Jerry,A,C
Riah,A+,B
Paul,B,B+


## excel 파일로 저장

- 데이터프레임의 행과 열은 excel 파일의 행과 열로 일대일 대응
- to_excel()
    - 메소드를 사용하려면 openpyxl 라이브러리가 설치되어 있어야함
    - 아나콘다에서는 openpyxl 라이브러리가 기본제공됨

In [25]:
df.to_excel("./df_sample.xlsx")

In [26]:
pd.read_excel("./df_sample.xlsx")

Unnamed: 0,name,algol,basic
0,Jerry,A,C
1,Riah,A+,B
2,Paul,B,B+


In [27]:
df2.to_excel("./df_sample2.xlsx")

In [28]:
pd.read_excel("./df_sample2.xlsx")

Unnamed: 0.1,Unnamed: 0,name,algol,basic
0,0,Jerry,A,C
1,1,Riah,A+,B
2,2,Paul,B,B+


## 여러 개의 데이터프레임을 하나의 excel 파일로 저장

- 판다스 ExcelWriter() 함수는 excel 워크북 객체를 생성
    - to_excel() 메소드를 적용할 때 삽입하려는 워크북 객체(excel 파일)을 인자로 전달
    - sheet_name 옵션에 excel 파일의 시트이름을 입력하여 삽입되는 시트 위치를 지정할 수 있음

In [29]:
df

Unnamed: 0_level_0,algol,basic
name,Unnamed: 1_level_1,Unnamed: 2_level_1
Jerry,A,C
Riah,A+,B
Paul,B,B+


In [30]:
data2 = {"c0" : [1, 2, 3],
        "c1" : [4, 5, 6],
        "c2" : [7, 8, 9]}

In [31]:
df2 = pd.DataFrame(data2)
df2 = df2.set_index("c0")
df2

Unnamed: 0_level_0,c1,c2
c0,Unnamed: 1_level_1,Unnamed: 2_level_1
1,4,7
2,5,8
3,6,9


In [33]:
writer = pd.ExcelWriter("./df_excelwriter.xlsx")
df.to_excel(writer, sheet_name = "sheet1")
df2.to_excel(writer, sheet_name = "sheet2")
writer.close()