<a href="https://colab.research.google.com/github/LeeSeungwon89/Python_for_Data_Analytics_Science/blob/main/3.%20%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EC%9E%85%EC%B6%9C%EB%A0%A5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. 데이터 입출력 심화**

데이터 입출력은 전 챕터인 **2. 데이터를 다루기 위한 파이썬 패키지**에서 약간 다뤘습니다. 이번 챕터에서는 좀 더 다양한 파일 형식을 다루는 법을 정리하겠습니다. **데이터 분석을 위한 파이썬 철저 입문(최은석, 위키북스)**, **파이썬 머신러닝 판다스 데이터 분석(오승환, 정보문화사)**을 참고했습니다.

In [1]:
from google.colab import drive
drive.mount('/content/gdrive/')

Mounted at /content/gdrive/


In [2]:
cd /content/gdrive/MyDrive/Python_for_Data_Analytics_Science

/content/gdrive/MyDrive/Python_for_Data_Analytics_Science


In [3]:
import pandas as pd

## **1.1. CSV**

### **1.1.1. 파일 읽기**

`read_csv()` 메서드로 `csv` 파일을 읽습니다. 매개변수 `header`에 행 번호를 인자로 전달하면 해당하는 행을 열명으로 지정합니다. 기본값은 `0`이며 첫 번째 행을 열명으로 삼습니다. 아래에서 예시하겠습니다.

In [4]:
file_path = '/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/5674-833_4th/part2/read_csv_sample.csv'
pd.read_csv(file_path)

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


In [5]:
pd.read_csv(file_path, header=1)

Unnamed: 0,0,1,4,7
0,1,2,5,8
1,2,3,6,9


`header=None`으로 지정하면 열로 지정되지 않습니다.

In [6]:
pd.read_csv(file_path, header=None)

Unnamed: 0,0,1,2,3
0,c0,c1,c2,c3
1,0,1,4,7
2,1,2,5,8
3,2,3,6,9


매개변수 `index_col`의 기본값은 `None`입니다. 인덱스로 컬럼을 지정하지 않았다는 의미입니다.

In [7]:
pd.read_csv(file_path, index_col=None)

Unnamed: 0,c0,c1,c2,c3
0,0,1,4,7
1,1,2,5,8
2,2,3,6,9


`index_col` 매개변수에 'c1' 열을 전달하겠습니다.

In [8]:
pd.read_csv(file_path, index_col=['c1'])

Unnamed: 0_level_0,c0,c2,c3
c1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,4,7
2,1,5,8
3,2,6,9


다중으로 전달할 수도 있습니다.

In [9]:
pd.read_csv(file_path, index_col=['c1', 'c0'])

Unnamed: 0_level_0,Unnamed: 1_level_0,c2,c3
c1,c0,Unnamed: 2_level_1,Unnamed: 3_level_1
1,0,4,7
2,1,5,8
3,2,6,9


몇 가지 주요 매개변수에 대한 목록은 아래와 같습니다.

- `sep` or `delimiter`: 각각 데이터를 구분한 구분자를 전달합니다.

- `names`: 열명으로 사용할 문자열 리스트를 전달합니다.

- `skiprows`: 처음 몇 줄을 스킵할 것인지 설정합니다. 예컨대 `[0, 1]`로 지정하면 0행과 1행은 출력하지 않습니다.

- `parse_dates`: 날짜 텍스트를 `datatime64` 형으로 바꿀지 설정합니다. 기본값은 `False`입니다.

- `skip_footer`: 마지막 몇 줄을 스킵할 것인지 설정합니다.

- `encoding`: 텍스트 인코딩 유형을 지정합니다.

### **1.1.2. 파일 저장하기**

`to_csv()` 메서드로 `csv` 파일로 저장할 수 있습니다.

In [10]:
csv_data = {'name': ['Jerry', 'Riah', 'Paul'],
            'algol': ['A', 'A+', 'B'],
            'basic': ['C', 'B', 'B+'],
            'c++': ['B+', 'C', 'C+']}
df_csv = pd.DataFrame(csv_data)
df_csv

Unnamed: 0,name,algol,basic,c++
0,Jerry,A,C,B+
1,Riah,A+,B,C
2,Paul,B,B+,C+


인덱스를 'name'으로 지정하겠습니다.

In [11]:
df_csv.set_index('name', inplace=True)
df_csv

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+


`csv` 파일로 저장하겠습니다. `sep` 매개변수에 구분자를 공백(`' '`)으로 지정하고 `encoding` 매개변수에 문자형을 `'cp949'`로 지정하겠습니다.

In [12]:
df_csv.to_csv('/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/to_csv2.csv',
              sep=',', encoding='cp949')

## **1.2. 엑셀**

### **1.2.1. 파일 읽기**

`read_excel()` 메서드는 `read_csv()` 메서드와 사용법이 거의 같으며 모든 매개변수를 동일하게 가지고 있습니다. `engine` 매개변수의 경우 `xlsx` 파일이면 `openpyxl`을 인자로 지정하고, `xls` 파일이면 `xlrd`를 인자로 지정합니다.

In [13]:
file_path = '/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/5674-833_4th/part2/남북한발전전력량.xlsx'
pd.read_excel(file_path, engine='openpyxl')

Unnamed: 0,전력량 (억㎾h),발전 전력별,1990,1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015,2016
0,남한,합계,1077,1186,1310,1444,1650,1847,2055,2244,2153,2393,2664,2852,3065,3225,3421,3646,3812,4031,4224,4336,4747,4969,5096,5171,5220,5281,5404
1,,수력,64,51,49,60,41,55,52,54,61,61,56,42,53,69,59,52,52,50,56,56,65,78,77,84,78,58,66
2,,화력,484,573,696,803,1022,1122,1264,1420,1195,1302,1518,1689,1821,1859,2056,2127,2272,2551,2658,2802,3196,3343,3430,3581,3427,3402,3523
3,,원자력,529,563,565,581,587,670,739,771,897,1031,1090,1121,1191,1297,1307,1468,1487,1429,1510,1478,1486,1547,1503,1388,1564,1648,1620
4,,신재생,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,86,118,151,173,195
5,북한,합계,277,263,247,221,231,230,213,193,170,186,194,202,190,196,206,215,225,236,255,235,237,211,215,221,216,190,239
6,,수력,156,150,142,133,138,142,125,107,102,103,102,106,106,117,125,131,126,133,141,125,134,132,135,139,130,100,128
7,,화력,121,113,105,88,93,88,88,86,68,83,92,96,84,79,81,84,99,103,114,110,103,79,80,82,86,90,111
8,,원자력,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-,-


### **1.2.2. 파일 저장하기**

`to_excel()` 메서드를 사용하면 엑셀 파일로 저장합니다. `csv` 파일과 같은 방식으로 적용하겠습니다.

In [14]:
excel_data = {'name': ['Jerry', 'Riah', 'Paul'],
            'algol': ['A', 'A+', 'B'],
            'basic': ['C', 'B', 'B+'],
            'c++': ['B+', 'C', 'C+']}
df_excel = pd.DataFrame(excel_data)
df_excel

Unnamed: 0,name,algol,basic,c++
0,Jerry,A,C,B+
1,Riah,A+,B,C
2,Paul,B,B+,C+


In [15]:
df_excel.set_index('name', inplace=True)
df_excel

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+


In [16]:
df_excel.to_excel('/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/to_excel.xlsx')

여러 데이터프레임을 엑셀 파일 하나에 저장할 수 있습니다. 먼저 데이터프레임을 두 개 만들겠습니다.

In [17]:
excel_data1 = {'name': ['Jerry', 'Riah', 'Paul'],
            'algol': ['A', 'A+', 'B'],
            'basic': ['C', 'B', 'B+'],
            'c++': ['B+', 'C', 'C+']}

excel_data2 = {'c0': [1, 2, 3],
               'c1': [4, 5, 6],
               'c2': [7, 8, 9],
               'c3': [10, 11, 12],
               'c4': [13, 14, 15]}

df1_excel = pd.DataFrame(excel_data1)
df1_excel.set_index('name', inplace=True)

df2_excel = pd.DataFrame(excel_data2)
df2_excel.set_index('c0', inplace=True)

두 데이터프레임을 두 시트에 각각 저장하겠습니다.

In [18]:
test_excelwriter = pd.ExcelWriter('/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/excelwriter.xlsx')
df1_excel.to_excel(test_excelwriter, sheet_name='sheet1')
df2_excel.to_excel(test_excelwriter, sheet_name='sheet2')
test_excelwriter.save()

## **1.3. JSON**

### **1.3.1. 파일 읽기**

In [19]:
file_path = '/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/5674-833_4th/part2/read_json_sample.json'
df_json = pd.read_json(file_path)
df_json

Unnamed: 0,name,year,developer,opensource
pandas,,2008,Wes Mckinneye,True
NumPy,,2006,Travis Oliphant,True
matplotlib,,2003,John D. Hunter,True


### **1.3.2. 파일 저장하기**

In [20]:
json_data = {'name': ['Jerry', 'Riah', 'Paul'],
            'algol': ['A', 'A+', 'B'],
            'basic': ['C', 'B', 'B+'],
            'c++': ['B+', 'C', 'C+']}
df_json = pd.DataFrame(json_data)
df_json

Unnamed: 0,name,algol,basic,c++
0,Jerry,A,C,B+
1,Riah,A+,B,C
2,Paul,B,B+,C+


In [21]:
df_json.set_index('name', inplace=True)
df_json

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Riah,A+,B,C
Paul,B,B+,C+


In [22]:
df_json.to_json('/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/to_json.json')

## **1.4. 웹**

### **1.4.1. 표 가져오기**

`read_html()` 메서드는 HTML 웹 페이지의 `<table>` 태그에서 표 형식 데이터를 데이터프레임으로 변환합니다. 이 표 데이터를 파싱(parsing) 하려면 HTML 웹 페이지 주소를 따옴표 안에 입력합니다. 아래에서 예시하겠습니다.

In [23]:
url = '/content/gdrive/MyDrive/Python_for_Data_Analytics_Science/5674-833_4th/part2/sample.html'
tables_html = pd.read_html(url)
# `read_html()` 메서드로 데이터프레임을 출력하면
# 여러 데이터프레임이 리스트에 담겨서 출력됩니다.
tables_html

[   Unnamed: 0  c0  c1  c2  c3
 0           0   0   1   4   7
 1           1   1   2   5   8
 2           2   2   3   6   9,
          name  year        developer  opensource
 0       NumPy  2006  Travis Oliphant        True
 1  matplotlib  2003   John D. Hunter        True
 2      pandas  2008    Wes Mckinneye        True]

표 개수를 확인하겠습니다.

In [24]:
len(tables_html)

2

두 개의 표를 출력하겠습니다.

In [25]:
print(tables_html[0])
print()
print(tables_html[1])

   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9

         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True


이번에는 두 개의 표를 반복(iteration)하면서 출력하겠습니다.

In [26]:
for i in range(len(tables_html)):
    print(f'{i+1}번째 데이터프레임')
    print(tables_html[i])
    print()

1번째 데이터프레임
   Unnamed: 0  c0  c1  c2  c3
0           0   0   1   4   7
1           1   1   2   5   8
2           2   2   3   6   9

2번째 데이터프레임
         name  year        developer  opensource
0       NumPy  2006  Travis Oliphant        True
1  matplotlib  2003   John D. Hunter        True
2      pandas  2008    Wes Mckinneye        True



이제 2번째 데이터프레임에 행 인덱스를 'name' 열로 지정하겠습니다.

In [27]:
df_html = tables_html[1]
df_html.set_index(['name'], inplace=True)
print(df_html)

            year        developer  opensource
name                                         
NumPy       2006  Travis Oliphant        True
matplotlib  2003   John D. Hunter        True
pandas      2008    Wes Mckinneye        True


### **1.4.2. 웹 스크래핑 하기**

In [28]:
from bs4 import BeautifulSoup
import requests
import re

In [31]:
url = 'https://en.wikipedia.org/wiki/List_of_American_exchange-traded_funds'
resp = requests.get(url)
soup = BeautifulSoup(resp.text, 'lxml')
rows = soup.select('div > ul > li')

### **1.4.3. API로 데이터 가져오기**