# 02. 외부데이터 불러오기

## 1. Pandas 모듈을 활용한 외부데이터 가져오기


|File Format|Reader|Writer|
|:-------:|:-------:|:-------:|
|CSV|read_csv|to_csv|
|JSON|read_json|to_json|
|HTML|read_html|to_html|
|Local clipboard|read_clipboard|to_clipboard|
|Excel|read_excel|to_excel|
|HDF5|read_hdf|to_hdf|
|SQL|read_sql|to_sql|

### CSV 파일

In [1]:
import pandas as pd

In [2]:
file_path = './02/df_sample.csv'

df1 = pd.read_csv(file_path)
df1

Unnamed: 0,name,algol,basic,c++
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,C+


In [3]:
file_path1 = './02/df_sample1.csv'

df2 = pd.read_csv(file_path1, header=None)
df2

Unnamed: 0,0,1,2,3
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,C+


> 함수의 index_col 옵션을 통해 데이터프레임의 행 인덱스로 사용할 열의 번호 또는 이름을 지정할 수 있음.   
> 기본값은 None임.  

In [4]:
file_path = './02/df_sample.csv'

df3 = pd.read_csv(file_path, index_col='name')
df3

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lee,A,C,B+
Kim,A+,B,C
Park,B,B+,C+


> 함수의 names 옵션을 통해 데이터프레임의 열 이름을 문자열 리스트를 통해 지정할 수 있음.   
> 기본값은 None임.

In [5]:
file_path1 = './02/df_sample1.csv'

df4 = pd.read_csv(file_path1, header=None, names=['Name','Alog','Bas','C'])
df4

Unnamed: 0,Name,Alog,Bas,C
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,C+


### Excel 파일

In [6]:
file_path = './02/df_sample.xlsx'

df1 = pd.read_excel(file_path)
df1

Unnamed: 0,name,algol,basic,c++
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,C+


In [7]:
file_path1 = './02/df_sample1.xlsx'

df2 = pd.read_excel(file_path1, header=None)
df2

Unnamed: 0,0,1,2,3
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,C+


> 함수의 index_col 옵션을 통해 데이터프레임의 행 인덱스로 사용할 열의 번호 또는 이름을 지정할 수 있음.   
> 기본값은 None임.

In [8]:
file_path = './02/df_sample.xlsx'

df3 = pd.read_excel(file_path, index_col='name')
df3

Unnamed: 0_level_0,algol,basic,c++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lee,A,C,B+
Kim,A+,B,C
Park,B,B+,C+


> 함수의 names 옵션을 통해 데이터프레임의 열 이름을 문자열 리스트를 통해 지정할 수 있음.   
> 기본값은 None임.

In [9]:
file_path1 = './02/df_sample1.xlsx'

df4 = pd.read_excel(file_path1, header=None, names=['Name','Alog','Bas','C'])
df4

Unnamed: 0,Name,Alog,Bas,C
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,C+


### JSON 파일
* JSON 파일은 데이터 공유를 목적으로 개발된 특수 파일 형식으로 파이썬의 딕셔너리와 비슷하게 키와 값의 구조를 갖고 있음.  
* JSON 파일의 키가 자동으로 열이름으로 지정됨.  

In [10]:
file_path = './02/df_sample.json'

df1 = pd.read_json(file_path)
df1

Unnamed: 0,algol,basic,c++
Lee,A,C,B+
Kim,A+,B,C
Park,B,B+,C+


### HTML 파일

* Pandas는 HTML 웹 페이지에 있는 table 태그에서 표 형식의 데이터를 모두 찾아서 데이터프레임으로 변환할 수 있음.  
* 표 데이터들은 각각 별도의 데이터프레임으로 변환되기 때문에 여러 개의 데이터프레임을 원소로 갖는 리스트가 반환됨.  

In [11]:
url = './02/df_sample.html'

tables = pd.read_html(url)
tables

[   Unnamed: 0  c0  c1  c2  c3
 0           0   0   1   4   7
 1           1   1   2   5   8
 2           2   2   3   6   9,
          name  year        developer  opensource
 0       NumPy  2006  Travis Oliphant        True
 1  matplotlib  2003   John D. Hunter        True
 2      pandas  2008    Wes Mckinneye        True]

만약 두 개의 데이터프레임 중 하나만을 선택하려면 위치 인덱스를 사용 하여 각각 출력할 수 있음.

In [12]:
tables[0]

Unnamed: 0.1,Unnamed: 0,c0,c1,c2,c3
0,0,0,1,4,7
1,1,1,2,5,8
2,2,2,3,6,9


In [13]:
tables[1]

Unnamed: 0,name,year,developer,opensource
0,NumPy,2006,Travis Oliphant,True
1,matplotlib,2003,John D. Hunter,True
2,pandas,2008,Wes Mckinneye,True


set_index 함수를 사용하면 행 인덱스로 사용하고 싶은 변수를 지정할 수 있음.

In [14]:
tables[1].set_index(['name'], inplace=True)
tables[1]

Unnamed: 0_level_0,year,developer,opensource
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
NumPy,2006,Travis Oliphant,True
matplotlib,2003,John D. Hunter,True
pandas,2008,Wes Mckinneye,True


## 2. Pandas 모듈을 활용한 데이터프레임 내보내기

### CSV 파일로 저장

In [15]:
data = {'name' : ['Lee', 'Kim', 'Park'],
       'algol' : ['A', 'A+', 'B'],
       'basic' : ['C', 'B', 'B+'],
       'C++' : ['B+', 'C', 'A']}

df = pd.DataFrame(data)
df

Unnamed: 0,name,algol,basic,C++
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,A


In [16]:
df.set_index('name', inplace=True)
df

Unnamed: 0_level_0,algol,basic,C++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lee,A,C,B+
Kim,A+,B,C
Park,B,B+,A


In [17]:
df.to_csv('./02/df_sample11.csv')

### JSON 파일로 저장

In [18]:
data = {'name' : ['Lee', 'Kim', 'Park'],
       'algol' : ['A', 'A+', 'B'],
       'basic' : ['C', 'B', 'B+'],
       'C++' : ['B+', 'C', 'A']}

df = pd.DataFrame(data)
df

Unnamed: 0,name,algol,basic,C++
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,A


In [19]:
df.set_index('name', inplace=True)
df

Unnamed: 0_level_0,algol,basic,C++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lee,A,C,B+
Kim,A+,B,C
Park,B,B+,A


In [20]:
df.to_json('./02/df_sample11.json')

### Excel 파일로 저장

In [21]:
data = {'name' : ['Lee', 'Kim', 'Park'],
       'algol' : ['A', 'A+', 'B'],
       'basic' : ['C', 'B', 'B+'],
       'C++' : ['B+', 'C', 'A']}

df = pd.DataFrame(data)
df

Unnamed: 0,name,algol,basic,C++
0,Lee,A,C,B+
1,Kim,A+,B,C
2,Park,B,B+,A


In [22]:
df.set_index('name', inplace=True)
df

Unnamed: 0_level_0,algol,basic,C++
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lee,A,C,B+
Kim,A+,B,C
Park,B,B+,A


In [23]:
df.to_excel('./02/df_sample11.xlsx')

### 여러 개의 데이터프레임을 하나의 Excel 파일로 저장
* Pandas의 ExcelWriter 함수를 통해 EXCEL 워크북 객체를 생성함. 
* 그런 후, to_excel 함수를 적용할 때 삽입하려는 워크북 객체를 인자로 전달함.
* to_excel 함수의 옵션인 sheet_name을 사용하여 EXCEL 파일의 시트 이름을 입력할 수 있음. 
* 이 때, 시트 이름이 모두 같으면 가장 최근 명령어의 데이터프레임만 남게되고, 시트 이름이 모두 다르면 서로 다른 시트에 여러 데이터프레임을 구분하여 저장할 수 있음.
* 내보낼 데이터프레임에 대한 시트 이름을 모두 완료하였다면 최종적으로 writer.save()명령어를 통해 최종적으로 EXCEL 파일을 저장함.

> 객체이름 = pandas.ExcelWriter(“파일경로(이름)”)  
> 내보낼데이터프레임.to_excel(객체이름,sheet_name=“시트이름”)  
> writer.save()  

In [24]:
data1 = {'name' : ['Jerry', 'Tom', 'Paul'],
       'python' : ['A', 'A+', 'B'],
       'java' : ['C', 'B', 'B+'],
       'C#' : ['B+', 'C', 'A']}

df1 = pd.DataFrame(data1)
df1.set_index('name', inplace=True)
df1

Unnamed: 0_level_0,python,java,C#
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jerry,A,C,B+
Tom,A+,B,C
Paul,B,B+,A


In [25]:
data2 = {'c0':[1,2,3], 
         'c1':[4,5,6], 
         'c2':[7,8,9],
         'c3':[10,11,12],
         'c4':[13,14,15]}

df2 = pd.DataFrame(data2)
df2.set_index('c0', inplace=True)
df2

Unnamed: 0_level_0,c1,c2,c3,c4
c0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,4,7,10,13
2,5,8,11,14
3,6,9,12,15


In [26]:
write = pd.ExcelWriter('./02/df_excel11.xlsx')
df1.to_excel(write, sheet_name='data1')
df2.to_excel(write, sheet_name='data2')
write.save()