# __데이터 호출, 저장 : 데이터 입출력__
<br>

### Table of contents
1. [텍스트 파일](#p3section1)
    - [파일 읽기](#p3section11)
    - [데이터 타입 변경](#p3section12)
    - [파일 저장](#p3section13)
    - [파일 읽기 필터링](#p3section14)
    - [코멘트 및 공백 처리](#p3section15)
2. [DB 접근](#p3section2)
    - [Table 받기](#p3section21)
    - [Table 저장](#p3section22)

<br>


pandas 는 csv, json, html, excel, sas, DB 파일 등에 포함된 다양한 원본 형태를 처리할 수 있습니다.  
직접적으로 데이터를 다룰 때에는 다른 형태에 대해서는 다른 방식으로 처리하는 것이 일반적입니다.  
하지만 이런 라이브러리를 사용할 때는 다른 형태를 유사하게 처리할 수 있어 편의성이 높아집니다. (Generic)

In [1]:
# 기본 설정
import pandas as pd
import numpy as np
from io import StringIO

<br>

## __텍스트 파일__ <a name="p3section1"></a>

In [2]:
# data 변수는 텍스트 데이터 파일 형식처럼 저장된 문자열로 부터 생성  
# 이런 데이터가 파일에 저장된 경우 아래의 스트링 변수(객체)를 파일 변수로만 바꾸어 주어도 동일하게 작동합니다. 
data = 'col1,col2,col3\na,b,1\na,b,2\nc,d,3' 
df1 = pd.read_csv(StringIO(data)) 
df2 = pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ['COL1', 'COL3']) # column 을 COL1, COL3 만 선택
print(df1)
print('\n', df2)

  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3

   col1  col3
0    a     1
1    a     2
2    c     3


### __파일 읽기__ <a name="p3section11"></a>

In [3]:
# 첫 행에 설명이 없고, 데이터 값인 경우 
data = 'col1,col2,col3\na,b,1\na,b,2\nc,d,3' 
# names 를 통해 칼럼 값을 지정해 줍니다.
# header = None 로 할 경우 첫째 줄도 데이터로 인식
df3 = pd.read_csv(StringIO(data), header=None, names=['new_column1', 'new_column2', 'new_column3'])
print(df3)
# 첫번 째 행(id 0)을 header 로 인식 및 컬럼명 징정
df4 = pd.read_csv(StringIO(data), header=0, names=['new_column1', 'new_column2', 'new_column3']) 
print('\n', df4)

  new_column1 new_column2 new_column3
0        col1        col2        col3
1           a           b           1
2           a           b           2
3           c           d           3

   new_column1 new_column2  new_column3
0           a           b            1
1           a           b            2
2           c           d            3


### __데이터 타입 변경__ <a name="p3section12"></a>

In [12]:
data = 'a,b,c\n1,2,3\n4,5,6\n7,8,9'
# 특정 타입 설정하지 않으면 object 로 인식
# object 는 str, int , float 등 일반적으로 여겨지는 데이터 타입을 자동으로 선택
df1 = pd.read_csv(StringIO(data), dtype=object)
# 특정 값을 원하는 경우 직접 입력 필요 : 예) int --> float, int --> string 등
df2 = pd.read_csv(StringIO(data), dtype={'b': object, 'c': np.float64}) # 컬럼별로 설정 가능
print(df1)
print('\n', df2)

   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9

    a  b    c
0  1  2  3.0
1  4  5  6.0
2  7  8  9.0


### __파일 저장__ <a name="p3section13"></a>

In [13]:
df1.to_csv('./filename.csv')

### __파일 읽기 필터링__ <a name="p3section14"></a>

In [18]:
data = 'a,b,c,d\n1,2,3,foo\n4,5,6,bar\n7,8,9,baz'
df1 = pd.read_csv(StringIO(data))
df2 = pd.read_csv(StringIO(data), usecols=['b', 'd'])
df3 = pd.read_csv(StringIO(data), usecols=[0, 2, 3])
df4 = pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ['A', 'C']) # 컬럼명의 대문자가 'A' 또는 'C'
df5 = pd.read_csv(StringIO(data), usecols=lambda x: x not in ['a', 'c']) # 컬럼명이 'a'나 'c' 가 아닌 것
print(df1)
print('\n', df2)
print('\n', df3)
print('\n', df4)
print('\n', df5)

   a  b  c    d
0  1  2  3  foo
1  4  5  6  bar
2  7  8  9  baz

    b    d
0  2  foo
1  5  bar
2  8  baz

    a  c    d
0  1  3  foo
1  4  6  bar
2  7  9  baz

    a  c
0  1  3
1  4  6
2  7  9

    b    d
0  2  foo
1  5  bar
2  8  baz


### __코멘트 및 공백 처리__ <a name="p3section15"></a>
* 데이터를 입력할 때 코멘트를 허락하면 데이터의 설명이 상세해 질 수 있습니다.  
* 공백 문자가 있는 경우 이를 어떤 값으로 바꿀 지 결정할 수 있습니다.

In [4]:
data = '\na,b,c\n  \n# commented line\n1,2,3\n\n4,5,6' 
print(data)
df1 = pd.read_csv(StringIO(data), comment='#') # '#' 이후는 공백으로 생각, 공백은 무시
# 이 때 '#' 이 라인 중간에 올 경우에는 '#' 뒤 만을 제거
print('\n', df1)
data = 'a,b,c\n\n1,2,3\n\n\n4,5,6' # 공백 추가된 데이터
print('\n', data)
df2 = pd.read_csv(StringIO(data), skip_blank_lines=False) # 공백을 무시하지 않도록 변경, default로 NaN 적용
print('\n', df2)


a,b,c
  
# commented line
1,2,3

4,5,6

    a  b  c
0  1  2  3
1  4  5  6

 a,b,c

1,2,3


4,5,6

      a    b    c
0  NaN  NaN  NaN
1  1.0  2.0  3.0
2  NaN  NaN  NaN
3  NaN  NaN  NaN
4  4.0  5.0  6.0


__* delimiter, column 조정 등 다양한 옵션들의 사용법은 홈페이지에서 확인 가능합니다.__

<br>

## __DB 접근__ <a name="p3section2"></a>

DB를 접근하는 것은 사용하고자 하는 DBMS 드라이버를 설치하고,  
해당 DBMS를 사용하기 위한 라이브러리를 설치하면 됩니다.  
Sqlalchemy 같은 라이브러리를 사용하면 여러 종류의 DBMS 에 대해서 동일한 방식으로 접근 가능하고,  
좀 더 간편하게 사용할 수 있습니다.  
아래 부분들은 기능들을 설명하기 위한 예시입니다.  
실제 사용하기 위해서는 https://www.sqlalchemy.org/ 를 참고하여 작업하시기 바랍니다.  
SQL구문을 pandas로 사용하는 것은 다음 페이지에 좀 더 상세히 설명되어 있습니다.

### __Table 받기__ <a name="p3section21"></a>

In [None]:
import cx_Oracle # 사용하고자 하는 DB 드라이버 및 사용 라이브러리 설치 필요 
from sqlalchemy import create_engine
# 아래 부분은 예시로 실제 사용을 위해서는 sqlalchemy 또는 oracle 접속 라이브러리 사용법 참고하세요
engine = create_engine('oracle://user:passwd@ip:port/sid') # sqlalchemy 참고

In [None]:
with engine.connect() as conn, conn.begin():
    data = pd.read_sql_table('data', conn)
    data2 = pd.read_sql_table('data', conn, index_col) # index로 설정할 칼럼명
    data3 = pd.read_sql_table('data', conn, columns=['col1', 'col2']) # 특정 칼럼만 불러오기
    data4 = pd.read_sql_query('SELECT * FROM DATA', conn) # query 결과를 받기

### __Table 저장__ <a name="p3section22"></a>

In [None]:
data.to_sql('data', engine) 

<br><br>

---
##### [이전 페이지](pandas_tutorial2.ipynb)
##### [다음 페이지](pandas_tutorial4.ipynb)