# 다양한 객체 저장/불러오기

연속적인 데이터 분석 과정에서 중간 결과물을 저장하고 활용합니다. Jupyter가 재시작되거나 Python 세션이 재시작 되면 모든 것을 처음부터 재실행해야하므로, 시간이 오래걸리거나 반복 활용하는 객체 혹은 최종 결과물은 적절한 방법으로 Python 바깥으로 저장해야합니다. 



In [None]:
import pandas as pd
df_ins = pd.read_csv('data/insurance.csv')
df_ins

In [None]:
# 집계값 계산
agg1 = df_ins.pivot_table('charges', 'sex', 'smoker')
agg1

In [None]:
# 폴더 만들기
import os
os.mkdir('result')

<br>

### 결과 데이터 저장하기

In [None]:
# to_csv()로 csv 형식으로 저장하기
agg1.to_csv('result/result.csv', index=True)

In [None]:
# to_pickle()로 pickle 형식으로 저장하기
agg1.to_pickle('result/result.pkl')

In [None]:
# to_feather()로 feather 형식으로 저장하기
!pip install pyarrow
agg1.reset_index().to_feather('result/result.ftr')

In [None]:
# 각 형식의 데이터 불러오기
print(pd.read_csv('result/result.csv'))
print(pd.read_pickle('result/result.pkl'))
print(pd.read_feather('result/result.ftr'))
    # 일반적으로 feather가 가볍고 빠르나 데이터만 저장 가능
    # pickle 역시 가볍고 빠르며, 모형 등 모든 Python 객체를 그대로 저장 가능

<br> 

### 그래프 저장하기

In [None]:
import seaborn as sns
pt1 = df_ins.pivot_table(index='region', columns='smoker', values='charges', aggfunc='mean')
plot1 = sns.heatmap(pt1, cmap='Blues', annot=True, fmt='.2f')
plot1

In [None]:
# savefig()을 활용한 그래프 저장
plot1.figure.savefig('result/plot1.jpg')

<br>
<hr>
<br>


# 사용자 정의 함수 활용

Python에서 반복되는 작업 내용이나 기존 함수와 기능의 조합을 함수로 만들어 활용할 수 있습니다. 이때 `def` 명령어를 활용하고, 함수의 앞에 `#`으로 주석을 넣거나 함수 안에서 `"""` 사이에 주석을 넣어 함수 설명을 넣습니다. 그리고 함수 실행 후 출력할 결과는 함수 정의 마지막 부분에서 `return` 명령어 뒤에 넣습니다. 

In [None]:
# 사용자 정의 함수 생성
def my_operation(a, b, c):
    """
    입력된 세 숫자로 간단한 연산 수행
    """
    print('입력된 숫자는 다음과 같습니다.\n a={}, b={}, c={}'.format(a,b,c))
    value = a + b - c
    return(value)

In [None]:
output = my_operation(1,2,3)
output

<br>

함수를 만들기 전에 먼저 실제 작업 내용으로 스크립트를 작성하고, 이후 함수 안에서 바뀔 부분만 인수(argument)화하면 됩니다.

In [None]:
# 데이터 불러오기
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df_ins = pd.read_csv('data/insurance.csv')


# 두 변수로 교차표 만들고 열지도로 시각화해서 저장하기
agg = df_ins.pivot_table(values='charges', index='sex', columns='smoker')
plot2 = sns.heatmap(agg, cmap='Blues')
plot2.figure.savefig('heatmap_'+'charges'+'_by_'+'sex'+'_and_'+'smoker'+'.jpg')

In [None]:
# 함수 생성
def my_heatmap(df, v_var, i_var, c_var):
    agg = df.pivot_table(values=v_var, index=i_var, columns=c_var)
    p = sns.heatmap(agg, cmap='Blues')
    file_name = 'heatmap_'+v_var+'_by_'+i_var+'_and_'+c_var+'.jpg'
    p.figure.savefig(file_name)

In [None]:
my_heatmap(df_ins, 'charges', 'smoker', 'region')

<br>

함수를 좀 더 일반적으로 활용하기 위해서는 함수 정의가 복잡해질 수 밖에 없습니다.


In [None]:
import re 
def my_heatmap2(df, v_var, i_var, c_var):
    agg = df.pivot_table(values=v_var, index=i_var, columns=c_var)
    p = sns.heatmap(agg, cmap='Blues')
    file_name = re.sub('[^A-Za-z0-9_.]+', '', 'heatmap_'+v_var+'_by_'+i_var+'_and_'+c_var+'.jpg') # 특수문자와 공백 제거
    file_name = file_name
    p.figure.savefig(file_name)

In [None]:
df_sp = pd.read_csv('data/StudentsPerformance.csv')
# my_heatmap(df_sp, 'math score', 'race/ethnicity', 'parental level of education')
my_heatmap2(df_sp, 'math score', 'race/ethnicity', 'parental level of education')

#### End of script