# Setup

In [None]:
!pip install autokeras

In [None]:
# 라이브러리 임포트

import pandas as pd # pandas: DataFrame, Series 등을 다루는 라이브러리
import numpy as np # numpy: python으로 행렬 처리 등을 도와주는 라이브러리
import tensorflow as tf # tensorflow: 인공지능 관련 라이브러리
import autokeras as ak # autokeras: 오토케라스

In [None]:
from sklearn.datasets import fetch_california_housing # 캘리포니아 주택 정보 데이터셋 임포트

In [None]:
house_dataset = fetch_california_housing() # 캘리포니아 주택 정보 데이터셋 로드
df = pd.DataFrame(
    np.concatenate(
        (house_dataset.data, house_dataset.target.reshape(-1, 1)), axis=1
    ),
    columns=house_dataset.feature_names + ["Price"],
) # 데이터셋을 DataFrame(엑셀과 비슷한 자료 정리 형식)으로 만듬

In [None]:
train_size = int(df.shape[0]*0.9)
train_file_path = "data/train.csv"
test_file_path = "data/test.csv"
df[:train_size].to_csv(train_file_path, index=False)
df[train_size:].to_csv(test_file_path, index=False)
# 1번 데이터셋을 파일로 저장, 0.9 만큼은 train data로, 0.1만큼은 test data로 저장

In [None]:
from tensorflow.keras.datasets import mnist # mnist 데이터 임포트

In [None]:
(x_train, y_train), (x_test, y_test) = mnist.load_data() # mnist 데이터셋 로드
print(x_train.shape)  # 데이터셋 (60000, 28, 28)
print(y_train.shape)  # (60000,)
print(y_train[:3])  # array([7, 2, 1], dtype=uint8)

# AutoKeras Structured Regression

In [None]:
reg = ak.StructuredDataRegressor(
    overwrite=True, max_trials=5
) # AutoKeras 모델 생성

reg.fit(
    train_file_path,
    "Price",
    epochs=20,
    validation_split=0.15
)
# 모델 학습

predicted_y = reg.predict(test_file_path) # 모델로부터 예측값 획득
print(reg.evaluate(test_file_path, "Price")) # 예측값 평가

In [None]:
model = reg.export_model() # 모델 저장
model.summary()

# AutoKeras Image Classification

In [None]:
clf = ak.ImageClassifier(
    overwrite=True, max_trials=3
) # AutoKeras Image 모델 생성

clf.fit(
    x_train,
    y_train,
    epochs=1,
    validation_split=0.15
) #  모델 학습

predicted_y = clf.predict(x_test) # 모델로부터 예측값 획득
print(predicted_y)
print(clf.evaluate(x_test, y_test)) # 예측값 평가

In [None]:
model = clf.export_model() # 모델 저장
model.summary()

# Learning Basic Pandas

이 섹션에서는 pandas 라는 라이브러리의 사용법을 알아봅시다


### 1.Pandas 라이브러리 import하기

In [None]:
import pandas as pd # pandas 임포트

### 2.파일에서 데이터 로드하기

- 확장자가 CSV가 아닌 파일 즉, 데이터를 구분하는 구분자(separator)가 쉼표(comma)가 아니면 sep 인수를 써서 구분자를 사용자가 지정해준다. 
- 만약 구분자가 길이가 정해지지 않은 공백인 경우에는 \s+라는 정규식(regular expression) 문자열을 사용한다.

In [None]:
# csv타입 데이터 파일, sep:구분자로 여러 공백 지정, 피처이름 없음.
data = pd.read_csv("sample_data/california_housing_train.csv") # csv 파일 읽어오기

파일로부터 데이터를 가져와서 DataFrame 생성하여 반환한다.

In [None]:
data.head() # 처음 5행 출력

In [None]:
data.describe() # 데이터 설명

# How to Show Data

In [None]:
import matplotlib.pyplot as plt # matplotlib.pyplot 임포트
import seaborn as sns # seaborn 임포트
plt.rc('font', family='NanumBarunGothic')

HeatMap 그리기

In [None]:
data = pd.read_csv("sample_data/california_housing_train.csv") # 데이터 로드

In [None]:
data.head() # 데이터 처음 5줄 출력

In [None]:
plt.figure(figsize=(8,8))
sns.heatmap(data.corr(), annot = True) # 히트맵 그리기

선형 그래프 그리기

In [None]:
data = pd.read_csv("sample_data/california_housing_train.csv") # 데이터 로드

In [None]:
data.head() # 데이터 처음 5줄

In [None]:
import matplotlib.pyplot as plt
plt.scatter(data['total_rooms'], data['median_house_value'], c='black')