<a href="https://colab.research.google.com/github/dlwltn98/tensorflow_study/blob/master/tensorflow1/%20101.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 타입 조정
  아이리스 : https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv

    * 변수(칼럼) 타입 확인 : 데이터.dtypes
    * 변수를 범주형으로 변경 :
          - 테이터['칼럼명'].astype('category')
    * 변수를 수치형으로 변경 :
          - 데이터['칼럼명'].astype('int')
          - 데이터['칼럼명'].astype('float')
    * NA 값의 처리
          - NA 갯수 체크 : 데이터.isna().sum()
          - NA 값 채우기 : 데이터['칼럼명'].fillna(특정숫자)

In [None]:
import pandas as pd

In [None]:
file_path = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv'
iris = pd.read_csv(file_path)
iris.head()

# 품종이 setosa = 0, virginica = 1, versicolor = 2

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [None]:
encoding = pd.get_dummies(iris)
encoding.head()

# 판다스는 데이터를 읽을때 안에 데이터가 숫자로 되어 있으면 숫자로 인식함
# 그래서 품종을 범주형 칼럼이라고 인지하지 못함
# 원핫인코딩은 type이 category 또는 Object 일때만 원핫인코딩을 함

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [None]:
# 아이리스의 데이터 타입이 어떻게 되어 있나 체크하는 과정이 필요
print(iris.dtypes)

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object


In [None]:
# 품종 타입을 범주형으로 바꾸어준다.
iris['품종'] = iris['품종'].astype('category')
print(iris.dtypes)

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object


In [None]:
encoding = pd.get_dummies(iris)
encoding.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [None]:
# NA 값 체크
iris.isna().sum()

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

In [None]:
iris.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


In [None]:
# NA값에 꽃잎폭 평균값을 넣어주는 방법
mean = iris['꽃잎폭'].mean()
iris['꽃잎폭'] = iris['꽃잎폭'].fillna(mean)

In [None]:
iris.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2


# 학습이 잘 되는 모델
    * 사용할 레이어
        - tf.keras.layers.BatchNormalization()
        - tf.keras.layers.Activation('swish')
    * 데이터
      - 보스턴 :  https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/boston.csv
      - 아이리스 :  https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv

In [None]:
import tensorflow as tf
import pandas as pd

file_path = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/boston.csv'
boston = pd.read_csv(file_path)

독립 = boston[['crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax',
       'ptratio', 'b', 'lstat']]
종속 = boston[['medv']]
print(독립.shape, 종속.shape)

(506, 13) (506, 1)


In [None]:
X = tf.keras.layers.Input(shape=[13])
# H = tf.keras.layers.Dense(8, activation='swish')(X), activation 분리
H = tf.keras.layers.Dense(8)(X)
H = tf.keras.layers.BatchNormalization()(H)
H = tf.keras.layers.Activation('swish')(H)

H = tf.keras.layers.Dense(8)(X)
H = tf.keras.layers.BatchNormalization()(H)
H = tf.keras.layers.Activation('swish')(H)

H = tf.keras.layers.Dense(8)(X)
H = tf.keras.layers.BatchNormalization()(H)
H = tf.keras.layers.Activation('swish')(H)

Y = tf.keras.layers.Dense(1)(H)
model = tf.keras.models.Model(X, Y)
model.compile(loss='mse')

# 동일한 수식이지만 BatchNormalization은 Dense레이어와 activation사이에 적어주는게 효과가 좋다.

In [None]:
model.fit(독립, 종속, epochs=900)

**Iris**

In [None]:
file_path = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv'
iris = pd.read_csv(file_path)

iris = pd.get_dummies(iris)

독립 = iris[['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭']]
종속 = iris[['품종_setosa', '품종_versicolor','품종_virginica']]
print(독립.shape, 종속.shape)

(150, 4) (150, 3)


In [None]:
X = tf.keras.layers.Input(shape=[4])

H = tf.keras.layers.Dense(8)(X)
H = tf.keras.layers.BatchNormalization() (H)
H = tf.keras.layers.Activation('swish') (H)

H = tf.keras.layers.Dense(8)(X)
H = tf.keras.layers.BatchNormalization() (H)
H = tf.keras.layers.Activation('swish') (H)

H = tf.keras.layers.Dense(8)(X)
H = tf.keras.layers.BatchNormalization() (H)
H = tf.keras.layers.Activation('swish') (H)

Y = tf.keras.layers.Dense(3, activation='softmax')(H)
model = tf.keras.models.Model(X,Y)
model.compile(loss='categorical_crossentropy', metrics='accuracy')

In [None]:
model.fit(독립, 종속, epochs=1000)