<a href="https://colab.research.google.com/github/ParkEunbin/ML_basic/blob/main/210125(2)_appendix.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 데이터 타입 조정
https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv

**원핫인코딩할 때 변수 타입으로 인해 발생하는 문제**
- 변수(칼럼) 타입 확인 : 데이터.dtypes
- 변수를 범주형을 변경:
  - 데이터['칼럼명'].astype('category')
- 변수를 수치형으로 변경:
  - 데이터['칼럼명'].astype('int')
  - 데이터['칼럼명'].astype('float')

**데이터의 값에서 NA로 인한 문제**
- NA값의 처리
  - NA 갯수 체크 : 데이터.isna().sum()
  - NA 값 채우기 : 데이터['칼럼명'].fillna(특정숫자)

In [1]:
import pandas as pd

In [3]:
파일경로='https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv'
아이리스=pd.read_csv(파일경로)
아이리스.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [4]:
#원핫인코딩> category거나 object인 경우에만 사용할 수 잇음
#숫자로 되어있으면 숫자로 인식..! 범주로 인식을 못함
인코딩=pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [5]:
#각 칼럼이 무슨 자료형으로 읽어들였는지
print(아이리스.dtypes)

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object


In [6]:
#품종 타입을 범주형으로 바꾸어줘야함
아이리스['품종']=아이리스['품종'].astype('category')
print(아이리스.dtypes)

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object


In [7]:
#원핫인코딩 
인코딩=pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


NA값 처리

In [8]:
#NA값 체크
아이리스.isna().sum()

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

In [9]:
#맨끝에 넣어줬엇움
아이리스.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


In [10]:
# 저값을 바꿔줘야함..! 
# 1. 원본파일을 바꾼다.
# 2. 프로그램에서 넣어준다
#    NA 값에 꽃잎폭 평균값을 넣어주는 방법
mean= 아이리스['꽃잎폭'].mean()
print(mean)
아이리스['꽃잎폭']=아이리스['꽃잎폭'].fillna(mean)
# NA값이 대체됨
아이리스.tail()

3.0543624161073835


Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2


# 학습이 잘 되는 모델
- 사용할 레이어
  - tf.keras.layers.BatchNormalization()
  - tf.keras.layers.Activation('swish')
- 데이터
  - 보스턴 집값 예측 :https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/boston.csv
  - 아이리스 품종 분류 :https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv

** 보스턴 집값 예측 **

In [11]:
# 라이브러리 사용
import tensorflow as tf
import pandas as pd

In [12]:
#1. 과거의 데이터 불러오기
path='https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/boston.csv'
boston = pd.read_csv(path)

독립=boston[['crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax','ptratio', 'b', 'lstat']]
종속=boston[['medv']]
print(독립.shape,종속.shape)

(506, 13) (506, 1)


In [13]:
#2. 모델 만들기 (기존 모델)
X=tf.keras.layers.Input(shape=[13])
H=tf.keras.layers.Dense(8,activation='swish')(X)
H=tf.keras.layers.Dense(8,activation='swish')(X)
H=tf.keras.layers.Dense(8,activation='swish')(X)
Y=tf.keras.layers.Dense(1)(H)
model=tf.keras.models.Model(X,Y)
model.compile(loss='mse')

In [18]:
#2. 모델 만들기
# activation을 나눠주고, batchnormalization을 그 사이에 넣어주는것이 효과적
X=tf.keras.layers.Input(shape=[13])

H=tf.keras.layers.Dense(8)(X)
H=tf.keras.layers.BatchNormalization()(H)
H=tf.keras.layers.Activation('swish')(H)

H=tf.keras.layers.Dense(8)(H)
H=tf.keras.layers.BatchNormalization()(H)
H=tf.keras.layers.Activation('swish')(H)

H=tf.keras.layers.Dense(8)(H)
H=tf.keras.layers.BatchNormalization()(H)
H=tf.keras.layers.Activation('swish')(H)

Y=tf.keras.layers.Dense(1)(H)
model=tf.keras.models.Model(X,Y)
model.compile(loss='mse')

In [19]:
#3. 모델 학습시키기 > 원래 20쯤이었는데 많이 줄어듬
model.fit(독립,종속,epochs=1000,verbose=0)
model.fit(독립,종속,epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f25ee9dae80>

** 아이리스 품종 분류 **


In [20]:
#1. 과거의 데이터를 준비
파일경로 ='https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris.csv'
아이리스=pd.read_csv(파일경로)

#원핫인코딩
인코딩= pd.get_dummies(아이리스)
인코딩.head()

독립=인코딩[['꽃잎길이', '꽃잎폭', '꽃받침길이', '꽃받침폭']]
종속=인코딩[['품종_setosa', '품종_versicolor','품종_virginica']]
print(독립.shape,종속.shape)

(150, 4) (150, 3)


In [21]:
#2. 모델의 구조 만들기
# hidden layer 3개 쌓아주기
X=tf.keras.layers.Input(shape=[4])

H=tf.keras.layers.Dense(8)(X)
H=tf.keras.layers.BatchNormalization()(H)
H=tf.keras.layers.Activation('swish')(H)

H=tf.keras.layers.Dense(8)(H)
H=tf.keras.layers.BatchNormalization()(H)
H=tf.keras.layers.Activation('swish')(H)

H=tf.keras.layers.Dense(8)(H)
H=tf.keras.layers.BatchNormalization()(H)
H=tf.keras.layers.Activation('swish')(H)

Y=tf.keras.layers.Dense(3,activation='softmax')(H)
model= tf.keras.models.Model(X,Y)
model.compile(loss='categorical_crossentropy', metrics='accuracy')

In [23]:
#3. 모델 학습시키기
model.fit(독립,종속,epochs=1000,verbose=0)
model.fit(독립,종속,epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x7f25ed5e0630>