## 데이터 타입 조정
csv file: https://raw.githubusercontent.com/Jay-Ppark/machine_learning/master/coding_everybody/tensorflow1/csv/iris2.csv
* 변수(칼럼) 타입 확인: 데이터.dtypes
* 변수를 범주형으로 변경: 
    * 데이터['칼럼명'].astype("category")

* 변수를 수치형으로 변경:
    * 데이터['칼럼명'].astype('int')
    * 데이터['칼럼명'].astype('float')

*  NA 값의 처리
    * NA 갯수 체크: 데이터.isna().sum()
    * NA 값 채우기: 데이터['칼럼명'].fillna(특정숫자)

In [1]:
import pandas as pd

In [3]:
ipath = 'https://raw.githubusercontent.com/Jay-Ppark/machine_learning/master/coding_everybody/tensorflow1/csv/iris2.csv'
idata = pd.read_csv(ipath)
idata.head()
# 품종이 범주형 데이터

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [5]:
# one hot encoding
# 범주형 데이터가 원 핫 인코딩이 안됨
# 품종이 숫자로 되어 있으면 판다스는 범주형으로 인식하지 못함
enc_data = pd.get_dummies(idata)
enc_data.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [7]:
# 각 칼럼들의 type을 알 수 있음
# 품종이 정수형으로 되어 있음
# get_dummies가 원 핫 인코딩 하려면 칼럼의 타입이 category거나 object 타입인 경우에만 가능
print(idata.dtypes)

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object


In [9]:
# 품종 타입을 범주형으로 바꾸기
idata['품종'] = idata['품종'].astype('category')
print(idata.dtypes)

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object


In [10]:
# one hot encoding
# one hot encoding 성공
enc_data = pd.get_dummies(idata)
enc_data.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [12]:
# NA값을 채크
# 칼럼별로 na 값이 있는지 확인
idata.isna().sum()

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

In [13]:
idata.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


In [16]:
# 이대로 모델을 만들면 에러가 남 
# na를 숫자로 바꾸거나 해당 행을 제거

# NA 값에 꽃잎폭 평균값을 넣어주는 방법
mean = idata['꽃잎폭'].mean()
print(mean)
idata['꽃잎폭'] = idata['꽃잎폭'].fillna(mean)
idata.tail()

3.0543624161073835


Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2
