# 데이터 타입 조정
(8장 데이터를 위한 팁)   
https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv

- 변수(칼럼) 타입 확인: 데이터.dtypes
- 변수를 범주형으로 변경: 
  - 데이터['칼럼명'].astype('category')
- 변수를 수치형으로 변경: 
  - 데이터['칼럼명'].astype('int')
  - 데이터['칼럼명'].astype('float')
- NA 값의 처리 
  - NA 갯수 체크: 데이터.isna().sum()
  - NA 값 채우기: 데이터['칼럼명'].fillna(특정숫자)

In [1]:
# 라이브러리 사용
import pandas as pd

In [13]:
# 파일 읽어오기
파일경로 = '../data/csv/iris2.csv'
아이리스 = pd.read_csv(파일경로)
아이리스.head()
# 품종이 숫자 데이터로 바뀐 것을 확인

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [3]:
# 원핫인코딩 되지 않는 현상 확인
인코딩 = pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [4]:
# 칼럼의 데이터 타입 체크
print(아이리스.dtypes)
# 품종이 int64인 것을 확인할 수 있다.

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object


In [7]:
# 품종 타입을 범주형으로 바꾸어 준다. astype('category')
아이리스['품종'] = 아이리스['품종'].astype('category')
print(아이리스.dtypes)
아이리스.head() # 실제 데이터가 바뀐 것은 아니다

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object


Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [8]:
# 카테고리 타입의 변수만 원핫인코딩이 가능하다.
인코딩 = pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [10]:
# 컬럼별 NA값 갯수를 체크해 봅시다. 
아이리스.isna().sum()

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

In [11]:
아이리스.tail()
# 빈 값은 0이 아니라 NaN(Not a Number)으로 읽어들인다.

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


In [12]:
# NaN이 포함된 데이터를 그대로 모델에 집어넣으면 에러가 발생하므로, 다른 숫자로 바꾸거나 행 삭제를 해야한다.
# 예) NA값에 꽃잎폭 '평균값'을 넣어주는 방법
# NA값을 다른 값으로 바꿀 때는 fillna() 메서드 사용
mean = 아이리스['꽃잎폭'].mean()
print(mean)
아이리스['꽃잎폭'] = 아이리스['꽃잎폭'].fillna(mean)
아이리스.tail()

3.0543624161073835


Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2


In [33]:
아이리스.loc[list(아이리스[아이리스['품종']==2]['꽃잎폭'].index)]

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
100,6.3,3.3,6.0,2.5,2
101,5.8,2.7,5.1,1.9,2
102,7.1,3.0,5.9,2.1,2
103,6.3,2.9,5.6,1.8,2
104,6.5,3.0,5.8,2.2,2
105,7.6,3.0,6.6,2.1,2
106,4.9,2.5,4.5,1.7,2
107,7.3,2.9,6.3,1.8,2
108,6.7,2.5,5.8,1.8,2
109,7.2,3.6,6.1,2.5,2


In [34]:
품종2_mean = 아이리스[아이리스['품종']==2]['꽃잎폭'].mean()
print(품종2_mean)
아이리스.loc[list(아이리스[아이리스['품종']==2]['꽃잎폭'].index)] = 아이리스.loc[list(아이리스[아이리스['품종']==2]['꽃잎폭'].index)].fillna(품종2_mean)
아이리스.tail()

2.973469387755102


Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,2.973469,5.1,1.8,2
