# 데이터 타입 조정

* 변수(컬럼) 타입 확인: `데이터.dtypes`
* 변수를 범주형으로 변경
  * `데이터['컬럼명'].astype('category)`
* 변수를 수치형으로 변경
  * `데이터['컬럼명'].astype('int')`
  * `데이터['컬럼명'].astype('float')`
* NA 값 처리
  * NA 갯수 체크: `데이터.isna().sum()`
  * NA 값 채우기: `데이터['컬럼명'].fillna(특정숫자)`

In [1]:
# 라이브러리
import pandas as pd

In [2]:
# 데이터
경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv'
아이리스 = pd.read_csv(경로)
아이리스.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [3]:
# 컬럼의 데이터 타입 확인하기
아이리스.dtypes

# pandas 는 파일의 숫자를 숫자로 인식하므로 범주형 데이터를 인식하지 못함
# 품종을 int 로 인식하는 것을 확인할 수 있음

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object

In [4]:
# 원핫인코딩이 되지 않는 현상 확인
인코딩 = pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [5]:
# 품종 타입을 범주형으로 바꾸기
아이리스['품종'] = 아이리스['품종'].astype('category')
아이리스.dtypes

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object

In [6]:
# 카테고리 타입 변수만 원핫인코딩
인코딩 = pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [7]:
# NA 값 체크
아이리스.isna().sum()

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

In [8]:
아이리스.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


In [9]:
# NA 값에 꽃잎폭 평균값 넣는 법
mean = 아이리스['꽃잎폭'].mean()
mean

3.0543624161073826

In [10]:
아이리스['꽃잎폭'] = 아이리스['꽃잎폭'].fillna(mean)
아이리스.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2
