## 원핫인코딩할 때 변수의 데이터 타입 때문에 발생하는 문제점
- 변수(칼럼) 타입 확인: 데이터.dtypes
- 변수를 범주형으로 변경: 
  - 데이터['칼럼명'].astype('category')
- 변수를 수치형으로 변경: 
  - 데이터['칼럼명'].astype('int')
  - 데이터['칼럼명'].astype('float')

## 원핫인코딩할 때 변수의 데이터 NA값 때문에 발생하는 문제점
- NA 값의 처리 
  - NA 갯수 체크: 데이터.isna().sum()
  - NA 값 채우기: 데이터['칼럼명'].fillna(특정숫자)

In [1]:
import pandas as pd

## 데이터 준비

In [2]:
파일경로 = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv'
아이리스 = pd.read_csv(파일경로)
아이리스.head()
# 품종은 범주형 데이터
# 나머지는 숫자형 데이터

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


## 원핫인코딩이 되지 않는 이유 

In [3]:
인코딩 = pd.get_dummies(아이리스)
인코딩.head()
# 원핫인코딩이 되지 않음
# 데이터를 읽어올 때 판다스는 데이터가 숫자로 되어 있으면 숫자로 인식하기 때문
# 따라서 품종 데이터가 범주형이지만 숫자로 이루어져 있어 숫자로 인식 -> 범주형으로 변경해줘야 함

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


## 칼럼의 데이터 타입 체크

In [4]:
print(아이리스.dtypes)
# 범주형, object인 경우만 원핫인코딩 가능

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object


## 품종 칼럼을 범주형으로 변경

In [5]:
아이리스['품종'] = 아이리스['품종'].astype('category')
print(아이리스.dtypes)
# 품종 데이터 타입이 범주형으로 바뀐 것 확인

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object


## 원핫인코딩

In [6]:
인코딩 = pd.get_dummies(아이리스)
인코딩.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


## NA값 체크

In [7]:
아이리스.isna().sum()

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

In [8]:
아이리스.tail()
# NaN을 지워주거나, 다른 값으로 대체

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


## NA값을 평균값으로 대체


In [9]:
mean = 아이리스['꽃잎폭'].mean()
print(mean)
아이리스['꽃잎폭'] = 아이리스['꽃잎폭'].fillna(mean)
아이리스.tail()

3.0543624161073835


Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2
