# 데이터 타입 조정

https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv

- 변수(칼럼)타입 확인 : 데이터.dtypes
- 변수를 범주형으로 변경:
    
    - 데이터['컬럼명'].astype('category')
    
- 변수를 수치형으로 변경:
    - 데이터['컬럼명'].astype('int')
    - 데이터['컬럼명'].astype('int')
    
- NA 값의 처리
    - NA 갯수 체크: 데이터.isna().sum()
    - NA 값 채우기: 데이터['컬럼명'].fillna(특정 숫자)

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv")

In [5]:
# 품종이 int64 데이터 타입임을 확인

df.dtypes

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object

In [7]:
# 원핫인코딩
# 원핫인코딩이 안됨을 확인
# 품종 컬럼이 범주형이 아니라 수치형이기에 이러한 문제가 발생
# 따라서 데이터 타입을 범주형으로 변형시켜야 함.

encoding = pd.get_dummies(df)
encoding.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [9]:
# 품종 타입을 범주형으로 변경

df["품종"] = df["품종"].astype('category')

print(df.dtypes)

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object


In [10]:
# 품종 컬럼의 dtype을 category로 변경했으니 다시 원핫인코딩을 진행해봅시다.

encoding = pd.get_dummies(df)
encoding.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [11]:
# NA 값을 체크해 봅시다.

df.isna().sum()

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

In [12]:
# 널값이 존재하는 상태에서 모델에 학습할 경우 에러가 발생합니다.
# 따라서 결측치를 처리하는 작업이 필요합니다.

df.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


In [15]:
# NA값에 꽃잎폭 평균값을 넣어주는 방법

mean = df["꽃잎폭"].mean()
print(mean)
df["꽃잎폭"] = df["꽃잎폭"].fillna(mean)
df.tail()

3.0543624161073835


Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2
