데이터를 활용할 때의 문제점들

- 변수(칼럼) 타입 확인 : 데이터, dtypes
- 변수를 범주형으로 변경:
        데이터['칼럼명'].astype('category')
- 변수를 수치형으로 변경
        데이터['칼럼명'].astype('int')
        데이터['칼럼명'].astype('float')
- NA 값의 처리
        NA 갯수 체크 : 데이터.isna().sum()
        NA 값 채우기 : 데이터['칼럼명'].fillna(특정숫자)

In [1]:
# 라이브러리 사용
import pandas as pd

# 파일 읽어오기
dir = 'https://raw.githubusercontent.com/blackdew/tensorflow1/master/csv/iris2.csv'
iris = pd.read_csv(dir)
iris.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [2]:
# 칼럼의 데이터 타입 체크
print(iris.dtypes)

꽃잎길이     float64
꽃잎폭      float64
꽃받침길이    float64
꽃받침폭     float64
품종         int64
dtype: object


In [3]:
 # 원핫인코딩 되지 않는 현상 확인
incoding = pd.get_dummies(iris)
incoding.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


위에서 확인한 바와 같이 원 핫 인코딩이 되지 않으므로


품종 타입을 직접 범주형으로 바꿔 줄 필요가 있다.



In [7]:
# 품종 타입을 범주형으로 바꾸어 준다. 
iris['품종'] = iris['품종'].astype('category')
print(iris.dtypes)

꽃잎길이      float64
꽃잎폭       float64
꽃받침길이     float64
꽃받침폭      float64
품종       category
dtype: object


In [8]:
# 카테고리 타입의 변수만 원핫인코딩
incoding = pd.get_dummies(iris)
incoding.head()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종_0,품종_1,품종_2
0,5.1,3.5,1.4,0.2,1,0,0
1,4.9,3.0,1.4,0.2,1,0,0
2,4.7,3.2,1.3,0.2,1,0,0
3,4.6,3.1,1.5,0.2,1,0,0
4,5.0,3.6,1.4,0.2,1,0,0


In [10]:
# NA값을 체크하기
iris.isna().sum() # sum()메서드를 사용해 칼럼 별로 NA 값이 있는지 확인할 수 있다.

꽃잎길이     0
꽃잎폭      1
꽃받침길이    0
꽃받침폭     0
품종       0
dtype: int64

NA값은 모델이 에러가 나는 원인이 된다.

In [11]:
iris.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,,5.1,1.8,2


In [12]:
# NA값에 꽃잎폭 평균값을 넣어주는 방법
mean = iris['꽃잎폭'].mean()
print(mean)

3.0543624161073835


In [13]:
iris['꽃잎폭'] = iris['꽃잎폭'].fillna(mean)
iris.tail()

Unnamed: 0,꽃잎길이,꽃잎폭,꽃받침길이,꽃받침폭,품종
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2
149,5.9,3.054362,5.1,1.8,2
