## 데이터 값에 대한 처리
    - 결측치
    - 이상치
    - 단순 중복 데이터
    - 동일한 의미, 다른 명칭의 중복 데이터
    - 중복속성(다중공선성)
    - 불규칙한 데이터 수집(간격, 단위)

In [117]:
import pandas as pd
import numpy as np


In [118]:
# 데이터 적재
sample = pd.read_csv('data/csv_exam_nan.csv')
sample


Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


결측치 처리 - 삭제

    - 결측치가 하나라도 있는 레코드 삭제
    - 모든 값이 결측치인 레코드 삭제
    - 결측치가 하나라도 있는 데이터만 선택

In [119]:
# 결측치가 하나라도 있는 삭제 예제
# df.dropna(how = 'any' (default), inplace = True)
# inplace 파라미터 : 원본에 바로 반영
# 데이터가 전부 있는 3개의 행만 생존
sample.dropna()  # how = 'any


Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [120]:
# 모든 값이 결측치인 레코드만 삭제
# df.dropna(how = 'all')
# 데이터 값이 하나도 없는 로우는 삭제
sample.dropna(how='all')


Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [121]:
# 결측치가 하나라도 있는 데이터만 선택
# df[df.isnull().any(axis=1)]
# 결측치가 한 개라도 있는 레코드를 모두 선택합니다.
sample[sample.isnull().any(axis=1)]


Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


In [122]:
# 해당 셀에 값이 있는 것은 True 없는 것은 False를 출력합니다.
sample.isnull()


Unnamed: 0,math,english,science
0,False,True,True
1,False,False,False
2,True,True,True
3,False,False,True
4,False,False,False
5,False,False,False


In [123]:
# anys는 해당 컬럼에 isnull() 결과값이 True인 셀이 존재하는지 체크해줍니다.
# 디폴트 값은 axis = 0(컬럼 기준으로 결측치 있음, 없음 여부 조사)
sample.isnull().any()


math       True
english    True
science    True
dtype: bool

In [124]:
# axis = 1 을 기입하면 몇번 row에 결측치가 있고,
# 몇 번에 없는지 True, False로 알려줍니다.
# 해당 row에 값이 하나라도 있으면 True 하나도 없다면 False입니다.
sample.isnull().any(axis=1)


0     True
1    False
2     True
3     True
4    False
5    False
dtype: bool

In [125]:
# 결측치가 몇 개인지 세는 법
# false는 0 True는 1인 점을 이용하면 됩니다.
sample.isnull().sum()


math       1
english    2
science    3
dtype: int64

결측치 처리방법 - 대체값 채우기
- 연속형 : 임의값(0 등...), mean, median, 예측값, 도메인지식 이용
- 명목형 : mode(최빈값), 예측값, 도메인지식 활용 -> 숫자가아닌 데이터의 경우(남성, 여성같이 평균이 없는경우)

In [126]:
# 연속형 - 임의의 값으로 대체
# df.fillna(v)
# 0으로 결측치 처리
sample.fillna(0)


Unnamed: 0,math,english,science
0,70.0,0.0,0.0
1,75.0,65.0,80.0
2,0.0,0.0,0.0
3,56.0,89.0,0.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [127]:
# mean - 1) 전체 데이터의 평균 값
# sample : 6 * 3 모든 데이터에 대한 평균
# df.mean() : 컬럼별로 평균값
# NaN 을 제외한 평균입니다.
sample.mean()


math       76.00
english    87.25
science    84.00
dtype: float64

In [128]:
sample


Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [129]:
# df.values.mean() : Array타입의 연산으로 NaN값이 하나라도 있다면 최종결과도 NaN
# sample.values.mean() -> 전체 평균을 구할 수있지만 NaN
# NaN이 하나라도 있어서 NaN값 출력
# sample.values.mean()

# 그래서 df.fillna(0)으로 NaN을 0으로 교체 후 0이 포함된 평균을 구해야합니다.
sample_0 = sample.fillna(0)
sample_0


Unnamed: 0,math,english,science
0,70.0,0.0,0.0
1,75.0,65.0,80.0
2,0.0,0.0,0.0
3,56.0,89.0,0.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [130]:
sample_0 = sample_0.mean()
sample_0


math       63.333333
english    58.166667
science    42.000000
dtype: float64

In [131]:
sample.fillna(sample_0)


Unnamed: 0,math,english,science
0,70.0,58.166667,42.0
1,75.0,65.0,80.0
2,63.333333,58.166667,42.0
3,56.0,89.0,42.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [132]:
# 전체 평균으로 채우는 방법
tot_avg = sample.fillna(0).values.mean()
sample.fillna(tot_avg)


Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [133]:
# mean-2) 결측치가 존재하는 속성 (변수 = 컬럼)의 평균값
# sample : math / en / sc 컬럼에 존재하는 결측치 -> math / en / sc 컬럼의 평균값
# df.mean() : 컬럼별 평균
# 인덱싱으로 과목별 평균 조회

print(sample.mean()[0])
print(sample.mean()[1])
print(sample.mean()[2])


76.0
87.25
84.0


In [134]:
sample


Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [135]:
# 컬럼 지정후 평균 구하기
sample_m = sample['math'].mean()
sample_e = sample['english'].mean()
sample_s = sample['science'].mean()


In [136]:
# fillna를 이용해 수학, 영어, 과학 컬럼에 각각 컬럼의 평균값을 결측치로 채워보세요
sample['math'] = sample['math'].fillna(sample_m)
sample['english'] = sample['english'].fillna(sample_e)
sample['science'] = sample['science'].fillna(sample_s)
sample


Unnamed: 0,math,english,science
0,70.0,87.25,84.0
1,75.0,65.0,80.0
2,76.0,87.25,84.0
3,56.0,89.0,84.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [137]:
sample = pd.read_csv('data/csv_exam_nan.csv')
sample


Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [146]:
# median - 전체 데이터에 대한 중위값
# tot_avg : 54.5

# 컬럼별로 구하는 중위값
sample.median()


math       75.0
english    92.0
science    83.0
dtype: float64

In [149]:
# 전체의 중간값을 구하는 코드

# Series나 DataFrame은 벡터함수 연산시 자동으로 NaN을 배제합니다.
# 따라서 전체 데이터의 중위값을 구하기 위해 먼저 시리즈로 변환합니다.
# sample.size를 .reshape()에 넣어주면 자동으로 1차원 배열로 크기 맞춰 바꿔줍니다.
# 한마디로 한줄로 늘어놓은다음 중간값을 골라낸다고 생가시면 됩니다.

tot_med = pd.Series(sample.values.reshape(sample.size)).median()
tot_med


86.0

In [150]:
sample.fillna(tot_med)


Unnamed: 0,math,english,science
0,70.0,86.0,86.0
1,75.0,65.0,80.0
2,86.0,86.0,86.0
3,56.0,89.0,86.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [151]:
# mode - 범주형 데이터에서는 최빈값을 사용
# describe()
# value)counts()
# collections 라이브러리의 Counter모듈
df = pd.DataFrame({'label': ['A', 'B', 'B', 'C', 'C', 'C', 'D']})
df


Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [152]:
# describe()는 통계분석에 사용합니다.
# count 로우는 총 데이터의 개수
# unique는 데이터의 유형이 몇 개인지
# top은 가장 많이 나온 요소가 무엇인지
# freq는 top의 빈도가 몇 번인지
df.describe()


Unnamed: 0,label
count,7
unique,4
top,C
freq,3


In [153]:
# describe의 top만 보여주기
df.describe().loc['top']


label    C
Name: top, dtype: object

In [155]:
# Series로 변경하기 위해 label 컬럼을 지정한 후, value_counts()를 이용해
# 각 범주별 개수를 구할 수 있음
df.label.value_counts()


C    3
B    2
A    1
D    1
Name: label, dtype: int64

In [156]:
from collections import Counter
# 1. 라이브러리 가져오기
# 2. Counter()를 이용해 Counter 타입의 자료 생성
# 3. Counter객체.most_common() -> [(value1, count1), (value2, count2)....]


In [159]:
colors = ['red', 'blue', 'pink', 'blue', 'blue', 'red']
counter = Counter(colors)
counter


Counter({'red': 2, 'blue': 3, 'pink': 1})

In [160]:
# most_common()
# 갯수순으로 나열해줌
counter.most_common()


[('blue', 3), ('red', 2), ('pink', 1)]

In [161]:
# 데이터프레임에도 Counter 사용가능
df = pd.DataFrame({'label': ['A', 'B', 'B', 'C', 'C', 'C', 'D']})
df


Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [162]:
Counter(df['label']).most_common()


[('C', 3), ('B', 2), ('A', 1), ('D', 1)]

### 데이터 단위 통일
#### 표준화(Standardization)
- 평균을 기준으로 얼마나 떨어져 있는지를 파악
- sklearn에서 제공하는 전처리 클래스
    - preprocessing 클래스
        - scaler() : 전체 자료의 분포를 평균 0, 표준편차 1이 되도록 스케일링
        - minmax_scale() : 최대/최소값이 각각 1, 0이 되도록 스케일링
        - StandardScaler() : scaler() 함수와 동일한 동작

- 표준화 : (요소값(하나의 데이터) - 평균) / 표준편차
- 삼성전자 vs 작은회사 주식 시세
- 몸무게 vs 키
    - 표준화 결과 : 몸무게 음수, 키 양수
    - 해석 : 몸무게는 평균 이하, 키는 평균 이상(=>마른몸)

In [163]:
# 전처리 기능을 제공하는 scikitlearn 라이브러리 모듈 가져오기
from sklearn.preprocessing import scale, minmax_scale


In [165]:
np.arange(9)


array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [166]:
# -3이상, 5이하의 정수를 값으로 가지는 9행 1열 배열 생성
# 9.1과 같은 모양입니다.
x = (np.arange(9)-3).reshape(-1, 1)
x


array([[-3],
       [-2],
       [-1],
       [ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5]])

In [167]:
# 위에것을 데이터 프레임으로 생성
# 3개 컬럼 : x, scale(x), minmax_scale(x)
type(x)


numpy.ndarray

In [168]:
scale(x)


array([[-1.54919334],
       [-1.161895  ],
       [-0.77459667],
       [-0.38729833],
       [ 0.        ],
       [ 0.38729833],
       [ 0.77459667],
       [ 1.161895  ],
       [ 1.54919334]])

In [170]:
# np.hstack -> 가로방향으로 붙이기
# np.vstack -> 세로방향으로 붙이기
# 9 * 1 데이터를 3개를 가로로 붙여서 9*3으로 (세로로 붙이면 27 * 1)로 만들고
# 붙여준 컬럼별로 수행한 연산을 컬럼명으로 정의

df = pd.DataFrame(np.hstack([x, scale(x), minmax_scale(x)]),
                  columns=['x', 'scale(x)', 'minmax_scale(x)'])

df
# 위의 2.73의 표준편차로 했을 때 1당 0.387정도가 떨어져있습니다.


Unnamed: 0,x,scale(x),minmax_scale(x)
0,-3.0,-1.549193,0.0
1,-2.0,-1.161895,0.125
2,-1.0,-0.774597,0.25
3,0.0,-0.387298,0.375
4,1.0,0.0,0.5
5,2.0,0.387298,0.625
6,3.0,0.774597,0.75
7,4.0,1.161895,0.875
8,5.0,1.549193,1.0


In [174]:
# x의 표준편차
df['x'].std()


2.7386127875258306