In [1]:
# 라이브러리 임포트
import pandas as pd
import numpy as np

In [2]:
# 데이터 적재
sample = pd.read_csv('data/csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 결측치 처리 - 대체값
- 연속형 : 임의값(0), mean, median, 예측값, 도메인 지식 활용
- 명목형 : mode(최빈값), 예측값, 도메인 지식 활용

In [4]:
# 연속형 - 임의의 값 대체
# df.fillna(v)
sample.fillna(0)

Unnamed: 0,math,english,science
0,70.0,0.0,0.0
1,75.0,65.0,80.0
2,0.0,0.0,0.0
3,56.0,89.0,0.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [5]:
# mean -1) 전체 데이터의 평균값
# sample : 6 x 3의 모든 데이터에 대한 평균
# df.mean() :컬럼별로 평균값
sample.mean()

math       76.00
english    87.25
science    84.00
dtype: float64

In [9]:
# 전체 평균 결측치에 대입하기
# df.values.mean() : array 타입의 연산으로 NaN값이 하나라도 있으면 최종 결과는 NaN
# sample.values.mean() -> NaN
# df.fillna(0) -> mean()
#tot_avg = sample.fillna(0)
tot_avg = sample.fillna(0).values.mean()
sample.fillna(tot_avg)

Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [10]:
# mean - 2) 결측치가 존재하는 속성(변수 = 컬럼)의 평균값
# sample : math/en/sc 컬럼에 존재하는 결측치 -> math/en/sc 컬럼의 평균값
# df.mean() : 컬럼별 평균
print(sample.mean()[0]) # math
print(sample.mean()[1]) # english
print(sample.mean()[2])# science

76.0
87.25
84.0


In [11]:
# 전체 데이터가 아닌 컬럼별로 맞는 값을 .fillna() 해줌
# sample['math'].fillna(sample.mean()[0])
sample['math'].fillna(sample['math'].mean())

0    70.0
1    75.0
2    76.0
3    56.0
4    89.0
5    90.0
Name: math, dtype: float64

In [12]:
# english 컬럼
sample['english'].fillna(sample['english'].mean())

0     87.25
1     65.00
2     87.25
3     89.00
4     95.00
5    100.00
Name: english, dtype: float64

In [13]:
# science 컬럼
sample['science'].fillna(sample['science'].mean())

0    84.0
1    80.0
2    84.0
3    84.0
4    83.0
5    89.0
Name: science, dtype: float64

In [15]:
# median - 전체 데이터에 대한 중위값
# tot_avg : 54.5
# median : 86
tot_med = pd.Series(sample.values.reshape(18)).median()
tot_med

86.0

In [16]:
# sample에 대해서 전체 데이터 중위값으로 NaN채우기
sample.fillna(tot_med)

Unnamed: 0,math,english,science
0,70.0,86.0,86.0
1,75.0,65.0,80.0
2,86.0,86.0,86.0
3,56.0,89.0,86.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [17]:
# median -  속성별 중위값
print(sample.median()[0]) # math
print(sample.median()[1]) # english
print(sample.median()[2])# science

75.0
92.0
83.0


In [20]:
# 전체 데이터가 아닌 컬럼별로 맞는 값(중위값)을 .fillna() 해줌
# math
sample['math'].fillna(sample['math'].median())

0    70.0
1    75.0
2    75.0
3    56.0
4    89.0
5    90.0
Name: math, dtype: float64

In [21]:
# english
sample['english'].fillna(sample['english'].median())

0     92.0
1     65.0
2     92.0
3     89.0
4     95.0
5    100.0
Name: english, dtype: float64

In [22]:
# science
sample['science'].fillna(sample['science'].median())

0    83.0
1    80.0
2    83.0
3    83.0
4    83.0
5    89.0
Name: science, dtype: float64

In [23]:
# mode - 범주형(문자열 등) 데이터에서는 최빈값을 사용
# decribe()
# value_counts()
# collection 라이브러리와 counter 모듈
df = pd.DataFrame({'label':['A', 'B', 'B', 'C', 'C', 'C', 'D']})
df

Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [24]:
df.describe().loc['top']

label    C
Name: top, dtype: object

In [25]:
df['label'].value_counts().index[0]

'C'

In [26]:
# 특정 요소와 출현 홧수를 딕셔너리로 정리하기
# 2. 명목형 - mode(최빈값)
# 리스트, 튜플타입
from collections import Counter
# 1. 라이브러리 가져오기
# 2. Counter() 객체(변수) 생성
# 3. Counter객체.most_common() = > [(value1, 개수), (value2, 개수), ...]

In [27]:
colors = ['red', 'blue', 'pink', 'blue', 'blue', 'red']

In [28]:
counter = Counter(colors)

In [29]:
counter

Counter({'red': 2, 'blue': 3, 'pink': 1})

In [30]:
# most_common() => 특정 요소와 그 요소의 출현 횟수를 빈출순으로 나열
counter.most_common() # 이중리스트

[('blue', 3), ('red', 2), ('pink', 1)]

In [31]:
# 최빈값을 반환하는 사용자 정의 함수 1 
# 인지값으로 리스트를 넘기면 최빈값 범주를 반환
# 함수명, 매개변수(리스트) 정의
# 함수 실행문
# 1) 리스트에 대해서 Counter() 함수 적용
# 2) 1번 결과에 대해서 most_common() 함수 적용
# 3) 2번 결과의 0번째 아이템의 0번째 요소(value, count)
# 4 ) 3번의 결과를  반환 / print() vs return
def mode_finder(x):
    result = Counter(x)
    mode = result.most_common()[0][0]
    return mode

In [33]:
mode_finder(['a', 'a', 'b', 'b', 'b', 'c', 'd', 'd']) # 동점자가 있으면 앞에 있는 문자 하나만 나옴

'b'

In [34]:
# 동일 최빈값이 2개 이상인 경우
# for 반복문 & if 문
# 동일 최빈값 확인 : 최빈값 아이템의 value를 찾아서 비교
# 최종 결과 : 리스트에 동일 최빈값 범주를 담기
def mode_finder2(x):
    c = Counter(x)
    result = c.most_common()
    most_value = result[0][1] # value가 아닌 횟수만 먼저 저장
    modes = []
    
    for i in result:
        if i[1] == most_value:
            modes.append(i[0])
    return modes        

In [35]:
mode_finder2(['a', 'a', 'a', 'b', 'b', 'b', 'c', 'c', 'c', 'd'])

['a', 'b', 'c']

In [36]:
# 데이터프래임
df = pd.DataFrame({'label':['a', 'b', 'b', 'c', 'c', 'c', 'd']})
df

Unnamed: 0,label
0,a
1,b
2,b
3,c
4,c
5,c
6,d


In [37]:
# Counter와 .most_common()을 이용해서 빈출횟수를 순서대로 나열해보세요
c = Counter(df['label'])
c.most_common()

[('c', 3), ('b', 2), ('a', 1), ('d', 1)]

### 데이터 단위 통일

#### 표준화(Standardization)
- 평균을 기준으로 얼마나 떨어져 있는지를 파악
- sklearn에서 제공하는 전처리 클래스
    - preprocessing 클래스
        - scaler() : 전체 자료의 분포를 평균 0, 표준편차 1이 되도록 스케일링
        - minmax_scale() : 최대/최소값이 각각 1, 0이 되도록 스케일링
        - StandardScaler() : scaler() 함수와 동일한 동작

- 표준화 : (요소값(하나의 데이터) - 평균) / 표준편차
- 삼성전자 vs 작은회사 주식 시세
- 몸무게 vs 키
    - 표준화 결과 : 몸무게 음수, 키 양수
    - 해석 : 몸무게는 평균 이하, 키는 평균 이상(=>마른몸)

In [39]:
# 전처리 기능을 제공하는 scikit-learn 라이브러리 및 모음 가져오기
from sklearn.preprocessing import scale, minmax_scale

In [40]:
np.arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [41]:
# -3 이상 5 이하의 정수를 값으로 가지는 9행 1열 배열 생성
x = (np.arange(9) - 3).reshape(-1, 1)

In [42]:
x

array([[-3],
       [-2],
       [-1],
       [ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5]])

In [43]:
scale(x)

array([[-1.54919334],
       [-1.161895  ],
       [-0.77459667],
       [-0.38729833],
       [ 0.        ],
       [ 0.38729833],
       [ 0.77459667],
       [ 1.161895  ],
       [ 1.54919334]])

In [44]:
df = pd.DataFrame(np.hstack([x, scale(x), minmax_scale(x)]))
# 전체 데이터에 대한 평균, 표준편차(std : standard deviation) 비교
# x에 대한 평균, 표준편차
# scale(x)에 대한 평균, 표준편차
# minmax_scale(x)에 대한 평균, 표준편차
print('original : ', np.mean(df[0]), np.std(df[0]))
print('scale(x) : ', np.mean(df[1]), np.std(df[1]))
print('minmax_scale(x) : ', np.mean(df[2]), np.std(df[2]))

original :  1.0 2.581988897471611
scale(x) :  0.0 1.0
minmax_scale(x) :  0.5 0.3227486121839514


In [45]:
minmax_scale(x)

array([[0.   ],
       [0.125],
       [0.25 ],
       [0.375],
       [0.5  ],
       [0.625],
       [0.75 ],
       [0.875],
       [1.   ]])

### 정규화(Normalizaion)

- 정규화는 서로 다른 단위의 다차원 독립 변수에 대해 각 변수들의 상대적 크기 비교
- 정규화 결과값은 0 ~ 1 사이의 값을 가짐
- 단위가 서로 다른 경우
- 0이 아주 많은 경우
- sklearn 라이브러리에서 제공하는 클래스
    - normalize()

- 정규화 : (요소값 - 최소값) / (최대값 - 최소값)
- 전체 구간을 0 ~ 100으로 설정해서 데이터에 상대적 크기/위치를 관찰

In [46]:
from sklearn.preprocessing import normalize

In [47]:
# 첫 번째 열 : -20 ~ -16 정수
# 두 번째 열 : -2 ~ 2 정수
# 5행 2열의 2차원 배열 생성
x = np.vstack([(np.arange(5)-20), (np.arange(5)-2)]).T
x

array([[-20,  -2],
       [-19,  -1],
       [-18,   0],
       [-17,   1],
       [-16,   2]])

In [48]:
# 표준화(스케일링)적용
y1 = scale(x)

In [50]:
# 정규화 적용
y2 = normalize(x)

In [None]:
# 정규화 여부 확인
# np.linalg.norm(data, axis=1) : 값(np.array, 벡터)의 단위

In [51]:
print(x)
print('x norm', np.linalg.norm(x, axis=1))

[[-20  -2]
 [-19  -1]
 [-18   0]
 [-17   1]
 [-16   2]]
x norm [20.09975124 19.02629759 18.         17.02938637 16.1245155 ]


In [52]:
print(y1)
print('scale norm', np.linalg.norm(y1, axis=1))

[[-1.41421356 -1.41421356]
 [-0.70710678 -0.70710678]
 [ 0.          0.        ]
 [ 0.70710678  0.70710678]
 [ 1.41421356  1.41421356]]
scale norm [2. 1. 0. 1. 2.]


In [54]:
print(y2)
print('normalize norm', np.linalg.norm(y2, axis=1)) # 구해진 자료의 평균값을 구한 것

[[-0.99503719 -0.09950372]
 [-0.99861783 -0.05255883]
 [-1.          0.        ]
 [-0.99827437  0.05872202]
 [-0.99227788  0.12403473]]
normalize norm [1. 1. 1. 1. 1.]
