In [1]:
import numpy as np
import pandas as pd

## 누락된 데이터missing data 다루기
* null, NaN, NA, None
* 파이썬/pandas에서는 NaN(float) 또는 None(object) 으로 취급
* 단, 정수형 누락값인 NA는 pandas에서는 취급불가
* 누락된 데이터는 numpy 모듈이 지원 (np.nan)

## 결측치 다루기

In [2]:
a = np.array([1,2,None,4,5])

In [3]:
# a.dtype
print(a.dtype)  # 결측치가 있으면 object로 취급

object


## 결측치 제대로 다루기 1

In [4]:
b = np.array([1,2,np.nan,4,5])

In [5]:
b.dtype

dtype('float64')

In [6]:
b * 10  # 연산 가능

array([10., 20., nan, 40., 50.])

In [7]:
b.sum() # 연산 불가!

nan

## 결측치 제대로 다루기 2

In [8]:
c = pd.Series([1,2,np.nan,4,5])

In [9]:
c.dtype

dtype('float64')

In [10]:
c * 10

0    10.0
1    20.0
2     NaN
3    40.0
4    50.0
dtype: float64

In [11]:
c.sum()

12.0

## 매니저 평점 데이터 다루기
+ 매니저별 설문 총합, 평균 계산

In [13]:
managers = pd.read_csv('data/managers.csv')
managers.head()

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5
0,1,10/24/14,US,M,32,5,4,5,5.0,5.0
1,2,10/28/14,US,F,45,3,5,2,5.0,5.0
2,3,10/01/14,UK,F,25,3,5,5,5.0,2.0
3,4,10/12/14,UK,M,39,3,3,4,,
4,5,05/01/14,UK,F,99,2,2,1,2.0,1.0


In [16]:
# q4의 총합 계산 - 열우선
managers.q4.sum()

17.0

In [21]:
# q1 ~ q5의 총합 계산 - 열우선
managers.loc[:,'q1':'q5'].sum(axis=1)

0    24.0
1    20.0
2    20.0
3    10.0
4     8.0
dtype: float64

## dataframe에 새로운 항목 추가
+ 기존 컬럼의 값을 기준으로 새로운 컬럼을 생성할 수 있음 - **파생변수**
+ 기존 변수를 조합해서 새로운 변수를 만들어 냄
+ 데이터를 분석하기 좋은 형태로 만들기 위해 수행
+ 객체명['새로운컬럼명'] = 값들

In [22]:
# 평점 총합, 평균을 qsum, qmean이라는 새로운 컬럼으로 생성
qsum = managers.loc[:,'q1':'q5'].sum(axis=1)
qmean = managers.loc[:,'q1':'q5'].mean(axis=1)

In [25]:
managers['qsum'] = qsum
managers['qmean'] = qmean

In [26]:
managers

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean
0,1,10/24/14,US,M,32,5,4,5,5.0,5.0,24.0,4.8
1,2,10/28/14,US,F,45,3,5,2,5.0,5.0,20.0,4.0
2,3,10/01/14,UK,F,25,3,5,5,5.0,2.0,20.0,4.0
3,4,10/12/14,UK,M,39,3,3,4,,,10.0,3.333333
4,5,05/01/14,UK,F,99,2,2,1,2.0,1.0,8.0,1.6


### 결측치 감지 및 처리
+ isna (pandas 0.21부터 지원), dropna, fillna

In [27]:
# 결측치 존재 여부
managers.isna()

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True,True,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False


In [28]:
managers.isnull()

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,True,True,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False


In [29]:
# 컬럼별 결측치 현황 확인
managers.isna().sum()

Manager    0
Date       0
Country    0
Gender     0
Age        0
q1         0
q2         0
q3         0
q4         1
q5         1
qsum       0
qmean      0
dtype: int64

### 결측치 제거

In [31]:
m = managers
m = m.dropna()  # 행 기준 삭제
m.head()

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean
0,1,10/24/14,US,M,32,5,4,5,5.0,5.0,24.0,4.8
1,2,10/28/14,US,F,45,3,5,2,5.0,5.0,20.0,4.0
2,3,10/01/14,UK,F,25,3,5,5,5.0,2.0,20.0,4.0
4,5,05/01/14,UK,F,99,2,2,1,2.0,1.0,8.0,1.6


In [33]:
m = managers
m = m.drop(['q4','q5'], axis='columns')  # 열 기준 삭제
m.head()

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,qsum,qmean
0,1,10/24/14,US,M,32,5,4,5,24.0,4.8
1,2,10/28/14,US,F,45,3,5,2,20.0,4.0
2,3,10/01/14,UK,F,25,3,5,5,20.0,4.0
3,4,10/12/14,UK,M,39,3,3,4,10.0,3.333333
4,5,05/01/14,UK,F,99,2,2,1,8.0,1.6


### 결측치 대체
+ 평균, 최대/최소, 최빈값, 중앙값
+ 결측치 기준 앞/뒷 값

In [36]:
qm = int(managers.qmean.mean())

m = managers
m.fillna(qm, inplace=True)
m.head()

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean
0,1,10/24/14,US,M,32,5,4,5,5.0,5.0,24.0,4.8
1,2,10/28/14,US,F,45,3,5,2,5.0,5.0,20.0,4.0
2,3,10/01/14,UK,F,25,3,5,5,5.0,2.0,20.0,4.0
3,4,10/12/14,UK,M,39,3,3,4,3.0,3.0,10.0,3.333333
4,5,05/01/14,UK,F,99,2,2,1,2.0,1.0,8.0,1.6


### 파생변수 다루기
+ 기존 변수를 조합해서 새로운 변수를 만들어 냄

#### 매니저의 나이를 범주형으로 파생
+ 청년(19 ~ 29), 중년(30 ~ 49), 장년(50 ~ 64), 노년(65 ~)등으로 분류

In [42]:
def getAge(x):
    age = '청년'
    if (x >= 30) & (x <= 49):age = '중년'
    elif (x >= 50) & (x <= 64):age = '장년'
    elif x >=65 : age = '노년'
    return age

In [45]:
managers['Ages'] = managers.Age.apply(lambda x: getAge(x))
managers

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean,Ages
0,1,10/24/14,US,M,32,5,4,5,5.0,5.0,24.0,4.8,중년
1,2,10/28/14,US,F,45,3,5,2,5.0,5.0,20.0,4.0,중년
2,3,10/01/14,UK,F,25,3,5,5,5.0,2.0,20.0,4.0,청년
3,4,10/12/14,UK,M,39,3,3,4,3.0,3.0,10.0,3.333333,중년
4,5,05/01/14,UK,F,99,2,2,1,2.0,1.0,8.0,1.6,노년


#### 매니저 설문결과를 범주형으로 파생
+ \>= 4.5 : 아주좋음
+ \>= 3.5 : 좋음
+ \>= 3 : 좋음
+ \>=2  : 나쁨
+ 그외 아주나쁨

In [47]:
def getRate(x):
    rate = '좋음'
    if (x >= 2.0) & (x < 3.0):rate = '나쁨'
    elif (x >= 3.0) & (x < 3.5):rate = '좋음'
    elif (x >= 3.5) & (x < 4.5):rate = '좋좋음'
    elif x >=4.5 : rate = '아주좋음'
    else : rate = '아주나쁨'
    return rate

In [49]:
managers['Rates'] = managers.qmean.apply(lambda x: getRate(x))
managers

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean,Ages,Rates
0,1,10/24/14,US,M,32,5,4,5,5.0,5.0,24.0,4.8,중년,아주좋음
1,2,10/28/14,US,F,45,3,5,2,5.0,5.0,20.0,4.0,중년,좋좋음
2,3,10/01/14,UK,F,25,3,5,5,5.0,2.0,20.0,4.0,청년,좋좋음
3,4,10/12/14,UK,M,39,3,3,4,3.0,3.0,10.0,3.333333,중년,좋음
4,5,05/01/14,UK,F,99,2,2,1,2.0,1.0,8.0,1.6,노년,아주나쁨


## 이상치 처리
+ 정상범위의 밖에 존재하는 값
+ 하한 Q1 - 1.5 * IRQ, 상한 Q3 + 1.5 * IRQ 범위 밖 값들

In [50]:
def outlier_iqr(data, column): 
    # lower(하한), upper(상한) 글로벌 변수 선언하기     
    global lower, upper    
    
    # 4분위 수 기준 지정하기     
    q1, q3 = np.quantile(data[column], 0.25), np.quantile(data[column], 0.75)          
    
    # IQR 계산하기     
    iqr = q3 - q1    
    
    # outlier cutoff(기준점) 계산하기     
    cut_off = iqr * 1.5          
    
    # lower와 upper 구분값 구하기     
    lower, upper = q1 - cut_off, q3 + cut_off     
    
    print('IQR은',iqr, '이다.')     
    print('lower 기준값은', lower, '이다.')     
    print('upper 기준값은', upper, '이다.')    
    
    # 1사 분위와 4사 분위에 속해있는 데이터 각각 저장하기     
    data1 = data[data[column] > upper]     
    data2 = data[data[column] < lower]    
    
    # 이상값 총 개수 구하기
    return print('총 이상값 개수는', data1.shape[0] + data2.shape[0], '이다.')

In [52]:
outlier_iqr(managers,'Age')

IQR은 13.0 이다.
lower 기준값은 12.5 이다.
upper 기준값은 64.5 이다.
총 이상값 개수는 1 이다.


In [54]:
# 이상치가 포함된 행을 제외하고 나머지 행 추출
where = (managers.Age >= lower) * (managers.Age <= upper)
m = managers[where]
m

Unnamed: 0,Manager,Date,Country,Gender,Age,q1,q2,q3,q4,q5,qsum,qmean,Ages,Rates
0,1,10/24/14,US,M,32,5,4,5,5.0,5.0,24.0,4.8,중년,아주좋음
1,2,10/28/14,US,F,45,3,5,2,5.0,5.0,20.0,4.0,중년,좋좋음
2,3,10/01/14,UK,F,25,3,5,5,5.0,2.0,20.0,4.0,청년,좋좋음
3,4,10/12/14,UK,M,39,3,3,4,3.0,3.0,10.0,3.333333,중년,좋음
