# 데이터 전처리
- 데이터 형식에 대한 처리
    - 공백 문자
        - str.strip(): 양쪽 공백 제거
        - str.lstrip(): 왼쪽 공백 제거
        - str.rstrip(): 오른쪽 공백 제거
        - str.replace(): 공백 전체 제거 또는 대체
    - 데이터 타입
    - 불규칙한 대소문자
    - 불규칙한 구분기호
    - 유효하지 않은 숫자
    - 불규칙한 날짜 및 시간 표시

In [1]:
import numpy as np
import pandas as pd

### 1. 날짜 형식

In [3]:
# 날짜 데이터1: str type
# 2019.01.01  2017-08-13 2014/05/08
str_date=['2019.01.01','2017-08-13', '2014/05/08']

In [4]:
# str 타입을 datetime 타입으로 변환 후 pandas 저장
# pd.to_datetime
pd.Series(pd.to_datetime(str_date))

0   2019-01-01
1   2017-08-13
2   2014-05-08
dtype: datetime64[ns]

In [6]:
# sr.astype('data type')
pd.Series(str_date).astype('datetime64')

0   2019-01-01
1   2017-08-13
2   2014-05-08
dtype: datetime64[ns]

In [7]:
# 날짜 데이터2 : timestamp type
# 1234000,1230405,12350600
# timestamp: 기준 시각(UTC 1970.1.1.00:00:00)을 기준으로 몇 초 경과했는지의 기간
stamp_date=[1234000,1234101,1234202,1234444,1234900]

In [8]:
pd.Series(stamp_date)

0    1234000
1    1234101
2    1234202
3    1234444
4    1234900
dtype: int64

In [9]:
# datetime 타입으로 변환 후 저장
# timestamp & pd.to_datetime() 기본 : ns(nano seconds)
# pd.to_datetime parameter
# unit : ns(default),D(days),s(seconds),ms(milli seconds)...
pd.Series(pd.to_datetime(stamp_date))

0   1970-01-01 00:00:00.001234000
1   1970-01-01 00:00:00.001234101
2   1970-01-01 00:00:00.001234202
3   1970-01-01 00:00:00.001234444
4   1970-01-01 00:00:00.001234900
dtype: datetime64[ns]

In [11]:
# unit='s'  초로 변환
pd.Series(pd.to_datetime(stamp_date,unit='s'))

0   1970-01-15 06:46:40
1   1970-01-15 06:48:21
2   1970-01-15 06:50:02
3   1970-01-15 06:54:04
4   1970-01-15 07:01:40
dtype: datetime64[ns]

In [13]:
pd.Series(pd.to_datetime([100,200,300],unit='D'))

0   1970-04-11
1   1970-07-20
2   1970-10-28
dtype: datetime64[ns]

In [14]:
# unit = ms
pd.Series(pd.to_datetime(stamp_date,unit='ms'))

0   1970-01-01 00:20:34.000
1   1970-01-01 00:20:34.101
2   1970-01-01 00:20:34.202
3   1970-01-01 00:20:34.444
4   1970-01-01 00:20:34.900
dtype: datetime64[ns]

### 2. 라벨 형식 통일
- 데이터 인코딩 작업에 포함

In [None]:
# map() / apply()
# dict => dict(),zip(),range(),enumerate()
# def
# lambda

In [16]:
# gender columns
# 000101
# 0:F 1:M 2: N
df=pd.DataFrame({'gender':[0,0,0,1,0,1,2]})
df

Unnamed: 0,gender
0,0
1,0
2,0
3,1
4,0
5,1
6,2


In [17]:
dict(zip(range(3),['F','M','N']))

{0: 'F', 1: 'M', 2: 'N'}

In [2]:
# 1씩 증가하는 것에 적용
tmp={}
# enumerate()는 range() 함수를 자동실행해서 숫자를 생성해준다.
for k,v in enumerate(['F','M','N']):
    tmp[k]=v

In [3]:
tmp

{0: 'F', 1: 'M', 2: 'N'}

In [29]:
df['gender'].map(tmp)

0    F
1    F
2    F
3    M
4    F
5    M
6    N
Name: gender, dtype: object

In [31]:
# replace()
df['gender']=df['gender'].replace(0,'F')
df['gender']=df['gender'].replace(1,'M')
df

Unnamed: 0,gender
0,F
1,F
2,F
3,M
4,F
5,M
6,2


### 3. 문자 형식(대소문자, 기호 등) 통일

In [32]:
# 샘플 데이터프레임 생성
# 컬럼 : Name, Age
# 값 : Jane, Jessie, Alex
# 18,19,20
df1= pd.DataFrame({'Name':['Jane', 'Jessie', 'Alex'],
                  'Age':[18,19,20]})
df1

Unnamed: 0,Name,Age
0,Jane,18
1,Jessie,19
2,Alex,20


In [33]:
# for 문
# 새로운 리스트에 새로운 컬럼 저장한 후 df.columns=새로운 리스트
# df.rename({old:new},axis=1,inplace=True)

In [34]:
# 컬럼명을 모두 소문자로
# str타입인 컬럼에 대해 str메서드를 적용하는 방법
df1.columns=df1.columns.str.lower()

Index(['name', 'age'], dtype='object')

In [35]:
df1

Unnamed: 0,Name,Age
0,Jane,18
1,Jessie,19
2,Alex,20


In [36]:
# 텍스트 데이터를 가지고 있는 컬럼에 대해서 값을 모두 소문자로 통일
df1[100]=[10,20,30]

In [37]:
type(df1.columns[2])

int

In [38]:
df1.columns.str.upper()

Index(['NAME', 'AGE', nan], dtype='object')

In [42]:
# 텍스트 데이터를 가지고 있는 컬럼에 대해서 값을 모두 소문자로 통일
for col in df1.columns:
    if df1[col].dtypes =='O':
        df1[col]=df1[col].apply(lambda x: x.lower())

In [43]:
df1

Unnamed: 0,Name,Age,100
0,jane,18,10
1,jessie,19,20
2,alex,20,30


In [None]:
# 컬럼명이 텍스트인 케이스만 처리

In [44]:
# 값 자체를 확인
tmp=[]
for col in df1.columns:
    if col != 100:
        # 리스트로 전체 컬럼을 전달하지 않고 일부 컬럼만 수정
        # df1.rename({col:col.lower},axis=1,inplace True)
        tmp.append(col.lower())
tmp.append(100)
df1.columns=tmp

In [45]:
df1

Unnamed: 0,name,age,100
0,jane,18,10
1,jessie,19,20
2,alex,20,30


In [None]:
# 타입을 확인

### 데이터 값에 대한 처리
- 결측값
- 이상치
- 단순 중복 데이터
- 동일한 의미,다른 명칭의 중복 데이터
- 중복 속성(다중공선성)
- 불규칙한 데이터 수집(간격, 단위)

In [2]:
# 데이터 적재
sample=pd.read_csv('csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 결측치 처리- 삭제

In [3]:
# 결측치가 하나라도 있는 레코드 삭제
# df.dropna(how='any',inplace=False)    기본동작
sample.dropna()


Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [49]:
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [50]:
sample.dropna(how='all')

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [58]:
# 결측치가 하나라도 있는 데이터만 선택
sample[sample.isnull().any(axis=1)]

Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


#### 결측치 처리 - 대체값

In [59]:
# 연속형 - 임의값 대체
# df.fillna()
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64

In [60]:
# NAN 값이 0으로 대체
sample.fillna(0).isnull().sum()

math       0
english    0
science    0
dtype: int64

In [61]:
# mean - 1) 전체데이터의 평균값
sample.mean()

math       76.00
english    87.25
science    84.00
dtype: float64

In [62]:
# np 타입 연산은 하나라도 NaN 값이 있으면 결과는 결측
sample.values.sum()

nan

In [64]:
total_avg=sample.fillna(0).values.mean()

In [66]:
sample.fillna(total_avg)

Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [67]:
# mean - 2) 결측이 있는 속성의 평균값
# 속성별로 평균 => df컬럼별 평균 => pandas 연산은 NaN 제외하고 연산
# 속성별로 fillna(1번값)
m_avg=sample.mean()[0]
e_avg=sample.mean()[1]
s_avg=sample.mean()[2]

In [69]:
sample['math'].fillna(m_avg,inplace=True)
sample['science'].fillna(s_avg,inplace=True)
sample['english'].fillna(e_avg,inplace=True)

In [70]:
sample

Unnamed: 0,math,english,science
0,70.0,87.25,84.0
1,75.0,65.0,80.0
2,76.0,87.25,84.0
3,56.0,89.0,84.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [4]:
sample.head()

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0


In [5]:
# 결측치 개수
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64

In [11]:
# median - 전체 데이터를 크기 순으로 나열했을 때 중간 위치
# total_avg : 54.5
# total_median: 86

x=pd.Series(sample.values.reshape(18)).median()
x

86.0

In [12]:
# 찾은 중위값으로 df의 결측치를 대체 
sample.fillna(x)

Unnamed: 0,math,english,science
0,70.0,86.0,86.0
1,75.0,65.0,80.0
2,86.0,86.0,86.0
3,56.0,89.0,86.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [14]:
# 속성별로 중위값 찾기
# df.median() => 컬럼별 값의 중위값 반환
m = sample.median()[0]
e = sample.median()[1]
s = sample.median()[2]

In [15]:
m,e,s

(75.0, 92.0, 83.0)

In [17]:
# df[컬럼].fillna() => 특정 컬럼엠나 특정 값 결측치 대체
sample['math'].fillna(m)

0    70.0
1    75.0
2    75.0
3    56.0
4    89.0
5    90.0
Name: math, dtype: float64

In [None]:
# mode - 최빈값(가장 많이 나온 값)
# 범주형 변수에서 존재한는 결측치 대체 값으로 사용
# 연속형에서는 사용하지 않음
# 1. describe()
# 2. value_counts()
# 3. collections 라이브러리 Counter 클래스
# 4. mode()

In [18]:
sample2=pd.DataFrame({'label':['A','A',"B",'C','C',"C",'C','D','B']})
sample2

Unnamed: 0,label
0,A
1,A
2,B
3,C
4,C
5,C
6,C
7,D
8,B


In [21]:
# describe() 에서 최빈값 찾기
sample2.describe().loc['top'][0]

'C'

In [23]:
# sr.value_counts()
# 최빈값이 가장 위에 정렬되서 반환
sample2['label'].value_counts().index[0]

'C'

In [24]:
from collections import Counter

In [None]:
# 1. 라이브러리/ 클래스 불러오기
# 2. 사용하려는 클래스 객체 생성
# 3. 객체의 메서드를 사용

In [25]:
colors = ['red','red','blue','blue','white','white','white']

In [26]:
counter=Counter(colors)

In [29]:
counter

Counter({'red': 2, 'blue': 2, 'white': 3})

In [39]:
# 범주형 변수와 빈도 값을 많이 나온 순서대로 정렬하여 반환
# dict.items() 형식과 유사하게 반환
counter.most_common()[0][1]

3

In [34]:
# 최빈값을 반환하는 사용자 정의 함수 1
# 인자값 : 리스트
# 반환값: 최빈값(범주값)
def mode_finder(x):
    counter=Counter(x)
    c=counter.most_common()[0][0]
    return c

In [35]:
mode_finder([1,1,1,1,1,1,1,1,1,2,3])

1

In [37]:
# 문제점
# 동일한 빈도를 가진 최빈값이 있을 경우에 정확한 결과가 아님
# 수정사항) 동일빈도가 있을 경우에는 모든 최빈값을 반환
mode_finder(['a','b','c','c','b'])

'b'

In [44]:
# 동일 최빈값이 2개 이상일 경우
# 1. 최빈값 : 범주 , 빈도
# 2. 최빈값의 빈도와 동일한 빈도가 있는지 확인
# 3. 있으면 해당 범주를 함께 반환
def mode_finder2(x):
    counter=Counter(x)
    result = counter.most_common()  # [(cat1,cnt1),(cat2,cnt2)...]
    mode_value = result[0][1]
    modes=[]
    for i in result:
        if i[1] == mode_value:
            modes.append(i[0])
    return modes

In [45]:
mode_finder2(['a','b','c','c','b'])

['b', 'c']

In [51]:
# 데이터 프레임에 적용
Counter(sample2['label']).most_common()

[('C', 4), ('A', 2), ('B', 2), ('D', 1)]

### 데이터 단위 통일
#### 표준화(Standaradization)
- 평균을 기준으로 얼마나 떨어져 있는지를 파악
- sklearn에서 제공하는 전처리 클래스
    - preprocessing 모듈
        - scaler(): 전체 자료의 분포를 평균0, 표준편차 1이 되도록 스케일링
        - minmax_scale(): 최대/최소값이 각각 1,0 이 되도록 스케일링
        - StandardScaler(): scaler() 함수와 동일한 동작
- 표준화 : (요소값(하나의 데이터)-평균)/표준편차
- 삼성전자 vs 작은회사 주식 시세
- 몸무게 vs 키
    - 표준화 결과 : 몸무게 음수,키 양수
    - 해석: 몸무게는 평균 이하, 키는 평균 이상(=>마른몸)

In [52]:
# 전처리 기능을 제공하는 scikitlearn 라이브러리 및 모듈 가져오기
from sklearn.preprocessing import scale, minmax_scale

In [55]:
# -3 이상 5 이하의 정수를 값으로 가지는 9행 1열 배열 생성
x=(np.arange(9) -3 ).reshape(9,1)
x

array([[-3],
       [-2],
       [-1],
       [ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5]])

In [56]:
# 데이터프레임 생성
# 3개 컬럼 : x, scale-x, minmax-x

In [58]:
scale(x)



array([[-1.54919334],
       [-1.161895  ],
       [-0.77459667],
       [-0.38729833],
       [ 0.        ],
       [ 0.38729833],
       [ 0.77459667],
       [ 1.161895  ],
       [ 1.54919334]])

In [59]:
df= pd.DataFrame(np.hstack([x,scale(x),minmax_scale(x)]),columns=['x','scale(x)','minmax_scale(x)'])



In [60]:
df

Unnamed: 0,x,scale(x),minmax_scale(x)
0,-3.0,-1.549193,0.0
1,-2.0,-1.161895,0.125
2,-1.0,-0.774597,0.25
3,0.0,-0.387298,0.375
4,1.0,0.0,0.5
5,2.0,0.387298,0.625
6,3.0,0.774597,0.75
7,4.0,1.161895,0.875
8,5.0,1.549193,1.0


In [66]:
# 전체 데이터에 대한 평균 표준편차 비교
print('orginal : {} , {}'.format(df['x'].mean(),df['x'].std()))
print('scale(x) : {}, {}'.format(df['scale(x)'].mean(),df['scale(x)'].std()))
print('minmax_scale(x): {}, {}'.format(df['minmax_scale(x)'].mean(),df['minmax_scale(x)'].std()))
# np.mean(df['x']) : 웬만하면 numpy 메서드를 사용(수학연산일 경우)

orginal : 1.0 , 2.7386127875258306
scale(x) : 0.0, 1.0606601717798214
minmax_scale(x): 0.5, 0.3423265984407288


In [68]:
# StandardScaler
# 1. 클래스 객체 생성
# 2. 객체의 fit() 메서드로 표준화 변환 계수 추정
# 3. fit()을 실행한 객체의 transform() 메서드로 표준화 결과 반환
# 2~3 번을 한번에 실행: fit_transform()
from sklearn.preprocessing import StandardScaler

In [69]:
scaler=StandardScaler()

In [76]:
scaler.fit(x)  # 얘도 가능 같은 결과
scaler.fit(df['x'].values.reshape(-1,1))



StandardScaler(copy=True, with_mean=True, with_std=True)

In [78]:
scaled_x=scaler.transform(x)



In [79]:
tmp=pd.DataFrame(scaled_x)
tmp.head()

Unnamed: 0,0
0,-1.549193
1,-1.161895
2,-0.774597
3,-0.387298
4,0.0


In [80]:
np.std(tmp[0])

1.0

## 정규화
- 정규화는 서로 다른 단위의 다차원 독립 변수에 대해 각 변수들의 상대적 크기 비교
- 정규화 결과값은 0~1 사이의 값을 가짐
- 단위가 서로 다른 경우
- 0이 아주 많은 경우
- sklearn 라이브러리에서 제공하는 클래스
    - normalize()
- 정규화:(요소-최소값)/(최대값-최소값)
- 전체구간을 0~100으로 설정해서 데이터에 상대적 크기/위치를 관찰

In [82]:
from sklearn.preprocessing import normalize

In [84]:
# 구조: 5*2 2d array
# 첫번째 열: -20~-16 까지 정수
# 두번째 열: -2~2 까지의 정수
x= np.vstack([(np.arange(5)-20),(np.arange(5)-2)]).T
x

array([[-20,  -2],
       [-19,  -1],
       [-18,   0],
       [-17,   1],
       [-16,   2]])

In [85]:
# 표준화 (스케일링) 적용
y1=scale(x)



In [88]:
y1

array([[-1.41421356, -1.41421356],
       [-0.70710678, -0.70710678],
       [ 0.        ,  0.        ],
       [ 0.70710678,  0.70710678],
       [ 1.41421356,  1.41421356]])

In [87]:
y2=normalize(x)

In [89]:
y2

array([[-0.99503719, -0.09950372],
       [-0.99861783, -0.05255883],
       [-1.        ,  0.        ],
       [-0.99827437,  0.05872202],
       [-0.99227788,  0.12403473]])

In [92]:
# 정규화 여부 확인
# np.linalg.norm(data,axis=1)
# 결과값 : 값의 단위

In [95]:
# 정규화
#print(y2)
print(np.linalg.norm(y2,axis=1))
# 모두 1로 동일해야 정규화가 된것

[1. 1. 1. 1. 1.]


In [94]:
# 표준화
print(np.linalg.norm(y1,axis=1))

[2. 1. 0. 1. 2.]
