# 데이터 전처리

- 데이터 형식에 대한 처리
    - 공백 문자
        - str.strip() : 양쪽 공백 제거
        - str.lstrip() : 왼쪽 공백 제거
        - str.rstip() : 오른쪽 공백 제거
    - 데이터 타입
    - 불규칙한 대소문자
    - 불규칙한 구분기호
    - 유효하지 않은 문자
    - 불규칙한 날짜 및 시간 표기

In [1]:
# 라이브러리 불러오기

import numpy as np
import pandas as pd

#### 1. 날짜 형식

In [2]:
# 날짜 데이터1 : str 타입
str_data = ['2022/11/01','2022.10.31','2021-10-09']

In [3]:
# 시리즈 형태로 저장
pd.Series(str_data)

0    2022/11/01
1    2022.10.31
2    2021-10-09
dtype: object

In [5]:
# 1) str 타입을 datetime 타입으로 변환 후 pandas 저장
# pd.to_datetime()
pd.Series(pd.to_datetime(str_data))

0   2022-11-01
1   2022-10-31
2   2021-10-09
dtype: datetime64[ns]

In [8]:
# 2) str 타입으로 저장 후 데이터 타입 변경
# seriesdtype : 데이터타입 확인
# series.astype() : 데이터타입 변경
pd.Series(str_data).astype('datetime64')

0   2022-11-01
1   2022-10-31
2   2021-10-09
dtype: datetime64[ns]

In [11]:
# 날짜 데이터 2 : timestamp 타입
# timestamp : 기준 시각(1970. 01. 01 00:00:00 UTC)로부터 몇 초가 경과했는지 표기(UNIX시간)
stamp_date = [1234000, 1234101,1234202,1234300,1234500]

In [12]:
pd.Series(stamp_date)

0    1234000
1    1234101
2    1234202
3    1234300
4    1234500
dtype: int64

In [17]:
# datetime 타입으로 변환 후 저장
# timestamp의 기본 unit = ns(nano seconds)나노초 : 10억분의 1초
# unit = ns(default), D(days), s(seconds), ms(milli seconds), us(micro seconds)
pd.Series(pd.to_datetime(stamp_date))

0   1970-01-01 00:00:00.001234000
1   1970-01-01 00:00:00.001234101
2   1970-01-01 00:00:00.001234202
3   1970-01-01 00:00:00.001234300
4   1970-01-01 00:00:00.001234500
dtype: datetime64[ns]

In [18]:
# unit = s(seconds)
pd.Series(pd.to_datetime(stamp_date, unit='s'))

0   1970-01-15 06:46:40
1   1970-01-15 06:48:21
2   1970-01-15 06:50:02
3   1970-01-15 06:51:40
4   1970-01-15 06:55:00
dtype: datetime64[ns]

In [19]:
# unti = D
pd.Series(pd.to_datetime(stamp_date, unit='D'))
# 에러남 overflow오류

OutOfBoundsDatetime: cannot convert input 1234000 with the unit 'D'

In [20]:
# unit = ms
pd.Series(pd.to_datetime(stamp_date, unit='ms'))

0   1970-01-01 00:20:34.000
1   1970-01-01 00:20:34.101
2   1970-01-01 00:20:34.202
3   1970-01-01 00:20:34.300
4   1970-01-01 00:20:34.500
dtype: datetime64[ns]

In [22]:
# unit = us
pd.Series(pd.to_datetime(stamp_date, unit='us'))

0   1970-01-01 00:00:01.234000
1   1970-01-01 00:00:01.234101
2   1970-01-01 00:00:01.234202
3   1970-01-01 00:00:01.234300
4   1970-01-01 00:00:01.234500
dtype: datetime64[ns]

#### 2. 라벨 형식 통일
- 데이터의 인코딩 작업에 포함

In [23]:
# map()
# dictionary 타입으로 encoding map을 생성해서 적용
# gender = 0(남자), 1(여자)
df = pd.DataFrame({'gender':[0,0,0,1,0,1]})
gender_map = {0:'M',1:'F'}
df

Unnamed: 0,gender
0,0
1,0
2,0
3,1
4,0
5,1


In [24]:
# df 변수의 'gender' 컬럼의 값을 map 함수를 이용해 0은 M으로, 1은 F로 변환
df['gender'].map(gender_map)

0    M
1    M
2    M
3    F
4    M
5    F
Name: gender, dtype: object

In [26]:
# 기존에 배운 파이썬 기본 문법으로 바꾸기
# 찾아 바꾸기만 replace() 를 써도 됩니다.
df['gender'].replace(0, "M")

0    M
1    M
2    M
3    1
4    M
5    1
Name: gender, dtype: object

In [36]:
# 여러분들이 아래 코드를 응용해 M,F로 바뀐 df를 저장해주세요.
df['gender'] = df['gender'].replace(0, "M").replace(1, "F").copy()
# df['gender'] = df['gender'].replace([0,1], ["M","F"])
# df['gender'] = df['gender'].replace({0 :"M",1 :"F"})
df

Unnamed: 0,gender
0,M
1,M
2,M
3,F
4,M
5,F


# 3. 문자 형식(대소문자, 기호 등) 통일

In [37]:
data = {'Name':['Jane','Albert','John'],
       'Age':[18,19,20]}
df1=pd.DataFrame(data)
df1

Unnamed: 0,Name,Age
0,Jane,18
1,Albert,19
2,John,20


In [38]:
# 컬럼명을 소문자로 바꾸는 첫 번째 방법
# 빈 리스트에 소문자로 변경한 컬럼을 모두 적재한 뒤 대입
new_cols = list()#[]
for col in df1.columns:
    print(col.lower())
    new_cols.append(col.lower())

name
age


In [40]:
df1.columns = new_cols

In [41]:
df1

Unnamed: 0,name,age
0,Jane,18
1,Albert,19
2,John,20


In [43]:
# df.columns.str에 바로 upper() 등을 걸 수 있음
df1.columns.str.upper()

Index(['NAME', 'AGE'], dtype='object')

In [46]:
# 위 코드를 이용해 대문자로 교체해 주세요.
df1.columns = df1.columns.str.upper()
df1

Unnamed: 0,NAME,AGE
0,Jane,18
1,Albert,19
2,John,20


In [53]:
# 내부 요소(NAME컬럼)의 모든 자료를 소문자로 통일
# age : 정수 자료이므로 고칠 필요가 없음. 따라서 배제.
# .apply(함수명) # 모든 함수 가능, Series 전체는 안됨
# 해당 함수의 리턴값으로 컬럼 내부 값을 일괄적으로 교체해주는 명령어
def change_lower(value):
    return value.lower()

In [54]:
df1['NAME'].apply(change_lower)

0      jane
1    albert
2      john
Name: NAME, dtype: object

In [60]:
# apply는 map으로 대체 가능합니다.
df1['NAME'].map(change_lower)

0      jane
1    albert
2      john
Name: NAME, dtype: object

In [63]:
# AGE 컬럼의 값을 20이상이면 "성인", 19이하면 "미성년자" 를 return 하도록
# is_adult() 함수를 아래에 정의해 주시고
# 위 함수를 .apply()로 활용해 값을 일괄적으로 변경해 주세요.

def is_adult(value):
    if value >= 20:
        value = "성인"
    elif value <=19:
        value = "미성년자"
    return value

In [66]:
df1['AGE']=df1['AGE'].apply(is_adult)

In [67]:
df1

Unnamed: 0,NAME,AGE
0,Jane,미성년자
1,Albert,미성년자
2,John,성인


#### 데이터 값에 대한 처리

- 결측값(NaN)
- 이상치(예측한 범위 밖의 값)
- 단순 중복 데이터
- 동일한 의미, 다른 명칭의 중복 데이터
- 중복속성(다중공선성) # 비슷한게 많아 결과에 영향력이 큰 데이터
- 불규칙한 데이터 수집(간격, 단위)

In [99]:
# 데이터 적재
sample = pd.read_csv('data/csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 결측치 처리 - 삭제
- 결측치가 하나라도 있는 레코드 삭제
- 모든 값이 결측인 레코드 삭제
- 결측치가 하나라도 있는 데이터만 삭제

In [69]:
# 결측치 하나 이상인 레코드(row) 삭제
# df.dropna(how= 'any'(default), inplace=True)
# inplace 파라미터 : 원본에 바로 반영
sample.dropna() # how= 'any'

Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [72]:
# 모든 값이 결측치인 레코드만 삭제
sample.dropna(how="all")

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [73]:
# 결측치가 하나라도 있는 데이터만 선택
# 조건색인으로 처리한 것이고, isnull().any()의 원리를 이해해주세요.
# df[df.isnull().any(axis=1)]
sample[sample.isnull().any(axis=1)]

Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


In [75]:
# .isnull()은 모든 셀을 구분해서 NaN가 있는 셀은 True, 아닌 셀은 False를 출력합니다.
sample.isnull()

Unnamed: 0,math,english,science
0,False,True,True
1,False,False,False
2,True,True,True
3,False,False,True
4,False,False,False
5,False,False,False


In [76]:
# any는 해당 컬럼에 isnull()의 결과값이 True인 셀이 존재하는지 체크해줍니다.
# 디폴트는 axis=0(컬럼 기분으로 결측치 있음, 없음 여부 조사)
sample.isnull().any()

math       True
english    True
science    True
dtype: bool

In [77]:
# axis=1 을 기입하면 몇 번 row에 결측치가 있고, 몇 번에 없는지 True, False로 보여줍니다.
sample.isnull().any(axis=1)

0     True
1    False
2     True
3     True
4    False
5    False
dtype: bool

In [80]:
# 결측치 개수 세는 법
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64

#### 결측치 처리 - 대체값
- 연속형 : 임의값(0 등...), mean, median, 예측값, 도메인지식 활용
- 명목형 : mode(최빈값), 예측값, 도메인지식 활용

In [81]:
# 연속형 - 임의의 값으로 대체
# df.fillna(v)
sample.fillna(0)

Unnamed: 0,math,english,science
0,70.0,0.0,0.0
1,75.0,65.0,80.0
2,0.0,0.0,0.0
3,56.0,89.0,0.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [82]:
# mean - 1) 전체 데이터의 평균값
# sample : 6 * 3 모든 데이터에 대한 평균
# df.mean() : 컬럼별로 평균값
# NaN를 없는 값으로 가정하고 구한 평균
sample.mean()

math       76.00
english    87.25
science    84.00
dtype: float64

In [91]:
# df.values.mean() : Array 타입의 연산으로 NaN값이 하나라도 있다면 최종결과도 NaN
# sample.values.mean() -> 전체 평균을 구할 수 있지만 NaN 
# df.fillna(0) 으로 결측치를 보완하고 => mean()평균을 구해야 함
# NaN가 0으로 대체된 평균을 먼저 구한다음, 그 평균값으로 결측치를 매꿔주세요.
tot_avg = sample.fillna(0).values.mean()
sample.fillna(tot_avg)

Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [90]:
# mean - 2) 결측치가 존재하는 속성(변수 = 컬럼)의 평균값
# sample : math/en/sc 컬럼에 존재하는 결측치 -> 각 컬럼의 평균값
print(sample.mean()[0])
print(sample.mean()[1])
print(sample.mean()[2])

76.0
87.25
84.0


In [92]:
# 컬럼 지정 후 평균 구하기
sample['math'].mean()

76.0

In [97]:
# fillna를 이용해 각 과목 평균을 NaN에 대체
sample['math'].fillna(sample['math'].mean())
sample['english'].fillna(sample['english'].mean())
sample['science'].fillna(sample['science'].mean())
sample1 = sample.copy()

In [100]:
# fillna를 이용해 수학 , 영어, 과학 컬럼에 각각 컬럼의 평균값을 결측지 대신 넣어보세요.
sample1['math'] = sample['math'].fillna(sample['math'].mean())
sample1['english'] = sample['english'].fillna(sample['english'].mean())
sample1['science'] = sample['science'].fillna(sample['science'].mean())
sample1

Unnamed: 0,math,english,science
0,70.0,87.25,84.0
1,75.0,65.0,80.0
2,76.0,87.25,84.0
3,56.0,89.0,84.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [120]:
# median - 전체 데이터에 대한 중위값
# tot_avg : 54.5
# median() 을 이용해 몇인지 구해서 1:1로 보내주세요.
# Series나 DataFrame은 백터 함수 연산자 자동으로 NaN를 배제합니다.
# 따라서 전체데이터의 중위값을 구하기 위해 먼저 Series로 바꿔줍니다.
# sample.size 를 .reshape()에 넣어주면 자동으로 1차원 배열로 크게 맞춰서 바꿔줍니다.
tot_med=pd.Series(sample.values.reshape(18)).median()
tot_med

86.0

In [118]:
sample.median()

math       75.0
english    92.0
science    83.0
dtype: float64

In [121]:
sample.fillna(tot_med)

Unnamed: 0,math,english,science
0,70.0,86.0,86.0
1,75.0,65.0,80.0
2,86.0,86.0,86.0
3,56.0,89.0,86.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [122]:
# mode - 범주형 데이터에서는 최빈값을 사용
# describe()
# value_counts()
# collections 라이브러리의 Couter 모듈
df = pd.DataFrame({'label':['A','B','B','C','C','C','D']})
df

Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [128]:
# descirbe()는 통계분석에 사용합니다.
# count 로우는 총 데이터의 개수
# unique는 데이터의 유형이 몇 개인지
# top은 가장 많은 데이터
# freq는 가장 많은 데이터의 개수
df.describe()

Unnamed: 0,label
count,7
unique,4
top,C
freq,3


In [124]:
df.describe().loc['top']

label    C
Name: top, dtype: object

In [126]:
# Series로 변경하기 위해 label 컬럼을 지정한 후, value_counts()를 이용해
# 각 범주별 개수를 구할 수 있음
df['label'].value_counts()

C    3
B    2
A    1
D    1
Name: label, dtype: int64

In [129]:
from collections import Counter
# 1. 라이브러리를 가져오기
# 2. Counter()를 이용해 Counter 타입의 자료 생성
# 3. counter 객체 .most_common() => [(value1, count1),(value2,count2)]

In [130]:
colors = ['red', 'blue', 'pink', 'blue','blue','red']

In [131]:
counter = Counter(colors)

In [132]:
counter

Counter({'red': 2, 'blue': 3, 'pink': 1})

In [134]:
# most_common()
# 갯수순으로 나열해줌
counter.most_common()

[('blue', 3), ('red', 2), ('pink', 1)]

In [136]:
# 데이터프레임에도 Counter를 쓸 수 있습니다.
df = pd.DataFrame({'label': ['A','B','B','C','C','C','D']})
df

Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [137]:
Counter(df['label']).most_common()

[('C', 3), ('B', 2), ('A', 1), ('D', 1)]

### 데이터 단위 통일

#### 표준화(Standardization)

- 평균을 기준으로 얼마나 떨어져 있는지를 파악
- sklearn에서 제공하는 전처리 클래스
    - preprocessing 클래스
        - scaler() : 전체 자료의 분포를 평균 0, 표준편차 1이 되도록 스케일링
        - minmax_scale() : 최대/최소값이 각각 1, 0이 되도록 스케일링
        - StandardScaler() : scaler() 함수와 동일한 동작

- 표준화 : (요소값(하나의 데이터) - 평균) / 표준편차
- 삼성전자 vs 작은회사 주식 시세
- 몸무게 vs 키
    - 표준화 결과 : 몸무게 음수, 키 양수
    - 해석 : 몸무게는 평균 이하, 키는 평균 이상(=>마른몸)

In [138]:
# 전처리 기능을 제공하는 scikitlearn 라이브러리 및 모듈 가져오기
from sklearn.preprocessing import scale, minmax_scale

In [139]:
np.arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [140]:
# -3이상, 5이하의 정수를 값으로 가지는 9행 1열 배열 생성
x= (np.arange(9)-3).reshape(-1,1)
x

array([[-3],
       [-2],
       [-1],
       [ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5]])

In [141]:
# 데이터프레임 생성
# 3개 컬럼 : x, scale(x), minmax_scale(x)
type(x)

numpy.ndarray

In [142]:
scale(x)

array([[-1.54919334],
       [-1.161895  ],
       [-0.77459667],
       [-0.38729833],
       [ 0.        ],
       [ 0.38729833],
       [ 0.77459667],
       [ 1.161895  ],
       [ 1.54919334]])

In [143]:
# np.hstack => 가로방향으로 붙여줌
# np.vstack => 세로방향으로 붙여줌
# 9 * 1 데이터 3개를 가로로 붙여서 9 * 3으로(세로로 붙였으면 27 * 1) 만들고
# 붙여준 컬럼별로 수행한 연산을 컬럼명으로 정의
df = pd.DataFrame(np.hstack([x, scale(x), minmax_scale(x)]),
                 columns = ['x', 'scale(x)', 'minmax_scale(x)'])
df

Unnamed: 0,x,scale(x),minmax_scale(x)
0,-3.0,-1.549193,0.0
1,-2.0,-1.161895,0.125
2,-1.0,-0.774597,0.25
3,0.0,-0.387298,0.375
4,1.0,0.0,0.5
5,2.0,0.387298,0.625
6,3.0,0.774597,0.75
7,4.0,1.161895,0.875
8,5.0,1.549193,1.0
