# 데이터 전처리

- 데이터 형식에 대한 처리
    - 공백 문자
        - str.strip() : 양쪽 공백 제거
        - str.lstrip() : 왼쪽 공백 제거
        - str.rstip() : 오른쪽 공백 제거
        - str.replace() : 공백 전체 제거 또는 대체
    - 데이터 타입
    - 불규칙한 대소문자
    - 불규칙한 구분기호
    - 유효하지 않은 문자
    - 불규칙한 날짜 및 시간 표기

In [1]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

#### 1. 날짜 형식

In [2]:
# 날짜 데이터1 : str 타입
# 날짜 형식 : 2019.01.01   2017-08-13    2017/06/07
str_date = ['2019.01.01', '2017-08-13', '2017/06/07']

In [3]:
# Series 의 values로 저장
pd.Series(str_date)

0    2019.01.01
1    2017-08-13
2    2017/06/07
dtype: object

In [4]:
# 1) str 타입을 datetime 타입으로 변환 후 pandas 저장
# pd.to_datetime()
pd.Series(pd.to_datetime(str_date))

0   2019-01-01
1   2017-08-13
2   2017-06-07
dtype: datetime64[ns]

In [6]:
# 2) str 타입으로 저장 후 데이터 타입 변경
# sr.astype('데이터타입')
pd.Series(str_date).astype('datetime64')

0   2019-01-01
1   2017-08-13
2   2017-06-07
dtype: datetime64[ns]

In [7]:
# 날짜 데이터2 : timestamp 타입
# 1234000, 1230405, 12350600
# timestamp : 기준시각(UTC 1970.1.1 00:00:00)을 기준으로 몇 초 경과했는지의 기간
stamp_date = [1234000, 1234101, 1234202, 1234444, 1234900]

In [8]:
# 숫자 타입으로 저장
pd.Series(stamp_date)

0    1234000
1    1234101
2    1234202
3    1234444
4    1234900
dtype: int64

In [9]:
# datetime 타입으로 변환 후 저장
# timestamp & pd.to_datetime() 기본 단위 : ns(nano seconds)
# pd.to_datetime 파라미터
# unit : ns(default), D(days), s(seconds), ms(milli seconds) ...
pd.Series(pd.to_datetime(stamp_date))

0   1970-01-01 00:00:00.001234000
1   1970-01-01 00:00:00.001234101
2   1970-01-01 00:00:00.001234202
3   1970-01-01 00:00:00.001234444
4   1970-01-01 00:00:00.001234900
dtype: datetime64[ns]

In [10]:
# unit = s
pd.Series(pd.to_datetime(stamp_date, unit='s'))

0   1970-01-15 06:46:40
1   1970-01-15 06:48:21
2   1970-01-15 06:50:02
3   1970-01-15 06:54:04
4   1970-01-15 07:01:40
dtype: datetime64[ns]

In [12]:
# unit = D
pd.Series(pd.to_datetime([100,200,300,400], unit='D'))

0   1970-04-11
1   1970-07-20
2   1970-10-28
3   1971-02-05
dtype: datetime64[ns]

In [13]:
# unit = ms
pd.Series(pd.to_datetime(stamp_date, unit='ms'))

0   1970-01-01 00:20:34.000
1   1970-01-01 00:20:34.101
2   1970-01-01 00:20:34.202
3   1970-01-01 00:20:34.444
4   1970-01-01 00:20:34.900
dtype: datetime64[ns]

#### 2. 라벨 형식 통일
- 데이터 인코딩 작업에 포함

In [None]:
# map() / apply()
# dict => dict(), zip(), range(), enumerate()
# def
# lambda

In [14]:
# gender 컬럼
# 0001012
# 0: F, 1 :M, 2:N
df = pd.DataFrame({'gender':[0,0,0,1,0,1,2]})
df

Unnamed: 0,gender
0,0
1,0
2,0
3,1
4,0
5,1
6,2


In [16]:
dict(zip(range(3), ['F','M','N']))

{0: 'F', 1: 'M', 2: 'N'}

In [25]:
tmp = {}
# enumerate()는 range() 함수를 자동실행해서 숫자를 생성해준다.
for k,v in enumerate(['F','M','N']):
    tmp[k] = v

In [26]:
tmp

{0: 'F', 1: 'M', 2: 'N'}

In [27]:
df['gender'].map(tmp)

0    F
1    F
2    F
3    M
4    F
5    M
6    N
Name: gender, dtype: object

In [31]:
# replace() 
df['gender'] = df['gender'].replace(0,'F')
df['gender'] = df['gender'].replace(1,'M')
df['gender'] = df['gender'].replace(2,'N')

In [32]:
df['gender']

0    F
1    F
2    F
3    M
4    F
5    M
6    N
Name: gender, dtype: object

#### 3. 문자 형식(대소문자, 기호 등) 통일

In [33]:
# 샘플 데이터프레임 생성
# 컬럼 : Name, Age
# Jane, Jessie Alex
# 18,19,20
df1 = pd.DataFrame({'Name':['Jane', 'Jessie', 'Alex'],
                    'Age':[18,19,20]})
df1

Unnamed: 0,Name,Age
0,Jane,18
1,Jessie,19
2,Alex,20


In [None]:
# for문
# 새로운 리스트에 새로운 컬럼 저장한 후 df.columns = 새로운 리스트
# df.rename({old:new}, axis=1, inplace=True)

In [41]:
# 컬럼명을 모두 소문자로 한번에 변경
# str 타입인 컬럼에 대해 str 메서드를 적용하는 방법
df1.columns = df1.columns.str.lower()

In [42]:
df1

Unnamed: 0,name,age
0,Jane,18
1,Jessie,19
2,Alex,20


In [52]:
# 텍스트 데이터를 가지고 있는 컬럼에 대해서 값을 모두 소문자로 통일
df1.dtypes

name    object
age      int64
100      int64
dtype: object

In [53]:
df1['name'].dtypes

dtype('O')

In [56]:
for col in df1.columns:
    if df1[col].dtypes == 'O':
        df1[col] = df1[col].apply(lambda x: x.lower())    

In [57]:
df1

Unnamed: 0,name,age,100
0,jane,18,10
1,jessie,19,20
2,alex,20,30


In [None]:
# 컬럼명이 텍스트인 케이스만 처리
# 컬럼명이 숫자인 컬럼 추가
df1[100] = [10,20,30]

In [76]:
# df 컬럼 원복
df1.columns = ['NAME', 'AGE', 100]

In [77]:
df1

Unnamed: 0,NAME,AGE,100
0,jane,18,10
1,jessie,19,20
2,alex,20,30


In [78]:
# 값 자체를 확인
tmp = []
for col in df1.columns:
    if col != 100:
#       리스트로 전체 컬럼을 전달하지 않고 일부 컬럼만 수정
#       df1.rename({col:col.lower}, axis=1, inplace=True)  
        tmp.append(col.lower())
    
tmp.append(100)

In [79]:
df1.columns = tmp

In [80]:
df1

Unnamed: 0,name,age,100
0,jane,18,10
1,jessie,19,20
2,alex,20,30


#### 데이터 값에 대한 처리
- 결측값
- 이상치
- 단순 중복 데이터
- 동일한 의미, 다른 명칭의 중복 데이터
- 중복속성(다중공선성)
- 불규칙한 데이터 수집(간격, 단위)

In [81]:
# 데이터 적재
sample = pd.read_csv('csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 결측치 처리 - 삭제
- 결측치가 하나라도 있는 레코드 삭제 
- 모든 값이 결측인 레코드 삭제 
- 결측치가 하나라도 있는 데이터만 선택

In [82]:
# 결측치가 하나라도 있는 레코드 삭제
# df.dropna(how='any'(기본동작), inplace=True)
sample.dropna()

Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [83]:
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [84]:
# 모든 값이 결측인 레코드 삭제
sample.dropna(how='all')

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [90]:
# 결측치가 하나라도 있는 데이터만 선택
sample[sample.isnull().any(axis=1)]

Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


#### 결측치 처리 - 대체값
- 연속형 : 임의값(0), mean, median, 예측값, 도메인지식 활용
- 명목형 : mode(최빈값), 예측값, 도메인지식 활용

In [92]:
# 연속형 - 임의값 대체
# df.fillna(k)
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64

In [94]:
sample.fillna(0)

Unnamed: 0,math,english,science
0,70.0,0.0,0.0
1,75.0,65.0,80.0
2,0.0,0.0,0.0
3,56.0,89.0,0.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [93]:
sample.fillna(0).isnull().sum()

math       0
english    0
science    0
dtype: int64

In [95]:
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [102]:
# mean - 1) 전체 데이터의 평균값
sample.mean()

math       76.00
english    87.25
science    84.00
dtype: float64

In [98]:
# np 타입 연산은 하나라도 NaN 값이 있으면 결과는 NaN
sample.values.sum()

nan

In [106]:
total_avg = sample.fillna(0).values.mean()

In [108]:
sample.fillna(total_avg)

Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [111]:
# mean - 2) 결측이 있는 속성의 평균값
# 1. 속성별로 평균 => df 컬럼별 평균 => pandas 연산은 NaN 제외하고 연산
# 2. 속성별로 fillna(1번값)
m_avg = sample.mean()[0]
e_avg = sample.mean()[1]
s_avg = sample.mean()[2]

In [116]:
sample['math'].fillna(m_avg, inplace=True)
sample['science'].fillna(s_avg, inplace=True)
sample['english'].fillna(e_avg, inplace=True)

In [117]:
sample.isnull().sum()

math       0
english    0
science    0
dtype: int64