# 데이터 전처리

- 데이터 형식에 대한 처리
    - 공백 문자
        - str.strip() : 양쪽 공백 제거
        - str.lstrip() : 왼쪽 공백 제거
        - str.rstip() : 오른쪽 공백 제거
    - 데이터 타입
    - 불규칙한 대소문자
    - 불규칙한 구분기호
    - 유효하지 않은 문자
    - 불규칙한 날짜 및 시간 표기

In [1]:
# 라이브러리 불러오기
import pandas as pd
import numpy as np

#### 1. 날짜 형식

In [2]:
# 날짜 데이터1 : str 타입
str_date = ['2018/01/01', '2015.03.04', '2020-02-22']

In [3]:
# str 타입으로 지정
pd.Series(str_date)

0    2018/01/01
1    2015.03.04
2    2020-02-22
dtype: object

In [4]:
# 1) str타입을 datetime 타입으로 변환 후 pandas 저장
# pd.to_datatime()
pd.Series(pd.to_datetime(str_date))

0   2018-01-01
1   2015-03-04
2   2020-02-22
dtype: datetime64[ns]

In [5]:
# 2) str타입으로 저장 후 데이터 타입 변경
# series.dtype : 데이터타입 확인
# series.astype() : 데이터타입 변경
pd.Series(str_date).astype('datetime64')

0   2018-01-01
1   2015-03-04
2   2020-02-22
dtype: datetime64[ns]

In [6]:
# 날짜 데이터2 : timestamp 타입
# timestamp : 기준시각(1970. 1. 1 00:00:00 UTC)로부터 시간이 얼마나 경과했는지 표기
stamp_date = [1234000, 1234101, 1234202, 1234300, 1234500]

In [7]:
# 숫자 타입으로 저장
pd.Series(stamp_date)

0    1234000
1    1234101
2    1234202
3    1234300
4    1234500
dtype: int64

In [8]:
# datetime 타입으로 변환 후 저장
# timestamp의 기본 unit = ns(nano seconds)
# unit = ns(default), D(days), s(seconds), ms(mili seconds) us(micro seconds)
pd.Series(pd.to_datetime(stamp_date))

0   1970-01-01 00:00:00.001234000
1   1970-01-01 00:00:00.001234101
2   1970-01-01 00:00:00.001234202
3   1970-01-01 00:00:00.001234300
4   1970-01-01 00:00:00.001234500
dtype: datetime64[ns]

In [9]:
# unit = s
pd.Series(pd.to_datetime(stamp_date, unit='s'))

0   1970-01-15 06:46:40
1   1970-01-15 06:48:21
2   1970-01-15 06:50:02
3   1970-01-15 06:51:40
4   1970-01-15 06:55:00
dtype: datetime64[ns]

In [10]:
# unit = us
pd.Series(pd.to_datetime(stamp_date, unit='us'))

0   1970-01-01 00:00:01.234000
1   1970-01-01 00:00:01.234101
2   1970-01-01 00:00:01.234202
3   1970-01-01 00:00:01.234300
4   1970-01-01 00:00:01.234500
dtype: datetime64[ns]

In [11]:
# unit = D
pd.Series(pd.to_datetime([10000, 36500, 10382, 28457], unit='D'))

0   1997-05-19
1   2069-12-07
2   1998-06-05
3   2047-11-30
dtype: datetime64[ns]

In [12]:
# unit = ms
pd.Series(pd.to_datetime(stamp_date, unit='ms'))

0   1970-01-01 00:20:34.000
1   1970-01-01 00:20:34.101
2   1970-01-01 00:20:34.202
3   1970-01-01 00:20:34.300
4   1970-01-01 00:20:34.500
dtype: datetime64[ns]

#### 2. 라벨 형식 통일
- 데이터 인코딩 작업에 포함

In [13]:
# map()
# dictionary 타입으로 encoding map을 생성해서 적용
# gender = 0(남자), 1(여자)
df = pd.DataFrame({'gender':[0, 0, 0, 1, 0, 1]})
gender_map = {0:'M', 1:'F'}

In [14]:
# df 변수에 있던 숫자를 gender_map에 의거해 교환해주세요 v
df['gender'].map(gender_map)

0    M
1    M
2    M
3    F
4    M
5    F
Name: gender, dtype: object

In [15]:
# replace()
df['gender'] = df['gender'].replace(0, 'M')
df['gender'] = df['gender'].replace(1, 'F')

In [16]:
df

Unnamed: 0,gender
0,M
1,M
2,M
3,F
4,M
5,F


#### 3. 문자 형식(대소문자, 기호 등) 통일

In [17]:
data = {'Name':['Jane', 'Jessie', 'Alex'],
       'Age':[18, 19, 20]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,Name,Age
0,Jane,18
1,Jessie,19
2,Alex,20


In [18]:
# 컬럼명을 전부 소문자로 변경 : lower()
# 반복문을 이용해 내부 요소를 전부 소문자로 치환
new_cols = []
for col in df1.columns:
    print(col.lower())
    new_cols.append(col.lower())
new_cols

name
age


['name', 'age']

In [19]:
df1.columns = new_cols
df1

Unnamed: 0,name,age
0,Jane,18
1,Jessie,19
2,Alex,20


In [20]:
# 컬럼명을 전부 대문자로 변경 : .upper()
# 반복문을 이용해 컬럼명을 전부 대문자로 교체해보세요.
new_cols = []
for col in df1.columns:
    print(col.upper())
    new_cols.append(col.upper())
new_cols

NAME
AGE


['NAME', 'AGE']

In [21]:
df1.columns = new_cols
df1

Unnamed: 0,NAME,AGE
0,Jane,18
1,Jessie,19
2,Alex,20


In [22]:
# NAME 컬럼 내부의 모든 값들을 소문자로 통일시키기
for i in df1:
    if i=='NAME':
        df1[i] = df1[i].apply(lambda x : x.lower())
df1

Unnamed: 0,NAME,AGE
0,jane,18
1,jessie,19
2,alex,20


#### 데이터 값에 대한 처리
- 결측값
- 이상치
- 단순 중복 데이터
- 동일한 의미, 다른 명칭의 중복 데이터
- 중복속성(다중공선성)
- 불규칙한 데이터 수집(간격, 단위)

In [23]:
# 데이터 적재 
sample = pd.read_csv('data/csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 결측치 처리 - 삭제
- 결측치가 하나라도 있는 레코드 삭제
- 모든 값이 결측인 레코드 삭제
- 결측치가 하나라도 있는 데이터만 삭제

In [25]:
# 결측치가 하나라도 있는 레코드 삭제
# df.dropna(how='any'(default), inplace=True)
# inplace 파라미터 : 원본 변수에 바로 적용
sample.dropna()

Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [26]:
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [27]:
# 모든 값이 결측인 레코드(row) 삭제
# df.dropna(how='all')
sample.dropna(how='all')

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [28]:
# 결측치가 하나라도 있는 데이터만 선택
# 조건 색인
# df[df.isnull().any(axis=1)]
sample[sample.isnull().any(axis=1)]

Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


In [29]:
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64