# "[DA] Pandas 심화"
> "Data 형식 통일하기"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [Data 형식 통일]
- author: 도형준

# 데이터셋 전처리

In [1]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd

## 1. 데이터 전처리

- 데이터 형식에 대한 처리
    - 공백 문자
        - str.strip() : 양쪽 공백 제거
        - str.lstrip() : 왼쪽 공백 제거
        - str.rstip() : 오른쪽 공백 제거
    - 데이터 타입
    - 불규칙한 대소문자
    - 불규칙한 구분기호
    - 유효하지 않은 문자
    - 불규칙한 날짜 및 시간 표기

### 1. 날짜 형식

In [2]:
# 날짜 데이터1: str타입
str_date = ['2022/11/01','2022.10.31','2021-10-09']

In [3]:
# 시리즈 형태로 저장
pd.Series(str_date)

0    2022/11/01
1    2022.10.31
2    2021-10-09
dtype: object

In [4]:
# 1) str타입을 date타입으로 변환 후 pandas 저장
# pd.to_datetime()
pd.to_datetime(str_date)

DatetimeIndex(['2022-11-01', '2022-10-31', '2021-10-09'], dtype='datetime64[ns]', freq=None)

In [5]:
# 2) str 타입으로 저장 후 데이터 타입 변경
# series.dtype: 데이터타입 확인
# series.astype(): 데이터 타입 변경
pd.Series(str_date).astype('datetime64')

0   2022-11-01
1   2022-10-31
2   2021-10-09
dtype: datetime64[ns]

In [6]:
# 날짜 데이터 2: timestamp 타입
# timestamp: 기준시각(1970 . 01. 01 00:00:00 UTC)로부터 몇 초가 경과했는지 표기
stamp_date = [1234000,1234101,1234202,1234300,1234500]

In [7]:
pd.Series(stamp_date)

0    1234000
1    1234101
2    1234202
3    1234300
4    1234500
dtype: int64

In [8]:
# datetime 타입으로 변환 후 저장
# timestamp의 기본 unit = ns(nano seconds) 나노초: 10억분의 1초
# unit = ns(default), D(days), s(seconds), ms(milli seconds), us(micro senconds)
pd.Series(pd.to_datetime(stamp_date))

0   1970-01-01 00:00:00.001234000
1   1970-01-01 00:00:00.001234101
2   1970-01-01 00:00:00.001234202
3   1970-01-01 00:00:00.001234300
4   1970-01-01 00:00:00.001234500
dtype: datetime64[ns]

In [9]:
# unit = s(seconds)
pd.Series(pd.to_datetime(stamp_date, unit='s'))

0   1970-01-15 06:46:40
1   1970-01-15 06:48:21
2   1970-01-15 06:50:02
3   1970-01-15 06:51:40
4   1970-01-15 06:55:00
dtype: datetime64[ns]

In [10]:
# unit = D(Day)
pd.Series(pd.to_datetime(stamp_date, unit='D'))
# Overflow  Error: 컴퓨터는 2038년 이후 인식 못함

OutOfBoundsDatetime: cannot convert input 1234000 with the unit 'D'

In [11]:
# unit = ms
pd.Series(pd.to_datetime(stamp_date, unit='ms'))

0   1970-01-01 00:20:34.000
1   1970-01-01 00:20:34.101
2   1970-01-01 00:20:34.202
3   1970-01-01 00:20:34.300
4   1970-01-01 00:20:34.500
dtype: datetime64[ns]

In [12]:
# unit = us
pd.Series(pd.to_datetime(stamp_date, unit='us'))

0   1970-01-01 00:00:01.234000
1   1970-01-01 00:00:01.234101
2   1970-01-01 00:00:01.234202
3   1970-01-01 00:00:01.234300
4   1970-01-01 00:00:01.234500
dtype: datetime64[ns]

### 2. 라벨 형식 통일 

- 데이터 인코딩 작업에 포함

In [13]:
# map()
# dictionary 타입으로 encoding map을 생성해서 적용
# gender = 0(남자), 1(여자)
df = pd.DataFrame({'gender':[0,0,0,1,0,1]})
gender_map = {0:'M',1:'F'}
df

Unnamed: 0,gender
0,0
1,0
2,0
3,1
4,0
5,1


In [14]:
# df 변수의 'gender' 컬럼 값을 map함수를 이용해 0은 M으로, 1은 F로 변환
df['gender'].map(gender_map)

0    M
1    M
2    M
3    F
4    M
5    F
Name: gender, dtype: object

In [15]:
# 기존에 배운 파이썬 기본 문법으로 바꾸기
# 찾아 바꾸기인 .replace()를 써도 된다.
df['gender']=df['gender'].replace(0,'M').replace(1,'F')
df

Unnamed: 0,gender
0,M
1,M
2,M
3,F
4,M
5,F


### 3. 문자 형식(대소문자, 기호 등) 통일

In [16]:
data = {'Name':['Jane','Albert','John'],
       'Age':[18,19,20]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,Name,Age
0,Jane,18
1,Albert,19
2,John,20


#### 컬럼명을 소문자로 바꾸는 첫 번째 방법

In [17]:
# 빈 리스트에 소문자로 변경한 컬럼을 모두 적재한 뒤 대입
new_cols = list()
for col in df1.columns:
    print(col.lower())
    new_cols.append(col.lower())

name
age


In [18]:
df1.colums = new_cols
df1

  df1.colums = new_cols


Unnamed: 0,Name,Age
0,Jane,18
1,Albert,19
2,John,20


#### 두번째 방법

In [19]:
# df.columns.str에 바로 upper() 등을 걸 수 있음'
df1.columns=df1.columns.str.upper()
df1

Unnamed: 0,NAME,AGE
0,Jane,18
1,Albert,19
2,John,20


In [20]:
# 내부요소(NAME 컬럼)의 모든 자료를 소문자로 통일
# age: 정수 자료이므로 고칠 필요가 없음. 따라서 배제
# .apply(함수명)
# 해당 함수의 리턴 값으로 컬럼 내부 값을 일괄적으로 교체해주는 명령어
def change_lower(value):
    return value.lower()

In [21]:
df1['NAME'].apply(change_lower)

0      jane
1    albert
2      john
Name: NAME, dtype: object

In [22]:
# AGE 컬럼의 값을 20이상이면 "성인", 19이하이면 "미성년자"
# 리턴하도록 is_adult() 함수를 아래에 정의

def is_adult(value):
    if value >= 20:
        return '성인'
    else:
        return '미성년자'

In [23]:
df1['AGE']=df1['AGE'].apply(is_adult)
df1

Unnamed: 0,NAME,AGE
0,Jane,미성년자
1,Albert,미성년자
2,John,성인


## 2. 데이터 값에 대한 처리

- 결측값
- 이상치
- 단순 중복 데이터
- 동일한 의미, 다른 명칭의 중복 데이터
- 중복속성(다중공선성)
- 불규칙한 데이터 수집(간격, 단위)

In [24]:
# 데이터 적재
sample = pd.read_csv('csv_exam_nan.csv')
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


### 1. 결측치 처리 - 삭제

#### 1. 결측치가 하나라도 있는 레코드 삭제

In [25]:
# 결측치가 하나 이상인 레코드(row) 삭제
# df.dropna(how='any'(default), inplace=True)
# inplace 파라미터: 원본에 바로 반영
sample.dropna() #how='any'

Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 2. 모든 값이 결측인 레코드 삭제

In [26]:
# df.dropna(how='all')
sample.dropna(how='all')

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 3. 결측치가 하나라도 있는 데이터만 삭제

In [27]:
# 결측치가 하나라도 있는 데이터만 '선택'
# df[df.isnull().any(axis=1)]
sample[sample.isnull().any(axis=1)]

Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


In [28]:
# isnull()은 모든 셀을 구분해서 NaN이 있는 셀은 True, 아닌 셀은 False 출력
sample.isnull()

Unnamed: 0,math,english,science
0,False,True,True
1,False,False,False
2,True,True,True
3,False,False,True
4,False,False,False
5,False,False,False


In [29]:
# any는 해당 컬럼에 isnull()의 결과값이 True인 셀이 존재하는지 체크
# default: axis = 0(컬럼 기준으로 결측치 여부 조사)
sample.isnull().any()

math       True
english    True
science    True
dtype: bool

In [30]:
# axis = 1을 기입하면 몇 번 row에 결측치가 있고, 몇번에 없는지 True, False 반호ㅠㅏㄴ
sample.isnull().any(axis=1)

0     True
1    False
2     True
3     True
4    False
5    False
dtype: bool

In [31]:
# 결측치 개수를 세는 방법
sample.isnull()

Unnamed: 0,math,english,science
0,False,True,True
1,False,False,False
2,True,True,True
3,False,False,True
4,False,False,False
5,False,False,False


In [32]:
# 컬럼별 결측치 개수를 세는 법
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64

### 2. 결측치 처리 - 대체값

- 연속형: 임의값(0 등...), mean, median, 예측값, 도메인 지식 활용
- 명목형: mode(최빈값), 예측값, 도메인 지식 활용

In [33]:
# 연속형 - 임의의 값으로 대체
# df.fillna(v)
sample.fillna(0)

#### 평균값으로 채워넣기

In [34]:
# mean - 1) 전체 데이터의 평균값
# sample: 6*3 모든 데이터에 대한 평균
# df.mean(): 컬럼별로 평균값
# NaN를 없는 값으로 가정하고 구한 평균
sample.mean()

math       76.00
english    87.25
science    84.00
dtype: float64

In [35]:
# df.values.mean(): Array타입의 연산으로 NaN값이 하나라도 있다면 최종결과 NaN
# sample.values.mean() => 전체 평균을 구할 수 있지만 NaN
# df.fillna(0)으로 결측치를 보완하고 => mean()으로 구해야 함
# NaN가 0으로 대체된 평균을 구한다음, 그 평균값으로 결측치 매우기
sample.values.mean() # NaN은 계산에 반영이 안 되기 때문

nan

In [36]:
#sample.fillna(0,inplace=True)
#sample.replace(0,sample.values.mean(),inplace=True)
#sample
tot_avg = sample.fillna(0).values.mean()
sample.fillna(tot_avg)

Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [37]:
# mean - 2) 결측치가 존재하는 속성(변수 == 컬럼)의 평균값
# sample: math/en/sc 컬럼에 존재하는 결측치 -> math/en/sc 컬럼의 평균 값
# df.mean() 컬럼별 평균
sample.mean()

math       76.00
english    87.25
science    84.00
dtype: float64

In [39]:
# 각 컬럼 별 평균
math_avg = sample.mean()[0]
en_avg = sample.mean()[1]
sc_avg = sample.mean()[2]

In [42]:
#fillna를 이용해 과목별 컬럼에 각각 컬럼의 평균값을 결측치 대신 삽입
print(sample['math'].fillna(math_avg))
print(sample['english'].fillna(en_avg))
print(sample['science'].fillna(sc_avg))

0    70.0
1    75.0
2    76.0
3    56.0
4    89.0
5    90.0
Name: math, dtype: float64
0     87.25
1     65.00
2     87.25
3     89.00
4     95.00
5    100.00
Name: english, dtype: float64
0    84.0
1    80.0
2    84.0
3    84.0
4    83.0
5    89.0
Name: science, dtype: float64


#### 중위값으로 채워넣기

In [58]:
# median - 전체 데이터에 대한 중위값
# tot_medi: 54.5
# median()을 이용해 몇인지 구하기
# Series나 DF는 벡터함수 연산시 자동으로 NaN을 배제
# 따라서 전체 데이터의 중위값을 구하기 위해서 먼저 Series로 변경
# sample.size를 .reshape()에 넣어주면 자동으로 1차원 배열로 크기 맞춰서 변경
pd.Series(sample.values.reshape(18)).median()

86.0

#### 범주형 - 최빈값으로 채워넣기

In [59]:
# mode - 범주형 데이터에서는 최빈값을 사용
# describe()
# value_counts()
# collections 라이브러리의 Counter 모듈
df = pd.DataFrame({'label':['A','B','B','C','C','C','D']})
df

Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [61]:
# describe()는 통계 분석에서 사용
# count 로우는 총 데이터 개수
# unique는 데이터의 유형이 몇 개인지
# top은 가장 많이 나온 요소가 무엇인지
# freq는 top 빈도가 몇 번인지

df.describe()

label    C
Name: top, dtype: object

In [63]:
df.describe().loc['top']

label    C
Name: top, dtype: object

In [62]:
# Series로 변경하기 위해 label 컬럼을 지정한 후 ,value_counts()를 이용해
# 각 범주별 개수를 구할 수 있음
df['label'].value_counts()

C    3
B    2
A    1
D    1
Name: label, dtype: int64

In [64]:
from collections import Counter
# 1. 라이브러리 가져오기
# 2. Counter()를 이용해 Counter 타입의 자료 생성
# 3. Counter 객체.most_commons() => [(value1,count1),(value2,count2),...]

In [65]:
colors = ['red','blue', 'pink','blue','blue','red']

In [66]:
counter=Counter(colors)

In [67]:
counter

Counter({'red': 2, 'blue': 3, 'pink': 1})

In [68]:
# most_common()
# 갯수순으로 나열해줌
counter.most_common()

[('blue', 3), ('red', 2), ('pink', 1)]

In [69]:
# DF에도 Counter를 쓸 수 있음
df = pd.DataFrame({'label':['A','B','B','C','C','C','D']})
df

Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [70]:
Counter(df['label']).most_common()

[('C', 3), ('B', 2), ('A', 1), ('D', 1)]

## 3. 데이터 단위 통일

### 1. 표준화(Standardization)

- 평균을 기준으로 얼마나 떨어져 있는지를 파악
- sklearn에서 제공하는 전처리 클래스
    - preprocessing 클래스
        - scaler() : 전체 자료의 분포를 평균 0, 표준편차 1이 되도록 스케일링
        - minmax_scale() : 최대/최소값이 각각 1, 0이 되도록 스케일링
        - StandardScaler() : scaler() 함수와 동일한 동작

- 표준화 : (요소값(하나의 데이터) - 평균) / 표준편차
- 삼성전자 vs 작은회사 주식 시세
- 몸무게 vs 키
    - 표준화 결과 : 몸무게 음수, 키 양수
    - 해석 : 몸무게는 평균 이하, 키는 평균 이상(=>마른몸)

In [71]:
# 전처리 기능을 제공하는 sckitlearn 라이브러리 및 모듈 가져오기
from sklearn.preprocessing import scale, minmax_scale

In [72]:
# -3이상 5 이하의 정수를 값으로 가지는 9행 1열 배열 생성
x = (np.arange(9)-3).reshape(-1,1)
x

array([[-3],
       [-2],
       [-1],
       [ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5]])

In [73]:
# DF 생성
# 3개 컬럼: x, scale(x), minmax_scale(x)
type(x)

numpy.ndarray

In [74]:
scale(x)

array([[-1.54919334],
       [-1.161895  ],
       [-0.77459667],
       [-0.38729833],
       [ 0.        ],
       [ 0.38729833],
       [ 0.77459667],
       [ 1.161895  ],
       [ 1.54919334]])

In [75]:
# np.hstack => 가로 방향으로 붙혀줌
# np.vstack => 세로 방향으로 붙혀줌
# 9*1 데이터 3개를 가로로 붙여서 9*3(세로로 붙였으면 27*1)으로 만들고
# 붙여준 컬럼별로 수행한 연산을 컬럼명으로 정의
df = pd.DataFrame(np.hstack([x,scale(x),minmax_scale(x)]),
                  columns = ['x','scale(x)','minmax_scale(x)'])
df

Unnamed: 0,x,scale(x),minmax_scale(x)
0,-3.0,-1.549193,0.0
1,-2.0,-1.161895,0.125
2,-1.0,-0.774597,0.25
3,0.0,-0.387298,0.375
4,1.0,0.0,0.5
5,2.0,0.387298,0.625
6,3.0,0.774597,0.75
7,4.0,1.161895,0.875
8,5.0,1.549193,1.0
