# 20221101 수업내용

### kaggle 컴피티션 데이터
### bigcontest(대회)

- 분석 모델 : 공식 or 방정식

# 데이터 전처리
- 데이터 형식에 대한 처리
    - 공백 문자
        - str.strip() : 양쪽 공백 제거
        - str.lstrip() : 왼쪽 공백 제거
        - str.rstip() : 오른쪽 공백 제거
    - 데이터 타입
    - 불규칙한 대소문자
    - 불규칙한 구분기호
    - 유효하지 않은 문자
    - 불규칙한 날짜 및 시간 표기

In [153]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#### 1. 날짜형식

In [2]:
# 날짜 데이터 1 : str type
str_data = ['2022/11/01','2022.10.31','2021-10-09']

In [3]:
# Series 형태로 저장
pd.Series(str_data)

0    2022/11/01
1    2022.10.31
2    2021-10-09
dtype: object

In [4]:
# 1) str type을 datetime type으로 변환 후 pandas 저장
pd.Series(pd.to_datetime(str_data))

0   2022-11-01
1   2022-10-31
2   2021-10-09
dtype: datetime64[ns]

In [5]:
# 2) str type으로 저장 후 datatype 변경
# Series.dtype : dtype 확인
# series.astype : dtype 변경
pd.Series(str_data).astype('datetime64')

0   2022-11-01
1   2022-10-31
2   2021-10-09
dtype: datetime64[ns]

In [6]:
# 날짜 데이터 2 : timestamp
# timestamp : 기준시각 (1970.01.01 00:00:00 UTC)로부터 몇 초가 경과했는지 표기
# UTC -  unix_time(협졍세계시계)
stamp_date = [1234000,1234101,1234202,1234300,1234500]

In [7]:
pd.Series(stamp_date)

0    1234000
1    1234101
2    1234202
3    1234300
4    1234500
dtype: int64

In [8]:
# datetime type으로 변환 후 저장
# timestamp 의 기본 - unit = ns(nano seconds) 나노초 : 10억분의 1
# unit =ns(default), D(days), s(seconds), ms(mill seconds), us(micro seconds)
pd.Series(pd.to_datetime(stamp_date))

0   1970-01-01 00:00:00.001234000
1   1970-01-01 00:00:00.001234101
2   1970-01-01 00:00:00.001234202
3   1970-01-01 00:00:00.001234300
4   1970-01-01 00:00:00.001234500
dtype: datetime64[ns]

In [9]:
# nuit = s(seconds)
pd.Series(pd.to_datetime(stamp_date, unit='s'))

0   1970-01-15 06:46:40
1   1970-01-15 06:48:21
2   1970-01-15 06:50:02
3   1970-01-15 06:51:40
4   1970-01-15 06:55:00
dtype: datetime64[ns]

In [199]:
## unit = d(days)
pd.Series(pd.to_datetime(stamp_date,unit='D')) # Error 발생 Overflow

NameError: name 'stamp_date' is not defined

In [11]:
# unit = ms
pd.Series(pd.to_datetime(stamp_date, unit='ms'))

0   1970-01-01 00:20:34.000
1   1970-01-01 00:20:34.101
2   1970-01-01 00:20:34.202
3   1970-01-01 00:20:34.300
4   1970-01-01 00:20:34.500
dtype: datetime64[ns]

In [12]:
# unit = us
pd.Series(pd.to_datetime(stamp_date,unit='us'))

0   1970-01-01 00:00:01.234000
1   1970-01-01 00:00:01.234101
2   1970-01-01 00:00:01.234202
3   1970-01-01 00:00:01.234300
4   1970-01-01 00:00:01.234500
dtype: datetime64[ns]

#### 2. 라벨 형식 통일

- 데이터의 인코딩 작업에 포함

In [14]:
# map
# dict type enconding map을 생성해 적용
# gender = 0(male), 1(female)
df = pd.DataFrame({'gender':[0,0,0,1,0,1]})
gender_map = {0:'M',1:'F'}
df

Unnamed: 0,gender
0,0
1,0
2,0
3,1
4,0
5,1


In [15]:
# df Object 의 'gender' columns 값을 map 함수를 이용해 0은 M으로, 1은 F로 변환
df['gender'].map(gender_map)

0    M
1    M
2    M
3    F
4    M
5    F
Name: gender, dtype: object

In [25]:
# 기존에 배운 python 기본 문법으로 바꾸기
# 찾아 바꾸기인 replace()를 써도 됨
# 아래 코드를 응용해 M,F로 바뀐 df를 저장
# df['gender'].replace([0,1]['M','F'], inplace=True)
# df['gender'].replace({0:'M',1:'F'}, inplace=True)
df['gender'].replace(0,'M',inplace=True)
df['gender'].replace(1,'F',inplace=True)
df

Unnamed: 0,gender
0,M
1,M
2,M
3,F
4,M
5,F


# 3. 문자 형식(대소문자, 기호 등) 통일

In [20]:
data = {'name':['Jane','Albert','John'],
        'Age':[18,19,20]}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,name,Age
0,Jane,18
1,Albert,19
2,John,20


In [3]:
# columns name 소문자로 바꾸는 방법
# 빈 리스트에 소문자로 변경한 columns 모두 적재한 뒤 대입
new_cols = list()#[]
for col in df1.columns:
    print(col.lower())
    new_cols.append(col.lower())

name
age


In [21]:
new_cols

['name', 'age']

In [22]:
df1.columns = new_cols
df1

Unnamed: 0,name,age
0,Jane,18
1,Albert,19
2,John,20


In [23]:
# df.columns 에 upper()등을 걸 수 있음
df1.columns=df1.columns.str.upper()

In [24]:
df1

Unnamed: 0,NAME,AGE
0,Jane,18
1,Albert,19
2,John,20


In [25]:
# 내부 요소(NAME columns)의 모든 자료를 소문자로 통일
# age : 정수 자료이므로 고칠 필요 없음
# apply(함수명)
# 해당 함수의 return으로 columns 내부 값을 일괄적으로 교체하는 명령어
def change_lower(value):
    return value.lower()

In [28]:
df1['NAME'].apply(change_lower)

0      jane
1    albert
2      john
Name: NAME, dtype: object

In [30]:
df1['NAME'].map(change_lower)

0      jane
1    albert
2      john
Name: NAME, dtype: object

In [None]:
# AGE columns 값이 20 이상이면 '성인', 19 이하면 '미성년자'
# is_adult()함수를 아래에 정의하고
# 위 함수를 .apply()로 활용해 값을 일괄적으로 변경

In [42]:
def is_adult(value):
    if value>=20:
        return '성인'
    elif value<=19:
        return '미성년자'
    
df1['AGE'] = df1['AGE'].apply(is_adult)

In [13]:
ef change_upper(value):
    return value.upper()

In [43]:
df1

Unnamed: 0,NAME,AGE
0,Jane,미성년자
1,Albert,미성년자
2,John,성인


#### 데이터 값에 대한 처리
- 결측값
- 이상치
- 단순 중복 데이터
- 동일한 의미, 다른 명칭의 중복 데이터
- 중복속성(다중공선성)
- 불규칙한 데이터 수집(간격, 단위)

In [154]:
# data 적재
sample = pd.read_csv('data1/csv_exam_nan.csv')

In [155]:
sample

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
2,,,
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


#### 결측치 처리 - 삭제
- 결측치가 하나라도 있는 레코드 삭제
- 모든 값이 결측인 레코드 삭제
- 결측치가 하나라도 있는 데이터만 삭제

In [156]:
# 결측치가 하나 이상인 레코드(row)삭제
# df.dropna(how='any'(default), inplace=True)
sample.dropna() # how='any')

Unnamed: 0,math,english,science
1,75.0,65.0,80.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [157]:
# 모든 값이 결측치인 레코드만 삭제
# df.dropna(how='all')
sample.dropna(how='all')

Unnamed: 0,math,english,science
0,70.0,,
1,75.0,65.0,80.0
3,56.0,89.0,
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [158]:
# 결측치가 하나라도 있는 데이터만 선택
# 조건색인으로 처리한 것, isnull().any()의 원리를 이해해야함
# df[df.isnull().any(axis=1)]
sample[sample.isnull().any(axis=1)]

Unnamed: 0,math,english,science
0,70.0,,
2,,,
3,56.0,89.0,


In [159]:
# .isnull()은 모든 셀을 구분해 NaN가 있는 셀은 True, 아닌 셀은 False로 출력
sample.isnull()

Unnamed: 0,math,english,science
0,False,True,True
1,False,False,False
2,True,True,True
3,False,False,True
4,False,False,False
5,False,False,False


In [160]:
# any는 해당 컬럼에 isnull()의 결과값이 True인 셀이 존재하는지 체크
sample.isnull().any()

math       True
english    True
science    True
dtype: bool

In [161]:
# axis=1 을 기입하면 몇 번 row에 결측치가 있고, 몇 번에 없는지 True, False로 출력
sample.isnull().any(axis=1)

0     True
1    False
2     True
3     True
4    False
5    False
dtype: bool

In [162]:
# columns 결측치 개수를 세는 법
sample.isnull().sum()

math       1
english    2
science    3
dtype: int64

#### 결측치 처리 - 대체값
- 연속형 : 임의값(0 등...), mean, median, 예측갑스 도메인지식 활용
- 명목형 : mode(최빈값), 예측값, 도메인지식 활용

In [129]:
# 연속형 - 임의의 값으로 대체
# df.fillna(v)
sample.fillna(0)

Unnamed: 0,math,english,science,0
0,70.0,0.0,0.0,76.0
1,75.0,65.0,80.0,76.0
2,0.0,0.0,0.0,76.0
3,56.0,89.0,0.0,76.0
4,89.0,95.0,83.0,76.0
5,90.0,100.0,89.0,76.0


In [163]:
# mean - 1)전체 데이터의 평균값
# sample : 6*3 모든 데이터에 대한 평균
# df.mean() : columns 별로 평균값
# NaN이 없는 값으로 가정하고 구한 평균
sample.mean()

math       76.00
english    87.25
science    84.00
dtype: float64

In [164]:
# df.values.mean() : Array type 연산으로 NaN값이 하나라도 있다면 최종결과도 NaN
# sample.values.mean() - > 전체 평균을 구할 수 있지만 NaN 
# df.fillna(v)로 결측치를 보완하고 mean() 평균을 구해야함
# NaN가 0으로 대체된 평균을 먼저 구한 다음, 그 평균값으로 결측치를 메꾸시오
total_avg = sample.fillna(0).values.mean()
sample.fillna(total_avg)

Unnamed: 0,math,english,science
0,70.0,54.5,54.5
1,75.0,65.0,80.0
2,54.5,54.5,54.5
3,56.0,89.0,54.5
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [165]:
# mean - 2) 결측치가 존재하는 속성(object = columns)의 평균값
# sample : math/en/sc columns 에 존재하는 결측치 -> ma/en/sc columns 평균값
# df.mean() : columns 평균
# indexing으로 과목별 평균 조회
print(sample.mean()[0])
print(sample.mean()[1])
print(sample.mean()[2])

76.0
87.25
84.0


In [166]:
# columns 지정 후 평균 구하기
sample['math'].mean()

76.0

In [167]:
# fillna를 이용해 ma/en/sc columns 의 평균값을 결측치 대신 넣으시오
sample['math'].fillna(sample['math'].mean())

0    70.0
1    75.0
2    76.0
3    56.0
4    89.0
5    90.0
Name: math, dtype: float64

In [168]:
sample['english'].fillna(sample['english'].mean())

0     87.25
1     65.00
2     87.25
3     89.00
4     95.00
5    100.00
Name: english, dtype: float64

In [169]:
sample['science'].fillna(sample['science'].mean())

0    84.0
1    80.0
2    84.0
3    84.0
4    83.0
5    89.0
Name: science, dtype: float64

In [173]:
# median : 전체 데이터에 대한 중위값
# tot_avg : 54.5
# Series나 DataFrame은 벡터함수 연산 시 자동으로 NaN을 배제함
# 따라서 전체데이터의 중위값을 구하기 위해 먼저 Series로 바꿈
# sample.size를 .reshape()에 넣으면 자동으로 1차원 배열로 크기 맞춰 바꿔줌
tot_med = pd.Series(sample.values.reshape(18)).median()
tot_med

86.0

In [175]:
sample.median()

math       75.0
english    92.0
science    83.0
dtype: float64

In [174]:
sample.fillna(tot_med)

Unnamed: 0,math,english,science
0,70.0,86.0,86.0
1,75.0,65.0,80.0
2,86.0,86.0,86.0
3,56.0,89.0,86.0
4,89.0,95.0,83.0
5,90.0,100.0,89.0


In [176]:
# mode - 범주형 데이터에서는 최빈값을 사용
# discribe()
# value_counts()
# colletions library 의 Counter modeul
df = pd.DataFrame({'label':['A','B','B','C','C','C','D']})
df

Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [180]:
# describe()는 통계분석에 사용
# coun row는 총 데이터 개수
# unique는 데이터의 유형의 개수
# top은 가장 많이 나온 요소
# freq는 top빈도
df.describe()

Unnamed: 0,label
count,7
unique,4
top,C
freq,3


In [181]:
df.describe().loc['top']

label    C
Name: top, dtype: object

In [182]:
# Series로 변경하기 위해 label columns 을 지정 후, value_counts()를 이용해
# 각 범주별 개수를 구할 수 있음
df['label'].value_counts()

C    3
B    2
A    1
D    1
Name: label, dtype: int64

In [183]:
from collections import Counter
# 1. library 가져오기
# 2. Counter()를 이용해 Counter type 자료 생성
# 3. counter instance .most_common() => [(value1,count1), (value1,count2)...]

In [184]:
colors = ['red','blue','pink','blue','blue','red']

In [185]:
counter = Counter(colors)

In [186]:
counter

Counter({'red': 2, 'blue': 3, 'pink': 1})

In [187]:
# most_common()
# 갯수순으로 나열
counter.most_common()

[('blue', 3), ('red', 2), ('pink', 1)]

In [188]:
# DataFrame에도 Counter 를 쓸 수 있음
df = pd.DataFrame({'label':['A','B','B','C','C','C','D']})
df

Unnamed: 0,label
0,A
1,B
2,B
3,C
4,C
5,C
6,D


In [189]:
Counter(df['label']).most_common()

[('C', 3), ('B', 2), ('A', 1), ('D', 1)]

### 데이터 단위 통일


#### 표준화(Standardization)
- 평균을 기준으로 얼마나 떨어져 있는지를 파악
- sklearn에서 제공하는 전처리 클래스
    - preprocessing 클래스
        - scaler() : 전체 자료의 분포를 평균 0, 표준편차 1이 되도록 스케일링
        - minmax_scale() : 최대/최소값이 각각 1, 0이 되도록 스케일링
        - StandardScaler() : scaler() 함수와 동일한 동작

- 표준화 : (요소값(하나의 데이터) - 평균) / 표준편차
- 삼성전자 vs 작은회사 주식 시세
- 몸무게 vs 키
    - 표준화 결과 : 몸무게 음수, 키 양수
    - 해석 : 몸무게는 평균 이하, 키는 평균 이상(=>마른몸)

In [190]:
# 전처리 기능을 제공하는 sklearn libarary 및 모듈 가져오기
from sklearn.preprocessing import scale, minmax_scale

In [191]:
np.arange(9)

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [192]:
# -3이상, 5이하의 정수를 값으로 가지는 9행 1열 배열 생성
x = (np.arange(9)-3).reshape(-1,1)
x

array([[-3],
       [-2],
       [-1],
       [ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5]])

In [193]:
# DataFrame 생성
# 3개 columns : x, scale(x), minmax_scale(x)
type(x)

numpy.ndarray

In [194]:
# 전체 자료의 분포를 평균 0, 표준편차 1이 되도록 스케일링
scale(x)

array([[-1.54919334],
       [-1.161895  ],
       [-0.77459667],
       [-0.38729833],
       [ 0.        ],
       [ 0.38729833],
       [ 0.77459667],
       [ 1.161895  ],
       [ 1.54919334]])

In [198]:
minmax_scale(x)

array([[0.   ],
       [0.125],
       [0.25 ],
       [0.375],
       [0.5  ],
       [0.625],
       [0.75 ],
       [0.875],
       [1.   ]])

In [196]:
# np.hstack => 가로방향으로 붙임
# np.vstack => 세로방향으로 붙임
# 9*1 데이터 3개를 가로로 붙여 9*3 으로(세로로 붙였으며 27*1) 만들고
# 붙여준 column 로 수행한 연산을 column_name으로 정의
df = pd.DataFrame(np.hstack([x, scale(x), minmax_scale(x)]),
                 columns = ['x','sclae(x)','minmax_scale(x)'])

In [197]:
df

Unnamed: 0,x,sclae(x),minmax_scale(x)
0,-3.0,-1.549193,0.0
1,-2.0,-1.161895,0.125
2,-1.0,-0.774597,0.25
3,0.0,-0.387298,0.375
4,1.0,0.0,0.5
5,2.0,0.387298,0.625
6,3.0,0.774597,0.75
7,4.0,1.161895,0.875
8,5.0,1.549193,1.0
