## 데이터 축소
분석이 불가한 데이터를 저차원, 저용량으로 축소<br>
컬럼이 늘어나면 통계 분석 시간이 산술기하급수적으로 증가함
* 차원 축소(컬럼 갯수)
    * 컬럼 개수를 줄이는 것
    * 데이터의 특징에 따라 다름
* 유효숫자 변경
    * 숫자 단위를 변경하는 것 (예시 7억원에서 원단위를 억원으로 바꾸는 것)
    * 득보다 실이 많을 때 안하는걸 권장
* 데이터 용량 축소 (PCA,LBA)
    * 서버에서 작업할 때 중요함
    * 메모리에서 오버플로우가 발생할 때
    * 작업속도가 중요한 경우
    * 중간산출물을 저장하고 불러올때, 입출력 지연이 생김
    * 바이너리 파일(npz)입출력 속도가 가장 빠름
* 수량 감소 - 정보를 날리는 작업
    * 패러미터만 남기고 삭제 (값만 남기는 작업), 아는 내용은 중복에서 적지 않는 관점과 동일
    * 선형 회귀
    * 히스토그램
    * 클러스터링 
        * 데이터를 집단별로 묶는 방법, 개별값은 전부 버림
    * 샘플링
        * 표본조사와 비슷, 표본으로 추출한 데이터만 남기고, 나머지는 전부 버림
        * 신뢰도는 떨어지지만 적은 데이터로 대표성을 나타낼 수 있는 유의미한 결과를 도출할 수 있다는 점에서 경제적임

## 데이터 이산화 
연속형 데이터를 범주형 데이터로 변경 (바이너리화) 두개로 나누는것 <br>
번주형 데이터 :각 변수간 간극이 없고, 변수별로 대소를 비교하지 못할때 <br>
(0,1),(10,20),(True,False) <br>
이산화가 인코딩 안에 들어가 있는 개념 <br>
* 기계학습 등에서 주요하게 사용
* 숫자가 크게 높거나 비슷한 값의 연관성 제거
* 컴퓨터가 판단할 수 없다는 특성에 근거
* 마스킹을 하기 위해서

## 데이터 표준화, 정규화
데이터의 분포에 따른 특성 제거 또는 통계를 위한 변환
* 표준화(정규 분포 형태로 변화, Normalizing)
    * 데이터베이스의 정규화 개념과 구분
    * 데이터 범위 차이가 달라짐
    * 데이터 범위의 제한 없음
    * Z-Score
* 정규화(0-1 범위로 변화 등,Scaling)
    * 데이터의 범위 차이가 유지됨
    * 데이터 범위의 제한이 생김
    * min-max scaling등 (범위변환)
    * 같은 스케일로 값을 비교할 수 있다는 이점
    * ML모델에 적용할 수 있는 이점이 있다 (스케일(데이터 범위)이 같아야 작동 가능)

In [138]:
from sklearn.preprocessing import MinMaxScaler
MinMaxScaler
scaler = MinMaxScaler()

In [139]:
data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
scaler.fit(data)

In [151]:
scaler.transform(data) # 각각 scale이 어떤기준으로 할당되는가? > DataFrame 기준, 각 column 단위로 scaling
# 왜 [1,18]이 [1,1]로 scaling이 되는가? 각 컬럼의 기준이 다르기 때문에

array([[0.  , 0.  ],
       [0.25, 0.25],
       [0.5 , 0.5 ],
       [1.  , 1.  ]])

In [150]:
scaler.transform([[4,5]])

array([[2.5   , 0.1875]])

In [148]:
import pandas as pd
df = pd.DataFrame(data)
df

Unnamed: 0,0,1
0,-1.0,2
1,-0.5,6
2,0.0,10
3,1.0,18


In [149]:
pd.DataFrame(scaler.transform(data))

Unnamed: 0,0,1
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,1.0,1.0


# 기초통계 - T - test
1. 집단 특성 확인
    * 독립표본 > 아래 절차로 이동
    * 대응표본 > Paired T-test
        * 표본들의 리스트의 길이가 같아야함
        * 두 표본간 관계성이 있어야함
        * 조건이 까다롭기 때문에, 설득력이 높음(T-test중에서)
2. 자료의 특성 확인
    * 범주형 > Mann - Whitney U test
        * 랭크 기반으로 범주를 할당한 후 차이분석
        * 조건이 널널한 편이기 때문에 설득력이 높진 않음
3. 연속형일 경우
    * 정규성, 등분산성 만족 > Student's T -test (independent T-test)
        * 우리가 알고 있는 T-test
    * 정규성 만족, 등분산성 불만족 > welch's T-test
        * 이분산성(분산성이 다름)
    * 정규성 불만족 > Mann - Whitney U test(wilconxon test 대체 가능)

* 최대한 다양한 기법을 통해 결론을 도출해야함
    * 그만큼 결론을 내릴때 신중하게 해야함
    * 한가지 방법만 햇을때 설득력이 높지 않다
    * T-test는 설득력이 높은편은 아니다
    * 정규분포는 T-test의 근간이기 때문에 정규성을 만족하지 않으면 설득력이 거의 없다
* P- value표기법
    1. p<0.05 ==*
    1. p<0.01 ==**
    1. p<0.001 ==***
    1. p<0.0001 ==****
    1. p= 0.05 ==ns


## 실습_1
* 두 그룹 간 차이가 통계적으로 유의미한지 알아보는 용도로 이용

In [170]:
from scipy import stats
import numpy as np
import pandas as pd

In [164]:
import openpyxl
df = pd.read_excel('C:/Users/user/Desktop/230102~/실습 데이터/FTA무역통계_20230109000015.xls',header= 4,index_col= 1)
df.head(5)
df_backup = df.copy()

  warn("Workbook contains no default style, apply openpyxl's default")


In [165]:
df['수출건수'] = [int(i.replace(' ','').replace(',','')) for i in df['수출건수']]

In [166]:
df['수입건수'] = [int(i.replace(' ','').replace(',','')) for i in df['수입건수']]

In [167]:
df

Unnamed: 0_level_0,기간,수출건수,수출금액,수입건수,수입금액,무역수지
FTA명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
RCEP,2022,6474383,287564087,11944545,292113146,-4549059
한-EFTA,2022,26912,1794418,75489,4810598,-3016180
한-EU,2022,882224,67684624,4734145,66716800,967825
한-뉴질랜드,2022,36305,3139637,455563,1743951,1395687
한-미국,2022,2186357,100446018,18531680,74972585,25473433
한-베트남,2022,582908,56212924,860372,24850108,31362815
한-싱가포르,2022,749118,18696289,151934,9315582,9380706
한-아세안,2022,2775570,115599623,1839987,75744022,39855602
한-영국,2022,108368,5862160,386507,5374130,488030
한-인도,2022,193395,17391372,182655,8403685,8987687


In [None]:
df['수출건수'],df['수입건수']

In [168]:
stats.ttest_ind(df['수출건수'],df['수입건수'])

Ttest_indResult(statistic=-1.3740039439389153, pvalue=0.1784315106587003)

In [174]:
# 정규성 검정
# 귀무가설 : 정규성을 만족하는 모집단에서 나왔다
# p-value가 0.05 미만이므로 귀무가설 기각>> 정규성을 만족할 수 없다.
# shapiro검정은 상당히 엄격함
stats.shapiro(df['수출건수'])

ShapiroResult(statistic=0.6007808446884155, pvalue=6.888485586387105e-06)

In [184]:
stats.mannwhitneyu(df['수출건수'],df['수입건수'])

MannwhitneyuResult(statistic=151.0, pvalue=0.7397342431142654)

In [187]:
# 귀무가설: 두 그룹의 차이가 나지 않는다
## 올바른 검정을 사용해야함 (p-value가 달라짐)
# 두 그룹간 차이를 확인
# p > 0.05 이기 때문에, 두 그룹간 간의 차이가 나지 않는다고 볼 수 있음
stats.wilcoxon(df['수출건수'],df['수입건수']) 


WilcoxonResult(statistic=48.0, pvalue=0.1083831787109375)

In [190]:
# ks test
# 귀무가설 : 같은 분산을 가진 표본에서 추출한 것이다. (등분산성이라고 가정할 수 있음)
# p >= 0.05이기 때문에 등분산성임을 확인
stats.ks_2samp(df['수출건수'],df['수입건수']) 

KstestResult(statistic=0.16666666666666666, pvalue=0.9715397823325015, statistic_location=212405, statistic_sign=1)

In [189]:
# Welch's test
# student's T-test에서 equal = False로 설정
# student's T-test와 p-value가 크게 차이나지 않기 때문데, student's test써도 무방함
stats.ttest_ind(df['수출건수'],df['수입건수'], equal_var= False)

Ttest_indResult(statistic=-1.3740039439389151, pvalue=0.184363729226843)

## 실습_2
* 아래의 데이터에서 각각 T-test를 진행한다
* T-test를 진행할 때, 결과가 특정 주장을 할 수 있어야 합니다.
* FTA 데이터 예시)A/B 그룹의 수출금액이 서로 다른지 비교할 경우, 그 원인을 찾아 주장할 수 있다.

In [195]:
df1 = pd.read_excel('C:/Users/user/Desktop/230102~/실습 데이터/FTA무역통계_20230109000015.xls',header= 4,index_col= 1)
df2 = pd.read_csv('C:/Users/user/Desktop/230102~/실습 데이터/서울시 부동산 실거래가 정보.csv',encoding='cp949')

  warn("Workbook contains no default style, apply openpyxl's default")
  df2 = pd.read_csv('C:/Users/user/Desktop/230102~/실습 데이터/서울시 부동산 실거래가 정보.csv',encoding='cp949')


## 실습_2-1

In [233]:
df1

Unnamed: 0_level_0,기간,수출건수,수출금액,수입건수,수입금액,무역수지
FTA명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
RCEP,2022,6474383,287564087,11944545,292113146,-4549059
한-EFTA,2022,26912,1794418,75489,4810598,-3016180
한-EU,2022,882224,67684624,4734145,66716800,967825
한-뉴질랜드,2022,36305,3139637,455563,1743951,1395687
한-미국,2022,2186357,100446018,18531680,74972585,25473433
한-베트남,2022,582908,56212924,860372,24850108,31362815
한-싱가포르,2022,749118,18696289,151934,9315582,9380706
한-아세안,2022,2775570,115599623,1839987,75744022,39855602
한-영국,2022,108368,5862160,386507,5374130,488030
한-인도,2022,193395,17391372,182655,8403685,8987687


In [197]:
for i in df1.columns[1:]:
    df1[i] = df1[i].apply(lambda x:int(x.replace(',','')))


In [239]:
# a= 아시아권 수출금액
# b = 미국권 수출금액
a = df1['수출금액'].loc[['한-중국','한-베트남','한-싱가포르','한-인도']]
b = df1['수출금액'].loc[['한-미국','한-칠레','한-콜롬비아','한-페루','한-캐나다']]


In [240]:
a

FTA명
한-중국      144611224
한-베트남      56212924
한-싱가포르     18696289
한-인도       17391372
Name: 수출금액, dtype: int64

In [241]:
# 정규성 검정 아시아권은 정규성 , 미국권은 정규성 X 
# 정규성이 충족되지 않으므로 mannwhitneyu test검정
stats.shapiro(a),stats.shapiro(b)


(ShapiroResult(statistic=0.8206518292427063, pvalue=0.14471010863780975),
 ShapiroResult(statistic=0.5976779460906982, pvalue=0.0005833442555740476))

In [242]:
# p value 가 0.05이상이므로 두 집단간 수출금액의 차이가 있다고 할 수없다(차이가 없다고 할 수 있다.)
stats.mannwhitneyu(a,b)

MannwhitneyuResult(statistic=17.0, pvalue=0.1111111111111111)

In [252]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()


In [267]:
a1 = list(a.values)
a1

[144611224, 56212924, 18696289, 17391372]

### 실습 2-2

In [224]:
df2 = df2.dropna(subset = '신고구분')

In [226]:
df2['신고구분'].unique()

array(['중개거래', '직거래'], dtype=object)

In [230]:
# 신고구분에 따른 물건금액의 차이가 있다고 가설을 설정하고 마스킹을 통해 데이터 분류
# df2_a는 신고구분이 중개거래인 물건금액, b는 직거래인 물건금액
m = df2['신고구분'] == '중개거래'
df2_a = df2['물건금액(만원)'][m]
df2_b = df2['물건금액(만원)'][~m]

In [275]:
# p - value가 믿을 수 없으므로 다른 수단으로 대체해야함
stats.shapiro(df2_a),stats.shapiro(df2_b) 



(ShapiroResult(statistic=0.47927504777908325, pvalue=0.0),
 ShapiroResult(statistic=0.06084322929382324, pvalue=0.0))

In [274]:
stats.ks_2samp(df2_a,df2_b,mode = 'asymp') 

KstestResult(statistic=0.18796996050385995, pvalue=0.0, statistic_location=49450, statistic_sign=-1)

In [273]:
# 검정 결과 p-value가 0.5미만이므로 두 집단간 차이가 있다고 할 수 있다.
stats.ttest_ind(df2_a,df2_b,equal_var=False)

Ttest_indResult(statistic=35.05947202410158, pvalue=2.687520592129121e-267)

---
# 실습 1
* FTA데이터에서 수출건수, 수출금액, 수입건수, 수입금액, 무역수지가 각각 평균 이하인 FTA와 평균 미만인 FTA로 이산화를 해보자
* 이산화 데이터는 fta_bin으로 저장한다

* 시간이 남는다면 어떤 데이터를 가져와도 동작하는 표준코드를 만들어보자

In [17]:
import pandas as pd
fta = pd.read_excel('C:/Users/user/Desktop/230102~/실습 데이터/FTA무역통계_20230109000015.xls',header=4, index_col= 1)
fta_bin = fta.copy()

  warn("Workbook contains no default style, apply openpyxl's default")


In [None]:
for i in fta_bin.columns[1:]:
    fta_bin[i] = fta_bin[i].apply(lambda x:int(x.replace(',','')))
    

In [22]:
fta_bin

Unnamed: 0_level_0,기간,수출건수,수출금액,수입건수,수입금액,무역수지
FTA명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
RCEP,2022,6474383,287564087,11944545,292113146,-4549059
한-EFTA,2022,26912,1794418,75489,4810598,-3016180
한-EU,2022,882224,67684624,4734145,66716800,967825
한-뉴질랜드,2022,36305,3139637,455563,1743951,1395687
한-미국,2022,2186357,100446018,18531680,74972585,25473433
한-베트남,2022,582908,56212924,860372,24850108,31362815
한-싱가포르,2022,749118,18696289,151934,9315582,9380706
한-아세안,2022,2775570,115599623,1839987,75744022,39855602
한-영국,2022,108368,5862160,386507,5374130,488030
한-인도,2022,193395,17391372,182655,8403685,8987687


In [35]:
## df.loc['인덱스(행)','컬럼(열)']
for i in fta_bin.columns[1:]:
    for j in fta_bin.index:
        if fta_bin.loc[j,i] >= fta_bin[i].mean():
            fta_bin.loc[j,i] = 1
        else:
            fta_bin.loc[j,i] = 0
        
fta_bin
    

Unnamed: 0_level_0,기간,수출건수,수출금액,수입건수,수입금액,무역수지
FTA명,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
RCEP,2022,1,1,1,1,0
한-EFTA,2022,0,0,0,0,0
한-EU,2022,1,1,1,1,0
한-뉴질랜드,2022,0,0,0,0,0
한-미국,2022,1,1,1,1,1
한-베트남,2022,1,1,1,1,1
한-싱가포르,2022,1,0,0,0,1
한-아세안,2022,1,1,1,1,1
한-영국,2022,0,0,0,0,1
한-인도,2022,1,1,0,0,1


In [None]:
# def df_to_bin(x = pd.DataFrame):
#     1. 각 컬럼의 자료형태를 조사한다.
#     2. 컬럼의 값들이 모두 동일하다면 이산화에서 배제한다
#     3. 이산화에 필요한 코드를 작성한다
#     4. 이산화한 데이터프레임을 리턴 받는다

실습1 답안
* FTA데이터에서 수출건수, 수출금액, 수입건수, 수입금액, 무역수지가 각각 평균 이하인 FTA와 평균 미만인 FTA로 이산화를 해보자
* 이산화 데이터는 fta_bin으로 저장한다


In [36]:
fta['수출건수'].apply(lambda x : int(x.replace(' ','').replace(',',''))).mean() # 뛰어쓰기, 컴마 없애기

884149.9444444445

In [37]:
fta.columns

Index(['기간', '수출건수', '수출금액', '수입건수', '수입금액', '무역수지'], dtype='object')

In [None]:
target = fta.columns[1:]
fta_bin1 = pd.DataFrame()
df = fta
for c in target:
    col = df[c].apply(lambda x : int(x.replace(' ','')).replace(',',''))
    fta_bin1[c] = col>col.mean()

In [None]:
fta_bin.replace([True,False],[1,0])
# DataFrame에 replace 함수 사용해보기, 여러값 입력할 때는 리스트

# 실습 2 : 데이터 축소
* 앞서 배운 내용을 기반으로 데이터 축소를 해보자
* 단 차원 축소는 제외

In [56]:
df = pd.read_csv('C:/Users/user/Desktop/230102~/실습 데이터/서울시 부동산 실거래가 정보.csv' , encoding= 'cp949')
df_bakcup = df.copy()

  df = pd.read_csv('C:/Users/user/Desktop/230102~/실습 데이터/서울시 부동산 실거래가 정보.csv' , encoding= 'cp949')


In [57]:
df.rename(columns= {'물건금액(만원)':'물건금액(억)'}, inplace = True)

In [58]:
df['물건금액(억)'] = df['물건금액(억)'].apply(lambda x :x/10000)

In [106]:
df['물건금액(억)']

0         2.700
1         2.030
2         1.350
3         1.880
4         2.250
          ...  
639995    2.200
639996    4.980
639997    2.500
639998    1.950
639999    2.025
Name: 물건금액(억), Length: 640000, dtype: float64

실습 2 답안

In [82]:
df[['자치구코드','자치구명']].drop_duplicates() ## 이 데이터를 메타데이터로 저장

Unnamed: 0,자치구코드,자치구명
0,11710,송파구
1,11140,중구
2,11260,중랑구
3,11740,강동구
4,11380,은평구
5,11230,동대문구
7,11545,금천구
8,11200,성동구
10,11470,양천구
12,11410,서대문구


In [83]:
df[['법정동코드','법정동명']].drop_duplicates() ## 이 데이터를 메타데이터로 저장

Unnamed: 0,법정동코드,법정동명
0,10600,삼전동
1,16100,저동2가
2,10300,중화동
3,10900,천호동
4,10800,역촌동
...,...,...
567294,12600,명동1가
581662,16600,서소문동
599973,15900,초동
601008,13000,남산동3가


In [84]:
df[['지번구분','지번구분명']].drop_duplicates() ## 이 데이터를 메타데이터로 저장

Unnamed: 0,지번구분,지번구분명
0,1.0,대지
28,,
1273,3.0,블럭
4639,2.0,산


In [85]:
df.drop(['접수연도','자치구명','법정동명','지번구분명'], inplace = True, axis = 1)

In [87]:
df.to_feather('../실습 데이터/230112result.feateher') # feather 등의 I/O 부담이 덜한 확장자로 저장할 수 있음

ImportError: Missing optional dependency 'pyarrow'.  Use pip or conda to install pyarrow.

In [107]:
list1 = pd.Series([1.23456,1.2548,1.2544,1.2356,1.5559,1])
def dev_float(x):
    if type(df['물건금액(억)']) == 'float64':
        return 'O'
    else:
        return 'X'
    
df['물건금액(억)'].apply(lambda x: dev_float(x))

0         X
1         X
2         X
3         X
4         X
         ..
639995    X
639996    X
639997    X
639998    X
639999    X
Name: 물건금액(억), Length: 640000, dtype: object

In [98]:
len(str(list1[5]).split('.'))

2

In [102]:
list1.info()

<class 'pandas.core.series.Series'>
RangeIndex: 6 entries, 0 to 5
Series name: None
Non-Null Count  Dtype  
--------------  -----  
6 non-null      float64
dtypes: float64(1)
memory usage: 176.0 bytes


## 고정소수점, 부동소수점 연산 시연


In [108]:
float(45.1212) # 부동소수점 잔차 존재O 파이썬은 기본적으로 부동소수점 연산을 함

45.1212

In [111]:
import decimal # 고정소수점 정확도가 보장되지만 연산속도는 느림
decimal.Decimal(45.2)

Decimal('45.2000000000000028421709430404007434844970703125')

In [113]:
decimal.Decimal(45) / decimal.Decimal(6)

Decimal('7.5')

# 차원축소 (복사 붙여넣기 권장)
* 값이 왜곡됨
* reduce는 값이 왜곡된 결과
* PCA, LDA를 통해 축소한 결과값이 달라짐
    * 그 이유는 비추는 각도(축소방법)가 달라지기 때문에

In [114]:
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

In [116]:
from sklearn.datasets import load_iris # 붓꽃 데이터

In [121]:
iris = load_iris()
iris

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [122]:
print(iris.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [123]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [124]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [126]:
scaler = StandardScaler()
pca = PCA(n_components=3) # 투영된 값들간 관계를 파악하기 용이함
lda = LinearDiscriminantAnalysis(n_components=2) # PCA에 비해서 결과값이 더 잘나옴

In [127]:
scaler.fit(iris.data)
pca.fit(iris.data)

In [129]:
scaled = scaler.transform(iris.data)
reduced = pca.transform(iris.data)

In [132]:
lda.fit(scaled,iris.target)
iris_lda = lda.transform(scaled)

In [133]:
reduced.shape

(150, 3)

In [134]:
iris_lda.shape

(150, 2)