# 자율학습 개요
## 자율학습 모델 소개
### 자율학습이란?
* 관찰한 데이터로부터 숨겨진 패턴/규칙을 탐색, 찾아내는 방법
* 종속 변수가 없음
* 입력 데이터만 컴퓨터에게 제공하고 숨겨진 패턴을 찾도록 함
* 분석하는 사람의 주관이 반영
* 학습이 끝난 후, 평가가 어려움

### 패턴/구조 발견
* 데이터에서 트정 패턴이나 구조를 찾아냄
* 종류
    * 순서 분석
    * 네트워크 분석
    * 링크 분석
    * 그래프 이론 
    * 구조 무델링
    * 경로 분석
    
### 그룹화
* 데이터의 밀집 상태에 따라 그룹화
* 종류
    * 위계에따른 클러스터링
    * 밀도에따른 클러스터링
    * 상태에 따른 클러스터링
    * 맵을 스스로 구성하는 방법

### 차원 축소
* 관찰공간의 샘플을 기반으로 잠재공간을 파악함
    * 관찰공간(Observation Space) : 실제 파악되는 정보
        * 예) 경기 승률을 맞추기 위해 정보수집(홈 관중 수, 선발선수)
    * 잠재공간(Latent Space) : 관찰 대상들을 잘 설명할 수 있는 잠재된 정보
        * 예) 제공되는 정보가 있을때(경기 요일, 날씨), 그것을 기반으로 유추할 수 있는 추가적인 정보(요일별 승률, 날씨별 승률)
* 데이터를 압축하거나 잡을을 제거하는 것도 포함

### 영상/이미지/문자
* 손상된 영상 구간을 주변의 데이터를 활용하여 복원
* 손상된 이미지를 복원
* 손상된 문자를 유추하여 문장을 완성

### 데이터 그룹확
* 각 데이터의 거리에 따라 인접 데이터기리 그룹화
* 그룹화 된 데이터는 하나로 처리하고 다른 데이터와 다시 거리 계산
* 위 절차를 반복하여 하나의 그룹이 될 떄 까지 반복

### 데이터 분석 실습
* 데이터 입력
    * x <-c(1,1,2,4,5)
    * y <-c(4,1,1,6,5)
    * xy <- data.frame(cbind(x,y))
* 데이터 그룹화
    * hc <- hclust(dist(xy), method='complete')
* 그래프로 확인
    * plot(hc, hang =-1)



# k평균 클러스터링
## k평균 클러스터링 개요
### k평균 클러스터링의 개념
* k평균 클러스터링
    * 중심값을 선정함
    * 중심값과 다른 데이터 간의 거리를 이용하여 분류
    * 분류가 완료될 때까지 여러 번 반복
    
* 모집단 또는 범주에 대한 사전 정보가 없을때
    * 주어진 관측값들 사이의 거리 측정
    * 유사성을 이용하여 분석
* 전체 데이터를 여러개의 집단으로 그룹화
    * 각 집단의 성격 파악
    * 데이터 전체의 구조를 이해하기 위함
* 새로운 데이토와 기존 데이터 간의 유클리디안 거리가 최소가 되도록 클러스터링
    * 데이터를 기준점으로 하여 유클리디안 거리 측정
    * 거리가 최소화되도록 k개의 군집들로 클러스터링
* 데이터들을 k개의 클러스터로 군집
    * 각 클러스터와 거리차이의 부산을 최소화
* 각 클러스터의 중심값에서 중심과의 거리를 비교
    * 각 클러스터 간의 거리 차이의 분산을 최소화함
* 입력값으로 k를 취하고 객체 집합을 k개의 클러스터로 만드는 방법
    * 클러스터 내 유사성은 높게
    * 클러스터 간 유사성은낮게

### k평균 클러스터링 특징
* 거리기반 분류
    * 유클리디안 거리의 측정
    * 중심점과의 거리 최소화
*  반복 작업
    * 초기에 잘못 병합된 경우를 보완함
    * 여러 번 반복 수행하여 초기 오류를 회복함
    * 여러 번 반복의 결과로 최적의 결과를 만들어 냄
* 짧은 계산 시간
    * 간단한 알고리즘으로 계산 시간 최소화
    * 대규모 시스템에 적용 가능
* 탐색적 방법
    * 새로운 자료에 대한 사전정보가 필요하지 않음
    * 자료에 대한 정보 없이도 자료구조를 탐색
    * 새로운 자료에 대한 탐색을 통해 의미 있는 자료를 찾아냄

### k평균 클러스터링의 수행절차
* 클러스터링의 수 k를 정의 -> 각 측정값을 클러스터에 할당 -> 새로운 클러스터의 중심계산 -> 클러스터 재분류

### k평균 클러스터링의 기법
* 초기화 기법 : 무작위 분할, Forgy, MacQueen, Kaufman
* 클러스터의 수 계산 : Rule of thumb, Elbow Method, 정보 기준 접근법

### k평균 클러스터링의 장점
* 탐색적 기법
    * 새로운 데이터의 내부구조에 대한 사전적 정보 없이 클러스터링 
    * 대용량 데이터에 대한 탐색적인 기법
* 다양한 데이터의 적용
    * 거의 모든 형태의 데이터에 대하여 적용 가능
    * 관찰할 데이터 간의 거리를 데이터형에 맞게만 정의하면 분석 가능
* 분석방법의 적용이 쉬움
    * 클러스터링 방법은 데이터에 대해 사전정보를 요구하지 않음
    * 사전에 특정 변수에 대한 역할 정의가 필요하지 않음
    * 관찰할 데이터 간의 거리만이 분석에 필요한 입력값임
    
### k평균 클러스터링의 단점
* 가중치와 거리 정의 필요
    * 관찰할 데이터들 상니의 거리를 저의하는 것의 어려움
    * 각 변수에 대한 가중치를 결정하는 것의 어려움
* 초기 클러스터링의 수 결정
    * 사전에 정의된 클러스터링 수 k기준으로 찾음
    * 초기 설정 클러스터링 수가 적합하지 않으면 결과가 좋지 못함
* 결과 해석이 어려움
    * 사전에 주어진 목적이 없어 결과의 해석이 어려움