# Unsupervised Learning

## Machine Learning Overview
  
<div style="text-align:center">
    <img src="https://github.com/Ha-coding-user/aivle_study/blob/main/Language%20Intelligence%20DL/image/Machine_Learning_overview.jpg?raw=true">
</div>

## Classification vs Clustering

#### 1. Classification
- Supervised Learning
- 사전에 분류된 instance로 부터 instance를 예측하는 방법을 학습

#### 2. Clustering
- Data 를 펼치고 segment를 알아서 나눔 **<span style="color:orange">(label x)</span>**\
- 즉, <span style="color:orange">Unsupervised Learning</span>
- 따라서, clustering에는 group이 몇 개다 라는 정답이 없음
  
|group 1|group 2|
|---|---|
|Blue shark, sheep, cat, dog|Lizard, sparrow, viper, seagull, gold, fish, frog, red mullet|
  
1. Two clusters
2. Clustering criterion: 포유류 여부
  
|group 1|group 2|
|---|---|
|gold fish, red mullet, blue shark|sheep, sparrow, dog, cat, seagull, lizard, frog, viper|
  
1. Two clusters
2. Clustering criterion: 아가미 유무

## Data Types and Representations

#### 1. Data matrix(object-by-feature structure)
$\begin{bmatrix}x_{11}&...&x_{1f}&...&x_{1p}\\...&...&...&...&...\\x_{i1}&...&x_{if}&...&x_{ip}\\...&...&...&...&...\\x_{n1}&...&x_{nf}&...&x_{np}  \end{bmatrix}$
- n개의 Data Points(objects), 차원 p(features)
- row, column이 다른 entity 표현

#### 2. Distance/dissimilarity matrix(object-by-object structure)
$\begin{bmatrix}0\\d(2,1)&0\\d(3,1)&d(3,2)&0\\...&...&...\\d(n,1)&d(n,2)&...&...&0  \end{bmatrix}$
- n개의 Data Points
- symmetric/triangular matrix
- row, column이 모두 distance를 의미

## Distance Measures

#### 1. Minkowski Distance
$$\large d(\overrightarrow{x}, \overrightarrow{y}) = (|x_1-y_1|^p + |x_2-y_2|^p + ... + |x_n-y_n|^p)^{1/p}$$
$$for \overrightarrow{x} = (x_1, ..., x_n) and \overrightarrow{y} = (y_1, ..., y_n)$$

- p = 1 : Manhattan distance
- p = 2 : Euclidean distance

#### 2. Cosine Measure(Similarity vs. Distance)
$$\large d(\overrightarrow{x}, \overrightarrow{y}) = 1 - cos(\overrightarrow{x}, \overrightarrow{y})$$
$$\large cos(\overrightarrow{x}, \overrightarrow{y}) = \frac{x_1y_1 + ... + x_ny_n}{\sqrt{x_1^2 + ... + x_n^2}\sqrt{y_1^2 + ... + y_n^2}}$$
$$for \overrightarrow{x} = (x_1, ..., x_n) and \overrightarrow{y} = (y_1, ..., y_n)$$
  
- property: $0 <= d(\overrightarrow{x}, \overrightarrow{y}) <= 2$

## Cosine_similarity practice

In [None]:
!pip install feedparser
!pip install newspaper3k
!pip install konlpy

In [1]:
import feedparser               # RSS에서 xml태그별 정보 추출(예: title, link, ...)
from newspaper import Article   # 인터넷 신문기사 분석(아래: "Article()"를 사용하기 위해)
from operator import eq         # 키워드를 입력받을 때 그 키워드가 본문에 있는지 확인하기 위해
from bs4 import BeautifulSoup   # 글에 존재할지 모르는 html 태그 삭제

In [6]:
# [단계 1] 모든 RSS(xml 형식)을 돌아다니며 기사 제목/link 추출
# urls는 우리가 검색할 RSS의 목록을 list로 만든 것
urls = ["http://rss.etnews.com/Section901.xml",
        "http://rss.etnews.com/Section902.xml",
        "http://rss.etnews.com/Section903.xml",
        "http://rss.etnews.com/Section904.xml"]

# 아래 함수는 RSS 목록의 list안에 존재하는 모든 기사의 title, link를 list로 구성
def crawl_rss(urls):
    array_rss = []                                                      # 함수 시작하는 시점에 빈 리스트 만듦, 여기에 모든 기사 채울것
    titles_rss = set()                                                  # [중복기사제거] 기사제목들의 집합을 구성(집합은 중복 불허)

    for url in urls:                                                    # 모든 RSS파일 하나씩 방문
        print("[Crawl RSS]", url)                                       # 현재 위치 출력
        parse_rss = feedparser.parse(url)                               # 현재 url 파싱 후 결과를 parse_rss에 저장

        for p in parse_rss.entries:                                     # parse_rss에 있는 모든 entries/기사 검색
            if p.title not in titles_rss:                               # [중복기사제거] 만약 titles_rss에 동일한 제목이 없다면 추가
                array_rss.append({'title': p.title, 'link': p.link})    # 기사에서 제목/link 추출 후 리스트에 추가
                titles_rss.add(p.title)                                 # [중복기사제거] 집합에 현재 기사제목이 없을 때만 추가
            else:
                print("Duplicated Article:", p.title)                   # [중복기사제거] 중복되는 기사의 제목 출력
    return array_rss

list_articles = crawl_rss(urls)
print(list_articles)

[Crawl RSS] http://rss.etnews.com/Section901.xml
[Crawl RSS] http://rss.etnews.com/Section902.xml
Duplicated Article: 전금업계 DR센터 의무화...“후방시장 활성화” VS “과도한 규제”
Duplicated Article: [뉴스줌인] 삼성·SK하이닉스, 中 반도체 공장 최대 불확실성 해소…투자 재개는 '신중'
Duplicated Article: 오비맥주 한맥, '슬로우 라이프 슬로우 라이브 2023'에 부드럽고 감미로운 가을 감성 만끽
Duplicated Article: '송출 중단 코앞' 현대홈쇼핑-KT스카이라이프…막바지 협상 난항
Duplicated Article: “정보보호업계에 내비 달아준다”…정부, 제로 트러스트 선도특허 분석 나서
Duplicated Article: 美, 중국 내 삼성·SK 반도체 공장에 별도 허가없이 장비 공급 결정
Duplicated Article: [2023 국감] 과방위 '가짜뉴스·R&D 예산' 공방 예고
Duplicated Article: [산업 생산성혁신 방안 지상좌담회] “산업 생산성 혁신 위해 초격차 기술 개발해야”
Duplicated Article: [박영락의 소통컨슈머리포트]〈14〉현대백화점면세점, 소통을 매출로…커머스 플랫폼으로의 진화
Duplicated Article: “유망기업 발굴 넘어 고용창출까지” 강원대기술지주, 지역 창업 생태계 거점 도약
Duplicated Article: 배터리 장비 10조대 주문 쏟아진다
Duplicated Article: [人인사이트]도원동 커런트닷 대표 “PM 반납·주차 문제 해결...편리하고 깨끗한 '동네'로”
Duplicated Article: [2023 국감]세수 펑크·오차율 논란…감세·재정준칙, 통계조작 도마에
Duplicated Article: [2023 중소기업우수제품]스타양행 '뷰티 다용도 정리함'
[Crawl RSS] http://rss.etnews.com/Section9

In [9]:
# [단계 2] list에 존재하는 모든 링크를 돌아다니며 본문 text를 추출

# 아래 함수는 하나의 url을 입력 받아서, 링크를 타고 들어가, 그 안에 title과 text를 추출한다.
# default로 한들을 지정한다
def crawl_article(url, language='ko'):
    print("Crawl Article", url)                                 # 현재 title과 text를 추출한 url을 프린트
    a = Article(url, language=language)                         # Article을 사용하여 그 URL을 입력하고, 언어옵션 지정, a에 저장
    a.download()                                                # a에 해당하는 url기사 다운로드
    a.parse()                                                   # a에 해당하는 url기사 분석

    return a.title, preprocessing(a.text)

def preprocessing(text):
    # html 태그 제거
    text_article = BeautifulSoup(text, 'html5lib').get_text()

    return text_article

for article in list_articles:                                   # list에 있는 모든 기사를 하나씩 방문
    _, text = crawl_article(article['link'])                    # 그 기사의 link를 crawl_article함수에 넣어 본문 추출
    article['text'] = text                                      # 추출된 본문을 list_articles에 'text'라는 속성 새로 만들어 저장

print(list_articles[0])                                         # 첫 번째 기사를 출력(title, link, text 모두)

Crawl Article https://www.etnews.com/20231006000156
Crawl Article https://www.etnews.com/20231009000089
Crawl Article https://www.etnews.com/20231009000063
Crawl Article https://www.etnews.com/20231006000118
Crawl Article https://www.etnews.com/20231009000083
Crawl Article https://www.etnews.com/20231009000011
Crawl Article https://www.etnews.com/20231009000008
Crawl Article https://www.etnews.com/20231007000013
Crawl Article https://www.etnews.com/20231006000201
Crawl Article https://www.etnews.com/20231006000200
Crawl Article https://www.etnews.com/20231006000191
Crawl Article https://www.etnews.com/20231006000187
Crawl Article https://www.etnews.com/20231006000158
Crawl Article https://www.etnews.com/20231006000153
Crawl Article https://www.etnews.com/20231006000150
Crawl Article https://www.etnews.com/20231006000145
Crawl Article https://www.etnews.com/20231009000059
Crawl Article https://www.etnews.com/20231006000186
Crawl Article https://www.etnews.com/20231006000159
Crawl Articl

In [13]:
# [단계 3] 본문 text를 cosine_similarit를 활용하여 유사도 판단
from sklearn.feature_extraction.text import TfidfVectorizer         # 벡터화
from sklearn.metrics.pairwise import cosine_similarity              # 코사인 유사도 판단 위해

# 리스트에 있는 모든 기사들을 돌아다니며 text를 뽑아냄
text_articles = [article['text'] for article in list_articles]

# 주어진 문장을 벡터로 만드는 객체를 생성
encoder = TfidfVectorizer(max_features=5000)

# fit_transform 함수를 써서 5000사이즈 벡터로 기사를 변환
# 아래의 matrix_vectors 행렬은 이 모든 기사를 5000사이즈 벡터로 만든 후 data matrix를 구성한 것
matrix_vectors = encoder.fit_transform(text_articles)
print(matrix_vectors.shape)                                         # 총 65개의 기사

# 첫 번째 기사와 두 번째 기사가 얼마나 유사한지 비교
print(cosine_similarity(matrix_vectors[0], matrix_vectors[1]))

(65, 5000)
[[0.03771623]]
