# 1. 머신러닝 개념

## 머신러닝이란?
- 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법의 통칭
- **예시 1: 네트워크 보안 프로그램**
  - 복잡한 네트워크 공격 방법에 대처하기 위해 수십 년간 보안 코드를 작성하더라도 해커들은 이를 우회하는 방법을 찾음.
  - 네트워크 환경, 정책, 사용자 이용 성향이 수시로 변하기 때문에 기존 로직을 수정하고 검증하는 데 많은 시간과 비용이 소요됨.
  - 복잡한 조건과 규칙이 다양한 형태로 결합하고 변화하며 일정한 패턴을 찾기 어려운 경우, 머신러닝이 해결책이 될 수 있음.
- **예시 2: 제품 리뷰 분석**
  - 단순히 특정 단어가 포함되었다고 긍정적/부정적 의미를 판단하기 어려움.
  - 문맥에 따라 판단해야 하며, 이러한 패턴을 규정하기 어려움.

### 머신러닝의 역할
- 데이터를 기반으로 숨겨진 패턴을 인지해 문제를 해결함.
- 데이터 분석 영역은 빠르게 머신러닝 기반 예측 분석으로 재편되고 있음.
- 복잡한 문제를 직접 개발할 경우 높은 난이도와 개발 복잡도를 해결하기 위해 머신러닝이 활용됨.

---

## 머신러닝의 분류
1. **지도학습** (사람이 정답을 먼저 제시)
   - 예: 분류, 회귀, 추천 시스템, 시각/음성 감지, 자연어 처리(NLP)
2. **비지도학습**
   - 예: 클러스터링, 차원 축소
3. **강화학습**
   - 정책 학습 및 최적화

---

## 머신러닝의 데이터 의존성
- **알고리즘 vs 데이터**
  - 알고리즘 성능이 좋아도 데이터 품질이 낮으면 좋은 결과를 얻기 어려움.
  - 저품질 데이터는 사람이 만든 코드보다 정확도가 떨어질 수 있음.
- **데이터의 중요성**
  - 머신러닝 알고리즘의 최적화도 중요하지만, 데이터를 이해하고 효율적으로 가공, 처리, 추출하는 것이 더 중요함.

---

## 머신러닝과 언어
### 파이썬과 R
- **파이썬**
  - 직관적인 문법과 다양한 라이브러리를 보유.
  - 텐서플로, 케라스, 파이토치 등 딥러닝 프레임워크를 우선적으로 지원.
  - 전 세계 개발자와 IT 업계(구글, 페이스북 등)에서 높은 활용도.
  - 여러 영역에서 확장성과 유연성을 발휘: 서버, 네트워크, IoT, 데스크톱 등.
- **R**
  - 통계 분석 전용 언어로 검증된 패키지를 보유.
  - 통계에 능숙한 현업 종사자에게 적합.
  - 그러나 새로 배우는 사람에게는 파이썬이 더 적합.

---

## 파이썬의 특장점
1. **뛰어난 개발 생산성**
   - 직관적 문법과 다양한 라이브러리 덕분에 개발자가 선호.
2. **오픈소스 생태계**
   - 높은 자유도와 다양한 딥러닝 프레임워크 지원.
3. **확장성과 호환성**
   - 속도는 느리지만, 여러 환경에서 유연하게 사용 가능.
4. **다양한 어플리케이션 개발 가능**
   - 데이터 분석, 웹 개발, 자동화, 머신러닝 등 다양한 분야에서 활용.

---


## 머신러닝을 위한 주요 패키지
- 사이킷런 - 대표 머신러닝 패키지.특히, 테이터마이닝 분야에서 독보적이다.
- 영상,음성, 언어 - 텐서플로, 케라스

- 넘파이 - 행렬,선형대수, 통계

- 판다스 - 데이터 고속처리 (+맷플롯립)

- 맷플롯립, 시본 - 시각화

# 2. 머신러닝 알고리즘 선택에서 고려할 사항

 ## A. 문제(프로젝트)의 유형

    - 분류 : 출력값이 범주형인 경우
        이메일 스팸 - 스팸인가 아닌가 (binary)
        이미지 인식 - 어떤 종류의 이미지인가? (multiclass)
        꽃의 종류 예측 - 무슨 꽃인가? (multiclass)
        로지스틱 회귀
        랜덤포레스트
        결정트리

    - 회귀 : 출력값이 연속형인 경우
        단일품목 수입가격 예측 (simple Reg 독립1 종속1)
        주가 예측 (multiple Reg 독립n 종속1) - 주가에 미치는 요소가 여러가지일때
        랜덤포레스트

    - 군집화 : 데이터를 그룹 지어야 할때
        고객 그룹화 - K평균 (데이터를 K개의 클러스터로 그룹화)
        유전자데이터 분석 - 계층적 군집화

    - 차원축소 : 독립변수가 너무 많을때
        손글씨 분석 - 각 이미지가 28x28 픽셀로 되어있다고 합시다. 각 픽셀은 0~255사이의 속성값을 가집니다. (색상 혹은 명암) 이미지는 총 784개의 특성을 가실수 있습니다. 이를 50개의 특성으로 축소합니다.
        고객행동분석에서 특성선택 - 고객행동은 수백개의 특성을 가지고 있습니다. 방문횟수, 클릭, 구매내역, 페이지 체류시간등등.  해결: 랜덤포레스트를 사용해 중요도를 분석, 중요한 특성만 선택. 이후 학습시킬 알고리즘 재선택.
        추천시스템
        뉴스기사 주제분류 - 각 기사는 수백개의 단어. 각 단어가 하나의 특성이 된다면??(고차원) -- 토픽모델링등을 통해 뉴스기사에서 주제를 추출 -> 각 문서들을 주제범주안에 넣고 각 주제는 특정단어들의 분포로 결과를 설명(주제기반 추천시스템)

    - 이상탐지 : = 이상함을 탐지,감지
        신용카드 사기탐지 - 정상데이터과 다른 이상 데이터 식별
        기계고장예측 - 훈련에 없던 새로운 패턴 발견 - 변칙탐지

    - 강화학습 : 모델이 환경과 상호작용, 보상을 최대화 하는쪽으로 훈련
        게임, 로봇제어

    - 시계열 예측 : 시간에 따라 데이터가 변할때
        과거를 기반으로 미래를 예측
        주가, 날씨 (ARIMA)
        LSTM(장단기메모리) - 시계열 예측 분류모델
        (순차적으로 입력된 데이터 분류에도 유용하다)
    
    - 생성모델: 이미지, 텍스트 생성

## B. 데이터 크기
        - 데이터가 너무 큰 경우 일부 알고리즘은 메모리나 시간제약을 받을 수 있음. (예, SVM분류 알고리즘은 큰 데이터셋에서 비효율)
        - 차원수 -> 자원축소
## C. 모델의 성능
        - 복잡한모델은 과적합(너무 학습데이터만 예측을 잘해서 성능판단이 불가능. 즉 다른데이터 예측이 힘들수잇음)의 위험이, 단순한 모델은 과소적합의 위험이 있다.
        - 정확도가 얼마나 되야하느냐 에따라 적절히 선택(교차검증)
        - 결과가 쉽게 해석되는가? - 결정트리는 쉽게 해석되겠지만 신경망은 그렇지 않을수도 있다.
        - 훈련시간과 예측시간. 특히 실시간 응용 앱은 예측시간이 중요합니다.
    
## D. 특정 알고리즘의 강/약
        - 결정트리 :: 직관적. 해석이 쉬움. 높은과적합 확률.
        - 랜덤포레스트 :: 높은 정확도 과적합방지. 느림.(분류, 회귀)
        - 서포트벡터(SVM) :: 고차원효과적, 큰데이터에서 비효율
        - K-최근접이웃 :: 간단. 직관적. 큰데이터에서 비효율
        - 선형회귀 :: 빠르고간단. 비션형관계를 포착하기힘듬.
        - 신경망 :: 매우강력. 많은데이터와 자원이 필요.
## 결론
        - 알고리즘 선택시, 문제유형과 데이터특성을 파악합니다. 그 이후 모델성능이나 훈련, 예측시간, 강약점을 보고 종합적으로 평가합니다.
        - 최종적으로 여러알고리즘에 대한 교차 검증을 통해 실제 성능을 비교하는 것이 가장 좋습니다.



# 3. 팀을 나누어 각 주제들에 대해 적절한 알고리즘을 골라보기

## 네이버 쇼핑몰 리뷰 데이터를 활용한 감성분석
        - 리뷰 텍스트 데이터로 쇼핑에 대한 긍,부정적 또는 중립적인 감성을 분류하고 싶습니다.


## 아마존 쇼핑몰 리뷰 데이터를 활용해 추천 모델 만들기
        - 맞춤형 추천 시스템을 개발하고 싶습니다.

    
## 쇼핑몰 주문데이터를 활용한 고객행동+이탈률 분석
        - 고객이 이탈할지 여부를 예측하고 싶습니다.(이탈 가능성)


## 맛집탐방 유튜브 데이터를 활용한 유행음식 분석
        - 요즘은 또는 앞으로는 어떤 음식들이 유행인지에 대한 분석을 원합니다.


## SNS광고캠페인 전환률, 성과분석
        - 게시한 광고가 얼마나 성공적이었는지 여부를 분석하고 싶습니다.
