# 머신러닝 ⊂ 인공지능
## 지도학습: 문제, 정답을 알려주고 패턴찾으며 학습
- 지도 학습에서 자주: 분류분석, 회귀분석
    - 분류분석 - 숫자형(수치형)데이터 대부분 다룰수있음
    - 회귀분석 - 값이 무수히 많이 나오는 부동산 거래가격 같은 경우 <br> 통계지식필수. 딥러닝을 배우려면 회귀분석 필수.
## 비지도학습: 답이없고 알고리즘이 패턴을 찾으며 인사이트를 얻음
- 비지도 학습에서 자주: 군집분석.
    - 군집분석 - 그룹화하여 등급으로 나눔 -> 충성고객 등급을 분류할 수 있는것.

# Tree 기반 모델: 분류 분석의 대표적 알고리즘<br>DecisionTree 의사결정나무
- DecisionTree는 스무고개처럼 질문을 거듭해 답에 도달함. 완전히 분류가 될 때까지.
- 그 과정이 마치 나무처럼 분기하는 형태.
- 자료의 수치나 단위자체는 큰 영향을 미치지 않음.(특정 범위안으로 들어가므로)
### 장점
- 직관적이고 해석하기 쉬움. 고객에게 설명이 쉬움.<br> 알고리즘의 원리를 시각화할 수 있을 정도.
- 변수의 feature scaling 생략가능<br> MinMax, StandardScaler 생략가능
- 범주형 자료 분석가능<br> DecisionTreeClassifier (분류) 사용
- 수치형 자료또한 가능<br> DecisionTreeRegressor (회귀) 사용
### 단점
- 예측과정에서 **과적합**이 발생할 수 있음. (overfitting)<br>
    -> 기존 데이터셋에 과하게 적합한 모델임.<br>
    -> 데이터셋이 바뀌면 예측정확도가 떨어짐.<br>
    -> Tree의 깊이(질문수)를 조절하여 해결<br> 질문이 너무 많지않도록.
- 최적의 트리?????????d0d 를 찾기 어렵고 시간이 오래걸릴 수 있음
- 시간이 오래걸리는 유형도 있음. 그래디언트

## 예제 실습 with 타이타닉
0. 필요한 라이브러리 로딩
1. 타이타닉 데이터 로딩
    - 헤드, 평균값, 중앙값 조회.
2. 데이터 전처리(2.1. 결측값처리, 2.2. 이상값탐지)
    - 결측값% 구하기 isna()
    - 비율크면 drop('지울컬럼',axis=1)
- 수치
    - fillna(해당컬럼 평균값)
- 범주
    - fillna(가장 빈도가 높은 값)
- 마친후 info로 결측없는지 체크<br>
2.2. 이상값 탐지
- plt.plot(kind='box')(전체컬럼 중 이상값 찾기)
    - data['컬럼'].describe()와 .value_counts()으로 진짜이상값인지 생각해보기.
    - 이상값 범위구하기 IQR이용 (describe에서 인덱싱)
    - 범위 벗어난 자료를 필터링 (클래스별로 Fare의 describe를 각각 구함)
    - 이상값 원인 파악
3. EDA - 탐색적 데이터분석: 각 컬럼의 데이터분포, 그래프로 확인,<br> 문자는 숫자로, 상관관계 확인
    - 컬럼들 구성을 파악하고 plot() 으로 그래프 보기
    - 그래도 파악이안되면(나이,가족) 히스토그램으로 구간차이가 드러나게 시각화.
4. Feature Enginnering( 변수 선택, 새로운 특성 생성, 카테고리 변수의 더미 변수화(one-hot encoding)
    - pd.cut 함수로 기존 컬럼에 숫자->글자(10대) 남기기*     
    - groupby연산으로 컬럼간 연관성 파악<br> 이때 평균(생존율) 때에 따라 적용.    
    - 불필요한 컬럼 drop
    - 남은 컬럼 one-hot인코딩 하고 다음단계로.

5. 최종 선택된 변수를 독립변수(X)와 종속변수(y)로 분리
    - X는 문제 y는 답
    - X에 들어가야할 df에는 문제(생존)컬럼만 빠짐.
    - y는 생존 (one-hot인코딩상태) 

6. 홀드아웃: sklearn의 train_test_split 통해서 train, test 세트로 분리
    - 분석 모델선택
![image.png](attachment:image.png)    
7. sklearn에서 DecisionTreeClassifier를 통해 모델 훈련
8. test세트를 모델에 넣어서 예측값 생성 후 pred변수에 담기
9. accuracy_score(), classification_report()를 이용해 모델의 성능확인

**수많은 컬럼중에서 목적부합하는 변수들만 유지하는것**

*pd.cut함수에 미만(초과)로 설정할지 이하(이상)으로 할지에따라 right를 다르게.
![image.png](attachment:image.png)

풀이영상은 0422:17:01
![image.png](attachment:image.png)

In [2]:
# 0.라이브러리 로딩
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import koreanize_matplotlib
# from import

In [2]:
# 1. 타이타닉 데이터 로딩 read로 하고싶은뎅
from sqlalchemy import create_engine
import pymysql
pymysql.install_as_MySQLdb
# db연결
engine=create_engine("mysql+pymysql://kict15:kict15@221.155.18.165:3306/titanic")
conn = engine.connect()
data =  pd.read_sql(con=conn)

conn.close()    

TypeError: read_sql() missing 1 required positional argument: 'sql'

# 홀드아웃: 훈련데이터와 테스트데이터로 분할