## 데이터 수집

In [1]:
import pandas as pd
df_titanic = pd.read_csv('../../datasets/titanic_disaster_train.csv')
df_titanic.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


## 데이터 분석

## 데이터 전처리

### 결측치 처리

In [2]:
df_titanic.dropna(inplace = True)
# 결측치 제거: 데이터를 사용할 때 결측값이 있는 행(row)을 제거합니다.

### 스케일링
- 지수화와 비슷

## 데이터 분할

In [3]:
features = df_titanic.drop(columns=['Survived', 'PassengerId', 'Name'
                                    , 'Sex', 'Ticket', 'Cabin', 'Embarked'])
label = df_titanic['Survived']
features.columns

# object 는 공식이 될 수 없기 때문에 빼야한다

Index(['Pclass', 'Age', 'SibSp', 'Parch', 'Fare'], dtype='object')

## 모델 학습

### 비선형 모델
- SVM(Support Vector Machine) : 고차원 공간에서 데이터를 비선형 분류해 표현
 
    + 핵심개념 : 데이터를 단순히 선으로 나눌 수 없을 때(비선형 데이터) 사용하는 모델
    
    + 예를 들어, 데이터가 둥근 모양으로 분포하면 직선으로 나눌 수 없죠. 이때 SVM(Support Vector Machine)은 데이터를 더 높은 차원으로 옮겨, 직선으로 나눌 수 있게 도와줍니다.
    
    + 이것을 "고차원 공간"이라고 부르며 이렇게 하면 비선형적으로 분포된 데이터도 잘 분류할 수 있습니다.

In [4]:
from sklearn.svm import SVC
model_svc = SVC()
model_svc.fit(X = features, y = label) # 데이터(features)와 정답(label)을 학습

# SVC()는 SVM을 사용하겠다는 뜻
# fit()함수는 모델에 데이터를 학습시키는 역할을 합니다.
# 결과적으로, 학습된 SVM 모델은 새로운 데이터를 분류

### 앙상블 모델
- 독립 모델을 여러개 사용 : 집단지성
    
    + 핵심 개념 : 하나의 모델만 쓰지 않고 여러개의 작은 모델을 조합해서 더 나은 결과를 얻는 방법
    
    + 앙상블은 "집단지성" 이라고도 볼 수있으며 여러전문가의 의견을 모아 최종 결정을 내리는 것처럼, 여러 모델의 결과를 합쳐 더 좋은 성능을 낸다.
    
    + 예를 들어, Random Forest는 여러 "결정 트리"를 모아 예측하는 방식
        + 각 나무(결정트리)는 독립적으로 학습하고 예측한다.
        + 최종 결과는 나무들의 다수결 투표로 결정됨

In [5]:
from sklearn.ensemble import RandomForestClassifier
model_RandomForestClassifier = RandomForestClassifier()
model_RandomForestClassifier.fit(X = features, y = label)

# RandomForestClassifier()는 랜덤 포레스트를 사용하겠다는 뜻
# 여러 개의 나무(결정 트리)가 데이터를 학습하며, 최종적으로 모델이 새로운 데이터를 예측

## 모델 평가
- 머신러닝 모델을 학습시켰다면, 그 모델이 얼마나 잘 예측을 하는지 평가해야 합니다. classification_report라는 도구를 사용하면, 모델이 얼마나 정확하고 효율적으로 작동하는지 한눈에 볼 수 있음

### SVM model

In [6]:
predict_svc = model_svc.predict(features)
# model_svc.predict(features): 학습된 SVM 모델로 예측한 결과를 저장합니다.

In [7]:
from sklearn.metrics import classification_report

In [8]:
print(classification_report(y_true = label, y_pred = predict_svc))

# model_svc.predict(features): 학습된 SVM 모델로 예측한 결과를 저장합니다.

# 주의할 점
# 1. accuracy 확인 : 미달 시엔 model, datasets 고려
# 2. avg 확인 : macro와 weighted 차이 심하면 datasets 고려 필요
# 3. f1-score 확인 : 각 카테고리별 차이 심하면 datasets 고려

'''
# 주의할 점 1. 2. 3. 추가 설명

1. Accuracy 확인: 만약 정확도가 낮다면, 모델이나 데이터를 다시 확인해야 합니다.

2. 평균값(avg) 비교:
        # macro avg: 각 클래스(카테고리)별로 평균을 낸 값.
        # weighted avg: 클래스 크기를 고려해 가중치를 적용한 평균값.
        # 두 값의 차이가 크면 데이터 불균형(어떤 클래스가 다른 클래스보다 훨씬 많거나 적음)을 의심해야 합니다.

3.F1-score 확인: 각 클래스의 F1-score 차이가 크면, 데이터 품질이나 모델 성능 문제일 가능성이 있습니다.
'''

              precision    recall  f1-score   support

           0       0.00      0.00      0.00        60
           1       0.67      1.00      0.80       123

    accuracy                           0.67       183
   macro avg       0.34      0.50      0.40       183
weighted avg       0.45      0.67      0.54       183



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


'\n# 주의할 점 1. 2. 3. 추가 설명\n\n1. Accuracy 확인: 만약 정확도가 낮다면, 모델이나 데이터를 다시 확인해야 합니다.\n\n2. 평균값(avg) 비교:\n        # macro avg: 각 클래스(카테고리)별로 평균을 낸 값.\n        # weighted avg: 클래스 크기를 고려해 가중치를 적용한 평균값.\n        # 두 값의 차이가 크면 데이터 불균형(어떤 클래스가 다른 클래스보다 훨씬 많거나 적음)을 의심해야 합니다.\n\n3.F1-score 확인: 각 클래스의 F1-score 차이가 크면, 데이터 품질이나 모델 성능 문제일 가능성이 있습니다.\n'

### RandomForestClassifier Model

In [9]:
predict_RandomForestClassifier = model_RandomForestClassifier.predict(features)

In [10]:
print(classification_report(y_true=label
                      , y_pred=predict_RandomForestClassifier))

# 랜덤 포레스트(Random Forest): 여러 개의 의사결정 나무를 조합한 모델로, 보통 정확도가 높은 편.
# 이 코드도 위 SVM 코드와 같은 방식으로 평가 지표를 확인합니다.

# accracy 결과가 100% 일 때 의심 필요 : model hyperparameter를 조정 고려
'''
주의할 점:
    Accuracy가 100%일 때:
    너무 높은 정확도는 의심해봐야 합니다.
    예를 들어, 모델이 너무 데이터에만 맞추는 "과적합(overfitting)" 상태일 수 있습니다.
    이 경우, 모델의 **하이퍼파라미터(모델 설정 값)**를 조정하거나 데이터를 다시 점검해야 합니다.
'''

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        60
           1       1.00      1.00      1.00       123

    accuracy                           1.00       183
   macro avg       1.00      1.00      1.00       183
weighted avg       1.00      1.00      1.00       183



'\n주의할 점:\n    Accuracy가 100%일 때:\n    너무 높은 정확도는 의심해봐야 합니다.\n    예를 들어, 모델이 너무 데이터에만 맞추는 "과적합(overfitting)" 상태일 수 있습니다.\n    이 경우, 모델의 **하이퍼파라미터(모델 설정 값)**를 조정하거나 데이터를 다시 점검해야 합니다.\n'

## 모델 배포