# 分析の背景
今回はkaggleで公開されているタイタニックのデータセット( https://www.kaggle.com/competitions/titanic )に対して分析を行った。分析を行った理由は次のようになる。2023/6/22に沈没したタイタニック号を見るために海中に潜った潜水艇が行方不明になる事故が発生した。今回の事件をみてタイタニック号のような悲劇は決して過去のものではなく、現在でも十分に起こり得ることであるとこがわかった。そのためこのような事故に遭遇した時に生き残りやすいかどうか回帰モデルで求め、自分の生存確率が低いなら危険度が高い乗り物を極力避けるようにしようと思う。

# データの詳細（2値型principal pointsおよび回帰分析に基づき分析することが適当な理由につなげてください）
今回のタイタニックのデータは2値型のデータは変換することで以下の2値データを説明変数として利用することができる。
![image.png](attachment:77ead39a-adf9-4a34-9396-0324ee777802.png)
また生存したかどうかも2値型として表されるため2値型principal pointsおよび回帰分析に基づき分析することが適当であった。
また今回はprincipal pointsを求めるコードの計算量がO(2^(説明変数の数))であったため説明変数の数を6個に抑えた。

# 分析モデルの定式化
分析を行うために説明変数から3つprincipal pointを求めた。各データをもとめたprincipal pointのなかで一番近い点で表すことにし、どのprincipal pointに一番近いかという情報を説明変数として回帰を行った。回帰には LogisticRegressionを使い、次の式を使った。
Y = β₀ + β₁X₁ + β₂X₂ + β₃X₃ + ε
ここで、Yは生存したかどうかを表し、X₁=1は1つ目のprincipal pointに最も近いことを、X2=1は2つ目のprincipal pointに最も近いことを、X3=1は3つ目のprincipal pointに最も近いことを表す説明変数である。

# 分析に利用したコード

In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [None]:
train = pd.read_csv('../input/titanic/train.csv')
test = pd.read_csv('../input/titanic/test.csv')
full_data = [train, test]
for dataset in full_data:
    #キュビンを持っていた客を1,持ってない客を0とする
    dataset['Has_Cabin'] = dataset["Cabin"].apply(lambda x: 0 if type(x) == float else 1)
    #一人で乗った客を0,家族と乗った客を1とする
    dataset['IsAlone'] = 0
    dataset.loc[dataset['SibSp'] + dataset['Parch'] + 1 == 1, 'IsAlone'] = 1
    #年齢ごとにone hot vector を追加する
    dataset['Age'] = dataset['Age'].astype(float)
    for i in range(3):
        age = i * 10
        dataset['age_' + str(age)] = 0
        dataset.loc[(age <= dataset['Age']) & (dataset['Age'] < age + 10), 'age_' + str(age)] = 1
    #女性なら0,男性なら1とする
    dataset['Sex'] = dataset['Sex'].map({'female': 0, 'male': 1}).astype(int)

drop_elements = ['Parch', 'PassengerId', 'Name', 'Ticket', 'Cabin', 'SibSp', 'Pclass', 'Age', 'Fare', 'Embarked']
train = train.drop(drop_elements, axis = 1)
test = test.drop(drop_elements, axis = 1)

In [None]:
data=np.array(train.drop(['Survived'], axis = 1))
(n,p)=np.shape(data)

###STEP1 Prinsipal Pointsの候補ベクトルを作成（ちょっとおしゃれな事やっています）###
pmatrix=np.empty((2**p,p))
for i in range(2**p):
    pmatrix[i,]=(list(format(i, '06b')))#0の後に変数の数がくる(ex.4変数のとき04b)


###STEP2 Prinsipal Pointsを探索###
#Step2　principal pointsを探索
sum2=100000000000
for i in range (2**p):
    sum1=0
    for num in range (n):
        sum1=sum1+p-np.sum(pmatrix[i]==data[num])
    if sum1<=sum2:
        sum2=sum1
        pp1=i
for j in range (2**p):
    sum1=0
    for num in range (n):
        sum1=sum1+min(p-np.sum(pmatrix[pp1]==data[num]),p-np.sum(pmatrix[j]==data[num]))
    if sum1<=sum2:
        sum2=sum1
        pp2=j
for k in range (2**p):
    sum1=0
    for num in range (n):
        sum1=sum1+min(p-np.sum(pmatrix[pp1]==data[num]),p-np.sum(pmatrix[pp2]==data[num]),p-np.sum(pmatrix[k]==data[num]))
    if sum1<=sum2:
        sum2=sum1
        pp3=k
principal_points = [pmatrix[pp1], pmatrix[pp2], pmatrix[pp3]]

In [None]:
def closest_principal_points(point):
    index = 0
    m = 1000000000
    for i in range(len(principal_points)):
        now = 0
        p = principal_points[i]
        for j in range(len(p)):
            if p[j] == point[j]:
                now += 1
        if m > now:
            m = now
            index = i
    return index
full_data = [train, test]
for dataset in full_data:
    principal_points_vec = [[0 for j in range(len(dataset))] for i in range(3)]
    for i in range(len(dataset)):
        closest_principal_point_index = closest_principal_points(np.array(dataset.iloc[i]))
        principal_points_vec[closest_principal_point_index][i] = 1
    for i in range(3):
        dataset['principal_points_' + str(i)] = principal_points_vec[i]
train, test = full_data
train_x = train[['principal_points_0', 'principal_points_1', 'principal_points_2']]
train_y = train['Survived']
test = test[['principal_points_0', 'principal_points_1', 'principal_points_2']]

In [None]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(train_x, train_y)
Y_pred = logreg.predict(test)
#答えを反転
for i in range(len(Y_pred)):
    Y_pred[i] = 1 - Y_pred[i]
submission = pd.DataFrame({
    "PassengerId": pd.read_csv('../input/titanic/test.csv')["PassengerId"],
    "Survived": Y_pred
})
submission.to_csv('submission.csv',index = False)

In [None]:
Y_pred

# 分析の結果・考察
今回の分析の結果未知のデータに対して26.794%の確率で正解を当てれるモデルが構築できた。ここまで精度が低くなった原因は何個か考えられる。
1. 学習データとテストデータで大きな違いがありランダムに予想した時よりも悪い予測制度になっている
2. バグにより出力が反転している

今回の目的変数は0,1のどちらかのため出力を反転させることで73%ほどの精度で予測できることがわかる。実際に出力を反転させて提出すると73%の精度が出る。そのため今回はバグにより出力が反転していると考察する。
![スクリーンショット 2023-06-23 1.22.20.png](attachment:c47f9b18-f0d0-477c-8707-d1a6553102db.png)


実際にkaggleに提出した時の点数（上が01の出力を反転し73%の精度、下がそのままの提出で27%の精度)

# 結論、今後の課題
今回の分析でタイタニックのような事故で生存確率の高い人をその人の属性から予測できると考察する。しかし今回の課題中ではバグが発生しているか、学習データとテストデータに乖離があるのか断言することができなかった。今後はバグの修正やprincipal pointの探し方の改善などを行うことで予測制度を上げていきたい。