## プロビットモデルについて

プロビットモデルは、ロジスティック回帰と同様に、カテゴリカルデータ（特に二値データ）を扱うための回帰モデルです。ロジスティック回帰ではシグモイド関数を使用して確率をモデル化しますが、プロビットモデルでは標準正規分布の累積分布関数（CDF）を使用します。

### プロビットモデルの基本概念

プロビットモデルは次の形式で表されます：

$$
P(Y = 1 | \mathbf{x}) = \Phi(\beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_p x_p)
$$

ここで、
- $P(Y = 1 | \mathbf{x})$ は、目的変数 $Y$ が1になる確率です。
- $\Phi$ は標準正規分布の累積分布関数（CDF）です。
- $\beta_0$ は切片（バイアス項）です。
- $\beta_1, \beta_2, \ldots, \beta_p$ は回帰係数です。
- $x_1, x_2, \ldots, x_p$ は説明変数です。

### 標準正規分布の累積分布関数

標準正規分布の累積分布関数（CDF）は以下のように定義されます：

$$
\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt
$$

この関数は、ある値 $z$ 以下の確率を与えます。プロビットモデルでは、このCDFを用いて線形結合を確率に変換します。

### プロビットモデルの適用範囲

プロビットモデルは、以下のような二値分類問題に適用されます：
- 疾患の有無の予測（陽性 or 陰性）
- 顧客の購入意向の予測（購入する or しない）
- 投票行動の予測（投票する or しない）

### プロビットモデルのパラメータ推定

プロビットモデルのパラメータは、尤度関数を最大化することで推定されます。尤度関数は以下のように定義されます：

$$
\mathcal{L}(\beta) = \prod_{i=1}^{n} [\Phi(\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip})]^{y_i} \times [1 - \Phi(\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \cdots + \beta_p x_{ip})]^{1 - y_i}
$$

ここで、$y_i$ は実際の目的変数の値、$\Phi$ は標準正規分布の累積分布関数です。

### Pythonコード例

以下に、Pythonを用いたプロビットモデルの実装例を示します。



### 結果の解釈

プロビットモデルを実行すると、以下の情報が得られます：

- **係数**: 各特徴量に対する係数が表示されます。これらの係数は、各特徴量が目的変数に与える影響を示します。係数が大きいほど、その特徴量の影響が大きいことを意味します。

- **統計的有意性**: 係数に対するp値が表示され、各特徴量の統計的有意性を評価できます。p値が小さいほど、その特徴量がモデルにとって重要であることを示します。

- **モデルの適合度**: ロジスティック回帰と同様に、プロビットモデルの適合度を評価するための指標（例えば、擬似R^2値など）が提供されます。

### プロビットモデルの選択

ロジスティック回帰とプロビットモデルのどちらを選択するかは、具体的な問題やデータの性質に依存します。一般的には、両者の結果は非常に似ていることが多く、選択は好みによる場合が多いです。ただし、ある特定の理論的背景やデータ分布の特性に基づいて、一方が他方より適している場合もあります。

In [None]:

import numpy as np
import pandas as pd
import statsmodels.api as sm
from sklearn.datasets import load_iris

# Irisデータセットの読み込み（2クラスに限定）
iris = load_iris()
X = iris.data[iris.target != 2]  # SetosaとVersicolorのデータ
y = iris.target[iris.target != 2]  # Setosa: 0, Versicolor: 1

# 切片項の追加
X = sm.add_constant(X)

# プロビットモデルの作成とフィッティング
probit_model = sm.Probit(y, X).fit()

# モデルの要約を表示
print(probit_model.summary())

# 各特徴量の影響（係数）の表示
coefficients = probit_model.params
print("\n各特徴量の係数:")
print(coefficients)
