<a href="https://colab.research.google.com/github/platypus2000jp/Colaboratory/blob/main/%E4%BE%8B%E9%A1%8C_%E9%87%8E%E9%B3%A5%E3%81%AE%E6%A8%99%E8%AD%98%E8%AA%BF%E6%9F%BB%E3%81%AE%E3%83%99%E3%82%A4%E3%82%BA%E3%83%A2%E3%83%87%E3%83%AB_PyStan%E3%82%92%E4%BD%BF%E3%81%86.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

野鳥の標識調査について機械学習またはベイズのモデルの解析例を示してください。Pythonでお願いします。Pystanを使ってください。

野鳥の標識調査（バンディング・リカプチャー調査）は、特定の地域で野鳥にタグをつけて、その後の再捕獲や観察を通して、種の生存率、移動パターン、個体数推定などを行う調査方法です。この調査においてベイズモデルを活用することで、例えば以下の2つの解析を行うことができます。

生存率の推定 - タグがつけられた鳥が毎年生き残る確率を推定する。
再捕獲確率の推定 - タグがつけられた鳥が観察される確率を推定する。
ここでは、生存率と再捕獲確率を推定するシンプルなCJS（Cormack-Jolly-Seber）モデルの例を示します。このモデルは、「生きているが見つからない」という観察の欠如を扱うための標準的なモデルです。

CJSモデルの概要
phi: 生存率（例えば、毎年生き残る確率）
p: 再捕獲確率（再び観察される確率）
この例では、Pystanを使用して生存率と再捕獲確率を推定します。

コード例
まず、Pystanをインストールしていることを確認してください。以下はPythonとStanを使用した分析コードです。

python
コードをコピーする
import pystan
import numpy as np
import matplotlib.pyplot as plt

# サンプルデータ（観察年数、個体数、観察データの生成）
n_years = 5
n_birds = 100
np.random.seed(42)

# 生存率と再捕獲確率（仮の真値）
true_phi = 0.8  # 生存率
true_p = 0.5    # 再捕獲確率

# 観察データを生成
observations = np.zeros((n_birds, n_years), dtype=int)
for bird in range(n_birds):
    alive = True
    for year in range(n_years):
        if alive:
            if np.random.rand() < true_p:
                observations[bird, year] = 1
            alive = np.random.rand() < true_phi

# Stanモデルの定義
stan_code = """
data {
    int<lower=0> N;              // 個体数
    int<lower=0> T;              // 観察年数
    int y[N, T];                 // 観察データ
}
parameters {
    real<lower=0, upper=1> phi;  // 生存率
    real<lower=0, upper=1> p;    // 再捕獲確率
}
model {
    for (n in 1:N) {
        for (t in 2:T) {
            y[n, t] ~ bernoulli(phi * y[n, t - 1] + (1 - phi) * p);
        }
    }
}
"""

# データの準備
stan_data = {
    'N': n_birds,
    'T': n_years,
    'y': observations
}

# モデルのコンパイルとサンプリング
model = pystan.StanModel(model_code=stan_code)
fit = model.sampling(data=stan_data, iter=2000, chains=4)

# 結果の出力
print(fit)

# パラメータの事後分布をプロット
phi_samples = fit.extract()['phi']
p_samples = fit.extract()['p']

plt.hist(phi_samples, bins=30, alpha=0.7, label='phi (生存率)')
plt.hist(p_samples, bins=30, alpha=0.7, label='p (再捕獲確率)')
plt.legend()
plt.xlabel("Parameter value")
plt.ylabel("Frequency")
plt.title("Posterior distributions of parameters")
plt.show()
コードの説明
データ生成 - 仮の生存率と再捕獲確率に基づいて、野鳥の観察データを生成します。
Stanモデルの定義 - CJSモデルをStanで定義します。
データの準備とサンプリング - 観察データをStanに渡し、サンプリングを行います。
結果の表示と可視化 - サンプリング結果を取得し、phi（生存率）とp（再捕獲確率）の事後分布をプロットします。
注意
この例は単純化したものであり、実際のデータには観察バイアスや多様なモデルが適用される可能性があります。

In [None]:
# !pip install stan
import stan

ModuleNotFoundError: No module named 'stan'

In [None]:
#pystanのインストール
import pystan

# 作図用ライブラリ
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

#結果の可視化用ライブラリ
!pip install arviz
import arviz

#データフレーム用のライブラリ
import pandas as pd

ModuleNotFoundError: No module named 'pystan'

In [None]:
# import pystan
# import stan
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# サンプルデータ（観察年数、個体数、観察データの生成）
n_years = 5
n_birds = 100
np.random.seed(42)

In [None]:
# 生存率と再捕獲確率（仮の真値）
true_phi = 0.8  # 生存率
true_p = 0.5    # 再捕獲確率

In [None]:
# 観察データを生成
observations = np.zeros((n_birds, n_years), dtype=int)
for bird in range(n_birds):
    alive = True
    for year in range(n_years):
        if alive:
            if np.random.rand() < true_p:
                observations[bird, year] = 1
            alive = np.random.rand() < true_phi

In [None]:
# Stanモデルの定義
stan_code = """
data {
    int<lower=0> N;              // 個体数
    int<lower=0> T;              // 観察年数
    int y[N, T];                 // 観察データ
}
parameters {
    real<lower=0, upper=1> phi;  // 生存率
    real<lower=0, upper=1> p;    // 再捕獲確率
}
model {
    for (n in 1:N) {
        for (t in 2:T) {
            y[n, t] ~ bernoulli(phi * y[n, t - 1] + (1 - phi) * p);
        }
    }
}
"""

In [None]:
# データの準備
stan_data = {
    'N': n_birds,
    'T': n_years,
    'y': observations
}


In [None]:
# モデルのコンパイルとサンプリング
model = pystan.StanModel(model_code=stan_code)
fit = model.sampling(data=stan_data, iter=2000, chains=4)

NameError: name 'pystan' is not defined

In [None]:
# 結果の出力
print(fit)

NameError: name 'fit' is not defined

In [None]:
# パラメータの事後分布をプロット
phi_samples = fit.extract()['phi']
p_samples = fit.extract()['p']

plt.hist(phi_samples, bins=30, alpha=0.7, label='phi (生存率)')
plt.hist(p_samples, bins=30, alpha=0.7, label='p (再捕獲確率)')
plt.legend()
plt.xlabel("Parameter value")
plt.ylabel("Frequency")
plt.title("Posterior distributions of parameters")
plt.show()

NameError: name 'fit' is not defined