# 光子の干渉データ解析

取得した干渉・非干渉パターンのデータを`python`プログラミング言語およびそのパッケージを用いて解析していきます。  
`python`ではデータ解析に必要となるパッケージがすでに準備されているのでそれらを利用します。　　
今回用いるのは以下の4つのパッケージです。
- numpy 数値演算の基本パッケージ
- matplotlib グラフ作成パッケージ
- pandas 表計算はデータ処理の基本パッケージ
- scipy より科学計算に特化したパッケージ

以下では形式上最初に`python`の基本を説明しますが、実際のデータ解析には上記4つのパッケージを用いて数行のコードでデータ解析することができます。  
各パッケージでは有用な関数・クラスが多く実装されているので、本実験に限らず何かやってみたいことがあった場合はオンラインマニュアル等で該当する機能を多くの場合見つけることができます。  
見つからなかった場合には、自作するようにして効率的に解析を行うようにしてください。

# Python 基礎
`python`に限らずプログラミング言語として必要とされる機能は最低限以下の通りです。
- 変数
- リスト・配列
- 繰り返し処理 (ループ)
- 条件分岐
- 関数
- クラス

以下でクラスを除く項目を順番に説明しています。  
なお今回の目的はプログラムの習得ではないので必要最低限にとどめていますので、興味のある方は紙媒体やオンラインの適当なテキストを参照してください。

## 変数
変数の定義。  
整数型、不動小数点型、文字列型など一般的なデータ型が準備されています。  
ユーザーはとくにデータ型を明示することなく変数を宣言することができます。

In [None]:
a = 1 # 整数型
x = 3.14 # 不動小数点型
s = 'hello' # 文字列型

変数を表示するには`print()`関数を使います。

In [None]:
print(s)

もしも`C/C++`などで同じ変数宣言を行おうとすると以下のようになります。  
データ型を明示するために倍程度の文字数を必要としていることがわかります。  
人間がタイプできるスピードが同じだとすると、`python`だと実質的なコードをより多く書くことができるわけです。　　
```c++
int a = 1;
double x = 3.14;
std::string x = 'hello';
```

変数への値の代入、変数の四則演算は次のとおりです。

In [None]:
a1 = 2
a2 = 3
print(a1+a2) # 足し算
print(a1-a2) # 引き算
print(a1*a2) # 掛け算
print(a1/a2) # 割り算
print(a1**2) # ２乗

文字列同士の演算はどうでしょうか？

In [None]:
s1 = 'hello'
s2 = 'world'
print(s1+s2)

# リスト,配列
リスト・配列は変数の組み(数学的に言えばベクトル)です。  
プログラミングでは`「リストの各要素について処理を行う」`というような操作がよく行われます。  
リストは複数の数(文字でも良い)を大カッコ`[]`でくくることで生成できます。

In [None]:
arr = [1,2,3,4,5]

リストの要素へのアクセスはインデックスを次のように指定してやります。

In [None]:
print(arr[1]) # 1番目の要素(0始まりに注意！)をとりだす
print(arr[-1]) # リストの最後の要素をとりだす
print(arr[0:4]) # 0-3番目までの要素をとりだす、４番目は含まれないことに注意！

配列同士の演算を考えてみます。  
`+`記号はリストの連結として処理されます。

In [None]:
a1 = [1,2,3]
a2 = [4,5,6]
print(a1+a2)

その他、実際の`python`プログラムにおいて使われるデータ構造として辞書型がありますが今回は省略します。

# 繰り返し処理(ループ)
`for`　文を用います(`while`文もありますが今回は省略します)。  
ここでループ内の処理は字下げ(**インデント**)によって表現されているところが`python`の大きな特徴の一つです。  
以下の例では配列`arr`の要素をそれぞれ`e`としてとりだしその値を表示するというコードです。

In [None]:
for e in arr:
    print(e) 

# 条件分岐
`if`と`else`をもちいて条件が真の時・それ以外の時の処理をそれぞれ記述することができます。  
以下の例ではaが1の時とそうでない時に違った出力をするコードになります。

In [None]:
a = 1
if a == 1:
    print('a is one')
else:
    print('a is not one')

ループと条件分岐を用いるとリスト内で条件に合致した場合のみ特定の処理をするといったプログラムっぽいことができるようになります。

In [None]:
for e in arr:
    if e > 3:
        print(e)

# 関数
コードが長くなってきたら、ある程度定まった処理(機能)ごとに関数化を行い、おなじ処理をなん度も書かず関数を呼び出すことでコードを効率的に記述できます。  
関数の定義には`def`文を用います。  
以下の例では$y = f(x) = x^2$を定義しています。  
関数は定義してやれば、その名前で使用することができます。

In [None]:
def fun(x):
    return x**2

In [None]:
for e in arr:
    print(fun(e))

# numpy
数値計算を行う際に必須となる、パッケージです。  
既存のパッケージを利用するには以下のように`import`文を用います。  
`numpy`は通常`np`と省略して使用するので次のセルの宣言を覚えてしまいましょう。

In [None]:
import numpy as np

# numpy配列
`numpy`配列は、たとえば普通のリストに対して`np.array()`関数を用いれば生成できます。  
各要素へのアクセス方法はリストの場合と同様です。


In [None]:
x = np.array([1,2,3,4,5])
print(x) # 中身を確認
type(x) # データ型を確認
print(x[1]) # １番目の要素にアクセス

通常のリストとの大きな違いは、`numpy`配列の四則演算の作用です。  
以下のように2つの`numpy`配列を用意して足し算を行ってみましょう。

In [None]:
x1 = np.array([1,2,3,4,5])
x2 = np.array([6,7,8,9,10])
x1+x2

リストの場合のように結合ではなく、各要素の演算(ここでは足し算)となっていることに注意してください。  
もしも上のように配列同士の各要素を足し算するという演算を、通常のリストとループ処理を用いて作成するとすれば、次のようになります。

In [None]:
x3 = [] # 空のリストを用意
for xx1,xx2 in zip(x1,x2): # x1,x2から要素をそれぞれxx1,xx2として取り出す
    xx3 = xx1+xx2
    x3.append(xx3) # リストx3の末尾のxx1+xx2の結果を追加する
x3 = np.array(x3)
print(x3)

このように、`for`文を使って複数行にわたりコードを書かなければならないところを `numpy`配列を使えば１行で記述できます。  
同様にほかの算術演算も可能です。


In [None]:
print(x1+x2) # 足し算
print(x1-x2) # 引き算
print(x1*x2) # 掛け算
print(x1/x2) # 割り算
print(x1**2) # べき計算

そのほか、簡単な統計処理の計算なども行うことができます。  
詳しくは`numpy`オンラインマニュアル等を参照してください。

In [None]:
print(x1.sum())  # 合計
print(x1.mean()) # 平均
print(x1.max())  # 最大値
print(x1.min())  # 最小値
print(x1.argmax()) # 最大値に対応する要素番号

# 注意
上記の通り`*`は各要素の掛け算に割り当てられているので、ベクトルの内積を行う場合は特別に`np.dot()`関数が用意されています。

In [None]:
np.dot(x1,x2)

# pandas
一般的な表データ(文字を含んでいても良い)の処理パッケージです。  
`pandas`でデータのクレンジングを行なった後に`numpy`配列として数値計算をするのが便利です。  
`pandas`パッケージを使用するためには`import`する必要があります。  
通常は`as`を用いて`pd`と略して使用します。

In [None]:
import pandas as pd

### データファイル (excel) の読み込み
`pandas.read_excel()`関数はエクセルファイルを`pandas`のデータフレームというコンテナ(以下では`df`としている)にロードする。  
以下ではコンテナ`df`にアクセス、処理することで表計算処理が可能となる。  
`photo_if_data.xlsx`は過去の実験データ。  
データフォーマットは　
- 1列目 光電子増倍管の位置 (x)
- ２列目 カウント数 (N)
- 3列目 レーザー強度 (V)
- 4列目 N/V
としている。  
各自、ファイルにおけるデータ列の並びを考慮して以下のコードを書き換える。  
なお、引数で用いられている`sheet_name`はエクセルのシートの名前, `usecols`は読み込む列番号 (ここでは0,1,2,3としている),  
`names`で各列の名前を定義している。  
他にも`read_excel()`関数には様々なオプションが用意されている。  

<div class="alert alert-block alert-info">
<b>参考 csvファイルの読み込み</b><br>
pandas.read_csv() 関数はcsvファイルをpandasのデータフレームというコンテナ(以下ではdfとしている)にロードする。<br>
以下dfにアクセスを処理することで表計算処理が可能となる。 <br>
例として、データフォーマットは一列目光電子増倍管の位置、２列目　光電子増倍管のカウント数/レーザー強度。<br>
photo_if_data.csvは過去の実験データ。  
</div>


In [None]:
df = pd.read_excel('photo_if_data.xlsx', sheet_name='Sheet2',usecols=[0,1,2,3],names=('X', 'N','V','NV'))
# df = df.dropna()
# df = pd.read_csv('https://github.com/MakotoUchida/b3exp-photo-if/raw/main/photo_if_data.csv',names=('X','NV'))

読み込んだデータの、最初の５行を見てみる場合には`head()`関数を用います。  
一方最後の五行を見る場合には`tail()`関数を用います。  
データ全体を表示するには`print(df)`ですが、データの行・列が多い時は煩雑ですので`head(),tail()`などで確認することが多いです。

In [None]:
df.head()
# df.tail()

特定の列を取り出すには`df.label`とするか`df[label]`とするかの２通りの方法があります。

In [None]:
df.NV
# or df['NV']

`pandas`でも行ごとの演算を行うことが可能です。  
たとえばエクセルで`N/V` を行っていなかったとして、`pandas`において同様の操作を行うには次のようにします。　  
ここでは計算した新しい列を`NV2`とラベル付けしています。  
エクセルで計算している人も、同じ値となるか確認してみてください。

In [None]:
df['NV2'] = df['N']/df['V'] 

### 描画パッケージmatplotlibの読み込み
パッケージ名が長いので`plt`と名前をつけるのが通例。

In [None]:
import matplotlib.pyplot as plt

### グラフ作成
グラフ作成には`plot()`関数を用います。  
ここで第一引数がx軸のデータ、第二引数がy軸のデータです。  
３番目の`o-`はマーカーをマルにしてデータを線で繋ぐというオプションになります。

In [None]:
plt.plot(df.X,df.NV,'o-')

### ヒストグラム
ヒストグラムとは測定値がどのような頻度で観測されたかを可視化する方法です。  
たとえば今回の場合、レーザー強度に対応する電圧値がどのようなヒストグラムとなるのか確認してみましょう。  
`hist()`関数を用います。第一引数が測定値、`bins`はbinの数を表します。  
`pandas`から直接`hist()`を用いることも可能です。

In [None]:
_ = plt.hist(df['V'],bins=50)
# df['V'].hist(bins=50)

### 理論カーブの考察

簡単のためレーザースポットの広がりをガウス分布関数と仮定します。
$$
G(x) = Ae^{-\frac{1}{2}\frac{(x-m)^2}{s^2}}
$$
一方、干渉パターンは次の式で表せたので(ただし$a_1 = a_2$としてます)
$$
I(x) = (1+cos(ksin\theta x)) = (1+cos((2\pi/d)x)
$$
実験データはおそらくこの２つの関数の掛け算で表現できると予想されます。  
実際に２つの関数をかけ合わせたグラフを次のセルで生成しています。

In [None]:
x = np.linspace(0,10,100) # 0-10までを100等分して配列に確保する
y = 3000*np.exp(-0.5*(x-5)**2/2**2)*(1+np.cos(2*np.pi*x/1.2+0.6))
# y = 50000*np.exp(-0.5*(x-4)**2/2**2)*(1+np.cos(((2*np.pi*(x+0.43))/1)))

In [None]:
fig = plt.figure(figsize=(6,4))
ax = fig.add_subplot(111)
_ = ax.plot(df.X,df.NV,'o-')
_ = ax.plot(x,y,'-')

### フィッティング関数の読み込み
上記のように、おおよそのパラーメータの値を推測してデータを再現してもよいが  
正しくは最適なパラメータをフィッティングで求めることとなる。  
フィッティングには`scipy.optimize.curve_fit()`関数を用いることができる。  
`scipy`パッケージはより科学計算に特化したパッケージです。  
他にも特殊関数などが標準で用意されていたりします。

In [None]:
from scipy.optimize import curve_fit

使い方は、簡単に言うと
```python
curve_fit(モデル関数, データx, データy, 初期値)
```
とすればよい。  
返り値として最適化されたパラメータのリスト （+covariant matrix）。


### フィッティング関数の定義
`model()`の`a,b,c,d,e`がパラメータ。

In [None]:
def model(x,a,b,c,d,e):
    return a*np.exp(-0.5*(x-b)**2/c**2)*(1+np.cos(2*np.pi*x/d+e))

In [None]:
par,cov = curve_fit(model,df.X,df.NV,p0=(3000,5,2,1.2,0.6))

In [None]:
par

結果を表示してみる。

In [None]:
fig = plt.figure(figsize=(6,4))
y = model(x,par[0],par[1],par[2],par[3],par[4])
# y = model(x,*par)
ax = fig.add_subplot(111)
_ = ax.plot(df.X,df.NV,'o-',label='data')
_ = ax.plot(x,y,'-',label='fit')
plt.legend(loc='upper left')
plt.savefig('pif.png') # グラフをpngファイルとして保存する関数。

# おまけ、直線フィットの実装
擬似データを読み込み。

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('https://raw.githubusercontent.com/MakotoUchida/b3exp-photo-if/refs/heads/main/data.csv')

In [None]:
plt.plot(df.x,df.y)

## 最小二乗法のアルゴリズムをコーディング
$$
s_{xx}= \sum x_i^2, s_{xy} = \sum x_i \cdot y_i, s_{y} = \sum y_i
$$
などが計算できれば最適なパラメータ$a,b$がもとまる。

In [None]:
s_xx = np.sum(df.x**2)
s_xy = # 同様に考える
s_y = # 同様に考える

A = np.array([[s_xx,s_xy],[s_xy,len(df.x)]])
B = # 考える
par  = # Aの逆関数を求めてA-1*B
a_fit = par[0]
b_fit = par[1]