# データの読み込み・可視化・数値演算

以下のスクリプトは{ROOT}/900.miscディレクリから実行することを想定しています．
以下のスクリプトは
900.010.introduction.ipynbに保存されており，同ディレクトリには他により詳細なスクリプト使用例があります．
Notebookセル（拡張子ipynb)にはPython入力部分（コードセル）とPythonの出力部分（出力セル）があり本書では前者は網掛け，後者は表示する場合は網掛けがない枠のみで示します．

## 数値演算ライブラリ


### numpy
Pythonでは多くの例でベクトル，行列定義・演算のためにnumpyを用います．
numpyをnpとして利用可能にしてから利用し，ベクトルもしくは行列演算が可能となります．以下はベクトルの加算例です．
この他に
内積演算(np.inner(x1,x2)), 外積演算(np.cross(x1,x2)など多くの演算が予め用意されています．


In [None]:
import numpy as np
x1 = np.array([1., 0., 0.])
x2 = np.array([.1, .2, 0.3])
x1 + x2

次は行列$\times$ベクトルの例です．
この他に
逆行列（np.linalg.inv(M)），
固有値問題（np.linalg.eig(M))など多くの演算が予め用意されています
\footnote{本書では例がありませんが複素数の表示及び演算も可能です．}．

In [None]:
from math import cos, sin
theta = np.pi*60.0/180.0
M = np.matrix([[cos(theta), -sin(theta),0],
               [sin(theta), cos(theta),0],
               [0,0,1]])
M.dot(x1)


## scipy

numpyと重複している部分もありますが，numpyより高度な数値演算ライブラリにscipyがあります．
FFTや高度な乱数生成や階層クラスタリングライブラリが含まれます．
以下は高次元ガウス分布の確率分布をランダムサンプリングした例です．

In [None]:
from scipy.stats import multivariate_normal
import matplotlib.pyplot as plt

rv = multivariate_normal([0.5, -0.2], [[3.0, 2.0], [0.1, 0.5]])
Nsample = 2000
x = rv.rvs(Nsample)
plt.scatter(x[:,0], x[:,1], alpha=0.1)
plt.tight_layout()



## データ読み込み及びデータ型ライブラリ

Pythonモジュールは使用する前にimportする必要があります．
本書スクリプトではPandasモジュールを用いてデータを読み込みます．
多くの例で，
Pandasクラス\footnote{Anacondaでは標準でインストールされています．}
を別名pdとして使用できるようにしてから利用します．

In [None]:
import pandas as pd


以下の例のようにカラム名を含めてcsvファイルを読み込み，
dfがデータフレームを得ることができます．
Jupyter Notebookを用いると整形して表示することが可能です．
データフレームの表示はNotebookセルの最後に出力する他に，上から表示（head())，下から表示（tail()），ランダムに表示（sample()）などで表示数を制限することができます．

In [None]:
ROOT = ".."
filename = f"{ROOT}/data/TC_ReCo_detail_descriptor.csv"
df = pd.read_csv(filename)
df.head(4)

\caption{データフレーム例}
\label{fig:misc:dataframe}

データフレームは文字列および文字列リストで指定するカラムに対してアクセスが可能です．
.valueによりnumpyのベクトル，多次元ベクトルに変換します．
本書ではDESCRIPTOR_NAMES変数，TARGET_NAME変数を指定することで説明変数，目的変数を得ます．
Xrawはサイズ(60,11)の二次元配列，yはサイズ(60)の一次元配列を得ます．

In [None]:
DESCRIPTOR_NAMES = ['C_R', 'C_T', 'vol_per_atom', 'Z', 'f4', 'd5', 'L4f', 
                    'S4f', 'J4f','(g-1)J4f', '(2-g)J4f']
TARGET_NAME = 'Tc'
Xraw = df[DESCRIPTOR_NAMES].values
y = df[TARGET_NAME].values

## 可視化ライブラリ

Pandasデータフレームは線画(plot)，散布図(scatter)，ヒストグラム(hist)などの可視化も可能です．

In [None]:
import matplotlib.pyplot as plt

df.plot.scatter(x="C_R",y="Tc")


\caption{説明変数C_R vs 目的変数TC}
\label{fig:misc:CRTCscatter}

よりprimitiveな可視化ライブラリには別名pltとして利用されることが多いmatplotlibモジュールがあります．matpltlibも線画(plot)，散布図(scatter)，ヒストグラム(hist)などの可視化が可能です．

In [None]:
plt.hist(y)


\caption{目的変数TCヒストグラム}
\label{fig:misc:yhist}

より高度な可視化ライブラリにseabornがあります．
例えば，カーネル密度推定(kdeplot)と呼ばれる，分布の密度関数を推定した「等高線図」を示すことができます．
その他にもカラム名とインデックス名を持つデータフレームと連携した多くの可視化を行うことができます．

In [None]:
import seaborn as sns
sns.kdeplot(x=Xraw[:,0], y=Xraw[:,2])
plt.scatter(Xraw[:,0],Xraw[:,2])


\caption{高次元ガウス分布の確率分布をランダムサンプリング例}
\label{fig:misc:kdeplot}

\caption{seaborn kdeplot例}
\label{fig:misc:kdeplot}