## pandas DataFrame

簡単に言うとPythonでのexcelに相当します．
Rのdata.frameからアイディアを得ています．



DataFrameはnumpy行列とは異なり，
異なるデータ型が混在するデータを一つにまとめて置け，ラベルをつけておくことが可能です．
また，DataFrame自体に可視化の一部の機能があります．

混乱しないように行（row), 列（column）の説明から行います．
Pythonなのでindexを0から書いています．

![linear_gmm_flowchart](image/matrix_row_column.png)

またrow方向をaxis=0, column方向をaxis=1として扱います．

jupyter notebookでDataFrameはhtmlを用いて綺麗に表示されます．

pd.set_option()で表示設定を変えることができます．（バグにより変化しないことがあります．）

In [None]:
import pandas as pd
pd.set_option("display.max_rows", 10)  # rowの最大表示行数
pd.set_option("display.max_columns", 60)  # columnsの最大表示行数


### 作り方

#### ファイル読み込みと表示

In [None]:
"""load an example"""
filename = "../data_calculated/Carbon8_cell_descriptor_Etot.csv"

これから読み込むcsvファイルの行頭数行を表示する．
これはjupyterのshell実行機能で，headは上から３行表示するunixコマンドです．(windowsの方は使えません．）

In [None]:
!head -n 3 $filename

In [None]:
df = pd.read_csv(filename, index_col=None) # indexを0からつける．
df # indexは最左に表示される．

In [None]:
df = pd.read_csv(filename, index_col=[0]) # defaultで[0]がindexとなる．
df

In [None]:
# 番号でなく，column名で指定してもよい．
df = pd.read_csv(filename, index_col=["key"])
df

In [None]:
# print文でも表示できる．
print(df)

先頭から数行表示するには以下のやり方もある．
最後数行だけ表示するdf.tail()もある．

In [None]:
df.head()

#### index, column名

行方向のラベルをindex,列方向のラベルをcolumnとしてアクセスできます．
下のdf.columns, df.indexです．

In [None]:
print(df.columns)
print(df.index)

In[...]:の途中でDataFrameを表示したい場合はdisplay(df)と呼びます．
すこし古いversionですとfrom  IPython.core.display import displayを追加する必要があります．

In [None]:
# from  IPython.core.display import display

display(df)
"""
cellの最後にしないようにprint文を加える．

"""
print("done")

#### 別作成方法

listからの作成

In [None]:
valueslist = []
nx = 3
ny = 5
for x in range(nx):
    values =[]
    for y in range(ny) :
        values.append(x*10+y)
    valueslist.append(values)
    
labels = []
for y in range(ny):
    labels.append("column{}".format(y))
print(valueslist)
_df = pd.DataFrame(valueslist, columns=labels)
_df

辞書からの作成

In [None]:
# 名前の作成
keys = []
for y in range(ny):
    keys.append("column{}".format(y))
# 名前をindexとする辞書の作成
valuesdic = {}
for y in range(ny):
    valuesdic[keys[y]] = []
# 値の代入
for y in range(ny):
    for x in range(nx):
        valuesdic[keys[y]].append(10*y+x)
print(valuesdic)
_df = pd.DataFrame(valuesdic)
_df

jupyterだときれいに表示できるので，私は結果表示に用います．

### 切り取り
一部のカラムだけ切り取ります．

In [None]:
print(df.columns)

In [None]:
df2 = df[['a0.25_rp1.5', 'a0.25_rp2.5']]
"""
cut partial columns
"""
df2

ilocで数字でカラム番号を指定できます．

In [None]:
df3 = df.iloc[:, [1,2]]
df3

locでカラム名でも指定できます．

In [None]:
df3 = df.loc[:, ['a0.25_rp1.5', 'a0.25_rp2.5']]
df3

rowの指定も名前で可能です．

In [None]:
df4 = df.loc["1D-000", :]
display(df4)

df4 = df.loc[["1D-000","3D-000"], :]
display(df4)

row, columnの同時指定もできます．


In [None]:
df5 = df.loc[["1D-000", "2D-000","3D-000"], ['a0.25_rp1.5', 'a0.25_rp2.5']]
df5

数と名前と両方でアクセスする場合はlocを使います．
（以下はindexが数字の場合です．）

In [None]:
df6 = df.reset_index(drop=True) # df5のindexが数字でないので数字に直す．
display(df)
df7 = df6.loc[[0,1], ['a0.25_rp1.5', 'a0.25_rp2.5']]
df7

In [None]:
df7 = df6.iloc[[0,1], [1,0]]
df7

#### 補足
locもしくはilocに渡すのがlistとスカラーの場合とで出力が異なります．

- list : DataFrameになる
- スカラー: Series

In [None]:
df8 = df6.loc[0, ['a0.25_rp1.5', 'a0.25_rp2.5']]

print(type(df8))
df8

In [None]:
df8 = df6.loc[[0], ['a0.25_rp1.5', 'a0.25_rp2.5']]
print(type(df8))
df8

In [None]:
df8 = df6.loc[:, ['a0.25_rp1.5']]
print(type(df8))
df8

In [None]:
df8 = df6.loc[:, 'a0.25_rp1.5']
print(type(df8))
df8

### 連結

まず横方向（列方向，column方向）に連結します．

In [None]:
"""
read them again
"""
df = pd.read_csv("../data_calculated/Carbon8_descriptor.csv", index_col=[0])
df2 = pd.read_csv("../data_calculated/Carbon8_yproba.csv", index_col=[0])

"""
connect them in the column direction.
"""
df3 = pd.concat([df, df2], axis=1) # 横方向の結合，縦方向の結合はaxis=0で行う．
print("---columns---")
print(df.columns)
print(df2.columns)
print(df3.columns)
print("---shape---")
print(df.shape)
print(df2.shape)
print(df3.shape)
df3


次に縦方向(行方向，row方向）に連結します．
カラムが存在しなかったcellはNaNとなります．

### numpy arrayへの変換

In [None]:
"""
conversion to a numpy array
"""
data = df.values
print (data)

### リストへの変更
numpyの説明で紹介したlistへの変更です．

In [None]:
datalist = data.tolist()
print(data)

In [None]:
# 型指定をして変換
data =df.astype(int).values
print(data)


### ファイルアクセス


In [None]:
# save
df3.to_csv("tmp.csv")
# 別途readして中身の確認を行う．
df_tmp = pd.read_csv("tmp.csv")
"""
multiindex is the function of pandas, not the function of csv.
dataframe will become singleindex one if you don't specify index_col.
"""
df_tmp

ファイルアクセス時にlistのindex_colによりindexを指定することが可能です．

### 検索

上のdfのカラム名では探索ができないので名前を変えておきます．

In [None]:
def change_df_columns(df, inplace=True):
    if not inplace:
        df = df.copy() 
    newcolumns = {}
    for column in df.columns:
        newcolumn = column.replace(".","")
        newcolumns[column] = newcolumn
    # 以下のどちらでも同じ結果になる．
    if inplace:
        df = df.rename(columns=newcolumns,inplace=False) # dfがポインタであるからこれでdfの変更が可能．
    else:
        df = df.rename(columns=newcolumns)
    return df

dfq = change_df_columns(df, inplace=False)
dfq

#### 補足：inplaceについて
- inplace=Trueの場合は変数の中身を変えます．
- inplace=Falseの場合は変数の中身を変えません．インスタンスが新たに作られます．

In [None]:
_df = df.copy()
_ = change_df_columns(_df, inplace=True)
_df

a025rp10列が0.1以上，a025rp15が1以上の行を求めます．
(reset_index()は検索数を見やすくするために行っています．）

In [None]:
dfq.query("a025_rp10>=0.1 and a025_rp15>=1")

In [None]:
# 以下のやり方も可能．
idxlist = dfq["a025_rp10"]>=0.1
print(type(idxlist))
print(idxlist)
dfq[idxlist]

# しばしばこの表示で書かれます．
# dfq[ dfq["a025_rp10"]>=0.1 ]


文字列にも探索が可能です．
以下ではitems列が文字',Cu,'と文字',O,'を含む行を求めます．
(reset_index()は検索数を見やすくするために行っています．）

In [None]:
import numpy as np
def load_csv_as_2columns(filename, column1_type="str"):
    s_all = np.loadtxt(filename, dtype='str')
    items = []
    for s in s_all:
        t = s.split(",")
        if column1_type == "str":
            items.append([t[0],","+",".join(t[1:])+","])
        elif column1_type == "list":
            items.append([t[0],t[1:]])
    return pd.DataFrame(items, columns=["item0","items"])
df = load_csv_as_2columns(filename = "../data/TC_elements_superconductivity.csv")
df

In [None]:
dfq = df[df["items"].str.contains(',Cu,')]
dfq = dfq[dfq["items"].str.contains(',O,')]
dfq

In [None]:
# これも可能です．
df.query("items.str.contains(',Cu,') and items.str.contains(',O,')", engine='python').reset_index()
# orも使えます．

### 欠損データ削除

データの一部が欠損していることがよくあります．
機械学習ではこれを削除する必要があります．

In [None]:
import numpy as np
valueslist = []
nx = 3
ny = 5
for x in range(nx):
    values =[]
    for y in range(ny) :
        values.append(float(x*10+y))
    valueslist.append(values)

valueslist = np.array(valueslist)
valueslist[1,1] = np.NaN # 欠損データのdefault値
valueslist

In [None]:
labels = []
for y in range(ny):
    labels.append("column{}".format(y))
print(valueslist)
df = pd.DataFrame(valueslist, columns=labels)
df

In [None]:
dfdel = df.dropna() 
# 多くの場合は，横方向が変数で，縦横行が個々のデータを入れる．
# defaultではデータインスタンス方向＝行方向＝row方向=axis=0方向に削除する．
#  列方向の削除，df.dropna(axis=1)も可能
dfdel

## Tips

### indexについて

多くの場合はindexが文字では無く数字であることが一般的でしょう．
数字の場合を見ていきます．

In [None]:
# df = pd.read_csv("../data_calculated/Carbon8_descriptor.csv", index_col=[0])
df = pd.read_csv("../data_calculated/Carbon8_descriptor.csv")
# index_colを指定せずに読む．
df

queryのためにカラム名を変更してからqueryを行います．
更に，（意味不明ですが）atomでsortします．

In [None]:
df = change_df_columns(df)
dfq = df.query("a025_rp10>=0.1 and a025_rp15>=1")
dfs = dfq.sort_values(by="atom", ascending=True)
dfs

Q. この最初のrowはどうアクセスするでしょうか．

A. 0番目でなく，664番目としてアクセスせねばなりません．

In [None]:
dfs.loc[664,:]

もともとのindexに意味がない場合はindexと0から取り直した方が操作しやすいでしょう．

In [None]:
dfs = dfs.reset_index(drop=True)
# dfs.reset_index(drop=True, inplace=True)

In [None]:
dfs.loc[0,:]

### 付録


#### multiindex DataFrame

indexを複数にしたDataFrameも作成可能です．

In [None]:
filename = "../data_calculated/Carbon8_descriptor.csv"
df_m = pd.read_csv(filename, index_col=[0,1])
"""
now 
[0,1] columns are index. 

The columns doesn't contains "atom" label.
"""
print(df_m.columns)
df_m

上のDataFrameをvaluesに直すと左に表示されているindex部分は除かれて変換されることが分かります．

In [None]:
data_m = df_m.values

"""
values doesn't contain index names. 
"atom" is now an index. 
"""
print(data_m)

index.level0 (今の場合結晶名)でloopを回してみます．

In [None]:
print (df_m.index.levels[0])
for i, index0 in enumerate(df_m.index.levels[0]):
    df_l = df_m.loc[index0, :]
    """
    df_lはindex.level[1:]がindexとなる
    """
    display(df_l)
    if i>=2:
        break
        """
        It takes time to process all.
        I stop the operation here. 
        """