# pandasめも  

pandasは高機能なのでググるとたくさんの情報が出てくる。
目的は同じでもやり方は多様だから、毎回調べていると一向に定着しないし、メンテナンスもしんどくなってくる。
よってお決まりの方法をいくつか記録しておく。


あくまでpythonを仕事の効率化ツールとして使うことを想定している。
細かい例外処理や速度の観点はあまり重要視していない。
それらが求められる場面に出くわしたらその時に考えりゃいい。


- [表示を整える](#表示を整える)
    手間なしで他人に見せられるように見栄えを整える。

- [データを追加する](#データを追加する)
    - 行を追加していく（列の項目を先に決めておく）
    - 列を追加していく（行の項目を先に決めておく）

- データを変更する
    - セルを選択して値を変更する
    - 関数を適用する

- 集計
    - 列の要素をカウントする

- データを抽出する
    - 条件に合う行・列を抽出する




In [None]:
import pandas as pd

# サンプルデータ 文字列系
df_str = pd.DataFrame(
    index=['行0', '行1', '行2'],
    columns=['列0', '列1', '列2'],
    data=[
        ['行0列0', '行0列1', '行0列2'],
        ['行1列0', '行1列1', '行1列2'],
        ['行2列0', '行2列1', '行2列2'],
    ]
)

print(df_str)


In [None]:
import pandas as pd

# サンプルデータ 数値系
df_num = pd.DataFrame(
    index=['行0', '行1', '行2'],
    columns=['列0', '列1', '列2'],
    data=[
        [0, 1, 2],
        [0.0, 11.1, 0.00022],
        [0e0, 1e-15, 2e9],
    ]
)

print(df_num)


## 表示を整える

In [None]:
# 有効数字(小数点以下をそろえる)
pd.options.display.float_format = '{:.3f}'.format
print(df_num)

In [None]:
# 有効数字(全体の桁数をそろえる)
pd.options.display.float_format = '{:.6g}'.format
print(df_num)

In [None]:
# 表示を省略しない
# デフォルトでは、大きなテーブルの真ん中が省略されるが、それを略さずに表示する。
pd.options.display.max_rows = None

In [None]:
# アライメント系

# 日本語の桁数をそろえる。formatで桁数をそろえるときに、
# これを設定しないと2バイト文字が1文字でカウントされてずれる。
pd.set_option('display.unicode.east_asian_width', True)

# 左寄せ
pd.options.display.colheader_justify = 'left'
print(df_str)

# 中寄せ
pd.options.display.colheader_justify = 'center'
print(df_str)

# 右寄せ
pd.options.display.colheader_justify = 'right'
print(df_str)

In [None]:
# 工学的記数法/工学表記
import decimal 

# pandasだと指数部分が e+02 とか e-07 とかになる。
# キロとかマイクロとかの単位で表示してくれると楽なのに。
# 多少無理やりだが decimal ライブラリを使う方法を用意しておく
# ただし、全部が全部工学表記になるわけではなさそう。
# 実は↓でいい説
# pd.options.display.float_format = '{:.3g}'.format

def conv_num_to_eng_string(x):
    if type(x) in [int, float, complex]:
        x = decimal.Decimal(str(x)).normalize().to_eng_string()
    return x

df = df_num.applymap(conv_num_to_eng_string)
print(df)


# データを追加する
    - 行を追加していく（列の項目を先に決めておく）


In [None]:

import pandas as pd
#  add_row_by_append()
""" 
appendを使う方法。
pandasnoversionによってはwarningが出る。
"""
# 列の項目だけ定義した空のデータテーブルを作る
df = pd.DataFrame(
    columns=['測定条件', 'データA', 'データB']
)

# 行のデータをリストに格納する。csvか何かからデータを取ってきた想定。
row0 = ['室温', 100.0, 1e-3]
row1 = ['50℃', 3000.43, 5.5e-6]
row2 = ['0℃', 10.26347, 8888e12]
rows = [
    row0,
    row1,
    row2
    ]

# 行を追加していく
for row in rows:
    temp_series = pd.Series(row, index=df.columns)
    df = df.append(temp_series, ignore_index=True)

print(df)


In [None]:
import pandas as pd
#  add_row_by_loc()
""" 
appendを使う方法。
pandasnoversionによってはwarningが出る。
"""
# 列の項目だけ定義した空のデータテーブルを作る
df = pd.DataFrame(
    columns=['測定条件', 'データA', 'データB']
)

# 行のデータをリストに格納する。csvか何かからデータを取ってきた想定。
row0 = ['室温', 100.0, 1e-3]
row1 = ['50℃', 3000.43, 5.5e-6]
row2 = ['0℃', 10.26347, 8888e12]
rows = [
    row0,
    row1,
    row2
]

# 行を追加していく
for row in rows:
    temp_series = pd.Series(row, index=df.columns)
    df = df.append(temp_series, ignore_index=True)

print(df)


In [None]:
import pandas as pd
""" locを使う方法。dfの後ろに追加していく
"""
# 列の項目だけ定義した空のデータテーブルを作る
df = pd.DataFrame(
    columns=['測定条件', 'データA', 'データB']
)

# 行のデータをリストに格納する。csvか何かからデータを取ってきた想定。
row0 = ['室温', 100.0, 1e-3]
row1 = ['50℃', 3000.43, 5.5e-6]
row2 = ['0℃', 10.26347, 8888e12]
rows = [
    row0,
    row1,
    row2
]

# 行を追加していく
len_df = len(df)
for i, row in enumerate(rows):
    df.loc[i + len_df] = row

print(df)


- 列を追加していく（行の項目を先に決めておく）

後日


# データを変更する
    - セルを選択して値を変更する
        後日
    - 関数を適用する
        後日



# 集計
    - 列の要素をカウントする


In [None]:

# 要素がindex、出現個数をdataとするSeriesが返る
vc = df_str['列0'].value_counts()

# indexのリストを取得する
vc.index.values.tolist()


# データを抽出する
    query は知っていて損はないけど、文字列検索の使い勝手が悪いから、
    ここに示すブールインデックスでの抽出に絞って使うようにしたほうが使いまわしができる。

    それから、条件文は括弧でくくることをクセづけたほうが良い。
    ダサくても余計なエラーで時間を取られて仕事が進まないよりはましでしょう。

    - 条件に合う行・列を抽出する

In [None]:
# hoge列が100の行を抽出する
df_ = df_num[
    (df_num['列0'] == 0)
]
print(df_)


## Requirement
- python3  
    - Python 3.8.1 で動作確認
    - pandas

## Licence

[MIT](https://github.com/shka86/foo/blob/master/LICENCE)

## Author

[shka86](https://github.com/shka86)