# <a id='toc1_'></a>[Pythonのちょっとしたテクニック集](#toc0_)

# <a id='toc1_'></a>[String manipulation（文字列操作テクニック）](#toc0_)

**Table of contents**<a id='toc0_'></a>    
- [String manipulation（文字列操作テクニック）](#toc1_)    
  - [リスト内の要素を任意の関数を適応した結果でソートする](#toc1_1_)    
  - [複数の単語をそれぞれシングルクォーテーションで囲う](#toc1_2_)    
  - [数字の羅列になっている時刻を秒やマイクロ秒に変換する](#toc1_3_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

In [1]:
import pandas as pd
import polars as pl

## <a id='toc1_1_'></a>[リスト内の要素を任意の関数を適応した結果でソートする](#toc0_)
組み込み関数sorted()のkey引数にlambda関数などを指定する。  
単純な昇順・降順では想定した並びにならないときに使える。

In [7]:
li = ['1:1', '1:100', '1:2', '1:3', '1:200', '1:140']
li.sort()
print(li)

['1:1', '1:100', '1:140', '1:2', '1:200', '1:3']


例えば、1:NのNが大きい順に並び替えたいとき、  
普通に.sortとすると、辞書順に並び変えてしまう。

In [18]:
li = ['1:1', '1:100', '1:2', '1:3', '1:200', '1:140']
# 1:NのN部分をintにキャストしてそれをkeyとして並び替える
li_sorted = sorted(li, key=lambda x: int(x.split(':')[1]))
print(li_sorted)

['1:1', '1:2', '1:3', '1:100', '1:140', '1:200']


上記のように任意の関数を定義してその関数をリストの要素に適用した結果で並び替えが可能。  
[参考](https://note.nkmk.me/python-list-sort-sorted/)

## <a id='toc1_1_'></a>[辞書型における値（value）の昇順にキー（key）を並び替える](#toc0_)
これも組み込み関数sorted()で並び替え可能。  
この関数に辞書のget()メソッドを渡し、key引数にソートの基準を指定すればよい。

In [1]:
# 辞書の作成
my_dict = {
    'apple': 3,
    'banana': 1,
    'cherry': 2,
    'date': 5
}

# 値の昇順にキーを並び替える
sorted_keys = sorted(my_dict, key=my_dict.get)

# 結果を表示
print(sorted_keys)

['banana', 'cherry', 'apple', 'date']


key=my_dict.getはソートの基準を辞書の値にすることを意味する。（つまり、各キーに対応する値でソートする）。  
sorted(my_dict)だけだと辞書のキーを辞書順に並べた結果になる。  

もし、ソートされた結果を再び辞書として取得したい場合は、以下のようにすればよい。

In [11]:
# 値の昇順にソートされた辞書を作成
sorted_dict = dict(sorted(my_dict.items(), key=lambda item: item[1]))

# 結果を表示
print(sorted_dict)

{'banana': 1, 'cherry': 2, 'apple': 3, 'date': 5}


## <a id='toc1_2_'></a>[複数の単語をそれぞれシングルクォーテーションで囲う](#toc0_)
コピペしてきた複数の単語を文字列としてリストに格納したいときなどに。

In [1]:
# 複数の単語を下記のように一つの文字列としてまとめる。
words = 'apple orange lemon'
# スペースでスプリットして文字列として格納
words_list = [word for word in words.split()]

In [15]:
words_list

['apple', 'orange', 'lemon']

In [18]:
# カンマの場合
words_2 = 'apple,orange,lemon'
words_list_2 = [word for word in words_2.split(',')]

In [19]:
words_list_2

['apple', 'orange', 'lemon']

In [37]:
# エクセルの列をそのまま貼り付けてきたような場合。シングルクォーテーション３つで複数行文字列化できる
words_3 = '''
apple
orange
lemon
apple
orange
lemon
apple
orange
lemon
apple
orange
lemon
apple
orange
lemon
'''
words_list_3 = [word for word in words_3.split('\n')]

In [38]:
words_3

'\napple\norange\nlemon\napple\norange\nlemon\napple\norange\nlemon\napple\norange\nlemon\napple\norange\nlemon\n'

In [39]:
words_list_3

['',
 'apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon',
 '']

最初と最後に余分なものが入るので、のぞいて格納。

In [40]:
words_list_3 = words_list_3[1:-1]

In [41]:
words_list_3

['apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon',
 'apple',
 'orange',
 'lemon']

## <a id='toc1_3_'></a>[数字の羅列になっている時刻を秒やマイクロ秒に変換する](#toc0_)

In [4]:
df = pd.DataFrame({
        'Date':['20200101',
                '20200102',
                '20200103'],
        'Time': ['131205123',
                '133406123',
                '142215123'],
        'Time(usns)': ['456789',
                        '456790',
                        '456791']
        })

In [5]:
df.head()

Unnamed: 0,Date,Time,Time(usns)
0,20200101,131205123,456789
1,20200102,133406123,456790
2,20200103,142215123,456791


In [10]:
# Timeをマイクロ秒に変換する例
df['cumTime_us'] = df['Time'].apply(
    lambda x: int(x[0:2]) * 60 * 60 * 1000 * 1000 + int(x[2:4]) * 60 * 1000 * 1000 + int(x[4:]) * 1000
) + df['Time(usns)'].astype(int) / 1000

df

Unnamed: 0,Date,Time,Time(usns),cumTime_us
0,20200101,131205123,456789,47525120000.0
1,20200102,133406123,456790,48846120000.0
2,20200103,142215123,456791,51735120000.0
