# SeriesやDataFrameに関数を適用する方法(map, apply, applymapメソッド)
PandasのDaraFrameやSeriesの要素に関数を適用させる方法について。<br>
mapメソッド, applymapメソッド, applyメソッドを使用して、数値や文字列の操作を行う。

In [5]:
import pandas as pd
import numpy as np

In [8]:
# 各要素の値に1を足すadd関数をdef文で作成し、add関数をmapメソッドで下記シリーズに適用
ser = pd.Series([99, 199, 299, 399, 499])

# 1を足すadd関数
def add(x):
    return x + 1

ser.map(add)

0    100
1    200
2    300
3    400
4    500
dtype: int64

In [10]:
# 各要素の値を2倍にするdouble関数をdef文で作成し、double関数をmapメソッドで下記シリーズに適用
ser = pd.Series([100, 200, 300, 400, 500])

# 各要素の値を2倍にする
def double(x):
    return x * 2

ser.map(double)

0     200
1     400
2     600
3     800
4    1000
dtype: int64

In [15]:
# 無名関数であるlambda関数とmapメソッドを使用し、シリーズの各要素の値を3倍
ser = pd.Series([10, 15, 20, 25, 30, 35])
ser.map(lambda x: x * 3)

0     30
1     45
2     60
3     75
4     90
5    105
dtype: int64

In [21]:
"""
シリーズの各要素の値が30000以上の場合は'30000以上'、30000未満の場合は'30000未満'と変換するlambda関数を作成
mapメソッドでシリーズに適用
"""

ser = pd.Series([15000, 32000, 28000, 53000, 73500])

ser.map(lambda x : '30000以上' if x >= 30000 else '30000未満')

0    30000未満
1    30000以上
2    30000未満
3    30000以上
4    30000以上
dtype: object

In [25]:
"""
各要素の値が50000以上は'A'、30000以上50000未満は'B'、30000未満は'C'と表示させるlabel関数をdef文で作成。
作成したlabel関数をmapメソッドで下記シリーズに適用
"""

ser = pd.Series([15000, 32000, 28000, 53000, 73500])

def label(x):
    if x >= 50000:
        return 'A'
    elif x >= 30000:
        return 'B'
    else:
        return 'C'
    
ser.map(label)

0    C
1    B
2    C
3    A
4    A
dtype: object

In [27]:
# NumPyライブラリのsquare関数とmapメソッドを使用し、下記シリーズの各要素の値を2乗
ser = pd.Series([250, 300, 350, 400, 450])
ser.map(np.square)

0     62500
1     90000
2    122500
3    160000
4    202500
dtype: int64

In [29]:
# 各要素の値の合計を表示
ser = pd.Series([10, 20, 30, 40, 50])
ser.sum()

150

In [30]:
# 無名関数であるlambda関数とmapメソッドを使用し、完成イメージの通りに、下記シリーズの各要素の最初の一文字を取得

In [31]:
ser = pd.Series(['apple', 'banana', 'peach', 'cherry'])

ser.map(lambda x : x[0])

0    a
1    b
2    p
3    c
dtype: object

In [35]:
"""
無名関数であるlambda関数とmapメソッドを使用し、完成イメージの通りに、下記シリーズの各要素のアルファベットのみを取得する。

・正規表現操作ができるreモジュールを使用
・reモジュールのfindall関数を使用
"""
import re

ser = pd.Series(['appleリンゴ', 'bananaバナナ', 'peachモモ', 'strawberryイチゴ'])

ser.map(lambda x : re.findall('[A-z]+', x))

0         [apple]
1        [banana]
2         [peach]
3    [strawberry]
dtype: object

In [37]:
"""
無名関数であるlambda関数とmapメソッドを使用し、完成イメージの通りに、下記シリーズの各要素のカタカナのみを取得する。

・正規表現操作ができるreモジュールを使用。
・reモジュールのfindall関数を使用。
"""
import re

ser = pd.Series(['appleリンゴ', 'bananaバナナ', 'peachモモ', 'strawberryイチゴ'])
ser.map(lambda x : re.findall('[ァ-ヴ]+', x))

0    [リンゴ]
1    [バナナ]
2     [モモ]
3    [イチゴ]
dtype: object

In [41]:
# mapメソッドで下記シリーズの各要素と辞書のキーを関連づけて、シリーズの各要素を辞書のバリューで置換
ser = pd.Series(['apple', 'banana', 'peach', 'cherry', np.nan])
d = {'apple': 'アップル', 'banana': 'バナナ', 'peach': 'ピーチ', 'lemon': 'レモン'}

ser.map(d)

0    アップル
1     バナナ
2     ピーチ
3     NaN
4     NaN
dtype: object

In [44]:
# mapメソッドとformatメソッドを使用して、完成イメージの通りに、下記シリーズの各要素の値を文章にする。(欠損値は処理しない)
ser = pd.Series(['apple', 'banana', 'peach', 'cherry', np.nan])
ser.map('{}を食べます。'.format, na_action='ignore')

0     appleを食べます。
1    bananaを食べます。
2     peachを食べます。
3    cherryを食べます。
4             NaN
dtype: object

In [49]:
# 各要素の値を2倍にするdouble関数をdef文で作成し、double関数をapplyメソッドで下記シリーズに適用

ser = pd.Series([7000, 5000, 23000, 2500, 12000])
def double(x):
    return x * 2

ser.apply(double)

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [50]:
# 無名関数であるlambda関数とapplyメソッドを使用し、下記シリーズの各要素の値を3倍にする。
ser = pd.Series([0, 1, 2, 3, 4, 5])
ser.apply(lambda x : x * 3)

0     0
1     3
2     6
3     9
4    12
5    15
dtype: int64

In [52]:
"""
下記のシリーズは、社員5名の体温のデータ。
シリーズの各要素の値が37.5以上の場合は'37.5度以上'、37.5未満の場合は'37.5度未満'を表示させるlambda関数を作成し、applyメソッドを使用してシリーズに適用させる。
"""
# シリーズ
ser = pd.Series([36.5, 37.2, 38.0, 35.8, 36.8])
ser.apply(lambda x : '37.5度以上' if x >= 37.5 else '37.5度未満')

0    37.5度未満
1    37.5度未満
2    37.5度以上
3    37.5度未満
4    37.5度未満
dtype: object

In [55]:
"""
下記のシリーズは、生徒5名のテストの点数のデータ。
シリーズの各要素の値が80以上は'優'、70以上80未満は'良'、60以上70未満は'可'、60未満は'不可'と表示させる関数をdef文で作成し、applyメソッドでシリーズに適用させる。
"""

ser = pd.Series([59, 90, 75, 61, 30])

def label(x):
    if x >= 80:
        return '優'
    elif x >= 70:
        return '良'
    elif x >= 60:
        return '可'
    else:
        return '不可'

ser.apply(label)

0    不可
1     優
2     良
3     可
4    不可
dtype: object

In [58]:
"""
下記のシリーズは、社員5名の月額給与額のデータ。
シリーズの各要素を定数倍の値にするbonus関数をdef文で作成し、2倍の値を返すように引数を渡したbonus関数をapplyメソッドで下記シリーズに適用させる。
"""

ser = pd.Series([250000, 400000, 320000, 190000, 290000])

# def bonus(x):
#     return x * 2

def bonus(x, multi):
    return x * multi

ser.apply(bonus, multi=2)

0    500000
1    800000
2    640000
3    380000
4    580000
dtype: int64

In [62]:
# NumPyライブラリのsquare関数とapplyメソッドを使用し、下記シリーズの各要素の値を2乗
import numpy as np

ser = pd.Series([10, 11, 12, 13, 14])
ser.apply(np.square)

0    100
1    121
2    144
3    169
4    196
dtype: int64

In [63]:
# 無名関数であるlambda関数とapplyメソッドを使用し、完成イメージの通りに、下記シリーズの各要素の最初の一文字を取得
ser = pd.Series(['スカート', 'ニット', 'ジャケット', 'シャツ', 'ロングパンツ'])
ser.apply(lambda x : x[0])

0    ス
1    ニ
2    ジ
3    シ
4    ロ
dtype: object

In [64]:
# 無名関数であるlambda関数とapplyメソッドを使用し、完成イメージの通りに、下記シリーズの各要素のアルファベットのみを取得
ser = pd.Series(['March03', 'June05', 'October19', 'March15'])
ser.apply(lambda x : re.findall('[A-z]+', x))

0      [March]
1       [June]
2    [October]
3      [March]
dtype: object

In [66]:
# applyメソッドとformatメソッドを使用して、完成イメージの通りに、下記シリーズの各要素の値を文章にする

ser = pd.Series(['アメリカ', 'イタリア', 'フランス', '中国', 'ブラジル'])
ser.apply('{}に行きたい'.format, na_action='ignore')

0    アメリカに行きたい
1    イタリアに行きたい
2    フランスに行きたい
3      中国に行きたい
4    ブラジルに行きたい
dtype: object

In [71]:
# 下記データフレームの各要素の値を10倍にするtentimes関数をdef文で作成し、完成イメージの通りに、applymapメソッドでデータフレームに適用させる

df = pd.DataFrame([[11000, 6000, 8000],
                   [5000, 12000, 6000],
                   [4000, 5000, 9000]],
                  columns=['1日', '2日', '3日'], 
                  index=['Aさん', 'Bさん', 'Cさん'] )

def tentimes(x,  multi):
    return x * multi
df.applymap(tentimes, multi=10)

Unnamed: 0,1日,2日,3日
Aさん,110000,60000,80000
Bさん,50000,120000,60000
Cさん,40000,50000,90000


In [72]:
# 無名関数であるlambda関数とapplymapメソッドを使用し、下記データフレームの各要素の値を3倍にする
df = pd.DataFrame([[500, 600, 800],
                   [400, 900, 1000],
                   [300, 400, 600]],
                  columns=['月', '火', '水'],
                  index=['A店', 'B店', 'C店'] )
df.applymap(lambda x : x * 3)

Unnamed: 0,月,火,水
A店,1500,1800,2400
B店,1200,2700,3000
C店,900,1200,1800


In [76]:
"""
下記のデータフレームは、3つの支店における時間帯ごとの時給のデータである。
まず、データフレームの各要素の値が1000以上の場合は'1000円以上'、1000未満の場合は'1000円未満'を表示させるlambda関数を作成。
そして、applymapメソッドを使用して、データフレームに適用させる
"""

df = pd.DataFrame([[1050, 950, 1200],
                   [980, 900, 1100],
                   [1200, 1000, 1400]],
                  columns=['朝', '昼', '夜'], 
                  index=['A店', 'B店', 'C店'] )
df.applymap(lambda x : '1000円以上' if x >= 1000 else '1000円未満')

Unnamed: 0,朝,昼,夜
A店,1000円以上,1000円未満,1000円以上
B店,1000円未満,1000円未満,1000円以上
C店,1000円以上,1000円以上,1000円以上


In [78]:
"""
下記のデータフレームは、生徒3名のテストでの科目別順位のデータ。
まず、データフレームの各要素の値が10未満の場合は'A'、10以上50未満の場合は'B'、50以上の場合は'C'を表示させるlabel関数を作成。
そして、applymapメソッドでデータフレームに適用させる
"""

df = pd.DataFrame([[30, 45, 8],
                   [3, 5, 83],
                   [67, 72, 15]],
                  columns=['英語', '国語', '数学'],
                  index=['Aさん', 'Bさん', 'Cさん'] )
def label(x):
    if x < 10:
        return 'A'
    elif x < 50:
        return 'B'
    else:
        return 'C'

df.applymap(label)

Unnamed: 0,英語,国語,数学
Aさん,B,B,A
Bさん,A,A,C
Cさん,C,C,B


In [None]:
df.mask(df < 10000, '1万未満') # maskメソッド  条件に合う要素を指定の値に置き換える 反対にwhereメッソドがある


In [81]:
"""
下記のデータフレームは、ある時点での為替相場データです。
maskメソッドを使用して、各要素の値が120以上の要素のみを文字列の'120円以上'に変更
"""

df = pd.DataFrame([[101, 107, 161],
                   [111, 90, 131],
                   [120, 108, 133]],
                  columns=['ユーロ/円', '米ドル/円', '英ポンド/円'],
                  index=['2000年', '2010年', '2020年'])
df.mask(df >= 120, '120以上')

Unnamed: 0,ユーロ/円,米ドル/円,英ポンド/円
2000年,101,107,120以上
2010年,111,90,120以上
2020年,120以上,108,120以上


In [83]:
"""
下記のデータフレームは、3人の10歳、15歳、20歳時点での身長のデータ。
whereメソッドを使用して、値が160以上」ではない要素のみを文字列の'160cm未満'に変更。
"""
df = pd.DataFrame([[138, 158, 169],
                   [142, 157, 165],
                   [150, 165, 178]],
                  columns=['10歳', '15歳', '20歳'],
                  index=['Aさん', 'Bさん', 'Cさん'] )
df.where(df >= 160, '160cm未満')

Unnamed: 0,10歳,15歳,20歳
Aさん,160cm未満,160cm未満,169
Bさん,160cm未満,160cm未満,165
Cさん,160cm未満,165,178


In [86]:
# NumPyライブラリのsqrt関数とapplymapメソッドを使用して、下記データフレームの各要素の値を全て平方根に変更
import numpy as np

df = pd.DataFrame([[100, 110, 120],
                   [110, 121, 132],
                   [120, 132, 144]],
                  columns=['10', '11', '12'],
                  index=['10', '11', '12'] )

df.applymap(np.sqrt)

Unnamed: 0,10,11,12
10,10.0,10.488088,10.954451
11,10.488088,11.0,11.489125
12,10.954451,11.489125,12.0


In [89]:
# 無名関数であるlambda関数とapplymapメソッドを使用し、下記データフレームの各要素の最初の一文字を取得
df = pd.DataFrame([['スカートSkirt', 'ニットKnit', 'ジャケットJacket'],
                   ['シャツShirt', 'ロングパンツSlacks', 'ワンピースOnepiesce']],
                  columns=['x', 'y', 'z'])
df.applymap(lambda x : x[0])

Unnamed: 0,x,y,z
0,ス,ニ,ジ
1,シ,ロ,ワ


In [91]:
# 無名関数であるlambda関数とapplymapメソッドを使用し、完成イメージの通りに、下記データフレームの各要素の数字のみを取得
import re

df = pd.DataFrame([['スカート¥4500', 'ニット¥5200', 'ジャケット¥10200'],
                   ['シャツ¥3800', 'ロングパンツ¥4900', 'ワンピース¥6200']],
                  columns=['x', 'y', 'z'])
df.applymap(lambda x : re.findall('[0-9]+', x))

Unnamed: 0,x,y,z
0,[4500],[5200],[10200]
1,[3800],[4900],[6200]


In [93]:
"""
下記のデータフレームは、果物の曜日ごとの値段のデータです。
まず、データフレームの各要素の値を1.1倍にして消費税込の値段を計算するtax関数をdef文で作成します。
そして、作成したtax関数をapplyメソッドで下記データフレームに適用
"""

df = pd.DataFrame([[320, 270, 420],
                   [280, 330, 310],
                   [450, 240, 300]],
                  columns=['Mon', 'Thu', 'Wed'],
                  index=['apple', 'banana', 'peach'] )

def tax(x, multi):
    return x * multi

df.applymap(tax, multi=1.1)

Unnamed: 0,Mon,Thu,Wed
apple,352.0,297.0,462.0
banana,308.0,363.0,341.0
peach,495.0,264.0,330.0


In [97]:
"""
下記のデータフレームは、搭乗クラス、目的地別の航空券の値段のデータ。
まず、Businessクラスの各要素の値が100,000以上の場合は'10万以上'、100,000未満の場合は'10万未満'を表示させるlambda関数を作成。
そして、完成イメージの通りに、applyメソッドを使用してデータフレームに適用。
"""

df = pd.DataFrame([[90000, 50000, 20000],
                   [280000, 110000, 70000],
                   [180000, 95000, 60000]],
                  columns=['First', 'Business', 'Economy'],
                  index=['Korea', 'Australia', 'Singapore'] )
df['Business'].apply(lambda x : '10万以上' if x >= 100000 else '10万未満')

Korea        10万未満
Australia    10万以上
Singapore    10万未満
Name: Business, dtype: object

In [99]:
"""
下記のデータフレームは、果物の店ごとの値段のデータ。
applyメソッドとNumPyライブラリのsum関数を使用して、完成イメージのように店ごとの合計金額を算出
"""
import numpy as np

df = pd.DataFrame([[180, 200, 120],
                   [200, 150, 100],
                   [450, 400, 600]],
                  columns=['A店', 'B店', 'C店'],
                  index=['apple', 'banana', 'peach'] )
df.apply(np.sum)

A店    830
B店    750
C店    820
dtype: int64

In [103]:
"""
下記のデータフレームは、果物の店ごとの値段のデータ。
まず、果物ごとの最高額と最低額の差を算出するlambda関数を作成。
そして、applyメソッドでデータフレームに適用。
"""
df = pd.DataFrame([[180, 200, 120],
                   [200, 150, 100],
                   [450, 400, 600]],
                  columns=['A店', 'B店', 'C店'],
                  index=['apple', 'banana', 'peach'] )

df.apply(lambda x: max(x) - min(x), axis=1)

apple      80
banana    100
peach     200
dtype: int64

In [104]:
"""
下記データフレームの、最初の1行を取得するlambda関数を作成。
そして、完成イメージの通りに、applyメソッドでデータフレームに適用
"""

df = pd.DataFrame([['スカートSkirt', 'ニットKnit', 'ジャケットJacket'],
                   ['シャツShirt', 'ロングパンツSlacks', 'ワンピースOnepiesce']],
                  columns=['x', 'y', 'z'])

df.apply(lambda x : x[0])

x      スカートSkirt
y        ニットKnit
z    ジャケットJacket
dtype: object

In [114]:
# 下記データフレームの'居住地'列の要素を取得するlambda関数を作成し、applyメソッドでデータフレームの各要素に適用
df = pd.DataFrame([['山田太郎', 28, '大阪府'],
                   ['高橋次郎', 80, '京都府'],
                   ['伊藤三郎', 49, '奈良県']], 
                  columns=['氏名', '年齢', '居住地'], 
                  index=['001', '002', '003'] )
df.apply(lambda x: x[2], axis=1)

001    大阪府
002    京都府
003    奈良県
dtype: object