### データフレームに関数を適用 / 文字列操作 / 細かい分析

In [None]:
# map apply applymap

In [2]:
import pandas as pd
import numpy as np

### Series とmap メソッド

In [2]:
s1 = pd.Series([7000,5000,23000,2500,12000])
s1

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

In [3]:
s1 * 2

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [7]:
# 2倍にする関数
def double(x):
    return x * 2

In [6]:
# mapメソッド シリーズ各要素に同じ関数を適用
s1.map(double)

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [8]:
# シンプルな関数はdefで宣言せずとも作成可能
# ラムダ式 無名関数 
s1.map(lambda x: x * 3)

0    21000
1    15000
2    69000
3     7500
4    36000
dtype: int64

In [9]:
# ラムダ式でif文の作成
s1.map(lambda x: '1万円以上' if x >= 10000 else '1万円未満')

0    1万円未満
1    1万円未満
2    1万円以上
3    1万円未満
4    1万円以上
dtype: object

In [6]:
# 価格でランク付けをする関数
def f_rank(x):
    if x >= 20000:
        return 'S'
    elif x >= 10000:
        return 'A'
    elif x >= 5000:
        return 'B'
    else:
        return 'C'

In [11]:
s1.map(f_rank)

0    B
1    B
2    S
3    C
4    A
dtype: object

In [12]:
# numpy で2乗が可能
s1.map(np.square)

0     49000000
1     25000000
2    529000000
3      6250000
4    144000000
dtype: int64

In [14]:
# map メソッドはSeriesの各要素に適用される為、合計金額にならない
s1.map(np.sum)

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

In [15]:
s1.sum()

49500

### 文字列Seriesとmapメソッド

In [22]:
s2 = pd.Series(['スカートSkirt','ニットKnit','ジャケットjacket','シャツShirt','ロングパンツSlacks'])
s2

0       スカートSkirt
1         ニットKnit
2     ジャケットjacket
3        シャツShirt
4    ロングパンツSlacks
dtype: object

In [23]:
# 全ての要素の最初の一文字
s2.map(lambda x: x[0])

0    ス
1    ニ
2    ジ
3    シ
4    ロ
dtype: object

In [24]:
import re

In [27]:
# re  正規表現のモジュールをインポート
s2.map(lambda x: re.findall('[A-z]+', x))
# re.findall()の戻り値がリストの為、リストが格納される

0     [Skirt]
1      [Knit]
2    [jacket]
3     [Shirt]
4    [Slacks]
dtype: object

In [29]:
s3 = pd.Series(['スカートskirt','ニットKnit','ジャケットjacket','シャツShirt','BottomsロングパンツSlacks'])
s3

0              スカートskirt
1                ニットKnit
2            ジャケットjacket
3               シャツShirt
4    BottomsロングパンツSlacks
dtype: object

In [30]:
s3.map(lambda x: re.findall('[A-z]+', x))
# Bottoms,Slacksと2つのローマ字があれば、一つのリストで格納できる

0              [skirt]
1               [Knit]
2             [jacket]
3              [Shirt]
4    [Bottoms, Slacks]
dtype: object

In [31]:
s4 = pd.Series(['スカートskirt','ニットKnit','ジャケットjacket','シャツShirt',np.nan])
s4

0      スカートskirt
1        ニットKnit
2    ジャケットjacket
3       シャツShirt
4            NaN
dtype: object

In [32]:
d = {'ジャケットjacket':'Outer','スカートskirt':'Bottoms','ニットKnit':'Tops','ワンピースOnepiece':'Onepiece'}
d
# 辞書型 2つの要素をセットにして格納できるデータ型
# Key,valueがセット

{'ジャケットjacket': 'Outer',
 'スカートskirt': 'Bottoms',
 'ニットKnit': 'Tops',
 'ワンピースOnepiece': 'Onepiece'}

In [33]:
s4.map(d)

0    Bottoms
1       Tops
2      Outer
3        NaN
4        NaN
dtype: object

In [34]:
s4.map('{}を買います。'.format)

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4            nanを買います。
dtype: object

In [35]:
s4.map('{}を買います。'.format, na_action='ignore')

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4                  NaN
dtype: object

In [None]:
### Seriesとapplyメソッド

In [36]:
# apply シリーズの各要素に同じ関数を適用
s1

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

In [37]:
s1.apply(double)

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [39]:
s1.apply(lambda x: x*2)

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [42]:
s1.apply(lambda x: '1万円以上' if x>= 10000 else '1万円未満')

0    1万円未満
1    1万円未満
2    1万円以上
3    1万円未満
4    1万円以上
dtype: object

In [44]:
s1.apply(f_rank)

0    B
1    B
2    S
3    C
4    A
dtype: object

In [None]:
# 消費税率で税込金額を計算

In [45]:
def f_tax(x, tax):
    return x * tax + x

In [48]:
# 税率をタプルで渡す
# タプルとは複数の要素が順序を持って並べられているデータ型
# 要素の変更や削除が出来ない
s1.apply(f_tax, args=(0.1,))

0     7700.0
1     5500.0
2    25300.0
3     2750.0
4    13200.0
dtype: float64

In [50]:
# map関数には引数を渡す手段がないのでエラーになる
s1.map(f_tax, args=(0.1,))

TypeError: map() got an unexpected keyword argument 'args'

In [51]:
s1.apply(np.square)

0     49000000
1     25000000
2    529000000
3      6250000
4    144000000
dtype: int64

In [53]:
# Seriesそれぞれの要素に関数が適用されるので、合計を算出出来ない
s1.apply(np.sum)

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

### 文字列Seriesとapply メソッド

In [54]:
s2

0       スカートSkirt
1         ニットKnit
2     ジャケットjacket
3        シャツShirt
4    ロングパンツSlacks
dtype: object

In [56]:
s2.apply(lambda x: x[0])

0    ス
1    ニ
2    ジ
3    シ
4    ロ
dtype: object

In [57]:
s2.apply(lambda x: re.findall('[A-z]+', x))

0     [Skirt]
1      [Knit]
2    [jacket]
3     [Shirt]
4    [Slacks]
dtype: object

In [58]:
d

{'ジャケットjacket': 'Outer',
 'スカートskirt': 'Bottoms',
 'ニットKnit': 'Tops',
 'ワンピースOnepiece': 'Onepiece'}

In [None]:
s2.apply(d)
# applyメソッドでのマッピングはエラーになる

In [55]:
s4

0      スカートskirt
1        ニットKnit
2    ジャケットjacket
3       シャツShirt
4            NaN
dtype: object

In [60]:
s4.apply('{}を買います。'.format)

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4            nanを買います。
dtype: object

In [61]:
s4.apply('{}を買います。'.format, na_action='ignore')
# applyメソッドの場合 nanを無視する事が出来ない

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4            nanを買います。
dtype: object

### DataFrameとapplymap

In [3]:
df = pd.DataFrame(
     [[11000,6000,8000],[5000,12000,6000],[4000,5000,9000]],
     columns=['1日','2日','3日'], index=['Aさん','Bさん','Cさん'])
df

Unnamed: 0,1日,2日,3日
Aさん,11000,6000,8000
Bさん,5000,12000,6000
Cさん,4000,5000,9000


In [4]:
df * 2

Unnamed: 0,1日,2日,3日
Aさん,22000,12000,16000
Bさん,10000,24000,12000
Cさん,8000,10000,18000


In [8]:
df.applymap(double)

Unnamed: 0,1日,2日,3日
Aさん,22000,12000,16000
Bさん,10000,24000,12000
Cさん,8000,10000,18000


In [9]:
df.applymap(lambda x : x * 2)

Unnamed: 0,1日,2日,3日
Aさん,22000,12000,16000
Bさん,10000,24000,12000
Cさん,8000,10000,18000


In [10]:
df.applymap(lambda x: '1万円以上' if x >= 10000 else '1万円未満')

Unnamed: 0,1日,2日,3日
Aさん,1万円以上,1万円未満,1万円未満
Bさん,1万円未満,1万円以上,1万円未満
Cさん,1万円未満,1万円未満,1万円未満


In [11]:
df.applymap(f_rank)

Unnamed: 0,1日,2日,3日
Aさん,A,B,B
Bさん,B,A,B
Cさん,C,B,B


In [12]:
df.applymap(f_tax, args=(0.1,))
# Seriesのmapメソッドと共に引数を渡す手段が無いためerror

NameError: name 'f_tax' is not defined

### 参考

In [13]:
df.mask(df < 10000, '1万円未満')
# maskメソッド 条件に合う場合は指定の値を返す事が出来る

Unnamed: 0,1日,2日,3日
Aさん,11000,1万円未満,1万円未満
Bさん,1万円未満,12000,1万円未満
Cさん,1万円未満,1万円未満,1万円未満


In [15]:
df < 10000
# 条件だけ記載するとTrue Falseのみかえって来る

Unnamed: 0,1日,2日,3日
Aさん,False,True,True
Bさん,True,False,True
Cさん,True,True,True


In [16]:
df.where(df < 10000, '1万円以上')
# 条件に合わない要素を指定の値に置き換える

Unnamed: 0,1日,2日,3日
Aさん,1万円以上,6000,8000
Bさん,5000,1万円以上,6000
Cさん,4000,5000,9000


In [17]:
df.applymap(np.square)

Unnamed: 0,1日,2日,3日
Aさん,121000000,36000000,64000000
Bさん,25000000,144000000,36000000
Cさん,16000000,25000000,81000000


In [18]:
df.applymap(np.sum)

Unnamed: 0,1日,2日,3日
Aさん,11000,6000,8000
Bさん,5000,12000,6000
Cさん,4000,5000,9000


In [19]:
df.sum()

1日    20000
2日    23000
3日    23000
dtype: int64

### 文字列のDataFrameとapplymapメソッド

In [23]:
df2 = pd.DataFrame([['スカートSkirrt','ニットKnit','ジャケットJacket'],
                   ['シャツShirt','ロングパンツSlacks','ワンピースOnepiesce']],
                   columns=['x','y','z'])
df2

Unnamed: 0,x,y,z
0,スカートSkirrt,ニットKnit,ジャケットJacket
1,シャツShirt,ロングパンツSlacks,ワンピースOnepiesce


In [25]:
df2.applymap(lambda x: x[0])

Unnamed: 0,x,y,z
0,ス,ニ,ジ
1,シ,ロ,ワ


In [26]:
df2.applymap(lambda x: re.findall('[A-z]+', x))

Unnamed: 0,x,y,z
0,[Skirrt],[Knit],[Jacket]
1,[Shirt],[Slacks],[Onepiesce]


### DataFrameとapplyメソッド

In [30]:
df.apply(double)

Unnamed: 0,1日,2日,3日
Aさん,22000,12000,16000
Bさん,10000,24000,12000
Cさん,8000,10000,18000


In [31]:
df.apply(lambda x: x * 2)

Unnamed: 0,1日,2日,3日
Aさん,22000,12000,16000
Bさん,10000,24000,12000
Cさん,8000,10000,18000


In [33]:
# エラーになる(各要素に対しての処理か、まとまりに対しての処理か判断できない)
df.apply(lambda x: '1万円以上' if x>= 10000 else '1万円未満')

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

In [34]:
df.apply(lambda x: x >= 10000)
# ifでは無く判定を下すだけなら各要素で確認できる為OK

Unnamed: 0,1日,2日,3日
Aさん,True,False,False
Bさん,False,True,False
Cさん,False,False,False


In [37]:
df['1日'].apply(lambda x: '1万円以上' if x>= 10000 else '1万円未満')
# カラムを使用すればapplyメソッドを使用できる

Aさん    1万円以上
Bさん    1万円未満
Cさん    1万円未満
Name: 1日, dtype: object

In [36]:
df.apply(f_tax, args=(0.1,))

NameError: name 'f_tax' is not defined

In [38]:
df.apply(np.square)

Unnamed: 0,1日,2日,3日
Aさん,121000000,36000000,64000000
Bさん,25000000,144000000,36000000
Cさん,16000000,25000000,81000000


In [39]:
df.apply(np.sum)

1日    20000
2日    23000
3日    23000
dtype: int64

In [41]:
df.apply(np.sum, axis=1)
# 行方向に計算する axis=1

Aさん    25000
Bさん    23000
Cさん    18000
dtype: int64

In [42]:
df

Unnamed: 0,1日,2日,3日
Aさん,11000,6000,8000
Bさん,5000,12000,6000
Cさん,4000,5000,9000


In [43]:
# 列の中で最大値から最小値を引く関数をラムダ式で適用

In [44]:
df.apply(lambda x: max(x) - min(x))

1日    7000
2日    7000
3日    3000
dtype: int64

In [45]:
df2

Unnamed: 0,x,y,z
0,スカートSkirrt,ニットKnit,ジャケットJacket
1,シャツShirt,ロングパンツSlacks,ワンピースOnepiesce


In [46]:
df2.apply(lambda x: x[0])

x     スカートSkirrt
y        ニットKnit
z    ジャケットJacket
dtype: object

In [None]:
# エラー
df2.apply(lambda x: re.findall('[A-z]+', x))

In [48]:
df['1日'].apply(np.sum)

Aさん    11000
Bさん     5000
Cさん     4000
Name: 1日, dtype: int64

In [49]:
df['1日'].sum()

20000