### データフレームに関数を適用 / 文字列操作 / 細かい分析

In [None]:
# map apply applymap

In [1]:
import pandas as pd
import numpy as np

### Series とmap メソッド

In [2]:
s1 = pd.Series([7000,5000,23000,2500,12000])
s1

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

In [3]:
s1 * 2

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [4]:
# 2倍にする関数
def double(x):
    return x * 2

In [6]:
# mapメソッド シリーズ各要素に同じ関数を適用
s1.map(double)

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [8]:
# シンプルな関数はdefで宣言せずとも作成可能
# ラムダ式 無名関数 
s1.map(lambda x: x * 3)

0    21000
1    15000
2    69000
3     7500
4    36000
dtype: int64

In [9]:
# ラムダ式でif文の作成
s1.map(lambda x: '1万円以上' if x >= 10000 else '1万円未満')

0    1万円未満
1    1万円未満
2    1万円以上
3    1万円未満
4    1万円以上
dtype: object

In [10]:
# 価格でランク付けをする関数
def f_rank(x):
    if x >= 20000:
        return 'S'
    elif x >= 10000:
        return 'A'
    elif x >= 5000:
        return 'B'
    else:
        return 'C'

In [11]:
s1.map(f_rank)

0    B
1    B
2    S
3    C
4    A
dtype: object

In [12]:
# numpy で2乗が可能
s1.map(np.square)

0     49000000
1     25000000
2    529000000
3      6250000
4    144000000
dtype: int64

In [14]:
# map メソッドはSeriesの各要素に適用される為、合計金額にならない
s1.map(np.sum)

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

In [15]:
s1.sum()

49500

### 文字列Seriesとmapメソッド

In [22]:
s2 = pd.Series(['スカートSkirt','ニットKnit','ジャケットjacket','シャツShirt','ロングパンツSlacks'])
s2

0       スカートSkirt
1         ニットKnit
2     ジャケットjacket
3        シャツShirt
4    ロングパンツSlacks
dtype: object

In [23]:
# 全ての要素の最初の一文字
s2.map(lambda x: x[0])

0    ス
1    ニ
2    ジ
3    シ
4    ロ
dtype: object

In [25]:
import re

In [27]:
# re  正規表現のモジュールをインポート
s2.map(lambda x: re.findall('[A-z]+', x))
# re.findall()の戻り値がリストの為、リストが格納される

0     [Skirt]
1      [Knit]
2    [jacket]
3     [Shirt]
4    [Slacks]
dtype: object

In [29]:
s3 = pd.Series(['スカートskirt','ニットKnit','ジャケットjacket','シャツShirt','BottomsロングパンツSlacks'])
s3

0              スカートskirt
1                ニットKnit
2            ジャケットjacket
3               シャツShirt
4    BottomsロングパンツSlacks
dtype: object

In [30]:
s3.map(lambda x: re.findall('[A-z]+', x))
# Bottoms,Slacksと2つのローマ字があれば、一つのリストで格納できる

0              [skirt]
1               [Knit]
2             [jacket]
3              [Shirt]
4    [Bottoms, Slacks]
dtype: object

In [31]:
s4 = pd.Series(['スカートskirt','ニットKnit','ジャケットjacket','シャツShirt',np.nan])
s4

0      スカートskirt
1        ニットKnit
2    ジャケットjacket
3       シャツShirt
4            NaN
dtype: object

In [32]:
d = {'ジャケットjacket':'Outer','スカートskirt':'Bottoms','ニットKnit':'Tops','ワンピースOnepiece':'Onepiece'}
d
# 辞書型 2つの要素をセットにして格納できるデータ型
# Key,valueがセット

{'ジャケットjacket': 'Outer',
 'スカートskirt': 'Bottoms',
 'ニットKnit': 'Tops',
 'ワンピースOnepiece': 'Onepiece'}

In [33]:
s4.map(d)

0    Bottoms
1       Tops
2      Outer
3        NaN
4        NaN
dtype: object

In [34]:
s4.map('{}を買います。'.format)

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4            nanを買います。
dtype: object

In [35]:
s4.map('{}を買います。'.format, na_action='ignore')

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4                  NaN
dtype: object

In [None]:
### Seriesとapplyメソッド

In [36]:
# apply シリーズの各要素に同じ関数を適用
s1

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

In [37]:
s1.apply(double)

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [39]:
s1.apply(lambda x: x*2)

0    14000
1    10000
2    46000
3     5000
4    24000
dtype: int64

In [42]:
s1.apply(lambda x: '1万円以上' if x>= 10000 else '1万円未満')

0    1万円未満
1    1万円未満
2    1万円以上
3    1万円未満
4    1万円以上
dtype: object

In [44]:
s1.apply(f_rank)

0    B
1    B
2    S
3    C
4    A
dtype: object

In [None]:
# 消費税率で税込金額を計算

In [45]:
def f_tax(x, tax):
    return x * tax + x

In [48]:
# 税率をタプルで渡す
# タプルとは複数の要素が順序を持って並べられているデータ型
# 要素の変更や削除が出来ない
s1.apply(f_tax, args=(0.1,))

0     7700.0
1     5500.0
2    25300.0
3     2750.0
4    13200.0
dtype: float64

In [50]:
# map関数には引数を渡す手段がないのでエラーになる
s1.map(f_tax, args=(0.1,))

TypeError: map() got an unexpected keyword argument 'args'

In [51]:
s1.apply(np.square)

0     49000000
1     25000000
2    529000000
3      6250000
4    144000000
dtype: int64

In [53]:
# Seriesそれぞれの要素に関数が適用されるので、合計を算出出来ない
s1.apply(np.sum)

0     7000
1     5000
2    23000
3     2500
4    12000
dtype: int64

### 文字列Seriesとapply メソッド

In [54]:
s2

0       スカートSkirt
1         ニットKnit
2     ジャケットjacket
3        シャツShirt
4    ロングパンツSlacks
dtype: object

In [56]:
s2.apply(lambda x: x[0])

0    ス
1    ニ
2    ジ
3    シ
4    ロ
dtype: object

In [57]:
s2.apply(lambda x: re.findall('[A-z]+', x))

0     [Skirt]
1      [Knit]
2    [jacket]
3     [Shirt]
4    [Slacks]
dtype: object

In [58]:
d

{'ジャケットjacket': 'Outer',
 'スカートskirt': 'Bottoms',
 'ニットKnit': 'Tops',
 'ワンピースOnepiece': 'Onepiece'}

In [None]:
s2.apply(d)
# applyメソッドでのマッピングはエラーになる

In [55]:
s4

0      スカートskirt
1        ニットKnit
2    ジャケットjacket
3       シャツShirt
4            NaN
dtype: object

In [60]:
s4.apply('{}を買います。'.format)

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4            nanを買います。
dtype: object

In [61]:
s4.apply('{}を買います。'.format, na_action='ignore')
# applyメソッドの場合 nanを無視する事が出来ない

0      スカートskirtを買います。
1        ニットKnitを買います。
2    ジャケットjacketを買います。
3       シャツShirtを買います。
4            nanを買います。
dtype: object