In [2]:
#coding=utf-8
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

### 选用的数据集为 atbats.csv，它统计的是2015-2018年美国职业棒球联盟常规赛期间每个投球的数据。

需要处理的列：第一列 `ab_id`是自增的，前四位是年份，标识每一个投球，显然不适合规则挖掘，计划将其简化为年份；第三列是投球的结果，结果的种类较多，计划将其简化；第四列 `g_id` 是比赛标识，前四位是年份，因为有了 `ab_id`，计划将其省去；第五列 `inning` 是比赛的局数，计划将其简化为上中下三个部分；

**虽然 `batter_id` 和 `pitcher_id` 的值较多，但是它们是运动员的id，不宜做出改动。**

In [3]:
# 读入数据源
f = pd.read_csv('../atbats.csv')

In [4]:
# 简化第一列
f.ab_id = f.ab_id.apply(lambda x: int(str(x)[:4]))
f.ab_id


0         2015
1         2015
2         2015
3         2015
4         2015
5         2015
6         2015
7         2015
8         2015
9         2015
10        2015
11        2015
12        2015
13        2015
14        2015
15        2015
16        2015
17        2015
18        2015
19        2015
20        2015
21        2015
22        2015
23        2015
24        2015
25        2015
26        2015
27        2015
28        2015
29        2015
          ... 
740359    2018
740360    2018
740361    2018
740362    2018
740363    2018
740364    2018
740365    2018
740366    2018
740367    2018
740368    2018
740369    2018
740370    2018
740371    2018
740372    2018
740373    2018
740374    2018
740375    2018
740376    2018
740377    2018
740378    2018
740379    2018
740380    2018
740381    2018
740382    2018
740383    2018
740384    2018
740385    2018
740386    2018
740387    2018
740388    2018
Name: ab_id, Length: 740389, dtype: int64

In [5]:
#简化第三列，按值的区间划分
def func(s):
    if s in ['Strikeout', 'Groundout', 'Single']:
        return 'A'
    elif s in ['Flyout', 'Walk', 'Lineout', 'Pop Out', 'Double', 'Home Run', 'Forceout', 'Grounded Into DP']:
        return 'B'
    elif s in ['Hit By Pitch', 'Field Error', 'Sac Fly', 'Sac Bunt', 'Intent Walk', 'Triple', 'Double Play', 'Runner Out',\
                'Bunt Groundout', 'Bunt Groundout', 'Fielders Choice Out']:
        return 'C'
    else:
        return 'D'
f.event = f.event.apply(func)
f.event.value_counts()

A    400815
B    302209
C     35358
D      2007
Name: event, dtype: int64

In [6]:
#简化第五列，将其简化为上、中、下三个场次
def func(s):
    if s <= 3:
        return 'top'
    elif s <= 6:
        return 'mid'
    return 'bot'
f.inning = f.inning.apply(func)
f.inning


0         top
1         top
2         top
3         top
4         top
5         top
6         top
7         top
8         top
9         top
10        top
11        top
12        top
13        top
14        top
15        top
16        top
17        top
18        top
19        top
20        top
21        top
22        top
23        top
24        top
25        top
26        top
27        mid
28        mid
29        mid
         ... 
740359    mid
740360    mid
740361    mid
740362    mid
740363    mid
740364    mid
740365    bot
740366    bot
740367    bot
740368    bot
740369    bot
740370    bot
740371    bot
740372    bot
740373    bot
740374    bot
740375    bot
740376    bot
740377    bot
740378    bot
740379    bot
740380    bot
740381    bot
740382    bot
740383    bot
740384    bot
740385    bot
740386    bot
740387    bot
740388    bot
Name: inning, Length: 740389, dtype: object

In [8]:
f.to_csv('after.csv', index=False, encoding='utf-8', columns=['ab_id', 'batter_id', 'event', 'inning', 'o', 'p_score',\
        'p_throws', 'pitcher_id', 'stand', 'top'])
