# 一、Pandas简介

Pandas是一个强大的分析结构化数据的工具集；

(Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法，能够快速便捷地处理数据)

它的使用基础是Numpy（提供高性能的矩阵运算）；

用于数据挖掘和数据分析，同时也提供数据清洗功能



In [1]:
#全部行都能输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# 二、基本操作

### 1.导入Pandas库并简写为pd，并输出版本号

In [2]:
import numpy as np
import pandas as pd
pd.__version__

'1.0.3'

### 2.从列表创建Series

In [3]:
arr = [0, 1, 2, 3, 4]
df = pd.Series(arr)
df

0    0
1    1
2    2
3    3
4    4
dtype: int64

# 三、文件读取与写入

## 1. 读取

### 1) csv格式

In [4]:
df = pd.read_csv('pandas/joyful-pandas-master/data/table.csv')
df.head()

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+


### 2) txt格式

In [5]:
df_txt = pd.read_table('pandas/joyful-pandas-master/data/table.txt')
df_txt.head()

Unnamed: 0,col1,col2,col3,col4
0,2,a,1.4,apple
1,3,b,3.4,banana
2,6,c,2.5,orange
3,5,d,3.2,lemon


### 3) xls或xlxs格式

In [6]:
df_excel = pd.read_excel('pandas/joyful-pandas-master/data/table.xlsx')
df_excel.head()

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+


## 2. 写入

### 1) csv格式

In [7]:
df.to_csv('pandas/joyful-pandas-master/data/new_table.csv')

### 2) xls或xlsx格式

In [8]:
df.to_excel('pandas/joyful-pandas-master/data/new_table2.xlsx', sheet_name='Sheel1')

# 三、基本数据结构

## 1. 什么是Series
Series是一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。

Series是Pandas包提供的一种Key-value型数据结构,其中Key为用户定义的显示index,每个显式index对应一个value值.

它与Python列表的区别在于,Series的每个元素都带有两种index
- 显示index : 由用户指定
- 隐式index : 由系统自动分配(Series对象中每个元素的下标,类似Python"列表"的下标)

Series的访问既可以通过显示index,也可以通过隐式index,

在数据分析和数据科学项目中,一般用显式索引(index),而不是隐式下标,原因在于:当数据量很大时,很难准确定义其下标

### 创建Series
多数情况下，Series 数据结构是我们直接从 DataFrame 数据结构中截取出来的，但也可以自己创建 Series 。       
语法如下：  
    s = pd.Series(data, index=index)    
其中 data 可以是不同的内容：
- Ndarray
- 字典
- 标量
index 是轴标签列表，根据不同的情况传入的内容有所不同。   
如果 data 是 ndarray ，则索引的长度必须与数据的长度相同。如果没有入索引，将创建一个值为 [0，...，len(data)-1] 的索引。 

#### 1) 创建一个Series

In [9]:
#通过ndarray创建Series
np.random.seed(1234)
arr1=np.random.randint(1,10,(5,))
arr1

array([4, 7, 6, 5, 9])

In [10]:
ser1 = pd.Series(arr1,index=['a', 'b', 'c', 'd', 'e']) #当data中的values多于1时,values和index的个数应一致,不一致的时候会报错
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [11]:
ser1 = pd.Series(arr1) #不指定索引的时候,索引默认是range(0,n)
ser1

0    4
1    7
2    6
3    5
4    9
dtype: int32

In [12]:
#通过字典创建Series
dic1 = {'a' : 0., 'b' : 1., 'c' : 2.}
dic1

{'a': 0.0, 'b': 1.0, 'c': 2.0}

In [13]:
ser2 = pd.Series(dic1) #字典的数据结构是key-values键值对,不需要再单独指定索引
ser2

a    0.0
b    1.0
c    2.0
dtype: float64

类 ndarray 的对象传入后也会转换为 ndarray 来创建 Series 。

In [14]:
#通过列表创建Series
list1=[1,2,3,4,5]
list1

[1, 2, 3, 4, 5]

In [15]:
ser3 = pd.Series(list1)  #没有指定显式index的时候,显示隐式索引
ser3

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [16]:
# 通过标量创建Series 当data只包含一个元素时,Series对象的定义支持"循环补齐"
ser4 = pd.Series(3,index=('x','y','z'))
ser4

x    3
y    3
z    3
dtype: int64

In [17]:
s = pd.Series(np.random.randn(5), index = ['a', 'b', 'c', 'd', 'e'], name = '这是一个Series', dtype = 'float64')
s

a    0.511316
b    0.384703
c   -0.370064
d   -0.428838
e   -0.398851
Name: 这是一个Series, dtype: float64

创建Series的方法
- 1 通过ndarray创建,可指定索引,但是指定索引的个数要和ndarray对象里边元素的个数一致
- 2 通过字典创建,不需要指定索婷,字典的键即索引
- 3 通过类ndarray对象创建,比如说列表,可以指定索引,但是之低昂索引的个数要和ndarray里边元素的个数一致
- 4 参数data可以是一个单独的标量,传入索引后,每个索引对应的都是统一数值的标量

#### 2) 访问Series属性

In [18]:
s

a    0.511316
b    0.384703
c   -0.370064
d   -0.428838
e   -0.398851
Name: 这是一个Series, dtype: float64

In [19]:
s.values # 查看values

array([ 0.51131565,  0.38470253, -0.37006401, -0.42883824, -0.39885097])

In [20]:
s.name # 查看Series的name

'这是一个Series'

In [21]:
s.index # 查看index 

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [22]:
s.dtype # 查看数据类型

dtype('float64')

#### Series 数组和字典特性
- Series可以进行索引和切片操作
- Series 同时也像一个固定大小的 dict ，可以通过索引标签获取和设置值
- Series 与 ndarray 非常相似，是大多数 NumPy 函数的有效参数

#### 3) 数组特性

In [23]:
s

a    0.511316
b    0.384703
c   -0.370064
d   -0.428838
e   -0.398851
Name: 这是一个Series, dtype: float64

In [24]:
s[0] # 通过位置信息(系统默认的隐式索引)索引查找元素

0.5113156521513135

In [25]:
s[0] = 1 # 通过索引切片更改元素信息
s

a    1.000000
b    0.384703
c   -0.370064
d   -0.428838
e   -0.398851
Name: 这是一个Series, dtype: float64

In [26]:
s[1:4] # 通过位置信息索引切取连续元素

b    0.384703
c   -0.370064
d   -0.428838
Name: 这是一个Series, dtype: float64

In [27]:
s[[4,3,0]] # 通过位置信息索引切取不连续元素

e   -0.398851
d   -0.428838
a    1.000000
Name: 这是一个Series, dtype: float64

In [28]:
s<0.5 # 进行布尔判断

a    False
b     True
c     True
d     True
e     True
Name: 这是一个Series, dtype: bool

In [29]:
s[s<0.5] # 通过布尔判断切取满足指定条件的元素,通过布尔值进行切片,切的永远是True的元素

b    0.384703
c   -0.370064
d   -0.428838
e   -0.398851
Name: 这是一个Series, dtype: float64

In [30]:
s[s>s.mean()] # 切片所有比均值大的元素

a    1.000000
b    0.384703
Name: 这是一个Series, dtype: float64

#### 4) 字典特性
Series 同时也像一个固定大小的 dict ，可以通过索引标签获取和设置值：

In [31]:
s['a'] # 通过显式索引查找元素

1.0

In [32]:
s['a'] = 0.511316
s

a    0.511316
b    0.384703
c   -0.370064
d   -0.428838
e   -0.398851
Name: 这是一个Series, dtype: float64

In [33]:
s['a':'c'] # 通过显式索引切取连续元素

a    0.511316
b    0.384703
c   -0.370064
Name: 这是一个Series, dtype: float64

In [34]:
s[['a','d','e']] # 通过显式索引切取不连续元素

a    0.511316
d   -0.428838
e   -0.398851
Name: 这是一个Series, dtype: float64

In [35]:
'a' in s

True

In [36]:
'h' in s

False

In [37]:
# s['h'] # 注：如果引用了未包含的标签，则会引发异常。

In [38]:
try:
    print(s['f'])
except KeyError:
    print('没有这个键')

没有这个键


#### 5) 调用方法

In [39]:
s.mean()

-0.060346936266615005

Series有相当多的方法可以调用：

In [40]:
print([attr for attr in dir(s) if not attr.startswith('_')])

['T', 'a', 'abs', 'add', 'add_prefix', 'add_suffix', 'agg', 'aggregate', 'align', 'all', 'any', 'append', 'apply', 'argmax', 'argmin', 'argsort', 'array', 'asfreq', 'asof', 'astype', 'at', 'at_time', 'attrs', 'autocorr', 'axes', 'b', 'between', 'between_time', 'bfill', 'bool', 'c', 'clip', 'combine', 'combine_first', 'convert_dtypes', 'copy', 'corr', 'count', 'cov', 'cummax', 'cummin', 'cumprod', 'cumsum', 'd', 'describe', 'diff', 'div', 'divide', 'divmod', 'dot', 'drop', 'drop_duplicates', 'droplevel', 'dropna', 'dtype', 'dtypes', 'duplicated', 'e', 'empty', 'eq', 'equals', 'ewm', 'expanding', 'explode', 'factorize', 'ffill', 'fillna', 'filter', 'first', 'first_valid_index', 'floordiv', 'ge', 'get', 'groupby', 'gt', 'hasnans', 'head', 'hist', 'iat', 'idxmax', 'idxmin', 'iloc', 'index', 'infer_objects', 'interpolate', 'is_monotonic', 'is_monotonic_decreasing', 'is_monotonic_increasing', 'is_unique', 'isin', 'isna', 'isnull', 'item', 'items', 'iteritems', 'keys', 'kurt', 'kurtosis', 'la

## 2.DataFrame
DataFrame是一个可以包含不同数据类型列的二维数据结构，类似于电子表格或SQL表，或Series对象的字典集合,是最常用的pandas对象。

#### 1)创建DataFrame
和 Series 类似，创建 DataFrame 时，也接受许多不同类的参数。虽然在绝大多数情况下，我们通过读取文件来创建 DataFrame。
DataFrame 可以从序列类的数据构建：

##### 方法一 : 包含列表的字典创建

In [41]:
#使用包含列表的字典创建DataFrame时,各个列表内元素个数必须一致
data1 = {'员工姓名':['赵一','钱明','周元'],   #默认字典的键为dataframe的字段名,不设定索引的时候,自动给出默认索引,从0到len(list)-1
       '销售业绩':[30000,20000,50000],
       '提成收入':[6000,4000,10000]}
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,员工姓名,销售业绩,提成收入
0,赵一,30000,6000
1,钱明,20000,4000
2,周元,50000,10000


##### 方法二 : 包含series的类字典创建

In [42]:
data = {'员工姓名':pd.Series(['赵一','钱明','周元','李雷']),  #与第一种创建方式相比,各series中的元素个数可以不一致
       '销售业绩':pd.Series([30000,20000,50000]),
       '提成收入':pd.Series([6000,4000,10000])}
df2 = pd.DataFrame(data)
df2

Unnamed: 0,员工姓名,销售业绩,提成收入
0,赵一,30000.0,6000.0
1,钱明,20000.0,4000.0
2,周元,50000.0,10000.0
3,李雷,,


In [43]:
data = {'员工姓名':pd.Series(['赵一','钱明','周元','李雷'],index = ['001','002','003','004']),  #指定index与不指定index的区别
       '销售业绩':pd.Series([30000,20000,50000],index = ['001','002','003']),
       '提成收入':pd.Series([6000,4000,10000],index = ['001','002','003'])}
df2 = pd.DataFrame(data)
df2

Unnamed: 0,员工姓名,销售业绩,提成收入
1,赵一,30000.0,6000.0
2,钱明,20000.0,4000.0
3,周元,50000.0,10000.0
4,李雷,,


In [44]:
pd.DataFrame(df2, index=['003', '001', '002'])  #创建的时候可以只用一部分index,而且index与记录一一对应

Unnamed: 0,员工姓名,销售业绩,提成收入
3,周元,50000.0,10000.0
1,赵一,30000.0,6000.0
2,钱明,20000.0,4000.0


In [45]:
pd.DataFrame(df2, index=['003', '001', '002'],   #列名(columns)可以进行指定.如果指定了不存在的列,dataframe会自动用空值补齐
             columns=['提成收入', '基本工资'])

Unnamed: 0,提成收入,基本工资
3,10000.0,
1,6000.0,
2,4000.0,


In [46]:
df = pd.DataFrame({'col1':list('abcde'), 'col2':range(5,10), 'col3':[1.3,2.5,3.6,4.6,5.8]},
                  index = list('一二三四五'))
df

Unnamed: 0,col1,col2,col3
一,a,5,1.3
二,b,6,2.5
三,c,7,3.6
四,d,8,4.6
五,e,9,5.8


#### 2) 访问索引和列名

In [47]:
df.head()

Unnamed: 0,col1,col2,col3
一,a,5,1.3
二,b,6,2.5
三,c,7,3.6
四,d,8,4.6
五,e,9,5.8


In [48]:
df.index   #访问索引   在外部数据导入后,可以用访问索引和列名的方法对数据有有一个大概的了解

Index(['一', '二', '三', '四', '五'], dtype='object')

In [49]:
df.columns # 访问列名

Index(['col1', 'col2', 'col3'], dtype='object')

#### 3) DataFrame 列操作
DataFrame 列的选取，设置和删除列的工作原理与类似的 dict 操作相同。

In [50]:
df['col1'] # 单独一个列是series数据结构

一    a
二    b
三    c
四    d
五    e
Name: col1, dtype: object

In [51]:
type(df)

pandas.core.frame.DataFrame

In [52]:
type(df['col1'])

pandas.core.series.Series

#### 4) 增加列

In [53]:
df2['基本工资'] = 2500  #增加一列并且给增加的列赋值,如果赋值为单个标量,会自动在列里广播填充
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资
1,赵一,30000.0,6000.0,2500
2,钱明,20000.0,4000.0,2500
3,周元,50000.0,10000.0,2500
4,李雷,,,2500


In [54]:
df2["创造收益"] = df2['销售业绩'] - df2['提成收入'] - df2['基本工资']  #增加一列并且给增加的列赋值,赋值可以是已存在列之间的聚合运算
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,创造收益
1,赵一,30000.0,6000.0,2500,21500.0
2,钱明,20000.0,4000.0,2500,13500.0
3,周元,50000.0,10000.0,2500,37500.0
4,李雷,,,2500,


In [55]:
df2["是否达标"] = df2['创造收益'] > 20000  #增加一列并且给增加的列赋值,赋值可以是对其中某一列的布尔判断
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,创造收益,是否达标
1,赵一,30000.0,6000.0,2500,21500.0,True
2,钱明,20000.0,4000.0,2500,13500.0,False
3,周元,50000.0,10000.0,2500,37500.0,True
4,李雷,,,2500,,False


In [56]:
df2['公司名称'] = '脑洞大开有限公司'   ##增加一列并且给增加的列赋值,赋值为标量,会自动在列里广播填充.填充的数值类型也可以是字符串类型
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,创造收益,是否达标,公司名称
1,赵一,30000.0,6000.0,2500,21500.0,True,脑洞大开有限公司
2,钱明,20000.0,4000.0,2500,13500.0,False,脑洞大开有限公司
3,周元,50000.0,10000.0,2500,37500.0,True,脑洞大开有限公司
4,李雷,,,2500,,False,脑洞大开有限公司


In [57]:
#如果新增的列中传入的是 Series 并且索引不完全相同，那么会默认按照索引对齐,没有指定填充值的位置默认用空值进行填充：
df2['性别'] = pd.Series(['女','男'],index = ['001','003'])
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,37500.0,True,脑洞大开有限公司,男
4,李雷,,,2500,,False,脑洞大开有限公司,


##### insert方法插入列

In [58]:
df2.insert(5,"年龄",[25,32,30,24])  #插入列,参数为指定插入位置,插入列的列名,给插入的列赋值,赋值的内容可以是列表
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,创造收益,年龄,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,21500.0,25,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,13500.0,32,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,37500.0,30,True,脑洞大开有限公司,男
4,李雷,,,2500,,24,False,脑洞大开有限公司,


In [59]:
df2.insert(0,"工龄","1年")  #插入列并给插入的列赋值,赋值的内容可以是标量
df2

Unnamed: 0,工龄,员工姓名,销售业绩,提成收入,基本工资,创造收益,年龄,是否达标,公司名称,性别
1,1年,赵一,30000.0,6000.0,2500,21500.0,25,True,脑洞大开有限公司,女
2,1年,钱明,20000.0,4000.0,2500,13500.0,32,False,脑洞大开有限公司,
3,1年,周元,50000.0,10000.0,2500,37500.0,30,True,脑洞大开有限公司,男
4,1年,李雷,,,2500,,24,False,脑洞大开有限公司,


In [60]:
df2.insert(5,"社保金额",df2["基本工资"]*0.05)  #插入列并给插入的列赋值,赋值的内容也可以是series(获取的列其数据结构是series)
df2

Unnamed: 0,工龄,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,年龄,是否达标,公司名称,性别
1,1年,赵一,30000.0,6000.0,2500,125.0,21500.0,25,True,脑洞大开有限公司,女
2,1年,钱明,20000.0,4000.0,2500,125.0,13500.0,32,False,脑洞大开有限公司,
3,1年,周元,50000.0,10000.0,2500,125.0,37500.0,30,True,脑洞大开有限公司,男
4,1年,李雷,,,2500,125.0,,24,False,脑洞大开有限公司,


##### 删除或移出列

In [61]:
del df2["工龄"]   #直接在原数据集上做修改
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,年龄,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,25,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,32,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,30,True,脑洞大开有限公司,男
4,李雷,,,2500,125.0,,24,False,脑洞大开有限公司,


In [62]:
df2.pop("年龄")  #抛出指定列并对原数据进行改变

001    25
002    32
003    30
004    24
Name: 年龄, dtype: int64

In [63]:
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男
4,李雷,,,2500,125.0,,False,脑洞大开有限公司,


In [64]:
df2.drop(columns=['是否达标'],axis=1)  #返回一个副本,原数据没有发生改变

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,脑洞大开有限公司,男
4,李雷,,,2500,125.0,,脑洞大开有限公司,


In [65]:
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男
4,李雷,,,2500,125.0,,False,脑洞大开有限公司,


##### 分配列的操作
assign方法,依据现有列派生的新列

In [66]:
df2.assign(利润率 = df2.创造收益/df2.销售业绩)  #和前边单纯的插入或新增列的操作不同,返回的是视图,assign方法不会改变原数据

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别,利润率
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女,0.716667
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,,0.675
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男,0.75
4,李雷,,,2500,125.0,,False,脑洞大开有限公司,,


In [67]:
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男
4,李雷,,,2500,125.0,,False,脑洞大开有限公司,


In [68]:
df2.assign(利润率 = df2.创造收益/df2.销售业绩,  #assign方法可以同时分配多列,想要捕捉到分配列之后的dataframe,赋值新的dataframe名字给它
           成本率 = (df2.提成收入+df2.基本工资)/df2.销售业绩)  

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别,利润率,成本率
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女,0.716667,0.283333
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,,0.675,0.325
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男,0.75,0.25
4,李雷,,,2500,125.0,,False,脑洞大开有限公司,,,


In [69]:
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男
4,李雷,,,2500,125.0,,False,脑洞大开有限公司,


#### 5) 调用属性和方法

In [70]:
df2.index

Index(['001', '002', '003', '004'], dtype='object')

In [71]:
df2.columns

Index(['员工姓名', '销售业绩', '提成收入', '基本工资', '社保金额', '创造收益', '是否达标', '公司名称', '性别'], dtype='object')

In [72]:
df2.values

array([['赵一', 30000.0, 6000.0, 2500, 125.0, 21500.0, True, '脑洞大开有限公司',
        '女'],
       ['钱明', 20000.0, 4000.0, 2500, 125.0, 13500.0, False, '脑洞大开有限公司',
        nan],
       ['周元', 50000.0, 10000.0, 2500, 125.0, 37500.0, True, '脑洞大开有限公司',
        '男'],
       ['李雷', nan, nan, 2500, 125.0, nan, False, '脑洞大开有限公司', nan]],
      dtype=object)

In [73]:
df2.shape

(4, 9)

In [74]:
df2.mean()

销售业绩    33333.333333
提成收入     6666.666667
基本工资     2500.000000
社保金额      125.000000
创造收益    24166.666667
是否达标        0.500000
dtype: float64

#### 6) 索引/选择

索引/选择的基本语法如下：

| 实现目的 | 语法 | 结果 |    
|----------|------|------|  
| 选择列  | df[col] |Series| 
| 切片行 | df[5:10] |DataFrame |  
| 按标签选择行| df.loc[label]| Series |  
| 按位置选择行| df.iloc[loc] | Series |   
| 按布尔向量选择行 | df[bool_vec] | DataFrame|    

这是Pandas中非常强大的特性，不理解这一特性有时就会造成一些麻烦

In [75]:
df3 = pd.DataFrame({'A':[1,2,3]},index=[1,2,3])
df4 = pd.DataFrame({'A':[1,2,3]},index=[3,1,2])
df3-df4 #由于索引对齐，因此结果不是0

Unnamed: 0,A
1,-1
2,-1
3,2


#####  根据类型选择列

In [76]:
df.select_dtypes(include = ['number']).head()

Unnamed: 0,col2,col3
一,5,1.3
二,6,2.5
三,7,3.6
四,8,4.6
五,9,5.8


In [77]:
df.select_dtypes(include = ['float']).head()

Unnamed: 0,col3
一,1.3
二,2.5
三,3.6
四,4.6
五,5.8


#### 7)基于标签的索引
.loc 是基于标签的索引，必须使用数据的标签属性，否则会返回一个异常。

基于标签索引的基本语法 : df.loc[行索引,列索引] 

逗号之前是切取的行信息,逗号之后是切取的列信息

只切取行信息返回所有列信息的时候,列索引和逗号可以省略

只切取列信息返回所有行信息的时候,行索引和冒号不能省略,用冒号表示切取所有行.

In [78]:
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男
4,李雷,,,2500,125.0,,False,脑洞大开有限公司,


In [79]:
df2.loc["001"]  #指窃取一行或者一列数据是返回series数据结构

员工姓名          赵一
销售业绩       30000
提成收入        6000
基本工资        2500
社保金额         125
创造收益       21500
是否达标        True
公司名称    脑洞大开有限公司
性别             女
Name: 001, dtype: object

**直接切取一行信息的时候**
- df["行信息":"行信息"]  返回是dataframe  
- (基于标签的索引)df.loc["行信息"]  返回的是series

In [80]:
df2.loc[:,"员工姓名"] #切取一列的信息,行信息不能省略

001    赵一
002    钱明
003    周元
004    李雷
Name: 员工姓名, dtype: object

In [81]:
df2.loc["001":"003"]  

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男


In [82]:
df2.loc[:,"员工姓名":"创造收益"]  #切取列信息,返回所有行信息的时候注意冒号表示所有行并加逗号隔开行索引和列索引

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益
1,赵一,30000.0,6000.0,2500,125.0,21500.0
2,钱明,20000.0,4000.0,2500,125.0,13500.0
3,周元,50000.0,10000.0,2500,125.0,37500.0
4,李雷,,,2500,125.0,


In [83]:
df2.loc["001":"003","员工姓名":"创造收益"]  #切取完整数据框中的一部分

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益
1,赵一,30000.0,6000.0,2500,125.0,21500.0
2,钱明,20000.0,4000.0,2500,125.0,13500.0
3,周元,50000.0,10000.0,2500,125.0,37500.0


In [84]:
df2.loc[["001","003"]]  #切取不连续的记录,选择的几行或者几列的名字需打包到列表中

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男


In [85]:
df2.loc[:,["员工姓名","提成收入"]]  #切取不连续的列信息

Unnamed: 0,员工姓名,提成收入
1,赵一,6000.0
2,钱明,4000.0
3,周元,10000.0
4,李雷,


In [86]:
df2.loc[["001","003"],["员工姓名","创造收益","提成收入"]]  #切取的行列信息都可以不连续,注意各个标签需要用方括号括起来,标签的顺序自定义

Unnamed: 0,员工姓名,创造收益,提成收入
1,赵一,21500.0,6000.0
3,周元,37500.0,10000.0


In [87]:
df2.loc[["001","003","004"],["员工姓名","销售业绩","是否达标"]]

Unnamed: 0,员工姓名,销售业绩,是否达标
1,赵一,30000.0,True
3,周元,50000.0,True
4,李雷,,False


指向具体一列的某个记录值 df.at[行索引,列索引]

In [88]:
df2.at["001","员工姓名"]

'赵一'

In [89]:
df2.loc["004","社保金额"]

125.0

In [90]:
df2.loc["001","员工姓名"]  #用.loc也可以实现

'赵一'

In [91]:
df2.at["004","销售业绩"] = 40000 #可以对单个信息进行更改
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男
4,李雷,40000.0,,2500,125.0,,False,脑洞大开有限公司,


.loc 同时也可以用来扩展数据的列：

In [92]:
df2.loc[:,"员工状态"] = "在职"
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别,员工状态
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女,在职
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,,在职
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男,在职
4,李雷,40000.0,,2500,125.0,,False,脑洞大开有限公司,,在职


新建一列,新建列里边的信息是基于某一已经存在的列,并且对该存在列中的每个信息进行相同的函数(X)操作,用apply()函数,函数特点是它的参数是其他函数(X)

In [93]:
df2.loc[:,"整数"] = df2.loc[:,"销售业绩"].apply(round)  #pd.apply允许用户传递一个函数并将其应用于Pandas系列的每个值
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别,员工状态,整数
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女,在职,30000
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,,在职,20000
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男,在职,50000
4,李雷,40000.0,,2500,125.0,,False,脑洞大开有限公司,,在职,40000


In [94]:
df2.drop("整数",axis=1,inplace=True)
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别,员工状态
1,赵一,30000.0,6000.0,2500,125.0,21500.0,True,脑洞大开有限公司,女,在职
2,钱明,20000.0,4000.0,2500,125.0,13500.0,False,脑洞大开有限公司,,在职
3,周元,50000.0,10000.0,2500,125.0,37500.0,True,脑洞大开有限公司,男,在职
4,李雷,40000.0,,2500,125.0,,False,脑洞大开有限公司,,在职


.loc 同时也可以用来扩展数据的行：

In [95]:
df2.loc["005"] = 233  #可以赋值一个标量
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别,员工状态
1,赵一,30000.0,6000.0,2500,125.0,21500.0,1,脑洞大开有限公司,女,在职
2,钱明,20000.0,4000.0,2500,125.0,13500.0,0,脑洞大开有限公司,,在职
3,周元,50000.0,10000.0,2500,125.0,37500.0,1,脑洞大开有限公司,男,在职
4,李雷,40000.0,,2500,125.0,,0,脑洞大开有限公司,,在职
5,233,233.0,233.0,233,233.0,233.0,233,233,233,233


In [96]:
df2.drop("005",axis=0,inplace=True)
df2

Unnamed: 0,员工姓名,销售业绩,提成收入,基本工资,社保金额,创造收益,是否达标,公司名称,性别,员工状态
1,赵一,30000.0,6000.0,2500,125.0,21500.0,1,脑洞大开有限公司,女,在职
2,钱明,20000.0,4000.0,2500,125.0,13500.0,0,脑洞大开有限公司,,在职
3,周元,50000.0,10000.0,2500,125.0,37500.0,1,脑洞大开有限公司,男,在职
4,李雷,40000.0,,2500,125.0,,0,脑洞大开有限公司,,在职


#### 8) 将Series转换为DataFrame

In [97]:
s = df.mean()
s.name = 'to_DataFrame'
s

col2    7.00
col3    3.56
Name: to_DataFrame, dtype: float64

In [98]:
s.to_frame()

Unnamed: 0,to_DataFrame
col2,7.0
col3,3.56


使用T符号可以转置

In [99]:
s.to_frame().T

Unnamed: 0,col2,col3
to_DataFrame,7.0,3.56


# 四、常用基本函数

In [100]:
df = pd.read_csv('pandas/joyful-pandas-master/data/table.csv')

#### 1) head和tail

In [101]:
df.head() # 默认显示前五条数据

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+


In [102]:
df.tail() # 默认显示后五条数据

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
30,S_2,C_4,2401,F,street_2,192,62,45.3,A
31,S_2,C_4,2402,M,street_7,166,82,48.7,B
32,S_2,C_4,2403,F,street_6,158,60,59.7,B+
33,S_2,C_4,2404,F,street_2,160,84,67.7,B
34,S_2,C_4,2405,F,street_6,193,54,47.6,B


In [103]:
df.head(3) # 指定n参数显示多少条数据

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+


#### 2) unique和nunique

In [104]:
df['Physics'].nunique() # 统计并显示有多少个唯一值

7

In [105]:
df['Physics'].unique() # unqiue显示所有唯一值

array(['A+', 'B+', 'B-', 'A-', 'B', 'A', 'C'], dtype=object)

### 3) count和value_counts

In [106]:
df.isnull().mean()

School     0.0
Class      0.0
ID         0.0
Gender     0.0
Address    0.0
Height     0.0
Weight     0.0
Math       0.0
Physics    0.0
dtype: float64

In [107]:
df['Physics'].count() # count返回非缺失值元素个数

35

In [108]:
df['Physics'].value_counts() # value_counts返回每个元素有多少个

B+    9
B     8
B-    6
A     4
A-    3
A+    3
C     2
Name: Physics, dtype: int64

#### 4) describe和info

In [109]:
df.info() # info函数返回有哪些列、有多少非缺失值、每列的类型

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   School   35 non-null     object 
 1   Class    35 non-null     object 
 2   ID       35 non-null     int64  
 3   Gender   35 non-null     object 
 4   Address  35 non-null     object 
 5   Height   35 non-null     int64  
 6   Weight   35 non-null     int64  
 7   Math     35 non-null     float64
 8   Physics  35 non-null     object 
dtypes: float64(1), int64(3), object(5)
memory usage: 2.6+ KB


In [110]:
df.describe() # describe默认统计数值型数据的各个统计量

Unnamed: 0,ID,Height,Weight,Math
count,35.0,35.0,35.0,35.0
mean,1803.0,174.142857,74.657143,61.351429
std,536.87741,13.541098,12.895377,19.915164
min,1101.0,155.0,53.0,31.5
25%,1204.5,161.0,63.0,47.4
50%,2103.0,173.0,74.0,61.7
75%,2301.5,187.5,82.0,77.1
max,2405.0,195.0,100.0,97.0


In [111]:
df.describe(percentiles=[.05, .25, .50, .75, .95]) # 可以自行选择分位数

Unnamed: 0,ID,Height,Weight,Math
count,35.0,35.0,35.0,35.0
mean,1803.0,174.142857,74.657143,61.351429
std,536.87741,13.541098,12.895377,19.915164
min,1101.0,155.0,53.0,31.5
5%,1102.7,157.0,56.1,32.64
25%,1204.5,161.0,63.0,47.4
50%,2103.0,173.0,74.0,61.7
75%,2301.5,187.5,82.0,77.1
95%,2403.3,193.3,97.6,90.04
max,2405.0,195.0,100.0,97.0


In [112]:
df['Physics'].describe() # 对于非数值型也可以用describe函数

count     35
unique     7
top       B+
freq       9
Name: Physics, dtype: object

#### 5) idxmax和nlargest

In [113]:
df['Math'].idxmax() # idxmax函数返回最大值，在某些情况下特别适用，idxmin功能类似

5

In [114]:
df['Math'].nlargest(3) # nlargest函数返回前几个大的元素值，nsmallest功能类似

5     97.0
28    95.5
11    87.7
Name: Math, dtype: float64

#### 6) clip和replace

clip和replace是两类替换函数

clip是对超过或者低于某些值的数进行截断

In [115]:
df['Math'].head()

0    34.0
1    32.5
2    87.2
3    80.4
4    84.8
Name: Math, dtype: float64

In [116]:
df['Math'].clip(33,80).head()

0    34.0
1    33.0
2    80.0
3    80.0
4    80.0
Name: Math, dtype: float64

In [117]:
df['Math'].mad()

16.924244897959188

replace是对某些值进行替换

In [118]:
df['Address'].head()

0    street_1
1    street_2
2    street_2
3    street_2
4    street_4
Name: Address, dtype: object

In [119]:
df['Address'].replace(['street_1', 'street_2'],['one', 'two']).head()

0         one
1         two
2         two
3         two
4    street_4
Name: Address, dtype: object

通过字典，可以直接在表中修改

In [120]:
df.replace({'Address':{'street_1':'one', 'street_2':'two'}}).head()

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,one,173,63,34.0,A+
1,S_1,C_1,1102,F,two,192,73,32.5,B+
2,S_1,C_1,1103,M,two,186,82,87.2,B+
3,S_1,C_1,1104,F,two,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+


#### 7) apply函数

apply是一个自由度很高的函数，对于Series，它可以迭代每一列的值操作：

In [121]:
df['Math'].apply(lambda x:str(x)+'!').head() # 可以使用lambda表达式，也可以使用函数

0    34.0!
1    32.5!
2    87.2!
3    80.4!
4    84.8!
Name: Math, dtype: object

对于DataFrame，它可以迭代每一个列操作：

In [122]:
df.apply(lambda x:x.apply(lambda x:str(x)+'!')).head() # 这是一个稍显复杂的例子，有利于理解apply的功能

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1!,C_1!,1101!,M!,street_1!,173!,63!,34.0!,A+!
1,S_1!,C_1!,1102!,F!,street_2!,192!,73!,32.5!,B+!
2,S_1!,C_1!,1103!,M!,street_2!,186!,82!,87.2!,B+!
3,S_1!,C_1!,1104!,F!,street_2!,167!,81!,80.4!,B-!
4,S_1!,C_1!,1105!,F!,street_4!,159!,64!,84.8!,B+!


# 五、排序

#### 1) 索引排序

In [123]:
df.set_index('Math').head()

Unnamed: 0_level_0,School,Class,ID,Gender,Address,Height,Weight,Physics
Math,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
34.0,S_1,C_1,1101,M,street_1,173,63,A+
32.5,S_1,C_1,1102,F,street_2,192,73,B+
87.2,S_1,C_1,1103,M,street_2,186,82,B+
80.4,S_1,C_1,1104,F,street_2,167,81,B-
84.8,S_1,C_1,1105,F,street_4,159,64,B+


In [124]:
df.set_index('Math').sort_index().head() # 可以设置ascending参数，默认为升序，True

Unnamed: 0_level_0,School,Class,ID,Gender,Address,Height,Weight,Physics
Math,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
31.5,S_1,C_3,1301,M,street_4,161,68,B+
32.5,S_1,C_1,1102,F,street_2,192,73,B+
32.7,S_2,C_3,2302,M,street_5,171,88,A
33.8,S_1,C_2,1204,F,street_5,162,63,B
34.0,S_1,C_1,1101,M,street_1,173,63,A+


In [125]:
df.set_index('Math').sort_index(ascending=False).head()

Unnamed: 0_level_0,School,Class,ID,Gender,Address,Height,Weight,Physics
Math,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
97.0,S_1,C_2,1201,M,street_5,188,68,A-
95.5,S_2,C_3,2304,F,street_6,164,81,A-
87.7,S_1,C_3,1302,F,street_1,175,57,A-
87.2,S_1,C_1,1103,M,street_2,186,82,B+
85.4,S_2,C_2,2205,F,street_7,183,76,B


#### 2) 值排序

In [126]:
df.sort_values(by = 'Class').head() # 按值进行升序排序

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
19,S_2,C_1,2105,M,street_4,170,81,34.2,A
18,S_2,C_1,2104,F,street_5,159,97,72.2,B+
16,S_2,C_1,2102,F,street_6,161,61,50.6,B+
15,S_2,C_1,2101,M,street_7,174,84,83.3,C


多个值排序，即先对第一层排，在第一层相同的情况下对第二层排序

In [127]:
df.sort_values(by=['Address','Height']).head()

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
11,S_1,C_3,1302,F,street_1,175,57,87.7,A-
23,S_2,C_2,2204,M,street_1,175,74,47.2,B-
33,S_2,C_4,2404,F,street_2,160,84,67.7,B
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-


# 六、问题与练习
### 1. 问题
#### 【问题一】 Series和DataFrame有哪些常见属性和方法？
#### 【问题二】 value_counts会统计缺失值吗？
#### 【问题三】 与idxmax和nlargest功能相反的是哪两组函数？
#### 【问题四】 在常用函数一节中，由于一些函数的功能比较简单，因此没有列入，现在将它们列在下面，请分别说明它们的用途并尝试使用。
#### sum/mean/median/mad/min/max/abs/std/var/quantile/cummax/cumsum/cumprod
#### 【问题五】 df.mean(axis=1)是什么意思？它与df.mean()的结果一样吗？第一问提到的函数也有axis参数吗？怎么使用？

### 2. 练习
#### 【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集，请解决以下问题：
#### （a）在所有的数据中，一共出现了多少人物？
#### （b）以单元格计数（即简单把一个单元格视作一句），谁说了最多的话？
#### （c）以单词计数，谁说了最多的单词？

In [128]:
df5 = pd.read_csv('pandas/joyful-pandas-master/data/Game_of_Thrones_Script.csv')
df5.head()

Unnamed: 0,Release Date,Season,Episode,Episode Title,Name,Sentence
0,2011/4/17,Season 1,Episode 1,Winter is Coming,waymar royce,What do you expect? They're savages. One lot s...
1,2011/4/17,Season 1,Episode 1,Winter is Coming,will,I've never seen wildlings do a thing like this...
2,2011/4/17,Season 1,Episode 1,Winter is Coming,waymar royce,How close did you get?
3,2011/4/17,Season 1,Episode 1,Winter is Coming,will,Close as any man would.
4,2011/4/17,Season 1,Episode 1,Winter is Coming,gared,We should head back to the wall.


（a）在所有的数据中，一共出现了多少人物？

（b）以单元格计数（即简单把一个单元格视作一句），谁说了最多的话？

（c）以单词计数，谁说了最多的单词？

#### 【练习二】现有一份关于科比的投篮数据集，请解决如下问题：
#### （a）哪种action_type和combined_shot_type的组合是最多的？
#### （b）在所有被记录的game_id中，遭遇到最多的opponent是一个支？

In [129]:
df6 = pd.read_csv('pandas/joyful-pandas-master/data/Kobe_data.csv',index_col='shot_id')
df6.head()
#index_col的作用是将某一列作为行索引

Unnamed: 0_level_0,action_type,combined_shot_type,game_event_id,game_id,lat,loc_x,loc_y,lon,minutes_remaining,period,...,shot_made_flag,shot_type,shot_zone_area,shot_zone_basic,shot_zone_range,team_id,team_name,game_date,matchup,opponent
shot_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Jump Shot,Jump Shot,10,20000012,33.9723,167,72,-118.1028,10,1,...,,2PT Field Goal,Right Side(R),Mid-Range,16-24 ft.,1610612747,Los Angeles Lakers,2000/10/31,LAL @ POR,POR
2,Jump Shot,Jump Shot,12,20000012,34.0443,-157,0,-118.4268,10,1,...,0.0,2PT Field Goal,Left Side(L),Mid-Range,8-16 ft.,1610612747,Los Angeles Lakers,2000/10/31,LAL @ POR,POR
3,Jump Shot,Jump Shot,35,20000012,33.9093,-101,135,-118.3708,7,1,...,1.0,2PT Field Goal,Left Side Center(LC),Mid-Range,16-24 ft.,1610612747,Los Angeles Lakers,2000/10/31,LAL @ POR,POR
4,Jump Shot,Jump Shot,43,20000012,33.8693,138,175,-118.1318,6,1,...,0.0,2PT Field Goal,Right Side Center(RC),Mid-Range,16-24 ft.,1610612747,Los Angeles Lakers,2000/10/31,LAL @ POR,POR
5,Driving Dunk Shot,Dunk,155,20000012,34.0443,0,0,-118.2698,6,2,...,1.0,2PT Field Goal,Center(C),Restricted Area,Less Than 8 ft.,1610612747,Los Angeles Lakers,2000/10/31,LAL @ POR,POR


（a）哪种action_type和combined_shot_type的组合是最多的？

（b）在所有被记录的game_id中，遭遇到最多的opponent是一个支？