### Lecture 2：Pandas基础

主要讲解常用文件的读取和写入、pandas的基本数据结构、常用基本函数。

In [2]:
import numpy as np
import pandas as pd
np.__version__

'1.23.1'

#### 一、文件读取与写入

1. 数据读取

pandas可以读取csv、txt和excel文件，分别使用read_csv(),read_table()和read_excel()读取，其传入的参数为相应文件的绝对路径或相对路径。

注意：读取excel文件的read_excel()函数依赖xlrd、xlwt和openpyxl这3个第三方库。可以通过如下命令安装：

conda install xlrd xlwt openpyxl

or

pip install xlrd xlwt openpyxl

In [5]:
# 1. 读取csv文件
df_csv=pd.read_csv('data/my_csv.csv')
df_csv

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


In [18]:
# 2. 读取txt文件
df_txt=pd.read_table('data/my_table.txt')
df_txt

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


In [20]:
# 3. 读取excel文件
df_excel=pd.read_excel('data/my_excel.xlsx')
df_excel

#默认读取第一个sheet，当然，也可以通过sheet_name参数指定要读取的sheet名字。

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


这些函数都有一些公共的参数，包括：

header:是否将第一行作为列名.如果将其设置为None，则表示不将第一行作为列名,此时的列名是按照数字顺序编码；

index_col:表示把某一列或某几列作为索引；

usecols:表示读取数据集中的某几列，用{}来表示

parase_dates:表示需要转化为时间的列

nrows:表示读取的数据行数

In [2067]:
# 例1： 读取txt文件，将header设置为None
pd.read_table('data/my_table.txt',header=None)

#用在第一行不是字段名的文件中

Unnamed: 0,0,1,2,3,4
0,col1,col2,col3,col4,col5
1,2,a,1.4,apple,2020/1/1
2,3,b,3.4,banana,2020/1/2
3,6,c,2.5,orange,2020/1/5
4,5,d,3.2,lemon,2020/1/7


In [4]:
# 例2： 读取csv文件，指定索引列
# pd.read_csv('data/my_csv.csv',index_col='col1')

#如果指定多列为索引，则将其放在列表中传递给参数index_col
pd.read_csv('data/my_csv.csv',index_col=['col1','col2']) 

Unnamed: 0_level_0,Unnamed: 1_level_0,col3,col4,col5
col1,col2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,a,1.4,apple,2020/1/1
3,b,3.4,banana,2020/1/2
6,c,2.5,orange,2020/1/5
5,d,3.2,lemon,2020/1/7


In [2069]:
# 例3： 读取csv文件，并指定读取的数据列

pd.read_csv('data/my_csv.csv',usecols={'col1','col2'})

Unnamed: 0,col1,col2
0,2,a
1,3,b
2,6,c
3,5,d


In [21]:
# 例4： 读取csv文件，将col5列指定为时间格式
pd.read_csv('data/my_csv.csv',parse_dates=['col5'])

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020-01-01
1,3,b,3.4,banana,2020-01-02
2,6,c,2.5,orange,2020-01-05
3,5,d,3.2,lemon,2020-01-07


In [22]:
# 例5：读取csv文件中的前两行
pd.read_csv('data/my_csv.csv',nrows=2)

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2


注：读取txt文件时，经常会遇到分隔符为非空格的情况，此时使用read_table()函数时需要指定分割符，参数为sep

In [23]:
#例：读取以“||||”为分隔符的txt文件
pd.read_table('data/my_table_special_sep.txt')



Unnamed: 0,col1 |||| col2
0,TS |||| This is an apple.
1,GQ |||| My name is Bob.
2,WT |||| Well done!
3,PT |||| May I help you?


In [24]:
pd.read_table('data/my_table_special_sep.txt',sep='\|\|\|\|')

  pd.read_table('data/my_table_special_sep.txt',sep='\|\|\|\|')


Unnamed: 0,col1,col2
0,TS,This is an apple.
1,GQ,My name is Bob.
2,WT,Well done!
3,PT,May I help you?


In [25]:
#如果不想显示一堆提示，则需要指定参数engine='python'
pd.read_table('data/my_table_special_sep.txt',sep='\|\|\|\|',engine='python')

Unnamed: 0,col1,col2
0,TS,This is an apple.
1,GQ,My name is Bob.
2,WT,Well done!
3,PT,May I help you?


2. 数据写入

可以使用to_csv()和to_excel()函数将数据保存到指定路径下的文件中。


In [7]:
df_csv.to_csv('data/my_csv_saved.csv',index=False)
# 默认情况下，pandas会将index列的值也输出到文件中，如果不想输出index的值，则只需要将index设为False即可。
#df_csv.to_csv('data/my_csv_saved.csv',index=False)
# df_excel.to_excel('data/my_excel_saved.xlsx',index=False)

In [8]:

# pandas中没有to_table()函数，但是to_csv()函数可以将数据保存为txt文件，并且允许自定义分割符。
df_csv.to_csv('data/my_txt_saved.txt',sep='#',index=False)

#### 二、基本数据结构

pandas有两种基本的数据结构，分别是存储一维值属性value的Series和存储二维值属性values的DataFrame。

pandas中的大多数数据处理操作基于他们进行。

1. Series结构：

Series对象中包含4个重要的组成部分，分别是序列的值data、索引index、存储类型dtype和序列的名字name.

其中，索引index也可以指定名字。



In [9]:
#构造Series对象
s=pd.Series(data=[100,'a',{'dic1':5}],
            index=pd.Index(['id1','id2','id3'],name='my_idx'),
            dtype='object', #dtype还有int、float、string、category等。object代表是一种混合类型。
            name='my_name')
s

my_idx
id1            100
id2              a
id3    {'dic1': 5}
Name: my_name, dtype: object

In [10]:
#可以通过“.”来访问这些属性内容
s.values
# s.index
# s.dtype
# s.name

array([100, 'a', {'dic1': 5}], dtype=object)

In [39]:
#可以利用.shape获得Series的长度
s.shape

(3,)

2. DataFrame

DataFrame在Series的基础上增加了列索引，可以把它理解为将一组具有公共索引的Series拼接而得到的数据结构。

一个DataFrame可以由二维的data与行列索引来构造。


In [11]:
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
df = pd.DataFrame(data = data,
                  index = ['row_%d'%i for i in range(3)],#每一行的索引值
                  columns=['col_0', 'col_1', 'col_2'])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


但一般而言，更多的时候会采用从列索引名到数据的映射来构造数据框，同时再加上行索引：

In [9]:
df = pd.DataFrame(data = {'col_0': [1,2,3],
                          'col_1':list('abc'),
                          'col_2': [1.2, 2.2, 3.2]},
                  index = ['row_%d'%i for i in range(3)])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


由于这种映射关系，在`DataFrame`中可以用`[col_name]`与`[col_list]`来取出相应的列与由多个列组成的表，结果分别为`Series`和`DataFrame`：

In [2080]:
df['col_0']

row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

In [2081]:
df[['col_0','col_1']]

Unnamed: 0,col_0,col_1
row_0,1,a
row_1,2,b
row_2,3,c


可以使用to_frame()函数将Series转化为DataFrame

In [2082]:
df['col_0'].to_frame()

Unnamed: 0,col_0
row_0,1
row_1,2
row_2,3


与`Series`类似，在数据框中同样可以取出相应的属性：

In [2083]:
df.values

array([[1, 'a', 1.2],
       [2, 'b', 2.2],
       [3, 'c', 3.2]], dtype=object)

In [2084]:
df.index

Index(['row_0', 'row_1', 'row_2'], dtype='object')

In [2085]:
df.columns

Index(['col_0', 'col_1', 'col_2'], dtype='object')

In [2086]:
df.dtypes

col_0      int64
col_1     object
col_2    float64
dtype: object

In [2087]:
df.shape

(3, 3)

可以通过.T把DataFrame的行列互换，即转置。

In [2088]:
df.T

Unnamed: 0,row_0,row_1,row_2
col_0,1,2,3
col_1,a,b,c
col_2,1.2,2.2,3.2


增加或修改列数据时，可以直接使用df[col_name]=***的方式

In [12]:
df['col_0']=df['col_0'].values[::-1]
df

Unnamed: 0,col_0,col_1,col_2
row_0,3,a,1.2
row_1,2,b,2.2
row_2,1,c,3.2


In [14]:
df['col_3']=[11,22,22]
df

Unnamed: 0,col_0,col_1,col_2,col_3
row_0,3,a,1.2,11
row_1,2,b,2.2,22
row_2,1,c,3.2,22


In [2090]:
df['col_2']=df['col_2']*2
df

Unnamed: 0,col_0,col_1,col_2
row_0,3,a,2.4
row_1,2,b,4.4
row_2,1,c,6.4


删除一列时，使用drop函数

In [16]:
df.drop(['col_2'],axis=1) #axis=1是为删除列，axis=0时为删除行。axis参数不可省略。如果要删除行，则第一个元素需要指定要删除的行索引

Unnamed: 0,col_0,col_1
row_0,1,a
row_1,2,b
row_2,3,c


#### 三、常用基本函数

为了进行举例说明，在接下来的部分将会使用一份`learn_pandas.csv`的虚拟数据集，它记录了四所学校学生的体测个人信息。

In [15]:
df = pd.read_csv('data/learn_pandas.csv')
df.columns

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
       'Test_Number', 'Test_Date', 'Time_Record'],
      dtype='object')

上述列名依次代表学校、年级、姓名、性别、身高、体重、是否为转系生、体测场次、测试时间、1000米成绩。我们只是用前七列数据

In [16]:
df=df[df.columns[:7]]

#等价于df=df[['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer']]
df

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N
3,Fudan University,Sophomore,Xiaojuan Sun,Female,,41.0,N
4,Fudan University,Sophomore,Gaojuan You,Male,174.0,74.0,N
...,...,...,...,...,...,...,...
195,Fudan University,Junior,Xiaojuan Sun,Female,153.9,46.0,N
196,Tsinghua University,Senior,Li Zhao,Female,160.9,50.0,N
197,Shanghai Jiao Tong University,Senior,Chengqiang Chu,Female,153.9,45.0,N
198,Shanghai Jiao Tong University,Senior,Chengmei Shen,Male,175.3,71.0,N


##### 1.汇总函数

当数据量比较大时，需要获得其中的部分信息。当想查看前几行和后几行时，可以使用head()和tail()函数，表示返回表中的前n行和后n行，n默认为5

In [2094]:
df.head()

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N
3,Fudan University,Sophomore,Xiaojuan Sun,Female,,41.0,N
4,Fudan University,Sophomore,Gaojuan You,Male,174.0,74.0,N


In [2095]:
df.tail()

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
195,Fudan University,Junior,Xiaojuan Sun,Female,153.9,46.0,N
196,Tsinghua University,Senior,Li Zhao,Female,160.9,50.0,N
197,Shanghai Jiao Tong University,Senior,Chengqiang Chu,Female,153.9,45.0,N
198,Shanghai Jiao Tong University,Senior,Chengmei Shen,Male,175.3,71.0,N
199,Tsinghua University,Sophomore,Chunpeng Lv,Male,155.7,51.0,N


In [2096]:
df.head(10)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N
3,Fudan University,Sophomore,Xiaojuan Sun,Female,,41.0,N
4,Fudan University,Sophomore,Gaojuan You,Male,174.0,74.0,N
5,Tsinghua University,Freshman,Xiaoli Qian,Female,158.0,51.0,N
6,Shanghai Jiao Tong University,Freshman,Qiang Chu,Female,162.5,52.0,N
7,Tsinghua University,Junior,Gaoqiang Qian,Female,161.9,50.0,N
8,Tsinghua University,Freshman,Changli Zhang,Female,163.0,48.0,N
9,Peking University,Junior,Juan Xu,Female,164.8,,N


如果想获得表的信息概况，可以使用info()函数，如果想获得表中数值列对应的主要统计量，使用describe()函数

In [2097]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   School    200 non-null    object 
 1   Grade     200 non-null    object 
 2   Name      200 non-null    object 
 3   Gender    200 non-null    object 
 4   Height    183 non-null    float64
 5   Weight    189 non-null    float64
 6   Transfer  188 non-null    object 
dtypes: float64(2), object(5)
memory usage: 11.1+ KB


In [2098]:
df.describe()

Unnamed: 0,Height,Weight
count,183.0,189.0
mean,163.218033,55.015873
std,8.608879,12.824294
min,145.4,34.0
25%,157.15,46.0
50%,161.9,51.0
75%,167.5,65.0
max,193.9,89.0


##### 2. 统计函数

最常见的统计函数包括sum()、mean()、median()、var()、std()、max()和min()。以身高为例计算平均值和最大值。

In [2099]:
df_demo=df[['Height','Weight']]
df_demo.mean()

Height    163.218033
Weight     55.015873
dtype: float64

In [2100]:
df_demo.max()

Height    193.9
Weight     89.0
dtype: float64

此外，还有分位数函数quantile(),非缺失值个数count()，最大值对应的索引

In [2101]:
df_demo.quantile(0.75)

Height    167.5
Weight     65.0
Name: 0.75, dtype: float64

In [2102]:
df_demo.count()

Height    183
Weight    189
dtype: int64

In [2103]:
df_demo.idxmax()

Height    193
Weight      2
dtype: int64

##### 3. 唯一值函数
Pandas中有一些函数和数据中元素出现的频次相关，对Series使用unique()和nunique()可以分别得到其唯一值组成的列表和唯一值的个数

In [2104]:
df['School'].unique()

array(['Shanghai Jiao Tong University', 'Peking University',
       'Fudan University', 'Tsinghua University'], dtype=object)

In [2105]:
df['School'].nunique()

4

通过value_counnts()可以得到序列中每个值出现的次数。

In [2106]:
df['School'].value_counts()

Tsinghua University              69
Shanghai Jiao Tong University    57
Fudan University                 40
Peking University                34
Name: School, dtype: int64

当设定normalize 为True时会进行归一化处理

In [2107]:
df['School'].value_counts(normalize=True)

Tsinghua University              0.345
Shanghai Jiao Tong University    0.285
Fudan University                 0.200
Peking University                0.170
Name: School, dtype: float64

如果想要观察多个列组合的唯一值，可以使用drop_duplicates()函数

In [43]:
df_demo=df[['Gender','Transfer','Name']]
df_demo
df_demo.drop_duplicates(['Gender','Transfer'])

#注意：默认保留每个组合第一次出现的行。
#也可以通过keep关键参数指定保留哪一行，值为"first"表示保留第一次出现所在的行，"last"表示保留最后一次出现的行。
#如果值为False，则表示把所有组合重复的所在行删除。

Unnamed: 0,Gender,Transfer,Name
0,Female,N,Gaopeng Yang
1,Male,N,Changqiang You
12,Female,,Peng You
21,Male,,Xiaopeng Shen
36,Male,Y,Xiaojuan Qin
43,Female,Y,Gaoli Feng


In [2109]:
df_demo=df[['Gender','Transfer','Name']]
df_demo.drop_duplicates(['Gender','Transfer'],keep='last')

Unnamed: 0,Gender,Transfer,Name
147,Male,,Juan You
150,Male,Y,Chengpeng You
169,Female,Y,Chengquan Qin
194,Female,,Yanmei Qian
197,Female,N,Chengqiang Chu
199,Male,N,Chunpeng Lv


In [2110]:
df_demo=df[['Gender','Transfer','Name']]
df_demo
df_demo.drop_duplicates(['Name','Transfer'],keep=False).head() 
# #keep指定为False意味着保留标签或标签组合中只出现过一次的行。

Unnamed: 0,Gender,Transfer,Name
0,Female,N,Gaopeng Yang
1,Male,N,Changqiang You
4,Male,N,Gaojuan You
5,Female,N,Xiaoli Qian
7,Female,N,Gaoqiang Qian


In [2111]:
#也可以在Series上使用drop_duplicates()
df['School'].drop_duplicates()

0    Shanghai Jiao Tong University
1                Peking University
3                 Fudan University
5              Tsinghua University
Name: School, dtype: object

与drop_duplicates()功能类似的函数duplicated()，但是该函数返回关于元素是否唯一的布尔列表，把重复元素设为True，否则为False。

In [2112]:
df_demo.duplicated(['Gender','Transfer'])

0      False
1      False
2       True
3       True
4       True
       ...  
195     True
196     True
197     True
198     True
199     True
Length: 200, dtype: bool

In [2113]:
df['School'].duplicated()

0      False
1      False
2       True
3      False
4       True
       ...  
195     True
196     True
197     True
198     True
199     True
Name: School, Length: 200, dtype: bool

##### 4. 替换函数

一般而言，替换操作是针对某一个列进行的，因此下面的例子都以`Series`举例。`pandas`中的替换函数可以归纳为三类：映射替换、逻辑替换、数值替换。

a) 映射替换: 包含`replace`方法、`str.replace`方法以及`cat.codes`方法，此处介绍`replace`的用法。

在`replace`中，可以通过字典构造，或者传入两个列表来进行替换：

In [2114]:
df['Gender'].replace({'Female':0,'Male':1})

0      0
1      1
2      1
3      0
4      1
      ..
195    0
196    0
197    0
198    1
199    1
Name: Gender, Length: 200, dtype: int64

In [2115]:
df['Gender'].replace(['Female','Male'],[0,1])

0      0
1      1
2      1
3      0
4      1
      ..
195    0
196    0
197    0
198    1
199    1
Name: Gender, Length: 200, dtype: int64

replace()还可以进行一种特殊的方式替换，指定参数method为ffill时，用前一个最近的未被替换的值进行替换，参数method为bfill时，则用后面最近的未被替换的值进行替换。

In [17]:
s=pd.Series(['a',1,'b',2,1,1,'a'])
s.replace([1,2],method='bfill')

0    a
1    b
2    b
3    a
4    a
5    a
6    a
dtype: object

b)逻辑替换:包括where()和mask()两个函数，where()在传入条件为False的对应行进行替换，而mask在传入条件为True的对应航进行替换。

In [2120]:
s=pd.Series([-1,1.2345,10,-50])
s.where(s<0,100)

0     -1.0
1    100.0
2    100.0
3    -50.0
dtype: float64

In [2121]:
s.mask(s<0,100)

0    100.0000
1      1.2345
2     10.0000
3    100.0000
dtype: float64

当未指定替换值时，默认填充为NaN

In [2122]:
s.where(s<0)

0    -1.0
1     NaN
2     NaN
3   -50.0
dtype: float64

In [2123]:
s.mask(s<0)

0        NaN
1     1.2345
2    10.0000
3        NaN
dtype: float64

c) 数值替换:包含round()、abs()和clip().

round():按照给定精度四舍五入

abs():取绝对值

clip()：截断

In [2124]:
s=pd.Series([-1,1.2345,10,-50])
s.round(2)

0    -1.00
1     1.23
2    10.00
3   -50.00
dtype: float64

In [2125]:
s.abs()

0     1.0000
1     1.2345
2    10.0000
3    50.0000
dtype: float64

In [2126]:
s.clip(0,2) #两个数分别表示上下截断边界。

0    0.0000
1    1.2345
2    2.0000
3    0.0000
dtype: float64

##### 5. 排序函数
pandas中有两种排序函数，

值排序函数：sort_values()

索引排序函数:sort_index()

In [2128]:
df_demo=df[['Grade','Name','Height','Weight']]
df_demo

Unnamed: 0,Grade,Name,Height,Weight
0,Freshman,Gaopeng Yang,158.9,46.0
1,Freshman,Changqiang You,166.5,70.0
2,Senior,Mei Sun,188.9,89.0
3,Sophomore,Xiaojuan Sun,,41.0
4,Sophomore,Gaojuan You,174.0,74.0
...,...,...,...,...
195,Junior,Xiaojuan Sun,153.9,46.0
196,Senior,Li Zhao,160.9,50.0
197,Senior,Chengqiang Chu,153.9,45.0
198,Senior,Chengmei Shen,175.3,71.0


In [2130]:
df_demo.sort_values('Height').head()

Unnamed: 0,Grade,Name,Height,Weight
143,Junior,Xiaoli Chu,145.4,34.0
49,Senior,Gaomei Lv,147.3,34.0
120,Sophomore,Peng Han,147.8,34.0
30,Senior,Changli Lv,148.7,41.0
80,Sophomore,Changjuan You,150.5,40.0


In [2131]:
df_demo.sort_values('Height',ascending=False).head() #表示按照审稿降序排列

Unnamed: 0,Grade,Name,Height,Weight
193,Senior,Xiaoqiang Qin,193.9,79.0
2,Senior,Mei Sun,188.9,89.0
134,Senior,Gaoli Zhao,186.5,83.0
38,Freshman,Qiang Han,185.3,87.0
23,Senior,Qiang Zheng,183.9,87.0


In [2132]:
# 也可以对多个值进行排序，例如，在体重相同的情况下，对身高进行排序，并保持身高降序排列，体重升序排列。

df_demo.sort_values(['Weight','Height'],ascending=[True,False]).head()

Unnamed: 0,Grade,Name,Height,Weight
120,Sophomore,Peng Han,147.8,34.0
49,Senior,Gaomei Lv,147.3,34.0
143,Junior,Xiaoli Chu,145.4,34.0
139,Sophomore,Qiang Zhou,150.5,36.0
108,Freshman,Yanqiang Xu,152.4,38.0


In [2137]:
#按照索引进行排序时，需要事先确定好索引。可以使用set_index()函数设定那几列为索引。
#sort_index的用法和值排序方法完全一致，只不过元素的值在索引中，此时需要利用level参数指定索引层的名字或者层号
df_demo.set_index(['Grade','Name'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Freshman,Gaopeng Yang,158.9,46.0
Freshman,Changqiang You,166.5,70.0
Senior,Mei Sun,188.9,89.0
Sophomore,Xiaojuan Sun,,41.0
Sophomore,Gaojuan You,174.0,74.0
...,...,...,...
Junior,Xiaojuan Sun,153.9,46.0
Senior,Li Zhao,160.9,50.0
Senior,Chengqiang Chu,153.9,45.0
Senior,Chengmei Shen,175.3,71.0


In [2138]:
df_demo.set_index(['Grade','Name']).sort_index(level=['Grade','Name'],ascending=[True,False]).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Height,Weight
Grade,Name,Unnamed: 2_level_1,Unnamed: 3_level_1
Freshman,Yanquan Wang,163.5,55.0
Freshman,Yanqiang Xu,152.4,38.0
Freshman,Yanqiang Feng,162.3,51.0
Freshman,Yanpeng Lv,,65.0
Freshman,Yanli Zhang,165.1,52.0


##### 6. apply()函数

`apply`方法常用于`DataFrame`的行迭代或者列迭代，`apply`的参数往往是一个以序列为输入的函数。例如对于`mean()`，使用`apply`可以如下地写出：

In [2140]:
df_demo=df[['Height','Weight']]
def my_mean(x):
    re=x.mean()
    return re
df_demo.apply(my_mean)

Height    163.218033
Weight     55.015873
dtype: float64

对于简单的函数，可以使用Lam表达表达式是的书写更简洁，如下代码中的x就指代被调用的df_demo表中逐个输入的序列

In [2141]:
df_demo.apply(lambda x:x.mean())

Height    163.218033
Weight     55.015873
dtype: float64

如果指定axis=1，那么每次传入函数的是行元素组成的Series，例如：

In [2143]:
df_demo.apply(lambda x:x.mean(),axis=1).head()

0    102.45
1    118.25
2    138.95
3     41.00
4    124.00
dtype: float64

例：取得每一列中每个元素与该列平均值之差的绝对值大小的均值。例如[1,3,7,10]的均值为5.25，每个元素与这个均值之差的绝对值为[4.25,2.25,1.75,4.75],该序列的均值为3.25.

In [2144]:
df_demo.apply(lambda x:(x-x.mean()).abs().mean())

Height     6.707229
Weight    10.391870
dtype: float64

In [2145]:
df_demo.mad()

Height     6.707229
Weight    10.391870
dtype: float64

#### 课后练习

##### Ex1：口袋妖怪数据集
现有一份口袋妖怪的数据集，下面进行一些背景说明：

* `#`代表全国图鉴编号，不同行存在相同数字则表示为该妖怪的不同状态

* 妖怪具有单属性和双属性两种，对于单属性的妖怪，`Type 2`为缺失值
* `Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`分别代表种族值、体力、物攻、防御、特攻、特防、速度，其中种族值为后6项之和

1. 对`HP, Attack, Defense, Sp. Atk, Sp. Def, Speed`进行加总，验证是否为`Total`值。

2. 对于`#`重复的妖怪只保留第一条记录，解决以下问题：

* 求第一属性的种类数量和前三多数量对应的种类
* 求第一属性和第二属性的组合种类

3. 按照下述要求，构造`Series`：

* 取出物攻，超过120的替换为`high`，不足50的替换为`low`，否则设为`mid`
* 取出第一属性，分别用`replace`和`apply`替换所有字母为大写
* 求每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到`df`并从大到小排序

In [58]:
import pandas as pd
import numpy as np
df = pd.read_csv('data/pokemon.csv')
df.shape

(800, 11)

In [49]:
#1.按行加和，并验证是否等于Total值
df['Total2']=df[df.columns[5:-1]].sum(axis=1)
df.head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Total2
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,273
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,345
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,445
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,545
4,4,Charmander,Fire,,309,39,52,43,60,50,65,244


In [50]:
#问答2
# len(df['#'].value_counts())
df_tmp=df[['#','Type 1','Type 2']].drop_duplicates(['#']) #去重
num_type1=len(set(df_tmp['Type 1'].values))
df_tmp['Type 1'].value_counts()[:3]

df_tmp[['Type 1','Type 2']].drop_duplicates()

Unnamed: 0,Type 1,Type 2
0,Grass,Poison
4,Fire,
6,Fire,Flying
9,Water,
13,Bug,
...,...,...
773,Rock,Fairy
778,Ghost,Grass
790,Flying,Dragon
797,Psychic,Ghost


In [53]:

df['Attack'].where(df['Attack']>=120,'high').where(df['Attack']<=50,'low').where((df['Attack']>50) & (df['Attack']<120),'mid')

0      mid
1      low
2      low
3      low
4      low
      ... 
795    low
796    mid
797    low
798    mid
799    low
Name: Attack, Length: 800, dtype: object

In [56]:
df['Type 1'].replace({s:str.upper(s) for s in df['Type 1'].unique()})

df['Type 1'].apply(lambda x:str.upper(x))

0        GRASS
1        GRASS
2        GRASS
3        GRASS
4         FIRE
        ...   
795       ROCK
796       ROCK
797    PSYCHIC
798    PSYCHIC
799       FIRE
Name: Type 1, Length: 800, dtype: object

In [62]:
df['Deviation']=df[['HP','Attack','Defense','Sp. Atk','Sp. Def','Speed']].apply(lambda x:np.max((x-x.median()).abs()),1)
df.sort_values('Deviation',ascending=False).head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Deviation
230,213,Shuckle,Bug,Rock,505,20,10,230,10,230,5,215.0
121,113,Chansey,Normal,,450,250,5,5,35,105,50,207.5
261,242,Blissey,Normal,,540,255,10,10,75,135,55,190.0
333,306,AggronMega Aggron,Steel,,630,70,140,230,60,80,50,155.0
224,208,SteelixMega Steelix,Steel,Ground,610,75,125,230,55,95,30,145.0


Ex2: 汇总某课程的学生总评分数

在data/Ex/student_grade.csv中记录了某课程中每位学生学习情况，包含了学生编号、期中考试分数、期末考试分数、回答问题次数和缺勤次数。使用本节课介绍的函数完成以下任务：

1. 求出在缺勤次数最少的学生中回答问题次数最多的学生编号。

2. 按照如下规则计算每位学生的总评：a) 总评分数为百分之四十的期中考试成绩+百分之60的期末考试成绩；b)每回答一次问题，学生的总评分数加1分，单加分的总次数不得超过10次；c)每缺勤一次，学生的总评分数扣5分；d)当学生缺勤次数高于5次时，总评直接按0分计算；e)总评最高分为100分，最低分为0分。
3. 在表中新增一列“等级”，规定当学生总评低于60分时等级为不及格，总评不低于60分切低于80分时为及格，总评不低于80分且低于90分时为良好，总评不低于90分时为优秀，请统计每个等级的学生比例。

In [67]:
import pandas as pd
import numpy as np

df_s=pd.read_csv('data/Ex/student_grade.csv')
df_s

Unnamed: 0,Student_ID,Mid_Term_Grade,Final_Grade,Question_Answering_Times,Absence_Times
0,S001,84.0,69.0,0,0
1,S002,81.0,83.0,4,0
2,S003,83.0,64.0,1,10
3,S004,66.0,89.0,4,0
4,S005,95.0,45.0,4,0
...,...,...,...,...,...
195,S196,84.0,67.0,1,0
196,S197,77.0,78.0,0,2
197,S198,71.0,63.0,1,2
198,S199,78.0,85.0,0,0


In [68]:
df_s.sort_values(list(df_s.columns[-2:]),ascending=[False,True]).Student_ID

33     S034
149    S150
121    S122
141    S142
57     S058
       ... 
164    S165
196    S197
9      S010
79     S080
42     S043
Name: Student_ID, Length: 200, dtype: object

In [72]:
s=df_s['Mid_Term_Grade']*0.4+df_s['Final_Grade']*0.6
s+=df_s.Question_Answering_Times.clip(0,10)-5*df_s.Absence_Times
s=s.where(df_s.Absence_Times<=5,0).clip(0,100)
df_s['总评']=s

In [76]:
grade_dict={0:'不及格',1:'及格',2:'良好',3:'优秀'}
#(df_s['总评']>=90)*1
df_s['grade']=((df_s['总评']>=90)*1+(df_s['总评']>=80)*1+(df_s['总评']>=60)*1).replace(grade_dict)
df_s.head()

Unnamed: 0,Student_ID,Mid_Term_Grade,Final_Grade,Question_Answering_Times,Absence_Times,总评,grade
0,S001,84.0,69.0,0,0,75.0,及格
1,S002,81.0,83.0,4,0,86.2,良好
2,S003,83.0,64.0,1,10,0.0,不及格
3,S004,66.0,89.0,4,0,83.8,良好
4,S005,95.0,45.0,4,0,69.0,及格
