### Pandas索引操作

In [1]:
import numpy as np
import pandas as pd

#### 索引对象

In [2]:
ser1 = pd.Series(range(5), index=['a', 'b', 'c', 'd', 'e'])

In [3]:
ser1

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [4]:
# 获取ser1的索引对象
ser1_index = ser1.index
ser1_index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [5]:
# 索引对象具有不可变特征
# ser1_index['c'] = 'cc'

In [6]:
ser2 = pd.Series(range(3), index=['a', 'b', 'c'])
ser2

a    0
b    1
c    2
dtype: int64

In [7]:
ser3 = pd.Series(['a', 'b', 'c'], index=ser2.index)
ser3

a    a
b    b
c    c
dtype: object

In [8]:
ser2.index is ser3.index

True

#### 重置索引

In [9]:
ser4 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser4

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [10]:
# 重置索引：reindex()函数
ser5 = ser4.reindex(['e', 'd', 'c', 'b', 'a'])
ser4

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [11]:
ser5

e    5
d    4
c    3
b    2
a    1
dtype: int64

In [12]:
# 缺失数据，默认填充为NaN
ser6 = ser4.reindex(['a', 'b', 'c', 'd', 'e', 'f'])
ser6

a    1.0
b    2.0
c    3.0
d    4.0
e    5.0
f    NaN
dtype: float64

In [13]:
# 如果不想默认填充NaN，则可以用 fill_value 参数来指定缺失值。
ser7 = ser4.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g'], fill_value='0')
ser7

a    1
b    2
c    3
d    4
e    5
f    0
g    0
dtype: object

In [14]:
# fill_value 参数会为所有的缺失数据都填充为同一个值，如果希望填充的是相邻的值，
# 则可以使用 method 参数
ser1 = pd.Series([1, 3, 5, 7], index=[0, 2, 4, 6])
ser1

0    1
2    3
4    5
6    7
dtype: int64

In [15]:
# 重置索引，ffill函数：向前填充值
ser2 = ser1.reindex(range(6), method="ffill")
ser2

0    1
1    1
2    3
3    3
4    5
5    5
dtype: int64

In [16]:
# 重置索引，bfill函数：向后填充值
ser3 = ser1.reindex(range(6), method="bfill")
ser3

0    1
1    3
2    3
3    5
4    5
5    7
dtype: int64

#### 索引操作

##### Series索引操作

In [17]:
ser1 = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
ser1

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [18]:
# 通过索引名称获取数据
ser1['c']

3

In [19]:
# 通过索引位置获取数据（索引位置默认从0开始）
ser1[2]

3

In [20]:
# 通过索引名称进行切片
ser1['c':'e']

c    3
d    4
e    5
dtype: int64

In [21]:
# 通过索引位置进行切片(不包括结束位置)
ser1[2:4]

c    3
d    4
dtype: int64

In [22]:
# 通过不连续的位置索引获取数据
ser1[[0, 2, 4]]

a    1
c    3
e    5
dtype: int64

In [23]:
# 通过不连续的索引名称获取数据
ser1[['a', 'c', 'e']]

a    1
c    3
e    5
dtype: int64

In [24]:
# 创建一个布尔型的 Series 对象
ser1 > 2

a    False
b    False
c     True
d     True
e     True
dtype: bool

In [25]:
# 获取大于2的数据
ser1[ser1>2]

c    3
d    4
e    5
dtype: int64

#### DataFrame索引操作

In [26]:
arr = np.arange(12).reshape(3, 4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [27]:
df1 = pd.DataFrame(arr, columns=['a', 'b', 'c', 'd'])
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [28]:
df1['c']

0     2
1     6
2    10
Name: c, dtype: int64

In [29]:
# DataFrame中每列的数据都是一个Series对象
type(df1['c'])

pandas.core.series.Series

In [30]:
# 获取不连续的Series对象
df1[['b', 'c']]

Unnamed: 0,b,c
0,1,2
1,5,6
2,9,10


In [31]:
# 获取第0~1行数据
df1[:2]

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7


In [32]:
# 获取第1行数据，返回一个Series对象
df1.loc[1]

a    4
b    5
c    6
d    7
Name: 1, dtype: int64

In [33]:
# 先使用切片行通过索引获取第0~1行的数据，然后再通过不连续列索引获取第b、d列的数据
df1[:2][['b','d']]

Unnamed: 0,b,d
0,1,3
1,5,7


### Pandas算术运算和数据对齐

Pandas 执行算术运算时，先按照索引进行对齐，对齐后再进行相应的运算，如果没有对齐的位置会自动用NaN进行补齐。

In [34]:
ser1 = pd.Series(range(10, 13), index=range(3))
ser2 = pd.Series(range(20, 25), index=range(5))

In [35]:
ser1

0    10
1    11
2    12
dtype: int64

In [36]:
ser2

0    20
1    21
2    22
3    23
4    24
dtype: int64

In [37]:
ser1 + ser2

0    30.0
1    32.0
2    34.0
3     NaN
4     NaN
dtype: float64

In [38]:
# 指定默认的值填充没有对齐的位置
ser1.add(ser2, fill_value=0)


0    30.0
1    32.0
2    34.0
3    23.0
4    24.0
dtype: float64

### Pandas数据排序

#### 按索引排序

In [39]:
ser1 = pd.Series(range(10, 15), index=[5, 3, 1, 3, 2])
ser1

5    10
3    11
1    12
3    13
2    14
dtype: int64

In [40]:
# 默认从小到大排序
ser1.sort_index()

1    12
2    14
3    11
3    13
5    10
dtype: int64

In [41]:
# 指定从大到小排序
ser1.sort_index(ascending=False)

5    10
3    11
3    13
2    14
1    12
dtype: int64

In [42]:
# 对 DataFrame 对象按照索引进行排序
df1 = pd.DataFrame(np.arange(9).reshape(3, 3), index=[4, 3, 5])
df1

Unnamed: 0,0,1,2
4,0,1,2
3,3,4,5
5,6,7,8


In [43]:
# 默认按照行索引升序排列
df1.sort_index()

Unnamed: 0,0,1,2
3,3,4,5
4,0,1,2
5,6,7,8


In [44]:
# 默认按照行索引降序排列
df1.sort_index(ascending=False)

Unnamed: 0,0,1,2
5,6,7,8
4,0,1,2
3,3,4,5


In [45]:
# 指定按照列索引降序排序
df1.sort_index(axis=1, ascending=False)

Unnamed: 0,2,1,0
4,2,1,0
3,5,4,3
5,8,7,6


#### 按照值排序

In [46]:
ser2 = pd.Series([4, np.nan, 3,np.nan, 5])
ser2

0    4.0
1    NaN
2    3.0
3    NaN
4    5.0
dtype: float64

In [47]:
# 默认按照值进行升序排列，所有缺失值默认都会放到末尾
ser2.sort_values()

2    3.0
0    4.0
4    5.0
1    NaN
3    NaN
dtype: float64

In [48]:
# 对 DataFrame 对象按照值进行排序
df2 = pd.DataFrame([[0.4, -0.1, -0.3, 0.0], 
                    [0.2, 0.5, -0.1, -0.7], 
                    [0.3, -0.4, 0.6, -0.2]])
df2

Unnamed: 0,0,1,2,3
0,0.4,-0.1,-0.3,0.0
1,0.2,0.5,-0.1,-0.7
2,0.3,-0.4,0.6,-0.2


In [49]:
# 对列索引为2的数据进行倒序排列
df2.sort_values(by=2, ascending=False)

Unnamed: 0,0,1,2,3
2,0.3,-0.4,0.6,-0.2
1,0.2,0.5,-0.1,-0.7
0,0.4,-0.1,-0.3,0.0


### 统计计算

In [50]:
df1 = pd.DataFrame(np.arange(12).reshape(3, 4), columns=['a', 'b', 'c', 'd'])
df1

Unnamed: 0,a,b,c,d
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [51]:
# 计算每列的和
df1.sum()

a    12
b    15
c    18
d    21
dtype: int64

In [52]:
# 计算每列的最大值
df1.max()

a     8
b     9
c    10
d    11
dtype: int64

In [53]:
# 计算每列的最小值
df1.min()

a    0
b    1
c    2
d    3
dtype: int64

In [54]:
# 计算每行的最小值
df1.min(axis=1)

0    0
1    4
2    8
dtype: int64

In [55]:
# 计算每行的最大值
df1.max(axis=1)

0     3
1     7
2    11
dtype: int64

In [56]:
# 统计描述：如果希望一次性输出多个统计指标，可以使用 describe 函数

df2 = pd.DataFrame([[12, 6, -11, 18],
                   [-1, 8, 45, 67],
                   [6, 9, -23, -56]])
df2

Unnamed: 0,0,1,2,3
0,12,6,-11,18
1,-1,8,45,67
2,6,9,-23,-56


In [57]:
df2.describe()

Unnamed: 0,0,1,2,3
count,3.0,3.0,3.0,3.0
mean,5.666667,7.666667,3.666667,9.666667
std,6.506407,1.527525,36.295087,61.921994
min,-1.0,6.0,-23.0,-56.0
25%,2.5,7.0,-17.0,-19.0
50%,6.0,8.0,-11.0,18.0
75%,9.0,8.5,17.0,42.5
max,12.0,9.0,45.0,67.0


In [58]:
df2.describe?

### 层次化索引

层次化索引可以理解成为单层索引的延伸，即在一个轴方向上具有多层索引。

#### 多层行索引

In [59]:
# 方法一：使用数组方式
df1 = pd.DataFrame(np.random.randint(0, 151, size=(6, 3)), 
                   columns=['Js', 'Python', 'Go'],
                  index=[['张三', '张三', '李四', '李四', '王五', '王五'], 
                         ['期中', '期末', '期中', '期末', '期中', '期末']])
df1

Unnamed: 0,Unnamed: 1,Js,Python,Go
张三,期中,138,90,141
张三,期末,118,5,141
李四,期中,35,97,99
李四,期末,53,45,61
王五,期中,115,139,112
王五,期末,80,73,101


In [60]:
# 方法二：from_product 方式，最简单（推荐使用）
df2 = pd.DataFrame(np.random.randint(0, 151, size=(6, 3)), 
                   columns=['Js', 'Python', 'Go'],
                  index=pd.MultiIndex.from_product([['张三', '李四', '王五'], 
                                                    ['期中', '期末']]))
df2

Unnamed: 0,Unnamed: 1,Js,Python,Go
张三,期中,100,5,91
张三,期末,41,86,9
李四,期中,85,43,5
李四,期末,104,59,42
王五,期中,32,135,117
王五,期末,148,95,27


In [61]:
pd.MultiIndex?

#### 多层列索引

In [62]:
df3 = pd.DataFrame(np.random.randint(0, 151, size=(3, 6)), 
                   index=['张三', '李四', '王五'],
                  columns=pd.MultiIndex.from_product([['Js', 'Python', 'Go'], 
                                                    ['期中', '期末']]))
df3

Unnamed: 0_level_0,Js,Js,Python,Python,Go,Go
Unnamed: 0_level_1,期中,期末,期中,期末,期中,期末
张三,10,120,75,105,120,24
李四,132,138,128,51,13,111
王五,97,88,85,66,42,80


#### 层次化索引的操作

In [63]:
# 1、选取子集的操作
# 假设有三种分类的书籍：小说、散文、传记
ser1 = pd.Series([30, 20, 50, 103, 168, 34, 200, 56, 78],
                index=[['小说', '小说', '小说', 
                        '散文', '散文', '散文', 
                        '传记', '传记', '传记'], 
                       ['A1', 'A2', 'A3', 
                        'B1', 'B2', 'B3',
                        'c1', 'c2', 'c3'
                       ]])
ser1

小说  A1     30
    A2     20
    A3     50
散文  B1    103
    B2    168
    B3     34
传记  c1    200
    c2     56
    c3     78
dtype: int64

In [64]:
# 获取所有外层索引为小说的子集
ser1['小说']

A1    30
A2    20
A3    50
dtype: int64

In [65]:
# 2、交换分层顺序
# 交换内外两层位置
ser1.swaplevel()

A1  小说     30
A2  小说     20
A3  小说     50
B1  散文    103
B2  散文    168
B3  散文     34
c1  传记    200
c2  传记     56
c3  传记     78
dtype: int64

In [66]:
# 3、排序分层
dict1 = {
            'word': ['a', 'b', 'e', 'c', 'f', 'k', 'd', 's', 'l'],
            'number': [1, 2, 4, 3, 5, 2, 6, 2, 3]
        }
df1 = pd.DataFrame(dict1, index=[['A', 'A', 'A', 'C', 'C', 'C', 'B', 'B', 'B'],
                                 [1, 4, 2, 1, 7, 8, 2, 9, 3]
                                ])
df1

Unnamed: 0,Unnamed: 1,word,number
A,1,a,1
A,4,b,2
A,2,e,4
C,1,c,3
C,7,f,5
C,8,k,2
B,2,d,6
B,9,s,2
B,3,l,3


In [67]:
# 外层索引默认按照字母表顺序进行排列，内层索引按照从小到大的顺序进行排列。
df1.sort_index()

Unnamed: 0,Unnamed: 1,word,number
A,1,a,1
A,2,e,4
A,4,b,2
B,2,d,6
B,3,l,3
B,9,s,2
C,1,c,3
C,7,f,5
C,8,k,2


In [68]:
# 按照 number 列降序排列
df1.sort_values(by=['number'], ascending=False)

Unnamed: 0,Unnamed: 1,word,number
B,2,d,6
C,7,f,5
A,2,e,4
C,1,c,3
B,3,l,3
A,4,b,2
C,8,k,2
B,9,s,2
A,1,a,1


### Pandas读写数据操作

#### 读写文本文件（csv、txt）

In [69]:
# 1、通过 to_csv() 方法将数据写入 csv 文件
df = pd.DataFrame({'col1': [1, 2, 3], 'col2': [4, 5, 6]})
df.to_csv('./data/test.csv', index=False)
print('写入完毕！')

写入完毕！


In [70]:
# 2、通过 read_csv() 方法将读取 csv 文件的数据
csv_file = open('./data/test.csv')
file_data = pd.read_csv(csv_file)
file_data

Unnamed: 0,col1,col2
0,1,4
1,2,5
2,3,6


In [71]:
txt_file = open('./data/test.txt')
file_data = pd.read_table(txt_file)
file_data

Unnamed: 0,col1
0,1
1,2
2,3


#### 读写 Excel 文件 （.xls、.xlsx）

In [72]:
# 1、通过 to_excel() 方法将数据写入 Excel 文件
df = pd.DataFrame({'col1': ['我', '爱'], 'col2': ['中', '北']})
df.to_excel('./data/test.xls', encoding="utf-8", sheet_name="hello")
print('写入完毕！')

写入完毕！


In [73]:
df.to_excel?

In [74]:
# 2、通过 read_excel() 方法将读取 Excel 文件的数据
file_data = pd.read_excel('./data/test.xls')
file_data

Unnamed: 0.1,Unnamed: 0,col1,col2
0,0,我,中
1,1,爱,北


#### 读取 HTML 表格数据

In [75]:
# read_html()
import requests
html_response = requests.get('http://kaoshi.edu.sina.com.cn/college/majorlist')
# html_data.content

In [79]:
html_table_data = pd.read_html(html_response.content, encoding="utf-8")
html_table_data[1]

Unnamed: 0,0,1,2,3,4
0,专业名称,专业代码,专业大类,专业小类,操作
1,哲学类,0101,哲学,哲学类,开设院校 加入对比
2,哲学,010101,哲学,哲学类,开设院校 加入对比
3,逻辑学,010102,哲学,哲学类,开设院校 加入对比
4,宗教学,010103,哲学,哲学类,开设院校 加入对比
5,伦理学,010104,哲学,哲学类,开设院校 加入对比
6,经济学类,0201,经济学,经济学类,开设院校 加入对比
7,经济学,020101,经济学,经济学类,开设院校 加入对比
8,经济统计学,020102,经济学,经济学类,开设院校 加入对比
9,国民经济管理,020103,经济学,经济学类,开设院校 加入对比
