# pandas的优势
- 增强图标的可读性
- 便捷的数据处理能力
- 读取文件方便
- 封装了matplotlib， numpy的画图和计算

In [8]:
# 导包
import pandas as pd
import numpy as np

# 数据结构
## series (一维)

In [3]:
# 创建一
ser1 = pd.Series([1, 2, 3, 4, 5], index=[1, 2, 3, 4, 5])
ser1

1    1
2    2
3    3
4    4
5    5
dtype: int64

In [4]:
# 创建二
ser2 = pd.Series({'red': 1, 'blue': 2, 'green': 3})
ser2

red      1
blue     2
green    3
dtype: int64

In [5]:
# 属性
ser2.index

Index(['red', 'blue', 'green'], dtype='object')

In [6]:
# 属性
ser2.values

array([1, 2, 3])

## DataFrame（二维）

**创建**
- data：数据；np.array
- index：行索引, 默认0～n整型索引
- columns: 列索引, 默认0～n整型索引

pd.DataFrame(data=None, index=None, columns=None)

In [9]:
# 创建学生成绩表

# data : 40~100 分数之间， 10行5列数据
score = np.random.randint(40, 100, (10, 5))

# index : 对应上面说数据函数（每行代表一个学生呢）
index = [f'学生{value}' for value in range(score.shape[0])]

# columns : 固定语数外史地
columns = ['语文', '数学', '英语', '历史', '地理']

# 创建DataFrame
df = pd.DataFrame(score, index, columns)
df

Unnamed: 0,语文,数学,英语,历史,地理
学生0,52,74,58,64,75
学生1,52,93,84,71,50
学生2,65,96,64,85,73
学生3,87,42,61,78,67
学生4,45,44,45,93,90
学生5,49,88,81,94,41
学生6,85,95,78,86,78
学生7,53,55,78,43,79
学生8,41,88,81,74,91
学生9,87,70,47,44,55


**属性**
- shape 获取维度
- index 获取行索引
- columns 获取列索引
- values 获取数据
- T 转置
- head(n) 获取前n行，默认5
- tail(n) 获取后n行，默认5

In [11]:
# 属性

# shape维度获取
print(df.shape)

# index
print(df.index)

# columns
print(df.columns)

# values
print(df.values)

(10, 5)
Index(['学生0', '学生1', '学生2', '学生3', '学生4', '学生5', '学生6', '学生7', '学生8', '学生9'], dtype='object')
Index(['语文', '数学', '英语', '历史', '地理'], dtype='object')
[[52 74 58 64 75]
 [52 93 84 71 50]
 [65 96 64 85 73]
 [87 42 61 78 67]
 [45 44 45 93 90]
 [49 88 81 94 41]
 [85 95 78 86 78]
 [53 55 78 43 79]
 [41 88 81 74 91]
 [87 70 47 44 55]]


In [12]:
# 转置
df

Unnamed: 0,语文,数学,英语,历史,地理
学生0,52,74,58,64,75
学生1,52,93,84,71,50
学生2,65,96,64,85,73
学生3,87,42,61,78,67
学生4,45,44,45,93,90
学生5,49,88,81,94,41
学生6,85,95,78,86,78
学生7,53,55,78,43,79
学生8,41,88,81,74,91
学生9,87,70,47,44,55


In [13]:
df.T

Unnamed: 0,学生0,学生1,学生2,学生3,学生4,学生5,学生6,学生7,学生8,学生9
语文,52,52,65,87,45,49,85,53,41,87
数学,74,93,96,42,44,88,95,55,88,70
英语,58,84,64,61,45,81,78,78,81,47
历史,64,71,85,78,93,94,86,43,74,44
地理,75,50,73,67,90,41,78,79,91,55


In [15]:
# head tail 获取前几行、后几行
df.head(3)

Unnamed: 0,语文,数学,英语,历史,地理
学生0,52,74,58,64,75
学生1,52,93,84,71,50
学生2,65,96,64,85,73


In [16]:
df.tail(3)

Unnamed: 0,语文,数学,英语,历史,地理
学生7,53,55,78,43,79
学生8,41,88,81,74,91
学生9,87,70,47,44,55


### 索引设置

### 1、修改行列索引
**不能单个修改，必须全部修改**

In [17]:
# 整体修改行索引
new_index = [f'同学-{i}' for i in range(score.shape[0])]
new_index

['同学-0',
 '同学-1',
 '同学-2',
 '同学-3',
 '同学-4',
 '同学-5',
 '同学-6',
 '同学-7',
 '同学-8',
 '同学-9']

In [18]:
df.index = new_index
df

Unnamed: 0,语文,数学,英语,历史,地理
同学-0,52,74,58,64,75
同学-1,52,93,84,71,50
同学-2,65,96,64,85,73
同学-3,87,42,61,78,67
同学-4,45,44,45,93,90
同学-5,49,88,81,94,41
同学-6,85,95,78,86,78
同学-7,53,55,78,43,79
同学-8,41,88,81,74,91
同学-9,87,70,47,44,55


### 2、重设索引
reset_index(drop=False)
drop: 是否删除原来索引，默认False

In [23]:
# 重设索引
df.reset_index()

Unnamed: 0,index,语文,数学,英语,历史,地理
0,同学-0,52,74,58,64,75
1,同学-1,52,93,84,71,50
2,同学-2,65,96,64,85,73
3,同学-3,87,42,61,78,67
4,同学-4,45,44,45,93,90
5,同学-5,49,88,81,94,41
6,同学-6,85,95,78,86,78
7,同学-7,53,55,78,43,79
8,同学-8,41,88,81,74,91
9,同学-9,87,70,47,44,55


In [22]:
# 删除原索引
df.reset_index(drop=True)

Unnamed: 0,语文,数学,英语,历史,地理
0,52,74,58,64,75
1,52,93,84,71,50
2,65,96,64,85,73
3,87,42,61,78,67
4,45,44,45,93,90
5,49,88,81,94,41
6,85,95,78,86,78
7,53,55,78,43,79
8,41,88,81,74,91
9,87,70,47,44,55


### 3、以某列值设为新的索引
- set_index(keys, drop=True)
- keys: 列索引名或列索引名称的列表
- drop: 当作新的索引，删除原来的列，默认True

In [28]:
# 创建数据
data_df = pd.DataFrame({
    'month': [1, 4, 7, 10],
    'year': [2012, 2014, 2013, 2014],
    'sale': [55, 40, 84, 31]
})
data_df

Unnamed: 0,month,year,sale
0,1,2012,55
1,4,2014,40
2,7,2013,84
3,10,2014,31


In [29]:
# 以month设置为新索引
data_df.set_index('month')

Unnamed: 0_level_0,year,sale
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,2012,55
4,2014,40
7,2013,84
10,2014,31


In [32]:
# 设置多个索引
data_df.set_index(['year', 'month'])
# 多个索引是具有MultiIndex的DataFrame

Unnamed: 0_level_0,Unnamed: 1_level_0,sale
year,month,Unnamed: 2_level_1
2012,1,55
2014,4,40
2013,7,84
2014,10,31


## MultiIndex与Panel (三维)