### 数据重塑

In [2]:
import pandas as pd
import numpy as np

#### 一、重塑层次化索引

* stack()函数：将数据的列“旋转”为行。
* unstack()函数：将数据的行“旋转”为列。

1、重塑单层次索引

In [2]:
df1 = pd.DataFrame({'A':['a0','a1','a2'],
                   'B':['b0','b1','b2']})
df1

Unnamed: 0,A,B
0,a0,b0
1,a1,b1
2,a2,b2


In [4]:
df2 = df1.stack()
df2

0  A    a0
   B    b0
1  A    a1
   B    b1
2  A    a2
   B    b2
dtype: object

In [5]:
df2.unstack()

Unnamed: 0,A,B
0,a0,b0
1,a1,b1
2,a2,b2


In [6]:
df1.unstack()

A  0    a0
   1    a1
   2    a2
B  0    b0
   1    b1
   2    b2
dtype: object

2、重塑多层次索引

In [7]:
df1 = pd.DataFrame(np.array([[20,15,45,23],[10,2,6,8]]),
                  index=['男生人数','女生人数'],
                  columns=[['一楼','一楼','二楼','二楼'],['A教室','B教室','A教室','B教室']])
df1

Unnamed: 0_level_0,一楼,一楼,二楼,二楼
Unnamed: 0_level_1,A教室,B教室,A教室,B教室
男生人数,20,15,45,23
女生人数,10,2,6,8


In [10]:
df2 = df1.stack()
df2

Unnamed: 0,Unnamed: 1,一楼,二楼
男生人数,A教室,20,45
男生人数,B教室,15,23
女生人数,A教室,10,6
女生人数,B教室,2,8


In [11]:
df2.stack()

男生人数  A教室  一楼    20
           二楼    45
      B教室  一楼    15
           二楼    23
女生人数  A教室  一楼    10
           二楼     6
      B教室  一楼     2
           二楼     8
dtype: int32

####  二、轴向旋转

In [16]:
df1 = pd.DataFrame({'商品名称':['华为P40','小米12','iphone11promax', 
                               '华为P40','小米12','iphone11promax'],
                   '销售日期':['2020.8.10',
                           '2020.8.10',
                           '2020.8.10',
                           '2020.8.18',
                           '2020.8.18',
                           '2020.8.18'],
                   '销售价格':[4399, 3999, 9999, 3899, 3199, 8999]})
df1

Unnamed: 0,商品名称,销售日期,销售价格
0,华为P40,2020.8.10,4399
1,小米12,2020.8.10,3999
2,iphone11promax,2020.8.10,9999
3,华为P40,2020.8.18,3899
4,小米12,2020.8.18,3199
5,iphone11promax,2020.8.18,8999


In [18]:
df2 = df1.pivot(index='销售日期',columns='商品名称',values='销售价格')

In [19]:
df2

商品名称,iphone11promax,华为P40,小米12
销售日期,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2020.8.10,9999,4399,3999
2020.8.18,8999,3899,3199


### 数据转换

#### 一、重命名轴索引

In [21]:
df1 = pd.DataFrame({'A':['a0','a1','a2'],
                   'B':['b0','b1','b2']})
df1

Unnamed: 0,A,B
0,a0,b0
1,a1,b1
2,a2,b2


In [22]:
df1.rename(columns={'A':'a','B':'b'})

Unnamed: 0,a,b
0,a0,b0
1,a1,b1
2,a2,b2


In [25]:
# inplace=True 直接在原始数据在更改
df1.rename(columns={'A':'a','B':'b'},inplace=True)

In [27]:
df1

Unnamed: 0,a,b
0,a0,b0
1,a1,b1
2,a2,b2


In [28]:
df2 = pd.DataFrame({'A':['a0','a1','a2'],
                   'B':['b0','b1','b2'],
                   'C':['c0','c1','c2'],
                   'D':['d0','d1','d2']})
df2

Unnamed: 0,A,B,C,D
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2


In [30]:
df2.rename(str.lower, axis='columns', inplace=True)
df2

Unnamed: 0,a,b,c,d
0,a0,b0,c0,d0
1,a1,b1,c1,d1
2,a2,b2,c2,d2


#### 二、离散化连续数据

In [3]:
ages = [20,22,4,15,27,21,37,31,61,45,89]
bins = [0,15,25,35,65,85,100]
# 默认区间为左开右闭。
cuts = pd.cut(ages,bins)
cuts

[(15, 25], (15, 25], (0, 15], (0, 15], (25, 35], ..., (35, 65], (25, 35], (35, 65], (35, 65], (85, 100]]
Length: 11
Categories (6, interval[int64]): [(0, 15] < (15, 25] < (25, 35] < (35, 65] < (65, 85] < (85, 100]]

In [5]:
# 传入right参数=False，表示设置左闭右开。
cuts = pd.cut(ages,bins,right=False)
cuts

[[15, 25), [15, 25), [0, 15), [15, 25), [25, 35), ..., [35, 65), [25, 35), [35, 65), [35, 65), [85, 100)]
Length: 11
Categories (6, interval[int64]): [[0, 15) < [15, 25) < [25, 35) < [35, 65) < [65, 85) < [85, 100)]

#### 三、哑变量（虚拟变量）

一般使用哑变量处理类别转换，其实就是将分类变量转换为哑变量矩阵，矩阵通常用0表示

In [10]:
df3 = pd.DataFrame({'职业':['学生','老师','司机','工人','公务员']})
df3

Unnamed: 0,职业
0,学生
1,老师
2,司机
3,工人
4,公务员


In [8]:
pd.get_dummies(df3)

Unnamed: 0,职业_公务员,职业_司机,职业_学生,职业_工人,职业_老师
0,0,0,1,0,0
1,0,0,0,0,1
2,0,1,0,0,0
3,0,0,0,1,0
4,1,0,0,0,0
