In [1]:
import pandas as pd

# 一列转为多列
- split方法，已确定拆分结果的列数
- 只将省份和城市拆分为新字段

In [3]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet1')
df.head()

Unnamed: 0,用户ID,收货地址
0,uid00160,广东省 深圳市 光明区 公明街道
1,uid00161,广东省 深圳市 光明区 公明街道
2,uid00162,广东省 深圳市 光明区 公明街道
3,uid00182,广东省 深圳市 宝安区 沙井街道
4,uid00188,广东省 深圳市 宝安区 石岩街道


In [9]:
tb = df['收货地址'].str.split(' ', expand=True)
df['省份'] = tb[0]
df['城市'] = tb[1]
# df['区域'] = tb[2]
df.head()

Unnamed: 0,用户ID,收货地址,省份,城市,区域
0,uid00160,广东省 深圳市 光明区 公明街道,广东省,深圳市,光明区
1,uid00161,广东省 深圳市 光明区 公明街道,广东省,深圳市,光明区
2,uid00162,广东省 深圳市 光明区 公明街道,广东省,深圳市,光明区
3,uid00182,广东省 深圳市 宝安区 沙井街道,广东省,深圳市,宝安区
4,uid00188,广东省 深圳市 宝安区 石岩街道,广东省,深圳市,宝安区


- 将拆分结果全部转为新字段

In [10]:
df[['省','市','区','街道']] = df['收货地址'].str.split(' ', expand=True)
df.head()

Unnamed: 0,用户ID,收货地址,省份,城市,区域,省,市,区,街道
0,uid00160,广东省 深圳市 光明区 公明街道,广东省,深圳市,光明区,广东省,深圳市,光明区,公明街道
1,uid00161,广东省 深圳市 光明区 公明街道,广东省,深圳市,光明区,广东省,深圳市,光明区,公明街道
2,uid00162,广东省 深圳市 光明区 公明街道,广东省,深圳市,光明区,广东省,深圳市,光明区,公明街道
3,uid00182,广东省 深圳市 宝安区 沙井街道,广东省,深圳市,宝安区,广东省,深圳市,宝安区,沙井街道
4,uid00188,广东省 深圳市 宝安区 石岩街道,广东省,深圳市,宝安区,广东省,深圳市,宝安区,石岩街道


# 一列转为多列
- split和join方法，不确定拆分结果的列数

In [11]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet2')
df.head()

Unnamed: 0,用户ID,商品信息
0,uid00160,香蕉，苹果，橘子
1,uid00161,芒果，西瓜
2,uid00162,橘子
3,uid00182,榴莲，火龙果，樱桃，苹果
4,uid00188,葡萄，草莓


In [16]:
# 先拆分商品信息, 再关联至原表
df_split = df['商品信息'].str.split('，', expand=True)
df_join = df.join(df_split)
df_join.head()

Unnamed: 0,用户ID,商品信息,0,1,2,3
0,uid00160,香蕉，苹果，橘子,香蕉,苹果,橘子,
1,uid00161,芒果，西瓜,芒果,西瓜,,
2,uid00162,橘子,橘子,,,
3,uid00182,榴莲，火龙果，樱桃，苹果,榴莲,火龙果,樱桃,苹果
4,uid00188,葡萄，草莓,葡萄,草莓,,


# 对元组/列表形式的字段进行拆分

In [17]:
df = pd.DataFrame({
    '订单编号': [1, 2, 3, 4],
    '数量和单价': [(1, 2),
              (3, 4),
              (5, 6),
              (7, 8)]})

In [20]:
df.dtypes
# split
# replace
# astype

订单编号      int64
数量和单价    object
数量        int64
单价        int64
dtype: object

In [19]:
df[['数量', '单价']] = df['数量和单价'].apply(pd.Series)
df.head()

Unnamed: 0,订单编号,数量和单价,数量,单价
0,1,"(1, 2)",1,2
1,2,"(3, 4)",3,4
2,3,"(5, 6)",5,6
3,4,"(7, 8)",7,8


# 列转为行

## stack方法
- 将除索引列外的字段转为最内层的行索引

In [29]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet3')
df.head()

Unnamed: 0,门店,手机,电脑
0,南山分店,235,450
1,宝安分店,313,181
2,福田分店,157,337


In [31]:
# pbi的逆透视
tb = df.set_index('门店')
tb = tb.stack().reset_index()
tb.columns = ['门店', '品类', '销量']
tb

Unnamed: 0,门店,品类,销量
0,南山分店,手机,235
1,南山分店,电脑,450
2,宝安分店,手机,313
3,宝安分店,电脑,181
4,福田分店,手机,157
5,福田分店,电脑,337


## melt方法
- 宽表转为长表

In [33]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet3')
df.head()

Unnamed: 0,门店,手机,电脑
0,南山分店,235,450
1,宝安分店,313,181
2,福田分店,157,337


In [35]:
pd.melt(
    frame=df,
    # 位置保持不变的字段
    id_vars='门店',
    # 转为行的字段
    value_vars=['手机', '电脑'],
    # 转为行后, 新字段的别名
    var_name='品类',
    # 值(指标)列的别名
    value_name='销量')

Unnamed: 0,门店,品类,销量
0,南山分店,手机,235
1,宝安分店,手机,313
2,福田分店,手机,157
3,南山分店,电脑,450
4,宝安分店,电脑,181
5,福田分店,电脑,337


# 行转为列

## unstack方法
- 将最内层的行索引转为字段

In [36]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet4')
df

Unnamed: 0,门店,品类,销量
0,南山分店,手机,235
1,南山分店,电脑,450
2,宝安分店,手机,313
3,宝安分店,电脑,181
4,福田分店,手机,157
5,福田分店,电脑,337


In [47]:
tb = df.set_index(['门店', '品类'])
tb = tb.unstack()
tb.columns = tb.columns.droplevel(0)
tb.columns.name = None
tb.reset_index()

Unnamed: 0,门店,手机,电脑
0,南山分店,235,450
1,宝安分店,313,181
2,福田分店,157,337


## pivot方法
- 透视列，没有聚合功能

In [49]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet4')
df

Unnamed: 0,门店,品类,销量
0,南山分店,手机,235
1,南山分店,电脑,450
2,宝安分店,手机,313
3,宝安分店,电脑,181
4,福田分店,手机,157
5,福田分店,电脑,337


In [53]:
tb = df.pivot(index='门店', columns='品类', values='销量')
tb.columns.name = None
tb.reset_index()

Unnamed: 0,门店,手机,电脑
0,南山分店,235,450
1,宝安分店,313,181
2,福田分店,157,337


# DataFrame转为字典

In [58]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet5')
df = df.set_index('用户ID')
df.to_dict()['用户姓名']

{'uid00160': '刘备',
 'uid00161': '关羽',
 'uid00162': '张飞',
 'uid00182': '赵云',
 'uid00188': '马超'}

# DataFrame转为列表

In [74]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet5')
df.values.tolist()

[['uid00160', '刘备'],
 ['uid00161', '关羽'],
 ['uid00162', '张飞'],
 ['uid00182', '赵云'],
 ['uid00188', '马超']]

# DataFrame转为元组

In [70]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet5')
# [tuple(x) for x in df.values]
# [('uid00160', '刘备'),
#  ('uid00161', '关羽'),
#  ('uid00162', '张飞'),
#  ('uid00182', '赵云'),
#  ('uid00188', '马超')]

tuple(tuple(x) for x in df.values)
# (('uid00160', '刘备'),
#  ('uid00161', '关羽'),
#  ('uid00162', '张飞'),
#  ('uid00182', '赵云'),
#  ('uid00188', '马超'))

(('uid00160', '刘备'),
 ('uid00161', '关羽'),
 ('uid00162', '张飞'),
 ('uid00182', '赵云'),
 ('uid00188', '马超'))

In [71]:
# 生成器
((x) for x in df.values)
# <generator object <genexpr> at 0x0000029DB36F2120>

<generator object <genexpr> at 0x0000029DB36F2120>

# DataFrame转为HTML

In [72]:
df = pd.read_excel('./data/demo_05.xlsx', sheet_name='Sheet5')

In [73]:
df.to_html('表单.html', index=False)