In [1]:
import numpy as np
import pandas as pd

# 重塑 row 和 column

- 行/列变换


# 列转行 **一对多** 拆分为 **一对一**


- 拆分 id 一对多的列
- 拆分前，一定要弄明白 数据关系(一对多)，其实我们在做的事，就是把**一对多**拆分为**一对一**


## 拆分 1 个列

- name 是 1
- 语文 数学 英语是多


In [2]:
df1 = pd.DataFrame(
    data=np.random.randint(1, 10, (3, 3)),
    columns=["语文", "数学", "英语"],
)

df1.insert(0, "name", ["小明", "小紫", "小红"])
df1

Unnamed: 0,name,语文,数学,英语
0,小明,1,6,6
1,小紫,9,2,1
2,小红,5,3,2


In [3]:
pd.melt(df1, id_vars=["name"], value_vars=["语文", "数学", "英语"])

Unnamed: 0,name,variable,value
0,小明,语文,1
1,小紫,语文,9
2,小红,语文,5
3,小明,数学,6
4,小紫,数学,2
5,小红,数学,3
6,小明,英语,6
7,小紫,英语,1
8,小红,英语,2


In [4]:
# 给新生成的列起名
pd.melt(
    df1, id_vars=["name"], value_vars=["语文", "数学", "英语"], var_name="科目", value_name="成绩"
)

Unnamed: 0,name,科目,成绩
0,小明,语文,1
1,小紫,语文,9
2,小红,语文,5
3,小明,数学,6
4,小紫,数学,2
5,小红,数学,3
6,小明,英语,6
7,小紫,英语,1
8,小红,英语,2


## 拆分 2 个列

- 姓名和水果是 1
- 星期一二三是多


In [5]:
convert_df_2 = pd.DataFrame(
    {
        "姓名": ["小明", "小红", "小白"],
        "水果": ["草莓", "樱桃", "西瓜"],
        "星期一": ["70斤", "61斤", "103斤"],
        "星期二": ["72斤", "60斤", "116斤"],
        "星期三": ["60斤", "81斤", "153斤"],
    }
)


convert_df_2

Unnamed: 0,姓名,水果,星期一,星期二,星期三
0,小明,草莓,70斤,72斤,60斤
1,小红,樱桃,61斤,60斤,81斤
2,小白,西瓜,103斤,116斤,153斤


In [6]:
pd.melt(convert_df_2, id_vars=["姓名", "水果"], value_vars=["星期一", "星期二", "星期三"])

Unnamed: 0,姓名,水果,variable,value
0,小明,草莓,星期一,70斤
1,小红,樱桃,星期一,61斤
2,小白,西瓜,星期一,103斤
3,小明,草莓,星期二,72斤
4,小红,樱桃,星期二,60斤
5,小白,西瓜,星期二,116斤
6,小明,草莓,星期三,60斤
7,小红,樱桃,星期三,81斤
8,小白,西瓜,星期三,153斤


# 行转列 **一对一** 合并为 **一对多**


## 方法 1 -unstack

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html


In [7]:
one_to_more = pd.DataFrame(
    data={
        "name": {
            0: "小明",
            1: "小紫",
            2: "小红",
            3: "小明",
            4: "小紫",
            5: "小红",
            6: "小明",
            7: "小紫",
            8: "小红",
        },
        "科目": {
            0: "语文",
            1: "语文",
            2: "语文",
            3: "数学",
            4: "数学",
            5: "数学",
            6: "英语",
            7: "英语",
            8: "英语",
        },
        "成绩": {0: 2, 1: 5, 2: 9, 3: 9, 4: 5, 5: 4, 6: 8, 7: 8, 8: 8},
    }
)


one_to_more

Unnamed: 0,name,科目,成绩
0,小明,语文,2
1,小紫,语文,5
2,小红,语文,9
3,小明,数学,9
4,小紫,数学,5
5,小红,数学,4
6,小明,英语,8
7,小紫,英语,8
8,小红,英语,8


In [8]:
two_level_index = one_to_more.set_index(["name", "科目"])
two_level_index

Unnamed: 0_level_0,Unnamed: 1_level_0,成绩
name,科目,Unnamed: 2_level_1
小明,语文,2
小紫,语文,5
小红,语文,9
小明,数学,9
小紫,数学,5
小红,数学,4
小明,英语,8
小紫,英语,8
小红,英语,8


In [9]:
two_level_index.index

MultiIndex([('小明', '语文'),
            ('小紫', '语文'),
            ('小红', '语文'),
            ('小明', '数学'),
            ('小紫', '数学'),
            ('小红', '数学'),
            ('小明', '英语'),
            ('小紫', '英语'),
            ('小红', '英语')],
           names=['name', '科目'])

In [10]:
# unstack是将最后一级的索引变成DataFrame的列，前面的索引保持不变
# 把科目变成DataFrame的列，name不变
new_df = two_level_index["成绩"].unstack()
new_df

科目,数学,英语,语文
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
小明,9,8,2
小紫,5,8,5
小红,4,8,9


In [11]:
print(new_df.index)
print(new_df.columns)

Index(['小明', '小紫', '小红'], dtype='object', name='name')
Index(['数学', '英语', '语文'], dtype='object', name='科目')


In [12]:
nameless_new_df = new_df.rename_axis(None, axis=1)
nameless_new_df

Unnamed: 0_level_0,数学,英语,语文
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
小明,9,8,2
小紫,5,8,5
小红,4,8,9


In [13]:
print(nameless_new_df.index)
print(nameless_new_df.columns)

Index(['小明', '小紫', '小红'], dtype='object', name='name')
Index(['数学', '英语', '语文'], dtype='object')


In [14]:
nameless_new_df.reset_index()

Unnamed: 0,name,数学,英语,语文
0,小明,9,8,2
1,小紫,5,8,5
2,小红,4,8,9


## 方法 2 -pivot

- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot.html


In [15]:
one_to_more = pd.DataFrame(
    data={
        "name": {
            0: "小明",
            1: "小紫",
            2: "小红",
            3: "小明",
            4: "小紫",
            5: "小红",
            6: "小明",
            7: "小紫",
            8: "小红",
        },
        "科目": {
            0: "语文",
            1: "语文",
            2: "语文",
            3: "数学",
            4: "数学",
            5: "数学",
            6: "英语",
            7: "英语",
            8: "英语",
        },
        "成绩": {0: 2, 1: 5, 2: 9, 3: 9, 4: 5, 5: 4, 6: 8, 7: 8, 8: 8},
    }
)


one_to_more

Unnamed: 0,name,科目,成绩
0,小明,语文,2
1,小紫,语文,5
2,小红,语文,9
3,小明,数学,9
4,小紫,数学,5
5,小红,数学,4
6,小明,英语,8
7,小紫,英语,8
8,小红,英语,8


In [16]:
print(one_to_more.index)
print(one_to_more.columns)

Index([0, 1, 2, 3, 4, 5, 6, 7, 8], dtype='int64')
Index(['name', '科目', '成绩'], dtype='object')


In [17]:
pivot_result = pd.pivot(one_to_more, index="name", columns="科目", values="成绩")
pivot_result

科目,数学,英语,语文
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
小明,9,8,2
小紫,5,8,5
小红,4,8,9


In [18]:
print(pivot_result.index)
print(pivot_result.columns)

Index(['小明', '小紫', '小红'], dtype='object', name='name')
Index(['数学', '英语', '语文'], dtype='object', name='科目')


In [19]:
pivot_result.rename_axis(None, axis=1).reset_index()

Unnamed: 0,name,数学,英语,语文
0,小明,9,8,2
1,小紫,5,8,5
2,小红,4,8,9


# 一行生成多行


In [27]:
one_line_to_more_line = pd.DataFrame(
    data={
        "name": {0: "小明", 1: "小紫", 2: "小红"},
        "生日": {
            0: "12月7日",
            1: "8月18日",
            2: "3月28日",
        },
        "属性": {0: "抖M,傲娇", 1: "毒舌,恋爱脑", 2: "虎牙,粉毛"},
    }
)
one_line_to_more_line

Unnamed: 0,name,生日,属性
0,小明,12月7日,"抖M,傲娇"
1,小紫,8月18日,"毒舌,恋爱脑"
2,小红,3月28日,"虎牙,粉毛"


### 方法一 -explode

- 把一行 爆炸为多行
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html


In [24]:
one_line_to_more_line

Unnamed: 0,name,生日,属性
0,小明,12月7日,"抖M,傲娇"
1,小紫,8月18日,"毒舌,恋爱脑"
2,小红,3月28日,"虎牙,粉毛"


In [25]:
one_line_to_more_line["属性"] = one_line_to_more_line["属性"].str.split(",")

In [26]:
one_line_to_more_line.explode("属性")

Unnamed: 0,name,生日,属性
0,小明,12月7日,抖M
0,小明,12月7日,傲娇
1,小紫,8月18日,毒舌
1,小紫,8月18日,恋爱脑
2,小红,3月28日,虎牙
2,小红,3月28日,粉毛


# json/dict 转 多列

In [44]:
df = pd.DataFrame(
    {
        "id": ["001", "002", "003"],
        "info": [
            {"姓名": "琪亚娜·卡斯兰娜", "生日": "12月7日", "外号": "草履虫"},
            {"姓名": "布洛妮娅·扎伊切克", "生日": "8月18日", "外号": "板鸭"},
            {"姓名": "德丽莎·阿波卡利斯", "生日": "3月28日", "外号": "德丽傻", "武器": "犹大的誓约"},
        ],
    }
)

In [45]:
tmp = df["info"].apply(pd.Series)
tmp

Unnamed: 0,姓名,生日,外号,武器
0,琪亚娜·卡斯兰娜,12月7日,草履虫,
1,布洛妮娅·扎伊切克,8月18日,板鸭,
2,德丽莎·阿波卡利斯,3月28日,德丽傻,犹大的誓约


In [46]:
df[tmp.columns] = tmp

# 然后删掉"info"这一列
df = df.drop(columns=["info"])
df

Unnamed: 0,id,姓名,生日,外号,武器
0,1,琪亚娜·卡斯兰娜,12月7日,草履虫,
1,2,布洛妮娅·扎伊切克,8月18日,板鸭,
2,3,德丽莎·阿波卡利斯,3月28日,德丽傻,犹大的誓约
