In [1]:
import pandas as pd

## 对数据进行转置

In [2]:
# 读取示例数据
df1 = pd.read_csv("example4.csv", index_col=0)
df1

Unnamed: 0,0,1,2
姓名,张三,李四,王五
年龄,30,25,28
地址,北京,上海,广州


In [3]:
df1.T

Unnamed: 0,姓名,年龄,地址
0,张三,30,北京
1,李四,25,上海
2,王五,28,广州


In [4]:
df1 = df1.T
df1

Unnamed: 0,姓名,年龄,地址
0,张三,30,北京
1,李四,25,上海
2,王五,28,广州


## 对列进行拆分

In [5]:
# 读取示例数据
df2 = pd.read_csv("example5.csv")
df2

Unnamed: 0,城市,人口密度
0,城市A,28.53万人/0.87平方公里
1,城市B,37.83万人/2.19平方公里
2,城市C,15.3万人/1.57平方公里


In [6]:
df2

Unnamed: 0,城市,人口密度
0,城市A,28.53万人/0.87平方公里
1,城市B,37.83万人/2.19平方公里
2,城市C,15.3万人/1.57平方公里


In [7]:
"28.53万人/0.87平方公里".split("/")

['28.53万人', '0.87平方公里']

In [8]:
df2["人口密度"]

0    28.53万人/0.87平方公里
1    37.83万人/2.19平方公里
2     15.3万人/1.57平方公里
Name: 人口密度, dtype: object

In [9]:
df2["人口密度"].str.split("/")

0    [28.53万人, 0.87平方公里]
1    [37.83万人, 2.19平方公里]
2     [15.3万人, 1.57平方公里]
Name: 人口密度, dtype: object

In [10]:
df2["人口密度"].str.split("/", expand=True)

Unnamed: 0,0,1
0,28.53万人,0.87平方公里
1,37.83万人,2.19平方公里
2,15.3万人,1.57平方公里


In [11]:
df2[["人口", "面积"]] = df2["人口密度"].str.split("/", expand=True)
df2

Unnamed: 0,城市,人口密度,人口,面积
0,城市A,28.53万人/0.87平方公里,28.53万人,0.87平方公里
1,城市B,37.83万人/2.19平方公里,37.83万人,2.19平方公里
2,城市C,15.3万人/1.57平方公里,15.3万人,1.57平方公里


In [12]:
df2 = df2.drop("人口密度", axis=1)
df2

Unnamed: 0,城市,人口,面积
0,城市A,28.53万人,0.87平方公里
1,城市B,37.83万人,2.19平方公里
2,城市C,15.3万人,1.57平方公里


## 把不同列合并成一列

In [13]:
df3 = pd.DataFrame({'姓': ['张', '李', '王'], '名': ['三', '四', '五'], '年龄': [30, 25, 35]})

In [14]:
df3

Unnamed: 0,姓,名,年龄
0,张,三,30
1,李,四,25
2,王,五,35


In [15]:
df3["姓"]

0    张
1    李
2    王
Name: 姓, dtype: object

In [16]:
df3["姓"].str.cat(df3["名"])

0    张三
1    李四
2    王五
Name: 姓, dtype: object

In [17]:
df3["姓"].str.cat(df3["名"], sep="-")

0    张-三
1    李-四
2    王-五
Name: 姓, dtype: object

In [18]:
df3["姓名"] = df3["姓"].str.cat(df3["名"])
df3 = df3.drop(["姓", "名"], axis=1)

In [19]:
df3

Unnamed: 0,年龄,姓名
0,30,张三
1,25,李四
2,35,王五


## 把宽数据转换成长数据

In [20]:
# 读取示例数据
df4 = pd.read_csv("example6.csv")
df4

Unnamed: 0,国家代码,年份,男性年龄组（0-4岁）,男性年龄组（5-14岁）,男性年龄组（15-24岁）,女性年龄组（0-4岁）,女性年龄组（5-14岁）,女性年龄组（15-24岁）
0,CN,2019,100,200,500,80,150,400
1,US,2019,50,150,300,40,100,200
2,JP,2019,30,120,250,20,80,150
3,IN,2019,80,180,400,60,120,300


In [21]:
# 使用melt函数将多列变量转换为一列
pd.melt(
    df4,
    id_vars=['国家代码', '年份'],  # 保持不变的列
    var_name='年龄组',  # 新列的名称
    value_name='肺结核病例数'  # 新列对应的值
)

Unnamed: 0,国家代码,年份,年龄组,肺结核病例数
0,CN,2019,男性年龄组（0-4岁）,100
1,US,2019,男性年龄组（0-4岁）,50
2,JP,2019,男性年龄组（0-4岁）,30
3,IN,2019,男性年龄组（0-4岁）,80
4,CN,2019,男性年龄组（5-14岁）,200
5,US,2019,男性年龄组（5-14岁）,150
6,JP,2019,男性年龄组（5-14岁）,120
7,IN,2019,男性年龄组（5-14岁）,180
8,CN,2019,男性年龄组（15-24岁）,500
9,US,2019,男性年龄组（15-24岁）,300


## 对行进行拆分

In [22]:
# 读取示例数据
df5 = pd.read_csv("example7.csv")
df5

Unnamed: 0,学生姓名,学号,课程列表
0,张三,1,"['数学', '物理']"
1,李四,2,"['英语', '化学', '历史']"
2,王五,3,"['语文', '数学', '英语', '政治']"
3,赵六,4,"['物理', '生物']"


In [23]:
# 虽然上面的课程列表变量看起来像是列表，但实际上是字符串
# 比如第一行里的课程列表实际为字符串"['数学', '物理']"，而不是列表['数学', '物理']
# 所以我们需要先将字符串形式的列表转换为实际的列表对象，这样explode才能对列表进行拆分
import json
df5['课程列表'] = df5['课程列表'].apply(lambda x: json.loads(x.replace("'", "\"")))

In [24]:
df5

Unnamed: 0,学生姓名,学号,课程列表
0,张三,1,"[数学, 物理]"
1,李四,2,"[英语, 化学, 历史]"
2,王五,3,"[语文, 数学, 英语, 政治]"
3,赵六,4,"[物理, 生物]"


In [25]:
df5.explode("课程列表")

Unnamed: 0,学生姓名,学号,课程列表
0,张三,1,数学
0,张三,1,物理
1,李四,2,英语
1,李四,2,化学
1,李四,2,历史
2,王五,3,语文
2,王五,3,数学
2,王五,3,英语
2,王五,3,政治
3,赵六,4,物理


## 对行或列进行删除

In [26]:
# 读取示例数据
df6 = pd.read_csv("example8.csv")
df6

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
2,小王,86,81,89
3,小张,79,89,95
4,小赵,96,91,91
5,小周,81,89,92


In [27]:
df6

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
2,小王,86,81,89
3,小张,79,89,95
4,小赵,96,91,91
5,小周,81,89,92


In [28]:
df6.drop(2)

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
3,小张,79,89,95
4,小赵,96,91,91
5,小周,81,89,92


In [29]:
df6.drop("考试2", axis=1)

Unnamed: 0,姓名,考试1,考试3
0,小陈,85,92
1,小李,91,94
2,小王,86,89
3,小张,79,95
4,小赵,96,91
5,小周,81,92


In [30]:
df6.drop([2, 4])

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
3,小张,79,89,95
5,小周,81,89,92


In [31]:
df6.drop(["考试2", "考试3"], axis=1)

Unnamed: 0,姓名,考试1
0,小陈,85
1,小李,91
2,小王,86
3,小张,79
4,小赵,96
5,小周,81


In [32]:
df6.drop([2, 4], inplace=True)
df6

Unnamed: 0,姓名,考试1,考试2,考试3
0,小陈,85,95,92
1,小李,91,92,94
3,小张,79,89,95
5,小周,81,89,92
