# 第四章 Pandas 基础

In [None]:
"""
本代码为《Python心理学应用》一书第四章Pandas基础中的全部代码
建议结合书本内容进行实操练习，以增进理解
魏楚光，weicg@psych.ac.cn 
8-Dec-2024
"""

### 代码2.1

In [None]:
import numpy as np #导入numpy,并且以np缩写来指代
import pandas as pd #导入pandas,并且以pd缩写来指代
# 创建一个 NumPy 数组，其中所有元素必须是相同的数据类型
arr = np.array([1, 2, 3, 4.5])  # 自动将所有元素转换为浮点型
print(arr)  # 输出: [1.  2.  3.  4.5]
print(arr.dtype)  # 输出: float64

# 创建一个 Pandas DataFrame，不同列可以包含不同的数据类型
df = pd.DataFrame({
    'Age': [25, 30, 35],
    'Name': ['张三', '李四', '王五'],
    '反应时': [0.865, 0.970, 0.886]
})
print(df)

### 代码2.2

In [None]:
import numpy as np 
import pandas as pd 
#创建二维数组,并完成numpy和pandas数据的转换
arr3=np.array([[1,2],[3,4]])
df1=pd.DataFrame(data=arr3,columns=["col1","col2"]) #把numpy二维数组转换为DataFrame的方法
arr4=df1.to_numpy() #把DataFrame转换成numpy数组的方法
print("arr3数组：",arr3)
print("df1矩阵：",df1)
print("arr4数组：",arr4)

### 代码2.3

In [None]:
import numpy as np 
import pandas as pd 
#创建三维数组，并完成numpy和pandas数据的转换
arr5=np.arange(1,9).reshape(2,2,2) #创建三维数组
shape = arr5.shape # 获取三维数组的形状
arr5_2d = arr5.reshape(shape[0]*shape[1], shape[2]) # 将三维数组转换为二维数组
index = pd.MultiIndex.from_product([range(shape[0]), range(shape[1])], names=['dim0', 'dim1'])# 创建复合行索引
df2 = pd.DataFrame(arr5_2d, index=index,columns=["col1","col2"])# 将二维数组转换为pandas DataFrame，并设置复合行索引
arr6=df2.to_numpy()
print("arr5数组：",arr5)
print("df2矩阵：",df2)
print("arr6数组：",arr6)

### 代码3.1

In [None]:
import numpy as np
import pandas as pd
#生成两列随机数据，分别代表统计得来的身高和体重
np.random.seed(123)  #确定随机种子
subID=np.arange(1,101) #生成1-100的subID
weight=np.random.normal(50,8,100) #生成 100 个服从正态分布的体重数据，均值为50，标准差为8
height=np.random.normal(170,15,100)
#将数据合并在一起，形成一个形状为100x2的二维数组
data=np.dstack((subID,height,weight)).reshape((100,3))
#数组转换为pandas的DataFrame矩阵数据。
df=pd.DataFrame(data=data,columns=["被试号","身高","体重"])
df=df.set_index(["被试号"]) #将默认整数行索引改为被试号列索引
#将DataFrame矩阵数据导出为不同格式文档
df.to_csv('身高体重数据.txt')
df.to_csv('身高体重数据.csv')
df.to_excel("身高体重数据.xlsx")

### 代码3.2

In [None]:
import pandas as pd 
#读取外部的excel数据
df=pd.read_excel("身高体重数据.xlsx")
print(df)

### 代码4.1

In [None]:
import pandas as pd 
#读取外部的excel数据
df=pd.read_excel("身高体重数据.xlsx")
#选择某列数据
print("使用[列名]选择单个列：",df["身高"])
print("使用[列名列表]选择多个列：",df[["体重","身高"]])

### 代码4.2

In [None]:
import pandas as pd 
df=pd.read_excel("身高体重数据.xlsx")
print("使用.loc[索引]选择单个行：",df.loc[1])
print("使用.loc[索引列表]选择多个行：",df.loc[[1,2,10]])
print("使用.loc[索引,列名]选择某行某列的值：",df.loc[2,"身高"])
print("使用.loc[索引操作符，列名操作符]选择指定数据：",df.loc[1:10:3,["身高","体重"]])

### 代码4.3

In [None]:
import pandas as pd 
df=pd.read_excel("身高体重数据.xlsx")
print("使用.iloc[行索引操作符，列索引操作符]选择指定数据：",df.iloc[1:10:3,:])

### 代码4.4

In [None]:
import pandas as pd 
df=pd.read_excel("身高体重数据.xlsx")
print("逻辑运算的结果：",(df["身高"]>185) & (df["体重"]<45))
print("使用.loc[逻辑语句]选择指定数据：",df.loc[(df["体重"]<45) & (df["身高"]>185)])

### 代码5.1

In [None]:
import pandas as pd 
#读取外部的excel数据
df=pd.read_excel("身高体重数据.xlsx")
print("原始的df数据：",df.head(3))
#某列与标量进行计算
df["身高_米"]=df["身高"]/100 #所有数值除以标量100，将身高单位从厘米换算成米
#两列变量进行计算
df["BMI"]=df["体重"]/df["身高_米"]**2
print("计算bmi后的df数据：",df.head(3))
#将整个矩阵与标量计算
df_adjustment =df+5
print("df所有元素加5之后得到的新数据：",df_adjustment.head(3))
#将多个矩阵数据相加
df_addition=df+df+df
print("三个df相加得到的新数据：",df_addition.head(3))
#新增两列字符串类型数据
df["姓氏"]="王"
df["名字"]="二小"
#将姓氏和名字连接在一起
df["姓名"]=df["姓氏"]+df["名字"]
print("增加了三列字符串后的df数据：",df.head(3))
#删除某行或某列数据
del df["身高"] #删除一列
df.drop(["姓氏","名字"],axis=1,inplace=True) #删除多个列
df.drop([0,2],inplace=True) #指定行的数据，axis默认是0
print("删除了三列后的df数据：",df.head(3))

### 代码5.2

In [None]:
import pandas as pd 
#读取外部的excel数据
df=pd.read_excel("身高体重数据.xlsx")
#获取描述性信息
df_describe=df.describe()
print(df_describe)

### 代码5.3

In [None]:
import pandas as pd
import numpy as np 
df=pd.DataFrame(columns=["题目1","题目2","题目3","题目4"],data=np.random.randint(1,5,(100,4)))
print("100个被试在四个题目的量表上的数据：",df)
#计算量表总分和平均分
df["平均分"]=df.mean(axis=1)
df["总分"]=df.sum(axis=1)
print("计算变量后的df数据：",df)

### 代码5.4

In [None]:
import pandas as pd 
import numpy as np
#导入外部excel的数据
df=pd.read_excel("身高体重数据.xlsx")  
#创建1个数列作为性别变量
np.random.seed(123)  #随机种子，可以保存每次运行代码生成的随机数据是一致的
df["性别"]=np.random.randint(0,2,100)
print("添加性别变量的df数组：",df.head(3))
#按照性别分组统计
df_meanByGender=df.groupby("性别").mean()
df_stdByGender=df.groupby("性别").std()
print("按照性别分组统计平均值：",df_meanByGender)
print("按照性别分组统计标准差：",df_stdByGender)
#将添加性别变量后的df数据进行导出保存
df.to_excel("身高体重数据.xlsx",index=False)

### 代码5.5

In [None]:
import pandas as pd 
#导入外部excel的数据
df=pd.read_excel("身高体重数据.xlsx") 
#按照性别分组统计多个参数
df_describeByGender=df.groupby("性别").describe().round(2)
print("按照性别分组后的描述统计：",df_describeByGender)
#导出统计结果到excel
df_describeByGender.to_excel("按照性别分组统计结果.xlsx")

### 代码5.6

In [None]:
import pandas as pd 
import numpy as np
#导入外部excel的数据
df=pd.read_excel("身高体重数据.xlsx") 
#给数据再添加一个城乡分组变量
np.random.seed(321)
df["城乡"]=np.random.randint(0,2,100)
#按照多个分组统计多个参数的方法
df_multiGroupby=df.groupby(["性别","城乡"]).mean().round(3)
print("按照两个分组变量统计平均值的结果：",df_multiGroupby)
df_agg_general=df.groupby(["性别","城乡"]).agg(["count","mean","std"]).round(3)
print("按照两个分组变量统计指定指标的结果：",df_agg_general)
df_agg_sepcial=df.groupby(["性别","城乡"]).agg({"身高":["mean","std"],"体重":["min","max"]}).round(3)
print("按照两个分组变量统计指定变量的指定指标的结果：",df_agg_sepcial)
#将添加城乡变量后的df数据进行导出保存
df.to_excel("身高体重数据.xlsx",index=False)

### 代码6.1

In [None]:
import pandas as pd 
df1=pd.DataFrame({"id":["A0","A1","A2"],"身高":[175,168,180]})
print("df1数据：",df1)
df2=pd.DataFrame({"id":["A1","A2","A3"],"体重":[65,60,72]})
print("df2数据：",df2)
methods=["outer","inner","left","right"]
for method in methods: #遍历四种方法，实现四种合并的结果
    print(method+"方法合并结果：",pd.merge(df1,df2,on="id",how=method))

### 代码6.2

In [None]:
import pandas as pd 
df1=pd.DataFrame({"身高":[175,168,180],"体重":[69,58,69]})
print("df1数据：",df1)
df2=pd.DataFrame({"体重":[65,60,72]})
print("df2数据：",df2)
df3=pd.DataFrame({"身高":[170,182,150]})
print("df3数据：",df3)
method={"列方向":0,"行方向":1}
for k,v in method.items():
    print(k+"合并结果：",pd.concat([df1,df2,df3],axis=v))

### 代码7.1

In [None]:
import pandas as pd 
#创建一个示例DataFrame
data1 = [0, 1, 2, None, 4]
data2=[9,12,None,4,None]
df = pd.DataFrame({"A":data1,"B":data2})
#运用isna()函数和info()函数获取缺失值信息
print("isna函数返回的判断结果：",df.isna())
print("info函数提供的数据概要信息：")
df.info()

### 代码7.2

In [None]:
import pandas as pd 
#创建一个示例DataFrame
data1 = [0, 1, None, None, 4]
data2=[9,12,None,4,None]
df = pd.DataFrame({"A":data1,"B":data2})
print("处理前的df数据：",df)
#运用dropna()函数来删除缺失值
df.dropna(axis=0,how="any",inplace=True)
print("处理后的df数据：",df)

### 代码7.3

In [None]:
import pandas as pd 
#创建一个示例DataFrame
data1 = [0, 1, None, None, 4]
data2=[9,12,None,4,None]
df = pd.DataFrame({"A":data1,"B":data2})
print("处理前的df数据：",df)
#运用fillna()函数来填充缺失值
df1=df.fillna(value={"A":2,"B":5})
print("用指定值来填充缺失值：",df1)
df2=df.fillna(method="bfill")
print("用后面相邻的值来填充缺失值：",df2)
df3=df.fillna(value=df.mean())
print("用所在列的平均值来填充缺失值：",df3)

### 代码8.2

In [None]:
import pandas as pd 
#创建一个示例DataFrame
df = pd.DataFrame({'A': [1, 2, 3, 4, 5,6]})
# 计算列'A'中每个元素与其前一个元素的差
df['B'] = df['A'].diff()
print(df)

### 代码8.3

In [None]:
import pandas as pd 
#创建一个示例DataFrame
data = [0, 1, 2, None, 4]
df = pd.DataFrame(data, columns=['A'])
df['B'] = df['A'].expanding().sum()
print(df)

### 代码9.1

In [None]:
import pandas as pd
import matplotlib.pyplot as plt 
#创建一个Series实例
ser=pd.Series([32,28,44,68,58,49])
#直接用ser实例调用plot()方法
ser.plot()
plt.show()

### 代码9.2

In [None]:
import pandas as pd 
import matplotlib.pyplot as plt
#创建一个DataFrame实例
df=pd.DataFrame(data=[[32,28],[44,68],[58,49],[23,33],[68,39],[43,33]],columns=["a","b"])
#直接用df实例调用plot()方法
df.plot()
plt.show()

### 代码9.3

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
#定义五角星的五个顶点坐标
vertices = [(1, 0), (-0.809, 0.588),(0.309, -0.951),(0.309, 0.951), (-0.809, -0.588),(1, 0)]
#创建DataFrame
df = pd.DataFrame(vertices, columns=['x', 'y'])
#绘制五角星
df.plot( x='x', y='y',legend=False)
plt.gca().set_aspect('equal', adjustable='box')
plt.show()

### 代码9.4

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
#创建一个DataFrame实例
df=pd.DataFrame(data=[[32,28],[44,68],[58,49],[23,33],[68,39],[43,33]],columns=["a","b"])
#直接用df实例调用plot()方法
df.plot(kind="bar")
plt.show()

### 代码9.5

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
#创建一个DataFrame实例
df=pd.DataFrame(data=[[32,28],[44,68],[58,49],[23,33],[68,39],[43,33]],columns=["a","b"])
#直接用df实例调用plot()方法
df.plot(x="a",y="b",kind="scatter")
plt.show()

### 代码9.6

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
#创建一个DataFrame实例
df=pd.DataFrame(data=[[32,28],[44,68],[58,49],[23,33],[68,39],[43,33]],columns=["a","b"])
#直接用df实例调用plot()方法
df.plot(subplots=True)
plt.show()

### 代码9.7

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
#创建一个DataFrame实例
df=pd.DataFrame(data=[[32,28],[44,68],[58,49],[23,33],[68,39],[43,33]],columns=["a","b"])
#直接用df实例调用plot()方法
df.plot(subplots=True,layout=(1,2))
plt.show()

### 代码9.8

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#创建一个DataFrame实例
df=pd.DataFrame(data=[[32,28],[44,68],[58,49],[23,33],[68,39],[43,33]],columns=["a","b"])
df.plot(kind="box",title="box_figure",grid=True,ylim=[20,75],yticks=np.arange(20,75,5),xlabel="groups",ylabel="values")
plt.show()