## 4.2.2 DataFrame
&emsp;&emsp;DataFrame对象是Pandas库的核心数据结构，它拥有跟表格极其相似的二维数据结构，它包括值（values）、行索引（index）和列索引（columns）三个部分。DataFrame结构如图4-2-3所示，例如值为70的元素，其对应的行索引值为Bob，列索引值为Math。

![image.png](attachment:image.png)

### 1. DataFrame的创建
&emsp;&emsp;使用Pandas中的DataFrame ()函数创建DataFrame对象，其常用格式如下所示：

&emsp;&emsp;&emsp;&emsp;pandas.DataFrame(data, index, columns,…)

&emsp;&emsp;其中，data包含了DataFrame对象中存储的数据，data的类型可以是NumPy的二维数组或列表等可迭代对象；index包含了DataFrame对象中存储数据对应的行索引值，如果省略，则自动生成0 - n-1的整数行索引值，n为data中元素的行数；columns包含了DataFrame对象中存储数据对应的列索引值，如果省略，则自动生成0 - m-1的整数列索引值，m为data中元素的列数。

&emsp;&emsp;**例4-2-6** 创建一个名为iris的DataFrame对象，用于存储3朵鸢尾花的萼片长度（sepal length）、萼片宽度（sepal width）和花瓣长度（petal length），其中数据为[[5.1,3.5,1.4],[4.9,3.0,1.4],[4.7,3.2,1.3]]，行索引为[1,2,3]，列索引为['sepal length (cm)','sepal width (cm)','petal length (cm)']。

In [1]:
import pandas as pd

In [2]:
iris=pd.DataFrame([[5.1,3.5,1.4],[4.9,3.0,1.4],[4.7,3.2,1.3]],index=[1,2,3],
columns=['sepal length (cm)','sepal width (cm)','petal length (cm)'])

In [3]:
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm)
1,5.1,3.5,1.4
2,4.9,3.0,1.4
3,4.7,3.2,1.3


### 2. DataFrame的相关操作
#### (1)DataFrame中元素的访问
&emsp;&emsp;DataFrame对象和Series对象一样，既可以通过位置索引来访问，也可以通过行列索引名来访问。但访问方法上有较大的差别。最为常见的有如下几类访问方式：

* DataFrame[ ]：使用列索引名或列索引名列表得到某列或某几列。
* DataFrame.loc[index,columns]：使用行、列索引或索引列表获取查询区域值。
* DataFrame.iloc[iloc,cloc]：使用行、列位置索引或位置索引列表获取查询区域值。

&emsp;&emsp;**例4-2-7** 访问iris对象示例。

#使用列索引名访问一列，得到Seires对象

In [4]:
iris['sepal length (cm)']

1    5.1
2    4.9
3    4.7
Name: sepal length (cm), dtype: float64

#使用列索引名列表访问多列，得到DataFrame对象

In [5]:
iris[['sepal length (cm)','petal length (cm)']]

Unnamed: 0,sepal length (cm),petal length (cm)
1,5.1,1.4
2,4.9,1.4
3,4.7,1.3


#使用行、列索引名，得到一个表格元素

In [6]:
iris.loc[1,'sepal length (cm)']

5.1

#使用:，获取指定列所有元素，得到Seires对象

In [7]:
iris.loc[:,'sepal length (cm)']

1    5.1
2    4.9
3    4.7
Name: sepal length (cm), dtype: float64

#使用行索引名切片，列索引名列表，得到DataFrame对象

In [8]:
iris.loc[2:,['sepal length (cm)','petal length (cm)']]

Unnamed: 0,sepal length (cm),petal length (cm)
2,4.9,1.4
3,4.7,1.3


#使用位置索引切片，位置索引列表，得到DataFrame对象

In [9]:
iris.iloc[2:,[0,2]]

Unnamed: 0,sepal length (cm),petal length (cm)
3,4.7,1.3


#### (2)DataFrame中元素的条件查询
&emsp;&emsp;和NumPy模块一样，通过布尔运算方式可以获得逻辑值列表，DataFrame的访问中，逻辑值列表可以出现在索引的位置，实现筛选。

&emsp;&emsp;**例4-2-8** 查找 iris中在列索引'sepal width (cm)'的值大于3.0的数据行。

#布尔运算得到的逻辑值列表

In [10]:
iris['sepal width (cm)']>3.0

1     True
2    False
3     True
Name: sepal width (cm), dtype: bool

#在[]访问方式中使用逻辑值列表，得到符合条件的所有列的元素构成的DataFrame对象

In [11]:
iris[iris['sepal width (cm)']>3.0]

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm)
1,5.1,3.5,1.4
3,4.7,3.2,1.3


#在loc[]访问方式中使用逻辑值列表，得到符合条件的指定列的元素构成的DataFrame对象

In [12]:
iris.loc[iris['sepal width (cm)']>3,["sepal length (cm)",  "sepal width (cm)"]]

Unnamed: 0,sepal length (cm),sepal width (cm)
1,5.1,3.5
3,4.7,3.2


#### (3)DataFrame中元素的增加
* 调用append()函数进行行的添加

&emsp;&emsp;append()函数用于将新的行增加到DataFrame的末尾，并返回新的对象，同时该函数不会改变原始对象，其格式如下：

&emsp;&emsp;&emsp;&emsp;DataFrame.append(other, ignore_index=False,…)

&emsp;&emsp;其中，other包含了需要增加的数据，other的类型可以是DataFrame、Series、字典等。ignore_index参数设置是否使用原来的行索引，默认为使用，设置为True则不使用，生成的新的DataFrame对象使用默认的行索引值。

&emsp;&emsp;**例4-2-9** 在iris对象最后添加一行，数据为[[4.6,3.1,1.5]]。注意参数ignore_index的作用。

#为新行创建一个新的DataFrame对象，追加到iris对象，返回一个新的DataFrame对象

In [13]:
data1=pd.DataFrame([[4.6,3.1,1.5]],index=[4],
columns=['sepal length (cm)','sepal width (cm)','petal length (cm)'])

In [14]:
irisnew=iris.append(data1)

In [15]:
irisnew

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm)
1,5.1,3.5,1.4
2,4.9,3.0,1.4
3,4.7,3.2,1.3
4,4.6,3.1,1.5


#为新行创建一个字典对象，追加到iris对象，返回一个新的DataFrame对象

In [16]:
data2={'sepal length (cm)':4.6,'sepal width (cm)':3.1,'petal length (cm)':1.5}

In [17]:
irisnew=iris.append(data2,ignore_index=True)

In [18]:
irisnew

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm)
0,5.1,3.5,1.4
1,4.9,3.0,1.4
2,4.7,3.2,1.3
3,4.6,3.1,1.5


* 通过赋值进行列的添加

&emsp;&emsp;向DataFrame对象的增加新列，类似字典操作，通过列索引名访问一列，如果列索引名是新值，进行赋值，就可以完成DataFrame中列的添加。

&emsp;&emsp;**例4-2-10** 为 iris对象增加新列'petal width (cm)'，值为[0.2,0.2,0.2]。 

&emsp;&emsp;注：一般来说，鸢尾花数据通过四个属性来描述，除了创建iris对象时的萼片长度（sepal length）、萼片宽度（sepal width）和花瓣长度（petal length）外，还有本步骤中添加的花瓣宽度（petal width）。

In [19]:
iris['petal width (cm)']=[0.2,0.2,0.2] #将索引值'petal width (cm)'对应的元素列赋值为[0.2,0.2,0.2]

In [20]:
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
1,5.1,3.5,1.4,0.2
2,4.9,3.0,1.4,0.2
3,4.7,3.2,1.3,0.2


#### (4)DataFrame中元素的删除
&emsp;&emsp;drop()函数表示从DataFrame中删除单个或多个行（列）索引值对应的元素，并返回删除元素后的DataFrame，该函数在默认情况下不修改原始对象，其格式如下：

&emsp;&emsp;&emsp;&emsp;DataFrame.drop(labels=None, axis=0, inplace=False,…)

&emsp;&emsp;其中，labels表示索引名或多个索引名组成的列表，如无索引名，可提供位置索引；axis表示删除行或者列，值为0表示删除行，labels参数为行索引名或表示行索引名列表，值为1表示删除列，labels参数为列索引名或列索引名列表；inplace表示是否对当前对象进行改变，值为False表示当前对象不改变，生成新对象，值为True表示操作当前对象，直接删除，不产生新对象。

&emsp;&emsp;**例4-2-11** 删除iris对象中的元素示例。

In [21]:
import pandas as pd
iris=pd.DataFrame([[5.1,3.5,1.4],[4.9,3.0,1.4],[4.7,3.2,1.3]],index=[1,2,3],
columns=['sepal length (cm)','sepal width (cm)','petal length (cm)'])
iris['petal width (cm)']=[0.2,0.2,0.2] #将索引值'petal width (cm)'对应的元素列赋值为[0.2,0.2,0.2]

#删除iris对象中行索引值为1和2的元素，返回新对象iris_new

In [22]:
iris_new=iris.drop([1,2],axis=0)

In [23]:
iris_new

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
3,4.7,3.2,1.3,0.2


#直接删除iris_new对象中的'petal length (cm)'和'petal width (cm) '两列

In [24]:
iris_new.drop(['petal length (cm)','petal width (cm)'],axis=1,inplace=True)

In [25]:
iris_new

Unnamed: 0,sepal length (cm),sepal width (cm)
3,4.7,3.2


#### (5)DataFrame中元素的修改
&emsp;&emsp;DataFrame对象的数据列支持Python支持的常见算术运算，如：“+”，“-”，“*”，“/”等。通过赋值语句修改数据，可以修改指定行列记录的数据，还可以把要修改的数据查询筛选出来，重新赋值。

&emsp;&emsp;**例4-2-12** 将iris中所有鸢尾花的花瓣长度（petal length）都重新赋值为0.3cm，再将萼片长度（sepal length）小于5cm的鸢尾花的花瓣长度（petal length）减去0.2cm。

#将"petal width (cm)" 列的值赋值为0.3

In [26]:
iris["petal width (cm)"]=0.3

In [27]:
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
1,5.1,3.5,1.4,0.3
2,4.9,3.0,1.4,0.3
3,4.7,3.2,1.3,0.3


In [28]:
iris.loc[iris["sepal length (cm)"]<5,"petal width (cm)"]-=0.2

In [29]:
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
1,5.1,3.5,1.4,0.3
2,4.9,3.0,1.4,0.1
3,4.7,3.2,1.3,0.1


### 3. 数据文件读写
&emsp;&emsp;人工智能数据的来源多种多样，因此Pandas提供了多种格式数据的导入和导出，包括CVS、Excel、JSON、SQL、TXT和HTML等格式。本节将介绍CSV和Excel文件的数据读写方法。
#### （1）读写CSV文件
&emsp;&emsp;CSV（Comma-Separated Value）是一种以纯文本形式存储表格数据的文本文件，通常使用逗号作为字符之间的间隔符。Pandas对其提供了相应的读写功能。

* 从CSV文件读取数据到DataFrame对象

&emsp;&emsp;read_csv()函数用于将数据从CSV文件读取到DataFrame对象，其常用格式如下：

&emsp;&emsp;&emsp;&emsp;pandas.read_csv(filepath_or_buffer,…)

&emsp;&emsp;其中，filepath_or_buffer的类型为字符串，包含了文件路径和文件名。
![image.png](attachment:image.png)
&emsp;&emsp;**例4-2-13** 将素材Iris_pandas.csv从"配套资源\第4章\"下拷贝到"C:\配套资源\第4章\"下，以下程序将从Iris_pandas.csv文件（内容如图4-2-4所示）中读取数据到DataFrame对象，并打印显示输出。

#从CSV文件读取数据到DataFrame对象

In [30]:
iris=pd.read_csv(r'C:\配套资源\第4章\Iris_pandas.csv')

In [31]:
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2


* 从DataFrame对象写入数据到CSV文件

&emsp;&emsp;to_csv()函数用于将数据从DataFrame对象写入到CSV文件，其格式如下：

&emsp;&emsp;&emsp;&emsp;DataFrame.to_csv(path_or_buf,…)

&emsp;&emsp;其中，path_or_buf的类型为字符串，包含了文件路径和文件名。

&emsp;&emsp;**例4-2-14** 将DataFrame对象iris中的数据写入到Iris_pandas_new.csv文件。

#从DataFrame对象写入数据到CSV文件

In [32]:
iris.to_csv(r'C:\\配套资源\\第4章\\Iris_pandas_new.csv')

#### （2）读写Excel文件*
&emsp;&emsp;Excel是Microsoft Excel Open XML格式电子表格文件。Pandas对其提供了相应的读写功能。

* 从Excel文件读取数据到DataFrame对象

&emsp;&emsp;read_excel()函数用于将数据从Excel文件读取到DataFrame对象，其常用格式如下：

&emsp;&emsp;&emsp;&emsp;pandas.read_excel(io, sheetname,…)

&emsp;&emsp;其中，io的类型为字符串，包含了文件路径和文件名；sheetname的类型为字符串，包含了需要读取的Excel表单名。

![image.png](attachment:image.png)

&emsp;&emsp;**例4-2-15** 将素材Iris_pandas.xlsx从"配套资源\第4章\"下拷贝到"C:\配套资源\第4章\"下，以下程序将从Iris_pandas.xlsx文件（内容如图4-2-5所示）中读取数据到DataFrame对象。

#从Excel文件读取数据到DataFrame对象

In [33]:
iris=pd.read_excel(r'C:\\配套资源\\第4章\\Iris_pandas.xlsx',sheet_name='Sheet1')

In [34]:
iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2


* 从DataFrame对象写入数据到Excel文件

&emsp;&emsp;to_excel()函数用于将数据从DataFrame对象写入到Excel文件，其格式如下：

&emsp;&emsp;&emsp;&emsp;DataFrame.to_excel(excel_writer,sheet_name, …)

&emsp;&emsp;其中，excel_writer的类型为字符串，包含了文件路径和文件名；sheetname的类型为字符串，包含了需要写入的Excel表单名。

&emsp;&emsp;**例4-2-16** 将DataFrame对象iris中的数据写入到Iris_pandas_new.xlsx文件。

#从DataFrame对象写入数据到Excel文件

In [35]:
iris.to_excel(r'C:\\配套资源\\第4章\\Iris_pandas_new.xlsx',sheet_name='Sheet1') 

### 4. DataFrame的综合运用
&emsp;&emsp;**例4-2-17** 创建一个存储了3名学生的3门课程成绩的DataFrame对象scores，值为成绩，行索引为学号，列索引为课程名（计算机、英语和体育）。其中，成绩和学号由NumPy的随机数组生成函数randint()产生，已知成绩的范围为0-100，学号的范围为200151800-200151900。对scores进行以下操作并同步进行打印：首先加入学号为200151909、三门课成绩分别为88、76和90的学生，然后删除所有体育成绩，接着将所有学生的英语成绩乘以0.8，最后筛选出计算机成绩为80分以上的学生。把最后的数据写入到Excel文件，命名为“Scores.xlsx”。

In [36]:
import numpy as np

#### （1）DataFrame对象scores的创建
&emsp;&emsp;np.random.randint(start,end,size)可以生成一个包含随机元素的数组，这些元素的取值范围为从start到end-1；size表达大小，可以是一个整数，定义一维数组的长度，也可以是一个元组，定义一个二维数组的形状。通过调用DataFrame()函数、randint()函数和astype()函数完成对scores的创建。

In [37]:
stu=np.random.randint(0,101,(3,3))
xh=np.random.randint(200151800,200151901,3).astype(str)
scores=pd.DataFrame(stu,index=xh,columns=['计算机','英语','体育'])
print(scores)

           计算机  英语  体育
200151873   95   8  80
200151885   93  46  95
200151864   93  80  28


#### （2）scores中元素的增加
&emsp;&emsp;通过赋值的方法加入新的学号和成绩。

In [38]:
scores=scores.append(pd.DataFrame([[88,76,90]],index=['200151909'],columns=['计算机','英语','体育']))#加入新的学号和成绩
print(scores)

           计算机  英语  体育
200151873   95   8  80
200151885   93  46  95
200151864   93  80  28
200151909   88  76  90


#### （3）scores中元素的删除
&emsp;&emsp;删除列索引值为'体育'的元素，调用drop()函数完成对scores中元素的删除。

In [39]:
scores=scores.drop('体育',axis=1) #删除列索引值为'体育'的元素
print(scores)

           计算机  英语
200151873   95   8
200151885   93  46
200151864   93  80
200151909   88  76


#### （4）scores中元素的修改
&emsp;&emsp;取出列索引值为'英语'的元素乘以0.8再赋值给列索引值为'英语'的元素。

In [40]:
scores['英语']=scores['英语']*0.8#将列索引值为'英语'的成绩乘以0.8
print(scores)

           计算机    英语
200151873   95   6.4
200151885   93  36.8
200151864   93  64.0
200151909   88  60.8


#### （5）scores中元素的查询
&emsp;&emsp;程序通过布尔表达式scores['计算机']>=80来筛选出计算机成绩大于等于80的学生。

In [41]:
print(scores[scores['计算机']>=80])#检索计算机成绩大于等于80的学生
scores = scores[scores['计算机']>=80] #筛选出计算机成绩大于等于80的学生

           计算机    英语
200151873   95   6.4
200151885   93  36.8
200151864   93  64.0
200151909   88  60.8


#### （6）把scores写入到Excel文件
&emsp;&emsp;程序通过to_excel()函数来完成把数据写入Excel文件，得到的Scores.xlsx文件内容如图所示。
![image.png](attachment:image.png)

In [42]:
scores.to_excel(r'C:\\配套资源\\第4章\\scores.xlsx',sheet_name='Sheet1')#从DataFrame对象写入数据到Excel文件