# DataFrame数据类型

DataFrame 是 Pandas 的重要数据结构之一，也是在使用 Pandas 进行数据分析过程中最常用的结构之一，可以这么说，掌握了 DataFrame 的用法，你就拥有了学习数据分析的基本能力。

### 认识DataFrame结构
 
DataFrame 一个表格型的数据结构，既有行标签（index），又有列标签（columns），它也被称异构数据表，所谓异构，指的是表格中每列的数据类型可以不同，比如可以是字符串、整型或者浮点型等。其结构图示意图，如下所示：

<img src="../../Pimages/154931A54-0.gif">


表格中展示了某个销售团队个人信息和绩效评级（rating）的相关数据。数据以行和列形式来表示，其中每一列表示一个属性，而每一行表示一个条目的信息。

下表展示了上述表格中每一列标签所描述数据的数据类型，如下所示：

<img src="../../Pimages/20220407223504.png" />


DataFrame 的每一列数据都可以看成一个 Series 结构，只不过，DataFrame 为每列数据值增加了一个列标签。因此 DataFrame 其实是从 Series 的基础上演变而来,并且他们有相同的标签,在数据分析任务中 DataFrame 的应用非常广泛，因为它描述数据的更为清晰、直观。

通过示例对  DataFrame 结构做进一步讲解。 下面展示了一张学生评分表，如下所示：
<img src="../../Pimages/20220407230833.png">

同 Series 一样，DataFrame 自带行标签索引，默认为“隐式索引”即从 0 开始依次递增，行标签与 DataFrame 中的数据项一一对应。上述表格的行标签从 0 到 3，共记录了 4 条数据（图中将行标签省略）。当然你也可以用“显式索引”的方式来设置行标签。

下面对 DataFrame 数据结构的特点做简单地总结，如下所示：

- DataFrame 每一列的标签值允许使用不同的数据类型；
- DataFrame 是表格型的数据结构，具有行和列；
- DataFrame 中的每个数据值都可以被修改。
- DataFrame 结构的行数、列数允许增加或者删除；
- DataFrame 有两个方向的标签轴，分别是行标签和列标签；
- DataFrame 可以对行和列执行算术运算。


## 创建DataFrame对象
`pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)`

- data: 输入的数据，可以是 ndarray，series，list，dict，标量以及一个 DataFrame
- index: 行标签，如果没有传递 index 值，则默认行标签是 RangeIndex(0, 1, 2, …, n)，n 代表 data 的元素个数。
- columns: 列标签，如果没有传递 columns 值，则默认列标签是 RangeIndex(0, 1, 2, …, n)。
- dtype: 要强制的数据类型。只允许使用一种数据类型。如果没有，自行推断
- copy:  从输入复制数据。对于dict数据，copy=True,重新复制一份。对于DataFrame或ndarray输入，类似于copy=False,使用的是试图

### Pandas DataFrame 是一个二维的数组结构，类似二维数组。

In [1]:
# 引入numpy和pandas
import numpy as np
import pandas as pd

<b>1. 使用普通列表创建</b>

In [3]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [4]:
data = [1,2,3,4,5]
df = pd.Series(data)
print(df)

0    1
1    2
2    3
3    4
4    5
dtype: int64


<b>2. 使用嵌套列表创建</b>

In [5]:
# 列表中的每个元素代表一行数据
data=[['sxg',20],['xzc',21],['wzs',19]]
df = pd.DataFrame(data)
print(df)

     0   1
0  sxg  20
1  xzc  21
2  wzs  19


In [6]:
# 列表中的每个元素代表一行数据
data=[['sxg',20],['xzc',21],['wzs',19]]
# 指定列标签
df = pd.DataFrame(data,columns=['name','age'])
print(df)

  name  age
0  sxg   20
1  xzc   21
2  wzs   19


<b>3  指定数值元素的数据类型为 float：
- 需要注意,dtype只能设置一个, 设置多个列的数据类型,需要使用其他方式

In [8]:
data=[['sxg',20,'男'],['xzc',21,'男'],['wzs',19,'女']]
df = pd.DataFrame(data,columns=['name','age','sex'],dtype=int)
# int 满足某列特征，会自动使用，不满足就自动识别
print(df)

  name  age sex
0  sxg   20   男
1  xzc   21   男
2  wzs   19   女


  df = pd.DataFrame(data,columns=['name','age','sex'],dtype=int)


In [10]:
print(df['age'].dtype)
print(df['name'].dtype)

int32
object


<b>4. 字典嵌套列表创建</b>

data 字典中，键对应的值的元素长度必须相同（也就是列表长度相同）。如果传递了索引，那么索引的长度应该等于数组的长度；如果没有传递索引，那么默认情况下，索引将是 RangeIndex(0.1...n)，其中 n 代表数组长度。

In [13]:
data={'name':['sjb','mrb','sxg'],'age':[20,21,22]}
df = pd.DataFrame(data)
print(df)
print(list(df.index))

  name  age
0  sjb   20
1  mrb   21
2  sxg   22
[0, 1, 2]


> 注意：这里使用了默认行标签，也就是 RangeIndex(0.1...n)。它生成了 0,1,2,3，并分别对应了列表中的每个元素值。

<b>5. 添加自定义的行标签</b>

In [14]:
data={'name':['sjb','mrb','sxg'],'age':[20,21,22]}
# 添加行标签
df = pd.DataFrame(data,index=['stu1','stu2','stu3'])
print(df)
print(list(df.index))

     name  age
stu1  sjb   20
stu2  mrb   21
stu3  sxg   22
['stu1', 'stu2', 'stu3']


<b>6. 列表嵌套字典创建DataFrame对象</b>

列表嵌套字典可以作为输入数据传递给 DataFrame 构造函数。默认情况下，字典的键被用作列名。

In [15]:
# 列表嵌套字典
data =[{'a':1,'b':2,'c':3},{'a':5,'b':6,'c':7,'d':8}]
df = pd.DataFrame(data)
print(df)

   a  b  c    d
0  1  2  3  NaN
1  5  6  7  8.0


In [16]:
type(np.NaN)

float

<font color="red">注意：如果其中某个元素值缺失，也就是字典的 key 无法找到对应的 value，将使用 NaN 代替。</font>

如何使用列表嵌套字典创建一个 DataFrame 对象,可以设置结果需要那些列

In [19]:
# 列表嵌套字典
data =[{'a':1,'b':2,'c':3},{'a':5,'b':6,'c':7,'d':8}]
df = pd.DataFrame(data)
print(df)
df1 = pd.DataFrame(data,columns=['a','d'])
print('************************88')
print(df1)
df2 = pd.DataFrame(data,columns=['a','m'])
print('************************88')
print(df2)

   a  b  c    d
0  1  2  3  NaN
1  5  6  7  8.0
************************88
   a    d
0  1  NaN
1  5  8.0
************************88
   a   m
0  1 NaN
1  5 NaN


<b>7. Series创建DataFrame对象</b>

您也可以传递一个字典形式的 Series，从而创建一个 DataFrame 对象，其输出结果的行索引是所有 index 的合集

In [20]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
    'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


<font color="red">注意：对于 one 列而言，此处虽然显示了行索引 'd'，但由于没有与其对应的值，所以它的值为 NaN。</font>

# 列操作DataFrame
DataFrame 可以使用列标签来完成数据的选取、添加和删除操作。下面依次对这些操作进行介绍。

<b>1. 选取数据列</b>
- 可以使用列索引，轻松实现数据选取

In [2]:
data = {'name':['zmm','jwj','zy','sjb'],'sex':['女','女','男','男']}
# 定义行标签
index = ['stu1','stu2','stu3','stu4']
# 通过字典创建DF
df = pd.DataFrame(data,index=index)
print(df)

     name sex
stu1  zmm   女
stu2  jwj   女
stu3   zy   男
stu4  sjb   男


In [4]:
print(df['name'])
print(df['sex'])

stu1    zmm
stu2    jwj
stu3     zy
stu4    sjb
Name: name, dtype: object
stu1    女
stu2    女
stu3    男
stu4    男
Name: sex, dtype: object


In [8]:
data = {'name':['zmm','jwj','zy','sjb'],'sex':['女','女','男','男'],'age':[20,19,21,22]}
# 定义行标签
index = ['stu1','stu2','stu3','stu4']
# 通过字典创建DF
df = pd.DataFrame(data,index=index)
print(df)
# 想获取 name 和 age
# print(df['name','age']) # 这种写法是错误的
# print(df['name':'age'])  # 列不能使用切边取多列值    ，这种写法是错误的

     name sex  age
stu1  zmm   女   20
stu2  jwj   女   19
stu3   zy   男   21
stu4  sjb   男   22


In [9]:
print(df[['name','age']])  # 正确的写法，需要双中括号

     name  age
stu1  zmm   20
stu2  jwj   19
stu3   zy   21
stu4  sjb   22


In [10]:
# 是否可以使用列标签的下标进行取值  ------不可以
print(df[1])

KeyError: 1

<b>2. 列添加</b>
- 使用 columns 列索引标签可以实现添加新的数据列，示例如下

In [15]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
     'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
    
}
df = pd.DataFrame(d)
# print(df)
# 插入一列
df['three']=pd.Series([10,20,30],index=['a','b','c'])
# print(df)
# 将已经存在的列进行运算，创建一个新的列
df['four']=df['one']+df['three']
print(df)

   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3   30.0  33.0
d  NaN    4    NaN   NaN


### insert() 方法添加

上述示例，我们初次使用了 DataFrame 的算术运算，这和 NumPy 非常相似。除了使用df[]=value的方式外，您还可以使用 insert() 方法插入新的列，示例如下： 
`df.insert(loc, column, value, allow_duplicates=False)`
- loc : 整型,插入索引,必须验证0<=loc<=len（列）
- column : 插入列的标签,类型可以是(字符串/数字/散列对象)
- value : 数值,Series或者数组
- allow_duplicates : 允许重复,可以有相同的列标签数据,默认为False

In [19]:
info = [['aa',18],['bb',23],['cc',33]]
df= pd.DataFrame(info)
print(df)
# 第一个参数数字，是插入的位置（从零开始）
df.insert(0,column='score',value=[20,30,40])
print('******************************')
print(df)

    0   1
0  aa  18
1  bb  23
2  cc  33
******************************
   score   0   1
0     20  aa  18
1     30  bb  23
2     40  cc  33


In [21]:
# 可以添加重复的
df.insert(1,column='score',value=[70,80,90],allow_duplicates=True)
print(df['score'])
print(df)

   score  score  score
0     20     70     70
1     30     80     80
2     40     90     90
   score  score  score   0   1
0     20     70     70  aa  18
1     30     80     80  bb  23
2     40     90     90  cc  33


<b>2. 删除数据列</b>
- 通过 del 和 pop() 都能够删除 DataFrame 中的数据列,pop有返回值

示例如下：

In [27]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
     'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
    
}
df = pd.DataFrame(d)
print(df)
print('***************************8')
# del df['one']
# print(df)
a = df.pop('two')
print(df)
print('***************************8')
print(a)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
***************************8
   one
a  1.0
b  2.0
c  3.0
d  NaN
***************************8
a    1
b    2
c    3
d    4
Name: two, dtype: int64


# 行操作DataFrame

理解了上述的列索引操作后，行索引操作就变的简单

<b>1. 标签选取</b>
- 行操作需要借助`loc`属性来完成:按标签或布尔数组访问一组行和列

In [3]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
     'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
    
}
df = pd.DataFrame(d)
print(df)
print('*************************8')
print(df.loc['a'])

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
*************************8
one    1.0
two    1.0
Name: a, dtype: float64


<b>注意：loc 允许接受两个参数分别是行和列</b>

In [4]:
df.loc['a','one'] # a行和one列的交叉点

1.0

<b>行和列还可以使用切片</b>

In [5]:
df.loc['a':'c','two']

a    1
b    2
c    3
Name: two, dtype: int64

In [8]:
df.loc[['b','d'],['one','two']] # loc参数

Unnamed: 0,one,two
b,2.0,2
d,,4


<b>2. 数值型索引和切片</b>
- 使用数据型索引 需要使用`iloc`属性

<font color="red">直接使用索引,会优先查找的是列标签,如果找不到会报错.列没有位置索引</font>
- 可以使用`iloc` :行基于整数位置的按位置选择索引

In [9]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
     'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
    
}
df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


In [10]:
df.iloc[2]  # 位置索引

one    3.0
two    3.0
Name: c, dtype: float64

In [12]:
df.iloc[[0,-1]]

Unnamed: 0,one,two
a,1.0,1
d,,4


In [17]:
df.iloc[3,0]   # iloc可以使用行索引的位置和列索引的位置 （都是从零开始）

nan

<font color="red">注意:</font>
- loc使用的是标签
- iloc使用的是位置索引

两者不能混用,比如在loc中使用位置索引,或者在iloc中使用标签索引

<b>3. 切片操作多行选取</b>

可以直接使用数值型切片操作行.和使用`iloc`同样的结果

In [18]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
     'two':pd.Series([1,2,3,4],index=['a','b','c','d'])
    
}
df = pd.DataFrame(d)
print(df)


   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


In [19]:
df.iloc[1:3]

Unnamed: 0,one,two
b,2.0,2
c,3.0,3


In [20]:
df[1:3]

Unnamed: 0,one,two
b,2.0,2
c,3.0,3


## 练习:

1.  取得第3行数据
2.  取得Age列数据
3.  取得Age和Salary列数据
4.  取得前3行数据
5.  取得前3行Name|Age|Salary数据
6.  取得行1和3,列Age和Salary数据

尽量使用多种方式

#### 4. 添加数据行

使用 `append()` 函数，可以将新的数据行添加到 DataFrame 中，该函数会在行末追加数据行

`df.append(other, ignore_index=False, verify_integrity=False, sort=False)`

将"other"追加到调用者的末尾，<font color="red">返回一个新对象</font>。"other"行中不在调用者中的列将作为新列添加。

- other : DataFrame或Series/dict类对象，或这些对象的列表
- ignore_index : 默认为False,如果为True将不适用index 标签.
- verify_integrity : 默认为False如果为True，则在创建具有重复项的索引时引发ValueError.
- sort : 排序

In [2]:
import pandas as pd
data = {
    'name':['wcb','tyy'],
    'age':[20,20]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,wcb,20
1,tyy,20


1). 追加字典

In [3]:
df = df.append({'name':'yib','age':20})  # 会报错
df

  df = df.append({'name':'yib','age':20})


TypeError: Can only append a dict if ignore_index=True

In [6]:
df = df.append({'name':'yib','age':20},ignore_index=True)  
df

  df = df.append({'name':'yib','age':20},ignore_index=True)  # 会报错


Unnamed: 0,name,age
0,wcb,20
1,tyy,20
2,yib,20
3,yib,20


<font color="red">错误提示:</font>

Can only append a Series if ignore_index=True or if the Series has a name

仅当ignore_index=True或序列有名称时，才能追加序列

或者

Series数据有name

In [7]:
df = df.append(pd.Series({'name':'mcg','age':20},name='a'))
df

  df = df.append(pd.Series({'name':'mcg','age':20},name='a'))


Unnamed: 0,name,age
0,wcb,20
1,tyy,20
2,yib,20
3,yib,20
a,mcg,20


In [8]:
df = df.append(pd.Series({'name':'mcg','age':20}))  # 会报错
df

  df = df.append(pd.Series({'name':'mcg','age':20}))


TypeError: Can only append a Series if ignore_index=True or if the Series has a name

In [9]:
df = df.append(pd.Series({'name':'mcg','age':20}),ignore_index=True)  # 会报错
df

  df = df.append(pd.Series({'name':'mcg','age':20}),ignore_index=True)  # 会报错


Unnamed: 0,name,age
0,wcb,20
1,tyy,20
2,yib,20
3,yib,20
4,mcg,20
5,mcg,20


2).追加列表
- 如果list是一维的,则以列的形式追加
- 如果list是二维的,则以行的形式追加
- 如果list是三维的,只添加一个值

<font color="red">注意:</font>使用append可能会出现相同的index,想避免的话,可以使用ignore_index=True

In [10]:
data = [
    [1,2,3,4],
    [5,6,7,8]
]
df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,5,6,7,8


- list是一维,则以列的形式追加

In [11]:
a1 = [10,20]
df2 = df.append(a1)
df2

  df2 = df.append(a1)


Unnamed: 0,0,1,2,3
0,1,2.0,3.0,4.0
1,5,6.0,7.0,8.0
0,10,,,
1,20,,,


In [12]:
a1 = [10,20]
df2 = df.append(a1,ignore_index=True)
df2

  df2 = df.append(a1,ignore_index=True)


Unnamed: 0,0,1,2,3
0,1,2.0,3.0,4.0
1,5,6.0,7.0,8.0
2,10,,,
3,20,,,


- list是二维的,则以行的形式追加

In [13]:
a2=[[10,'20',30]]
df3 = df.append(a2)
df3

  df3 = df.append(a2)


Unnamed: 0,0,1,2,3
0,1,2,3,4.0
1,5,6,7,8.0
0,10,20,30,


In [14]:
a2=[[10,'20',30]]
df3 = df.append(a2,ignore_index=True)
df3

  df3 = df.append(a2,ignore_index=True)


Unnamed: 0,0,1,2,3
0,1,2,3,4.0
1,5,6,7,8.0
2,10,20,30,


#### 5. 删除数据行

您可以使用行索引标签，从 DataFrame 中删除某一行数据。如果索引标签存在重复，那么它们将被一起删除。示例如下：

In [15]:
df = pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
df2 = pd.DataFrame([[5,6],[7,8]],columns=['a','b'])
df = df.append(df2)
df

  df = df.append(df2)


Unnamed: 0,a,b
0,1,2
1,3,4
0,5,6
1,7,8


In [19]:
df1 = df.drop(0)  # drop()不改变源数据
df1

Unnamed: 0,a,b
1,3,4
1,7,8


In [18]:
df

Unnamed: 0,a,b
0,1,2
1,3,4
0,5,6
1,7,8


In [20]:
df = pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
df2 = pd.DataFrame([[5,6],[7,8]],columns=['a','b'])
df = df.append(df2,ignore_index=True)
df

  df = df.append(df2,ignore_index=True)


Unnamed: 0,a,b
0,1,2
1,3,4
2,5,6
3,7,8


In [21]:
df1 = df.drop(0)
df1

Unnamed: 0,a,b
1,3,4
2,5,6
3,7,8


In [22]:
df

Unnamed: 0,a,b
0,1,2
1,3,4
2,5,6
3,7,8


# 常用属性和方法汇总

| 名称     | 属性&方法描述                                                |
| :-------- | :------------------------------------------------------------ |
| T        | 行和列转置。                                                 |
| axes     | 返回一个仅以行轴标签和列轴标签为成员的列表。                 |
| dtypes   | 返回每列数据的数据类型。                                     |
| empty    | DataFrame中没有数据或者任意坐标轴的长度为0，则返回True       |
| columns  | 返回DataFrame所有列标签                                                     |
| shape    | 返回一个元组，获取行数和列数,表示了 DataFrame 维度。         |
| size     | DataFrame中的元素数量。                                      |
| values   | 使用 numpy 数组表示 DataFrame 中的元素值。                   |
| head()   | 返回前 n 行数据。                                            |
| tail()   | 返回后 n 行数据。                                            |
| rename() | rename(columns=字典) ,修改列名                               |
| info()   | 可以显示信息，例如行数/列数，总内存使用量，每列的数据类型以及不缺少值的元素数 |
| sort_index()   | 默认根据行标签对所有行排序，或根据列标签对所有列排序，或根据指定某列或某几列对行排序。 |
| sort_values()   | 既可以根据列数据，也可根据行数据排序 |

In [23]:
data = {
    'name':['sxg','xzc','zwj'],
    'sex':['m','m','m'],
    'age':[20,20,20]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,sex,age
0,sxg,m,20
1,xzc,m,20
2,zwj,m,20


### 转置
返回 DataFrame 的转置，也就是把行和列进行交换。

In [24]:
df.T

Unnamed: 0,0,1,2
name,sxg,xzc,zwj
sex,m,m,m
age,20,20,20


### axes

返回一个行标签、列标签组成的列表。

In [25]:
df.axes

[RangeIndex(start=0, stop=3, step=1),
 Index(['name', 'sex', 'age'], dtype='object')]

### dtypes

返回Series,每一列的数据类型。示例如下：

In [26]:
df.dtypes  # 序列

name    object
sex     object
age      int64
dtype: object

### empty

返回一个布尔值，判断输出的数据对象是否为空，若为 True 表示对象为空。

In [27]:
df.empty

False

In [28]:
dff = pd.DataFrame()
dff.empty

True

如果给DataFrame数据类型直接判断真假,报错:
    
    The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
DataFrame是一个模糊的数据类型

### columns

返回DataFrame所有列标签 

In [29]:
df.columns

Index(['name', 'sex', 'age'], dtype='object')

In [30]:
len(df.columns)

3

In [31]:
df.columns.size

3

### shape    

返回一个元组，获取行数和列数,表示了 DataFrame 维度。

In [33]:
df

Unnamed: 0,name,sex,age
0,sxg,m,20
1,xzc,m,20
2,zwj,m,20


In [32]:
df.shape   # 第一个是行，第二个是列

(3, 3)

### values

以 ndarray 数组的形式返回 DataFrame 中的数据

In [34]:
df.values

array([['sxg', 'm', 20],
       ['xzc', 'm', 20],
       ['zwj', 'm', 20]], dtype=object)

### head()&tail()查看数据


In [35]:
df.head(2) 

Unnamed: 0,name,sex,age
0,sxg,m,20
1,xzc,m,20


In [36]:
df.tail(2)

Unnamed: 0,name,sex,age
1,xzc,m,20
2,zwj,m,20


## 修改标签名rename()

`DataFrame.rename(index=None, columns=None, inplace=False)`
- index: 修改后的行标签
- columns: 修改后的列标签
- inplace: 默认为False,不改变源数据,返回修改后的数据. True更改源数据

可以修改部分行或者列

In [37]:
df

Unnamed: 0,name,sex,age
0,sxg,m,20
1,xzc,m,20
2,zwj,m,20


In [38]:
df1 = df.rename(index={0:'stu1',1:'stu2'})
df1

Unnamed: 0,name,sex,age
stu1,sxg,m,20
stu2,xzc,m,20
2,zwj,m,20


In [39]:
df2 = df.rename(columns={'name':'NAME'})
df2

Unnamed: 0,NAME,sex,age
0,sxg,m,20
1,xzc,m,20
2,zwj,m,20


In [45]:
df3 = df.rename(index={0:'stu1'},columns={'name':'NAME'})
df3

Unnamed: 0,NAME,sex,age
stu1,sxg,m,20
1,xzc,m,20
2,zwj,m,20


In [46]:
df

Unnamed: 0,NAME,sex,age
stu1,sxg,m,20
1,xzc,m,20
2,zwj,m,20


### info()函数
用于打印DataFrame的简要摘要，显示有关DataFrame的信息，包括索引的数据类型dtype和列的数据类型dtype，非空值的数量和内存使用情况。

In [47]:
data = {
    'name':['sxg','xzc','zwj'],
    'sex':['m','m','m'],
    'age':[20,20,20]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,sex,age
0,sxg,m,20
1,xzc,m,20
2,zwj,m,20


In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   sex     3 non-null      object
 2   age     3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes


我们来看一看都有些什么信息：

- <class 'pandas.core.frame.DataFrame'>: 是说数据类型为DataFrame
- RangeIndex: 5 entries, 0 to 4: 有5条数据（5行），索引为0-4
- Data columns (total 3 columns): 该数据帧有3列
- #: 索引号，不用太在意
- column: 每列数据的列名
- Non-Null count: 每列数据的数据个数，缺失值NaN不作计算。可以看出上面Salary列数据有缺失值。
- Dtype: 数据的类型。
- dtypes: float64(1), int64(1), object(1): 数据类型的统计
- memory usage: 248.0+ bytes: 该数据帧占用的运行内存（RAM）

### df. sort_index()
`sort_index(axis=0, ascending=True, inplace=False)`

作用：默认根据行标签对所有行排序，或根据列标签对所有列排序，或根据指定某列或某几列对行排序。

注意：df.sort_index()可以完成和df.sort_values()完全相同的功能，但python更推荐用只用df.sort_index()对“根据行标签”和“根据列标签”排序，其他排序方式用df.sort_values()。

- axis：0按照行名排序；1按照列名排序
- ascending：默认True升序排列；False降序排列
- inplace：默认False，否则排序之后的数据直接替换原来的数据


In [49]:
df = pd.DataFrame({'b':[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3])
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,3,2,8
3,2,1,2


In [53]:
df1 = df.sort_index() # 默认按行升序 (axis=0,ascending=True)
print(df1)
df2 = df.sort_index(axis=0,ascending=True)
print(df2)

   b  a  c
0  2  3  3
1  3  2  8
2  1  4  1
3  2  1  2
   b  a  c
0  2  3  3
1  3  2  8
2  1  4  1
3  2  1  2


In [54]:
 # 按照列进行升序
df2 = df.sort_index(axis=1)
df2

Unnamed: 0,a,b,c
2,4,1,1
0,3,2,3
1,2,3,8
3,1,2,2


## df.sort_values()
`DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')`

作用：既可以根据列数据，也可根据行数据排序。

注意：必须指定by参数，即必须指定哪几行或哪几列；无法根据index名和columns名排序（由.sort_index()执行）

- by：str or list of str；如果axis=0，那么by="列名"；如果axis=1，那么by="行名"。
- axis：{0 or ‘index’, 1 or ‘columns’}, default 0，默认按照列排序，即纵向排序；如果为1，则是横向排序。
- ascending：布尔型，True则升序，如果by=['列名1','列名2']，则该参数可以是[True, False]，即第一字段升序，第二个降序。
- inplace：布尔型，是否用排序后的数据框替换现有的数据框。
- na_position：{‘first’, ‘last’}, default ‘last’，默认缺失值排在最后面。

In [13]:
df = pd.DataFrame({'b':[1,2,3,2],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3])
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,3,2,8
3,2,1,2


1. 按b列升序排序

In [56]:
df1 = df.sort_values(by='b')
df1

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
3,2,1,2
1,3,2,8


2. 先按b列降序，再按a列升序排序

In [14]:
print(df)
df2 = df.sort_values(by=['b','a'],ascending=[False,True])
df2

   b  a  c
2  1  4  1
0  2  3  3
1  3  2  8
3  2  1  2


Unnamed: 0,b,a,c
1,3,2,8
3,2,1,2
0,2,3,3
2,1,4,1


3. 按行3升序排列

In [10]:
df1 = df.sort_values(by=3,axis=1)
df1

Unnamed: 0,a,b,c
2,4,1,1
0,3,2,3
1,2,3,8
3,1,2,2


4. 按行3升序，行0降排列

In [12]:
df2 = df.sort_values(by=[3,0],axis=1,ascending=[True,False])
df2

Unnamed: 0,a,c,b
2,4,1,1
0,3,3,2
1,2,8,3
3,1,2,2


<font color="red">注意：</font>指定多列（多行）排序时，先按排在前面的列（行）排序，如果内部有相同数据，再对相同数据内部用下一个列（行）排序，

以此类推。如何内部无重复数据，则后续排列不执行。即首先满足排在前面的参数的排序，再排后面参数


In [31]:
df = pd.DataFrame({'b':[1,2,3,2],'a':[4,5,6,7],'c':[1,3,8,5]},index=[2,0,1,3])
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,5,3
1,3,6,8
3,2,7,5


In [32]:

df2 = df.sort_values(by=['b','c'],ascending=[False,True])
df2

Unnamed: 0,b,a,c
1,3,6,8
0,2,5,3
3,2,7,5
2,1,4,1


# 补充:  错误提示

<font color="red">错误提示:</font>

- If using all scalar values, you must pass an index: (直接传入一组标量,必须通过index写入)

<font color="red">错误提示:</font>

- The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().(数据为真是模糊的)


直接对DataFrame为空进行判断,出错

# 作业

In [1]:
1. 用三种不同的方法，创建以下Dataframe（保证columns和index一致，值不做要求）

结果Dataframe为：
    four  one  three  two
a     4    1      3    2
b     5    2      4    3
c     6    3      5    4
d     7    4      6    5
e     8    5      7    6

2. 如图创建Dataframe(4*4，值为0-100的随机数)，通过索引得到以下值
    ① 索引得到b，c列的所有值
    ② 索引得到第三第四行的数据
    ③ 按顺序索引得到two，one行的值
    ④ 索引得到大于50的值
          a          b          c          d
one    60.936882  34.198569  86.933961  63.217850
two    93.910622   8.843498  12.482240  35.940462
three  11.350391  40.704308  50.524502   5.215897
four    5.777448  75.515444  96.847913  57.683561


3 .创建一个3*3，值在0-100区间随机值的Dataframe（如图），分别按照index和第二列值大小，降序排序

创建Dataframe为：
      v1         v2         v3
a   6.477556   9.470260  99.929419
b  47.411645  50.873012  33.376488
c  65.374675  23.431663  43.404255 
-------
按照index降序：
      v1         v2         v3
c  65.374675  23.431663  43.404255
b  47.411645  50.873012  33.376488
a   6.477556   9.470260  99.929419 
-------
按照第二列值大小降序：
    v1         v2         v3
b  47.411645  50.873012  33.376488
c  65.374675  23.431663  43.404255
a   6.477556   9.470260  99.929419 

SyntaxError: invalid character '，' (U+FF0C) (1313262301.py, line 1)