In [1]:
import numpy as np
import pandas as pd


### 数据结构Series创建

***pd.Series(data=None,index=None,dtype=None,name=None,copy=False)***

- data 输入的数据，可以是列表、常量、ndarry数组等，如果是字典，则保持参数顺序

- index 索引值，必须是可散列的（不可变数据类型（str、bytes和数值类型）），并且与数据个数相同，如果未提供，将默认为RangeIndex(0,1,2,...n)

- dtype 输出系列数据的类型，如果未指定，将从数据中推断

- name 为Series定义一个名称

- copy 表示对data进行拷贝,默认为False,仅影响Series和ndarry数组

In [None]:
# 列表作为数据创建Series
ar_list = [3,10,3,4,5]
print(type(ar_list))
# 使用列表创建Series
s1 = pd.Series(ar_list)
print(s1)
print(type(s1))

In [None]:
# 数组作为数据源
np_rand = np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

- #### **通过index和values属性取得对应的标签和值**

In [None]:
# 默认为RangeIndex(0,1,2,...,n)
s1.index

In [None]:
# 可以强制转换为列表输出
list(s1.index)

In [None]:
# 返回Series的所有值,数据类型为ndarry
print(s1.values,type(s1.values))

- #### **通过标签取得对应的值，或者修改对应的值**

In [None]:
# 取得索引为1的数据
s1[1]

In [None]:
# 改变索引值为2的数值
s1[2] =50
s1

- #### **2) 字典作为数据源创建Series**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d)
ser

- #### **通过index和values属性取得对应的标签和值**

In [None]:
# 标签索引
ser.index

In [None]:
# Series值
ser.values

- #### **通过标签取得对应的值或者修改对应的值**

In [None]:
ser['a']

In [None]:
ser['d'] = 4
ser

In [None]:
ser['5'] = 5
ser

### **其他参数介绍**

- #### **1) index参数**

索引值，必须是可散列的（不可变数据类型（str、bytes和数值类型）），并且与数据个数相同，如果未提供，将默认为RangeIndex(0,1,2,...n)

   - 使用“显式索引”的方法定义索引标签

In [None]:
data = np.array(['a','b','c','d'])
# 自定义标签索引(即显式索引)，需要和数据长度一致
s = pd.Series(data,index=[101,102,103,104])
s

  - #### **从指定索引的字典构造序列**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['a','b','c'])
ser

- #### **当传递的索引值未匹配对应的字典键时，使用NaN(非数字)进行填充**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['x','b','z'])
ser


输出: 

x    NaN

b    2.0

z    NaN 

**注意：索引首先使用字典中的键构建的，在此之后，用给定的索引值对序列重新编制索引，因此我们得到所有NaN**

- #### **通过匹配的索引值，改变创建Series数据的顺序**

In [None]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['c','b','a'])
ser

- #### **2) name参数**

我们可以给一个Series对象命名，也可以给一个Series数组中华的索引列起一个名字，pandas为我们设计好了对象的属性，并在设置了name属性值来进行名字的设定。

In [None]:
data1 = {
    "beijing" : 2000,
    "shanghai": 2400,
    "nanjing" : 2100,
}
dd =pd.Series(data1)
dd

In [None]:
dd = pd.Series(data1)
dd.name = "city_data"
print(dd)

In [None]:
# 使用Series创建DataFrame类型
df = pd.DataFrame(dd)
print(df,type(df))
print("="*60)
# 输出city_data列的数据和类型 
print(df['city_data'],type(df['city_data']))

- #### **3) copy参数**

copy表示对data进行拷贝，默认为false，仅影响Series和ndarry数组

In [None]:
# 数组作为源数据
np_rand =np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

In [None]:
# 改变Series标签为1的值
s1[1] = 50

# 输出series对象s1
print("s1:\n",s1)

# 输出数组对象np_rand 数组也被改变了
print("np_rand:",np_rand)

In [None]:
# 当数据源非Series和ndarray时
# 数组作为数据源
my_list = [1,2,3,4,5,6]

# 使用数组创建Series
s2 = pd.Series(my_list)
s2

In [None]:
# 这个时候再改变s2[1]的值
s2[1] = 50
print("s2[1]:",s2[1])

# 输出s2
print("s2:",s2)

# 输出数组
print("mny_list:",my_list)

### **Series的索引/切片**

  ##### **1.下标索引**

类似于列表索引

In [None]:
s = pd.Series(np.random.rand(5))
print(s)
print(s[3],type(s[3]),s[3].dtype)

  ##### **1.标签索引**

  当索引为object类型时，既可以使用标签索引也可以使用位置索引
  
  Series类似于固定大小的dict,把index中的索引标签当做key，而把Series序列中的元素值当做value，然后通过index索引标签来访问或者修改元素值

- ##### 使用索标签访问单个元素值

In [None]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print(s['b'],type(s['b']),s['b'].dtype)

- ##### 使用索引标签访问多个元素值


In [None]:
s = pd.Series([6,7,8,9,10],index=list("abcde"))
print(s)
print(s[['a','b','c']])

### 切片

- Series使用标签切片运算与普通的python切片运算不同：Series使用标签切片时，其末端是包含的

- Series使用python切片运算即使用位置数值切片，其末端是不包含的

In [None]:
s = pd.Series(np.random.rand(10))
s

**位置索引和标签索引刚好一致，使用切片时如果是数值会认为是python的切片运算，不包含末端**

In [None]:
s[1:3]

In [None]:
s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
print(s)
print(s[1:4])

In [None]:
s["a":"d"]

### **Series数据结构 基本技巧**

#### **1.查看前几条和后几条数据**

In [None]:
s = pd.Series(np.random.rand(15))
s

In [None]:
# 默认查看前5条数据
print(s.head())
# 默认查看前1条数据
print(s.head(1))

In [None]:
# 默认查看后5条数据
print(s.tail())

#### **2.重新索引:reindex**

使用可选逻辑,使Series符合新索引

将NaN放在上一个索引中没有值的位置。除非新索引等同于当前索引，并且生成新对象。

In [None]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print("---------s---------")
print(s)

# 新索引在上一个索引中不存在，生成新对象时，对应的值，设置为NaN
s1 = s.reindex(list("cde12"))
print("========s1=========")
print(s1)

In [None]:
# 设置填充值
s2 = s.reindex(list("cde34"),fill_value=0)
print("========s2=========")
print(s2)

#### **3.对齐运算**

是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN

In [None]:
s1 = pd.Series(np.random.rand(3),index=["Hud","Monica","QB"])

s2 = pd.Series(np.random.rand(3),index=["Monica","QB","QTY"])

print("----------s1----------")
print(s1)

print("==========s2==========")
print(s2)

print("#########s1+s2#########")
print(s1+s2)

#### **4.删除和添加**

- **删除**

In [None]:
s = pd.Series(np.random.rand(5),index=list('abcde'))
print(s)
s1 = s.drop("b") # 返回删除后的值，原值不改变，默认inplace=False
print(s1)
print("==================")
print(s)

In [None]:
# 如果希望原值发生变化
s = pd.Series(np.random.rand(5),index=list('abcde'))
s1 = s.drop("b",inplace=True) # 原值发生变化，返回None
print(s1)
print("================")
print(s)

- **添加**

In [None]:
s = pd.Series(np.random.rand(5),index=list('abcde'))
print(s)

s["f"]=2.222222  # 有就添加 没有就修改
print("-=-=-=-=-=-=-=")
print(s)

#### **5.检测缺失值**

isnull()和notnull()用于检测Series中的缺失值，所谓缺失值，顾名思义就是值不存在、丢失、缺少

- isnull(): 如果为值不存在或者缺失，则返回True

- notnull(): 如果值不存在或者缺失，则返回False

In [None]:
s = pd.Series([1,2,3,None,5,6,None,8,9])
print(pd.isnull(s))
print(pd.notnull(s))

### **DataFrame数据类型**

DataFrame是Pandas的重要数据结构之一，也是在使用Pandas进行数据分析过程中最常用的结构之一，可以这么说，掌握了DataFrame的用法,你就拥有了学习数据分析的基本能力


#### **认识DataFrame结构**

DataFrame 一个表格型的数据结构，既有行标签(index),又有列标签(columns)，他也被称为异构数据表，所谓异构，指的是表格中的每列的数据类型可以不同，比如可以是字符串、浮点型、整型

- DataFrame数据结构的特点主要是:
  
  - DataFrame每一列标签值允许使用不同的数据类型 

  - DataFrame是表格型的数据结构，具有行和列

  - DataFrame中的每个数据值都可以被修改

  - DataFrame结构的行数和列数允许增加或者删除

  - DataFrame有两个方向的标签轴，分别是行标签和列标签

  - DataFrame可以对行和列执行算数运算



#### **创建DataFrame对象**

***pandas.DataFrame(data=None,index=None,columns=None,dtype=None,copy=None)***

- data：输入的数据，可以是ndarray，series，list，dict，标量以及一个DataFrame 

- index：行标签，如果没有传递index值，则默认行标签是Rangelndex（0，1，2..…，n），n代表data的元素个数。

- columns：列标签，如果没有传递columns值，则默认列标签是Rangelndex（0，1，2，…，n）

- dtype：要强制的数据类型。只允许使用一种数据类型。如果没有，自行推断

- copy：从输入复制数据。对于dict数据，copy=True，重新复制一份。对于DataFrame或ndarray输入，类似于copy=False



**Pandas Data是一个二维的数据结构，类似二维数组**

In [None]:
# 引入numpy和Pandas
import numpy as np
import pandas as pd

**1.使用普通列表创建**

In [None]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

**2.使用嵌套列表的创建**

In [None]:
# 列表中的每个元素代表一行数据

data = [['Hud',24,"男"],["Monica",22,"女"],["Qb",1,"不详"]]

#不分配列标签
df = pd.DataFrame(data)
print(df)

print("------------分配列标签-------------")
df1 = pd.DataFrame(data,columns=["Name","Age","Sex"])
df1

**3.指定数值元素的数据类型为float**

- 需要注意：dtype只能设置一个，设置多个列的数据类型，需要使用其他方式

In [None]:
data = [['Hud',24,"男"],["Monica",22,"女"],["Qb",1,"不详"]]
df = pd.DataFrame(data,columns=["Name","Age","Sex"],dtype=int)
df


In [None]:
data = [['Hud',24,"男",1.81],["Monica",22,"女",1.65],["Qb",1,"不详",0.04]]
# df = pd.DataFrame(data,columns=["Name","Age","Sex","tall"],dtype={str,int,str,float}) 錯誤

df = pd.DataFrame(data,columns=["Name","Age","Sex","tall"],dtype=float)
df

**4.列表嵌套字典的方式创建DataFrame对象**

列表嵌套字典可以作为输入数据传递给DataFrame构造函数，默认情况下，字典的键被用作列名

In [None]:
data = [{'a':1,'b':2},{'a':5,'b':10,'c':20}]
df = pd.DataFrame(data,index=["first","second"])
df

**5. Series创建DataFrame对象**

你也可以传递一个字典形式的Series，从而创建一个DataFrame对象，其输出结果的行索引是所有index的合集

In [None]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
    'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df = pd.DataFrame(d)
df

### **列操作DataFrame**

DataFrame可以使用列标签来完成数据的选取、添加和删除操作。

**1. 选取数据列**

- 可以使用列索引，轻松实现数据选项

In [None]:
data = {'Name':['Hud','Monica','Qb'],'Age':[24,22,1]}
# 定义行标签
index = ['rank1','rank2','rank3']

# 通过字典定义DataFrame
df = pd.DataFrame(data,index=index)
print(df)
print("========df['Name']取得Name列=======")
print(df['Name'])
print("========df['Age']取得Age列=======")
print(df['Age'])

In [None]:
# 选取多列
df[['Name','Age']]

**2.列添加**

- 使用columns列标签索引可以实现添加新的数据列，示例如下

In [23]:
d = {'One':pd.Series([1,2,3],index=['a','b','c']),
'Two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df = pd.DataFrame(d)
df

Unnamed: 0,One,Two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [24]:
# 使用df['列']='值'，插入新的数据列
print("通过Series添加一个新的列")
df['Three']=pd.Series([10,20,30],index=['a','b','c'])
df

通过Series添加一个新的列


Unnamed: 0,One,Two,Three
a,1.0,1,10.0
b,2.0,2,20.0
c,3.0,3,30.0
d,,4,


In [26]:
# 将已经存在的数据列相加运算，从而创建一个新的列
df['Four']=df['One']+pd.Series([1,2,3,4],index=['a','b','c','d'])
df

Unnamed: 0,One,Two,Three,Four
a,1.0,1,10.0,2.0
b,2.0,2,20.0,4.0
c,3.0,3,30.0,6.0
d,,4,,


- **insert()方法添加**

上述方法，我们初次使用了FataFrame的算数运算，这和Numpy非常相似，除了使用df[]=value的方式外，还可以使用insert方法插入新的列

***df.insert(loc,column,value,allow_duplicates=FALSE)***

- loc: 整型，插入索引，必须验证0<=loc<=len(列)

- column: 插入列的标签，类型可以是(字符串/数字/散列对象)

- value: 数值，Series或者数组

- allow_duplicates: 允许重复，可以有相同的列标签数据，默认是False

In [None]:
info = [['Hud',24],['Monica',22],['Qb',1]]
df = pd.DataFrame(info,columns=['Name','Age'])
print(df)
# 数值1代表插入到columns列表的索引位置
df.insert(1,column='weight',value=[81,47,4.5])
print("========insert()插入数据========")
print(df)

- **删除数据列**

    通过del()和pop()都能够删除DataFrame中的数据列,pop()有返回值

    示例如下:

In [37]:
d = {'One':pd.Series([1,2,3],index=['a','b','c']),
'Two':pd.Series([1,2,3,4],index=['a','b','c','d']),
'Three':pd.Series([10,20,30,40],index=['a','b','c','d'])}
df = pd.DataFrame(d)
df

Unnamed: 0,One,Two,Three
a,1.0,1,10
b,2.0,2,20
c,3.0,3,30
d,,4,40


In [38]:
# 使用del删除
del df['Three']
print("=======df['Three']=======")
print(df)
# 使用pop删除
res_pop = df.pop('Two')
print("=========df.pop('Two')========")
print("res_pop:",res_pop)
print("df:",df)

   One  Two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
res_pop: a    1
b    2
c    3
d    4
Name: Two, dtype: int64
df:    One
a  1.0
b  2.0
c  3.0
d  NaN


### **行操作DataFrame**

了解了上述的列索引操作后，行索引操作就变得简单

**1. 标签选取**

  - 行操作需要借助loc属性来完成：按标签或者布尔数组访问一组行和列

In [41]:
# 定义字典，生成数据
d = {'One':pd.Series([1,2,3],index=['a','b','c']),
'Two':pd.Series([1,2,3,4],index=['a','b','c','d']),
'Three':pd.Series([10,20,30,40],index=['a','b','c','d'])}
df = pd.DataFrame(d)
print("原始df:")
print(df)
# 确定标签为b的数据
print("=======b=======")
print(df.loc['b'])

原始df:
   One  Two  Three
a  1.0    1     10
b  2.0    2     20
c  3.0    3     30
d  NaN    4     40
One       2.0
Two       2.0
Three    20.0
Name: b, dtype: float64


**注意：loc只允许接收两个参数分别是行和列**

b行,one列交叉的数据

In [42]:
df.loc['b','One']

2.0

**行和列还可以使用切片**

In [43]:
# 标签为b的行到标签为d的行，对应标签为'One'的列
df.loc['b':'d','One']

b    2.0
c    3.0
d    NaN
Name: One, dtype: float64

**2. 数值型索引和切片**

- 使用数值型索引需要使用`iloc`属性

直接使用索引，会优先查找的是列标签，如果找不到会报错，列没有位置索引

- 可以使用`iloc`: 行基于整数位置的按位置选择索引

In [44]:
data = {'Name':['Hud','Monica','Qb'],'Age':[24,22,1]}
# 定义行标签
index = ['rank1','rank2','rank3']
# 通过字典创建DataFrame
df = pd.DataFrame(data,index=index)
df

Unnamed: 0,Name,Age
rank1,Hud,24
rank2,Monica,22
rank3,Qb,1


In [46]:
# 获得位置索引为2的数据
df.iloc[2]

Name    Qb
Age      1
Name: rank3, dtype: object

In [47]:
# 获得位置索引分别为0和2的数据
df.iloc[[0,2]]

Unnamed: 0,Name,Age
rank1,Hud,24
rank3,Qb,1


In [48]:
# 表示行索引为0，列索引为1的数据
df.iloc[0,1]

24

#### 注意：

- loc使用的是标签

- iloc使用的是位置索引

        
**两者不能混用**  

**3.添加数据行**

使用`append()`函数，可以将新的数据行添加到DataFrame中,该函数会在行末追加数据行

***df.append(other,ignore_index=False,verify_integrity=False,sort=False)***

将other追加到调用者的末尾，**返回一个新的对象**，"other"行中不在调用者中的列将作为新列添加。

- other: DataFrame或Series/dict類对象，或这些对象的列表

- ignore_index: 默认为False,如果True将不再适用index标签

- verify_integrity: 默认为False，如果为True，则在创建具有重复项索引时引发ValueError

- sort: 排序

In [6]:
data =  {
        'Name':['Hud','Monica','Qb'],
        'Age':[24,22,1],
        'Tall':[1.80,1.65,0.4]
}
df = pd.DataFrame(data,index=['a','b','c'])
df

Unnamed: 0,Name,Age,Tall
a,Hud,24,1.8
b,Monica,22,1.65
c,Qb,1,0.4


In [10]:
d2 = {'Name':"SunXX","Tall":1.63,'Age':49}
# 在行末追加新的数据行
# df3 = df.append(d2) 这里会报错，因为不知道行标签该给什么
df3 = df.append(d2,ignore_index=True)
df3

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,SunXX,49,1.63


In [15]:
# 或者转化为一个series
d2 = {"Name":"QTY","Age":24,"Tall":1.81}
s = pd.Series(d2,name="d")
print(s)
# 在行末尾追加新的数据行
df3 = df.append(s)
print("=====================")
print(df3)

Name     QTY
Age       24
Tall    1.81
Name: d, dtype: object
     Name  Age  Tall
a     Hud   24  1.80
b  Monica   22  1.65
c      Qb    1  0.40
d     QTY   24  1.81


**2) 追加列表**

- 如果list是一维的，则以列的形式追加

- 如果list是二维的，则以行的形式追加

- 如果list是三维的，只添加一个值







      

**list 是一维的，则以列的形式追加**

In [27]:
data = [[1,2,3,4],[5,6,7,8]]
df = pd.DataFrame(data,index=['a','b'])
print(df)
a1 = [10,20]
df3 = df.append(a1)
print(df3)

   0  1  2  3
a  1  2  3  4
b  5  6  7  8
    0    1    2    3
a   1  2.0  3.0  4.0
b   5  6.0  7.0  8.0
0  10  NaN  NaN  NaN
1  20  NaN  NaN  NaN


**追加一个二维的**

In [17]:
a1 = [[10,"20",30]]
df4 = df.append(a1,ignore_index=True)
df4

Unnamed: 0,0,1,2,Age,Name,Tall
0,,,,24.0,Hud,1.8
1,,,,22.0,Monica,1.65
2,,,,1.0,Qb,0.4
3,10.0,20.0,30.0,,,


In [23]:
data =  {
        'Name':['Hud','Monica','Qb'],
        'Age':[24,22,1],
        'Tall':[1.80,1.65,0.4]
}
df = pd.DataFrame(data)
a1 = [[10,"20",30],[2,5,6]]
df2 = pd.DataFrame(a1,columns=["Name","Age","Tall"])
df4 = df.append(df2)
df4

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
0,10,20,30.0
1,2,5,6.0


**追加三维的数据**

In [28]:
data = [[1,2,3,4],[5,6,7,8]]
df = pd.DataFrame(data,index=['a','b'])
s = [[[1,2,3,4]]]
df2 = df.append(s)
df2

Unnamed: 0,0,1,2,3
a,1,2.0,3.0,4.0
b,5,6.0,7.0,8.0
0,"[1, 2, 3, 4]",,,


**4.刪除数据行**

可以使用行索引标签，从DataFrame中删除某一行数据，如果索引标签存在重复，那么他将被一起删除

In [34]:
df1 = pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
df2 = pd.DataFrame([[5,6],[7,8]],columns=['a','b'])

df = df1.append(df2)
print("============源数据===========")
print(df)
# 这里使用drop方法，drop方法默认不会更改源数据
df1 = df.drop(0)
print("============修改后的df1=============")
print(df1)
print("============源数据df===========")
print(df)

   a  b
0  1  2
1  3  4
0  5  6
1  7  8
   a  b
1  3  4
1  7  8
   a  b
0  1  2
1  3  4
0  5  6
1  7  8


In [3]:
data =  {
        'Name':['Hud','Monica','Qb','QTY'],
        'Age':[24,22,1,24],
        'Tall':[1.80,1.65,0.4,1.81]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81


- **转置**

In [4]:
df.T

Unnamed: 0,0,1,2,3
Name,Hud,Monica,Qb,QTY
Age,24,22,1,24
Tall,1.8,1.65,0.4,1.81


- **axes**

返回一个行标签，列标签组成的列表

In [5]:
df.axes

[RangeIndex(start=0, stop=4, step=1),
 Index(['Name', 'Age', 'Tall'], dtype='object')]

- **dtypes**

返回Series每一列的数据类型

In [6]:
df.dtypes

Name     object
Age       int64
Tall    float64
dtype: object

- **empty**

返回一个布尔值，判断输出的数据对象是否为空，若为TRUE表示对象为空

In [7]:
df.empty

False

In [8]:
df_empty = pd.DataFrame()
df_empty.empty

True

#### **修改标签名**

***DataFrame.rename(index=None,columns=None,inplace=False)***

- **index**: 修改后的行标签

- **columns**: 修改后的列标签

- **inplace**: 默认为False,不改变源数据，返回修改后的数据，True则更改源数据

In [9]:
df

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81


In [13]:
# 修改df的行标签
df.rename(index={0:"row1",1:"row2",2:"row3",3:"row4"})

Unnamed: 0,Name,Age,Tall
row1,Hud,24,1.8
row2,Monica,22,1.65
row3,Qb,1,0.4
row4,QTY,24,1.81


In [12]:
# 修改变量df的列标签
df.rename(columns={"Name":"姓名","Age":"年龄","Tall":"身高"})

Unnamed: 0,姓名,年龄,身高
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81


In [14]:
# 添加inplace参数，修改源数据
df.rename(index={0:"row1",1:"row2",2:"row3",3:"row4"},columns={"Name":"姓名","Age":"年龄","Tall":"身高"},inplace=True)
df

Unnamed: 0,姓名,年龄,身高
row1,Hud,24,1.8
row2,Monica,22,1.65
row3,Qb,1,0.4
row4,QTY,24,1.81


#### **Info()函数**

用于打印DataFrame的简要摘要，显示有关DataFrame的信息，包括索引的数据类型dtype，非空值的数量和内存使用情况。

In [16]:
# 创建一组数据
data =  {
        'Name':['Hud','Monica','Qb','QTY'],
        'Age':[24,22,1,24],
        'Tall':[1.80,1.65,0.4,1.81]
}
data1 = {"姓名":"Gqc","年龄":22,"身高":1.65}
# 将数据追加到df数据中
df = df.append(data1,ignore_index=True)
df

Unnamed: 0,姓名,年龄,身高
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81
4,Gqc,22,1.65


In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   姓名      5 non-null      object 
 1   年龄      5 non-null      int64  
 2   身高      5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes


#### **df.sort_index()**

***sort_index(axis=0,ascending=True,inplace=False)***

作用: 默认根据行标签对所有行进行排序，或根据列标签对所有列进行排序，或根据指定某列或某几列对行排序。

**注意:**df.sort_index()可以完成和df.sort_values()完全相同的功能，但python更推荐只用f.sort_index()进行排序，其他方式使用df.sort_values()。

- **axis:** 0按照行名排序,1按照列名排序

- **ascending:** 默认True升序排列,False降序排列

- **inplace:** 默认False,否则替换源数据

In [19]:
df = pd.DataFrame({'b':[1,2,2,3],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3])
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,2,2,8
3,3,1,2


In [26]:
# 默认按“行标签”升序排序
df.sort_index()

Unnamed: 0,b,a,c
3,3,1,2
2,1,4,1
1,2,2,8
0,2,3,3


In [24]:
# 按列标签升序排序
df.sort_index(axis=1)

Unnamed: 0,a,b,c
2,4,1,1
0,3,2,3
1,2,2,8
3,1,3,2


#### **df.sort_values()**

***DataFrame.sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')***

**作用:既可以根据列数据，也可以根据行数据排序**

**注意:**必须指定by参数，即必须指定哪几行、哪几列；无法根据index名和columns名排序(由sort_index()执行)

  - by: str or list of str;如果axis=0 那么by='列名';如果axis=1,那么by="行名"

  - axis: (0 or 'index',1 or 'columns'),default 0,默认按照列排序，即纵向排序;如果为1,则是横向排序

  - ascending: 布尔型，True则升序，如果by=['列名','列名2'],则该参数可以是[True,False],即第一个字段升序,第二个降序

  - inplace: 布尔型，是否替换源数据

  - na_position:{'first','last'},default 'last',默认缺失值排在最后面
