In [1]:
import pandas as pd
import numpy as np

# 常用属性和方法汇总

| 名称     | 属性&方法描述                                                |
| :-------- | :------------------------------------------------------------ |
| T        | 行和列转置。                                                 |
| axes     | 返回一个仅以行轴标签和列轴标签为成员的列表。                 |
| dtypes   | 返回每列数据的数据类型。                                     |
| empty    | DataFrame中没有数据或者任意坐标轴的长度为0，则返回True       |
| columns  | 返回DataFrame所有列标签                                                     |
| shape    | 返回一个元组，获取行数和列数,表示了 DataFrame 维度。         |
| size     | DataFrame中的元素数量。                                      |
| values   | 使用 numpy 数组表示 DataFrame 中的元素值。                   |
| head()   | 返回前 n 行数据。                                            |
| tail()   | 返回后 n 行数据。                                            |
| rename() | rename(columns=字典) ,修改列名                               |
| info()   | 可以显示信息，例如行数/列数，总内存使用量，每列的数据类型以及不缺少值的元素数 |
| sort_index()   | 默认根据行标签对所有行排序，或根据列标签对所有列排序，或根据指定某列或某几列对行排序。 |
| sort_values()   | 既可以根据列数据，也可根据行数据排序 |

In [21]:
data = {
            'Name':['关羽', '刘备', '张飞', '曹操'], 
            'Age':[28, 34, 29, 42],
            "Salary":[5000, 8000, 4500, 10000]
       }
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Salary
0,关羽,28,5000
1,刘备,34,8000
2,张飞,29,4500
3,曹操,42,10000


## 转置

In [3]:
df1=df.T # 不改变原数据
df1

Unnamed: 0,0,1,2,3
Name,关羽,刘备,张飞,曹操
Age,28,34,29,42
Salary,5000,8000,4500,10000


In [5]:
print(df.dtypes)
print(type(df.dtypes))

Name      object
Age        int64
Salary     int64
dtype: object
<class 'pandas.core.series.Series'>


In [6]:
print(df.empty)

False


In [9]:
print(df.columns)
print(df.index)
print(df.axes)# 先行后列
print(df.axes[0])

Index(['Name', 'Age', 'Salary'], dtype='object')
RangeIndex(start=0, stop=4, step=1)
[RangeIndex(start=0, stop=4, step=1), Index(['Name', 'Age', 'Salary'], dtype='object')]
RangeIndex(start=0, stop=4, step=1)
4


In [10]:
# 输出行数的列数
print(df.shape)
print(df.index.size)
print(df.columns.size)

(4, 3)
4
3


## 将DataFrame转换为ndarray

In [13]:
v1=df.values
print(v1)
print(type(v1))

[['关羽' 28 5000]
 ['刘备' 34 8000]
 ['张飞' 29 4500]
 ['曹操' 42 10000]]
<class 'numpy.ndarray'>


In [20]:
print(df.head(1))
print(df.tail(1))

  Name   Age  Salary name  age
0   关羽  28.0  5000.0  NaN  NaN
  Name  Age  Salary name   age
6  NaN  NaN     NaN  诸葛亮  30.0


## Rename 更改index或者columns
`DataFrame.rename(index=None, columns=None, inplace=False)`
- index: 修改后的行标签
- columns: 修改后的列标签
- inplace: 默认为False,不改变源数据,返回修改后的数据. True更改源数据

可以修改部分行或者列

In [24]:
df

Unnamed: 0,Name,Age,Salary
0,关羽,28,5000
1,刘备,34,8000
2,张飞,29,4500
3,曹操,42,10000


In [25]:
df1=df.rename(index={0:4,2:6}) #修改行标签，并且不改变原数据
df1

Unnamed: 0,Name,Age,Salary
4,关羽,28,5000
1,刘备,34,8000
6,张飞,29,4500
3,曹操,42,10000


In [26]:
df.rename(columns={"Name":"姓名","Age":"年龄"},inplace=True)# 修改列标签，并且改变原数据
df

Unnamed: 0,姓名,年龄,Salary
0,关羽,28,5000
1,刘备,34,8000
2,张飞,29,4500
3,曹操,42,10000


## info()方法查看相关信息

In [19]:
# 创建一组数据
data = {"name":"诸葛亮","age":30}
# 将数据追加到df数据中
df = df.append(data, ignore_index =True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    4 non-null      object 
 1   Age     4 non-null      float64
 2   Salary  4 non-null      float64
 3   name    3 non-null      object 
 4   age     3 non-null      float64
dtypes: float64(3), object(2)
memory usage: 408.0+ bytes


  df = df.append(data, ignore_index =True)


## df. sort_index()
`sort_index(axis=0, ascending=True, inplace=False)`

作用：默认根据行标签对所有行排序，或根据列标签对所有列排序，或根据指定某列或某几列对行排序。

注意：df.sort_index()可以完成和df.sort_values()完全相同的功能，但python更推荐用只用df.sort_index()对“根据行标签”和“根据列标签”排序，其他排序方式用df.sort_values()。

- axis：0按照行名排序；1按照列名排序
- ascending：默认True升序排列；False降序排列
- inplace：默认False，否则排序之后的数据直接替换原来的数据


In [27]:
df = pd.DataFrame({'b':[1,2,2,3],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3]) 
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,2,2,8
3,3,1,2


In [28]:
df.sort_index()# 默认按照行名排序

Unnamed: 0,b,a,c
0,2,3,3
1,2,2,8
2,1,4,1
3,3,1,2


In [29]:
df.sort_index(ascending=False)# 默认按照行名排序

Unnamed: 0,b,a,c
3,3,1,2
2,1,4,1
1,2,2,8
0,2,3,3


In [30]:
df.sort_index(axis=1,ascending=False)# 默认按照列名排序

Unnamed: 0,c,b,a
2,1,1,4
0,3,2,3
1,8,2,2
3,2,3,1


## df.sort_values()
`DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')`

作用：既可以根据列数据，也可根据行数据排序。

注意：必须指定by参数，即必须指定哪几行或哪几列；无法根据index名和columns名排序（由.sort_index()执行）

- by：str or list of str；如果axis=0，那么by="列名"；如果axis=1，那么by="行名"。
- axis：{0 or ‘index’, 1 or ‘columns’}, default 0，默认按照列排序，即纵向排序；如果为1，则是横向排序。
- ascending：布尔型，True则升序，如果by=['列名1','列名2']，则该参数可以是[True, False]，即第一字段升序，第二个降序。
- inplace：布尔型，是否用排序后的数据框替换现有的数据框。
- na_position：{‘first’, ‘last’}, default ‘last’，默认缺失值排在最后面。

In [33]:
df = pd.DataFrame({'b':[1,2,2,3],'a':[4,3,1,1],'c':[1,3,8,2]},index=[2,0,1,3])
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,2,1,8
3,3,1,2


In [34]:
,# axis理解:0表示按照某些列的规则，对行进行排序。
# 1：表示按照行的规则，对列进行排序
df.sort_values(by='a',ascending=[True])

Unnamed: 0,b,a,c
1,2,1,8
3,3,1,2
0,2,3,3
2,1,4,1


In [36]:
df.sort_values(by=['a','b'],ascending=[True,False]) # 多个排序规则

Unnamed: 0,b,a,c
3,3,1,2
1,2,1,8
0,2,3,3
2,1,4,1


In [37]:
df.sort_values(by=3,axis=1)

Unnamed: 0,a,c,b
2,4,1,1
0,3,3,2
1,1,8,2
3,1,2,3


## 错误案例以及解决方法

In [38]:
# 一组数据,字典的value只有一个值
dict_1 = {"Name":"诸葛亮", "Age":30}
df = pd.DataFrame(dict_1) # 提示:If using all scalar values, you must pass an index
df

ValueError: If using all scalar values, you must pass an index

In [40]:
df=pd.DataFrame(dict_1,index=[0]) # 解决方
df

Unnamed: 0,Name,Age
0,诸葛亮,30


In [42]:
dict_2={"Name":["诸葛亮"], "Age":[30]} # 当只有一个数据时候，同样使用列表进行表示
df2=pd.DataFrame(dict_2)
df2

Unnamed: 0,Name,Age
0,诸葛亮,30
