# pandas数据结构

## 1. series对象

> series 是dataframe的列对象,本身也具有索引,如果没有指定索引,那么默认索引是 0 - le()-1

In [90]:
import pandas as pd

### 1.1 创建series对象

#### 1.1.1 通过列表创建series对象

In [91]:
list1 = [1,2,3,4,5]
pd.Series(list1)

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [92]:
pd.Series(list1,index=['a','b','c','d','e'])

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### 1.1.2 通过字典创建series对象

In [93]:
# 通过数据字典创建的series对象,索引为字典key
dict1 = {'a':1,'b':2,'c':3,'d':4,'e':5}
pd.Series(dict1)

a    1
b    2
c    3
d    4
e    5
dtype: int64

#### 1.1.3 通过元组创建series对象

In [94]:
tuple1 = ('a','b','c','d','e')
pd.Series(tuple1)

0    a
1    b
2    c
3    d
4    e
dtype: object

#### 1.1.4 通过numpy创建series对象

In [95]:
import numpy as np
pd.Series(np.arange(10),index=[np.arange(10)])

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64

### 1.2 series对象属性

In [96]:
# 列表推导式
list1 = [i for i in range(5)]
index1 = [i for i in 'ABCDE']
s1 = pd.Series(data=list1,index=index1)
print(s1)

A    0
B    1
C    2
D    3
E    4
dtype: int64


#### 1.2.1 values 属性获取s对象的元素

In [97]:
s1.values

array([0, 1, 2, 3, 4])

#### 1.2.2 series[index] 对象的索引修改s的值

In [98]:
s1[0] = 10
s1

  s1[0] = 10


A    10
B     1
C     2
D     3
E     4
dtype: int64

In [99]:
s1['B']=99
s1

A    10
B    99
C     2
D     3
E     4
dtype: int64

#### 1.2.3 index 属性获取索引

In [100]:
s1.index

Index(['A', 'B', 'C', 'D', 'E'], dtype='object')

#### 1.2.4 也可以通过索引 s1['A']来获取数据

In [101]:
s1['A']

np.int64(10)

## 2 创建DATAFRAME对象

```javascript
1. 通过读取文件返回df对象
2. 通过字典,元组,列表等进行创建df对象
```

### 2.1 通过字典+列表的方式进行创建

In [102]:
# 场景1 通过字典+列表的方式进行创建
dict1 = {'name':['张三','李四','王五'],'age':[18,19,20],'gender':['男','女','女']}
df = pd.DataFrame(dict1)
df

Unnamed: 0,name,age,gender
0,张三,18,男
1,李四,19,女
2,王五,20,女


### 2.2 通过元组+列表的方式进行创建

In [103]:
list1 = [('张三',18,'男'),('李四',19,'女'),('王五',20,'女')]
df = pd.DataFrame(list1)
df

Unnamed: 0,0,1,2
0,张三,18,男
1,李四,19,女
2,王五,20,女


In [104]:
df1 = pd.DataFrame(list1,columns=['name','age','gender'])
df1

Unnamed: 0,name,age,gender
0,张三,18,男
1,李四,19,女
2,王五,20,女


### 2.3 通过ndarray对象进行创建

In [105]:
arr1 = np.arange(12).reshape(3, 4)
arr1
pd.DataFrame(arr1,columns=['a','b','c','d'],index=['A','B','C'])

Unnamed: 0,a,b,c,d
A,0,1,2,3
B,4,5,6,7
C,8,9,10,11


### 2.4 学生成绩案例 


In [106]:
ndarray = np.random.randint(40,100,(10,5))
df = pd.DataFrame(ndarray,columns=['语文','数学','英语','物理','化学'],index=[f'同学{i+1}' for i in range(ndarray.shape[0])])
df

Unnamed: 0,语文,数学,英语,物理,化学
同学1,97,87,77,97,56
同学2,81,45,53,83,50
同学3,48,50,79,83,91
同学4,41,59,98,93,61
同学5,80,44,59,70,62
同学6,85,90,43,78,84
同学7,93,75,93,49,68
同学8,85,70,99,40,60
同学9,77,51,58,48,81
同学10,46,98,89,48,66


In [107]:
# 方式二:
index_name = [f'同学{i+1}' for i in range(ndarray.shape[0])]
columns_name = ['语文','数学','英语','物理','化学']
ndarray = np.random.randint(40,100,(10,5))
df = pd.DataFrame(ndarray)
# 想使用rename的前提是创建了dataframe对象,且进行了实例化
df.rename(
    index = {i:index_name[i] for i in range(ndarray.shape[0])},
    columns={i:columns_name[i] for i in range(ndarray.shape[1])},
    inplace=True
)
df

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


## 3.Dataframe对象属性及数据类型

### 3.1 datatime日期类型

In [108]:
dataFrame = pd.DataFrame({'date':['2020-01-01','2020-01-02','2020-01-03']},dtype='datetime64[ns]')
dataFrame.dtypes

date    datetime64[ns]
dtype: object

In [109]:
start_time = pd.to_datetime('2020-01-01')
end_time = pd.to_datetime('2020-01-05')
time = end_time-start_time
time

Timedelta('4 days 00:00:00')

### 3.2 category() 类别类型

In [110]:
"""
category类型,通常用于有限集合中的数据类型,例如性别,颜色,产品类型等.这种类型的优点在于
占用更少的内存,并且对分类数据的操作更快
"""
series_category = pd.Series(['apple', 'banana', 'orange', 'apple', 'banana'], dtype='category')
series_category.dtype

CategoricalDtype(categories=['apple', 'banana', 'orange'], ordered=False, categories_dtype=object)

### 3.3 shape属性 获取行列数

In [111]:
df.shape

(10, 5)

### 3.4 index 属性 获取索引

In [112]:
df.index

Index(['同学1', '同学2', '同学3', '同学4', '同学5', '同学6', '同学7', '同学8', '同学9', '同学10'], dtype='object')

### 3.5 columns属性 获取列名

In [113]:
df.columns

Index(['语文', '数学', '英语', '物理', '化学'], dtype='object')

### 3.6 dtypes属性 获取数据类型

In [114]:
df.dtypes

语文    int32
数学    int32
英语    int32
物理    int32
化学    int32
dtype: object

### 3.7 values属性 获取数据

In [115]:
df.values

array([[96, 65, 99, 91, 61],
       [41, 47, 99, 46, 75],
       [72, 52, 69, 94, 95],
       [61, 65, 45, 64, 44],
       [70, 54, 59, 77, 90],
       [40, 61, 97, 96, 64],
       [66, 78, 65, 94, 99],
       [79, 88, 89, 72, 56],
       [61, 85, 70, 64, 59],
       [54, 81, 64, 68, 78]], dtype=int32)

### 3.8 T属性 获取转置后的数据

In [116]:
df.T

Unnamed: 0,同学1,同学2,同学3,同学4,同学5,同学6,同学7,同学8,同学9,同学10
语文,96,41,72,61,70,40,66,79,61,54
数学,65,47,52,65,54,61,78,88,85,81
英语,99,99,69,45,59,97,65,89,70,64
物理,91,46,94,64,77,96,94,72,64,68
化学,61,75,95,44,90,64,99,56,59,78


### 3.9 loc属性 获取索引

In [117]:
df.loc[['同学1', '同学2']]

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75


### 3.10 iloc属性 获取索引

In [118]:
# 获取索引 等价于 df.iloc[0:2,:]
df.iloc[0:2]

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75


In [119]:
df.iloc[0:2,:]

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75


### 3.11 at属性 获取索引

```python
1. lat属性,只能操作单个数据,
2. 针对多个数据修改只能使用loc属性
```

In [120]:
# df.at[['同学1', '同学2'], '语文'] 是报错的
df.at['同学1', '语文']

np.int32(96)

### 3.12 iat属性 获取索引

In [121]:
df.iat[0,0]

np.int32(96)

## 4. dataframe对象方法

### 4.1 head() 方法 获取前n行数 

In [122]:
df.head()

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90


### 4.2 tail() 方法 获取后n行数

In [123]:
df.tail()

Unnamed: 0,语文,数学,英语,物理,化学
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


### 4.3 describe() 方法 获取数据描述信息

In [124]:
df.describe()

Unnamed: 0,语文,数学,英语,物理,化学
count,10.0,10.0,10.0,10.0,10.0
mean,64.0,67.6,75.6,76.6,72.1
std,16.918103,14.592235,19.050809,16.794179,18.320905
min,40.0,47.0,45.0,46.0,44.0
25%,55.75,55.75,64.25,65.0,59.5
50%,63.5,65.0,69.5,74.5,69.5
75%,71.5,80.25,95.0,93.25,87.0
max,96.0,88.0,99.0,96.0,99.0


### 4.4 info() 方法 获取数据信息

In [125]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 同学1 to 同学10
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   语文      10 non-null     int32
 1   数学      10 non-null     int32
 2   英语      10 non-null     int32
 3   物理      10 non-null     int32
 4   化学      10 non-null     int32
dtypes: int32(5)
memory usage: 580.0+ bytes


### 4.5 dropna() 方法 删除数据中的空值的行

In [126]:
df2 =df.copy()
df2['语文']['同学1']=np.nan  #同学1的语文数据为空
df2.dropna()

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df2['语文']['同学1']=np.nan  #同学1的语文数据为空


Unnamed: 0,语文,数学,英语,物理,化学
同学2,41.0,47,99,46,75
同学3,72.0,52,69,94,95
同学4,61.0,65,45,64,44
同学5,70.0,54,59,77,90
同学6,40.0,61,97,96,64
同学7,66.0,78,65,94,99
同学8,79.0,88,89,72,56
同学9,61.0,85,70,64,59
同学10,54.0,81,64,68,78


### 4.6 fillna() 方法 填充数据中的空值

In [127]:
df3 =df.copy()
df3['语文']['同学1']=np.nan
df3.fillna(value=65,inplace=True)
df3

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df3['语文']['同学1']=np.nan


Unnamed: 0,语文,数学,英语,物理,化学
同学1,65.0,65,99,91,61
同学2,41.0,47,99,46,75
同学3,72.0,52,69,94,95
同学4,61.0,65,45,64,44
同学5,70.0,54,59,77,90
同学6,40.0,61,97,96,64
同学7,66.0,78,65,94,99
同学8,79.0,88,89,72,56
同学9,61.0,85,70,64,59
同学10,54.0,81,64,68,78


### 4.7 replace() 方法 替换数据

In [128]:
df3 =df.copy()
# df3['数学']['同学1','同学2']这种只能单行单列的去修改，不能批量修改，推介使用loc
# df3['数学']['同学1','同学2']="?"
df3.loc[['同学1', '同学2'], '数学'] = np.array(['?', '?'])
df3

  df3.loc[['同学1', '同学2'], '数学'] = np.array(['?', '?'])


Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,?,99,91,61
同学2,41,?,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


In [129]:
df3.replace('?',100)

  df3.replace('?',100)


Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,100,99,91,61
同学2,41,100,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


### 4.7 drop() 方法 删除数据中的列或行

注意：
1. drop()默认：函数删除不修改原始数据，返回新的DataFrame对象，inplace=True修改原始数据
2. axis=0 删除行,默认 
2. axis=1 删除列 

In [130]:
df.drop('语文',axis=1)
df

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


In [131]:
df.drop('同学1')

Unnamed: 0,语文,数学,英语,物理,化学
同学2,41,47,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


### 4.8 concat() 方法 连接多个dataframe对象

In [132]:
concat = pd.concat([df, df])
concat.reset_index(drop=True,inplace=True)
concat

Unnamed: 0,语文,数学,英语,物理,化学
0,96,65,99,91,61
1,41,47,99,46,75
2,72,52,69,94,95
3,61,65,45,64,44
4,70,54,59,77,90
5,40,61,97,96,64
6,66,78,65,94,99
7,79,88,89,72,56
8,61,85,70,64,59
9,54,81,64,68,78


### 4.9 drop_duplicates() 方法 删除重复数据 

drop_duplicates概述：

1. drop_duplicates() 是 Pandas 中的一个方法，用于去除 DataFrame 或 Series 中的重复行（或重复值）。这个方法可以根据某一列或多列来判断是否有重复，并返回去重后的 DataFrame。

2. 语法：
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)

3. 参数详解：

    3.1 subset：指定用于检查重复的列名。默认情况下，检查所有列。如果你只想根据某几列来去重，可以传入列名的列表，例如 ['column1', 'column2']。

    3.2 keep：
    
    'first'（默认）：保留第一次出现的重复项，删除后续重复的行。
    
    'last'：保留最后一次出现的重复项，删除之前的重复行。
    
    False：删除所有重复行。

    3.3 inplace：
    
    False（默认）：返回一个新的去重后的 DataFrame。
    
    True：直接在原 DataFrame 上进行修改，不返回新的对象。
    
    3.4 ignore_index：默认为 False。如果为 True，则重新生成索引，不保留原来的索引。

#### drop_duplicates()根据所有行索引进行去重

In [133]:
# 根据所有行索引进行去重
concat.drop_duplicates()

Unnamed: 0,语文,数学,英语,物理,化学
0,96,65,99,91,61
1,41,47,99,46,75
2,72,52,69,94,95
3,61,65,45,64,44
4,70,54,59,77,90
5,40,61,97,96,64
6,66,78,65,94,99
7,79,88,89,72,56
8,61,85,70,64,59
9,54,81,64,68,78


#### drop_duplicates(subset=['列名1','列名2'])根据指定列索引进行去重

In [134]:
concat.drop_duplicates(subset=['语文','数学'])

Unnamed: 0,语文,数学,英语,物理,化学
0,96,65,99,91,61
1,41,47,99,46,75
2,72,52,69,94,95
3,61,65,45,64,44
4,70,54,59,77,90
5,40,61,97,96,64
6,66,78,65,94,99
7,79,88,89,72,56
8,61,85,70,64,59
9,54,81,64,68,78


#### drop_duplicates(keep='last') 保留最后一次出现的重复项，删除之前的重复行

In [135]:
concat.drop_duplicates(keep='last')

Unnamed: 0,语文,数学,英语,物理,化学
10,96,65,99,91,61
11,41,47,99,46,75
12,72,52,69,94,95
13,61,65,45,64,44
14,70,54,59,77,90
15,40,61,97,96,64
16,66,78,65,94,99
17,79,88,89,72,56
18,61,85,70,64,59
19,54,81,64,68,78


### 4.10 apply() 方法 应用函数 适用于servis(列)

In [136]:
concat[concat.语文.apply(lambda x : x >90)]

Unnamed: 0,语文,数学,英语,物理,化学
0,96,65,99,91,61
10,96,65,99,91,61


### 4.11 applymap() 方法 应用函数 适用于dataframe

applymap() 是 Pandas 中 DataFrame 的一个方法，用于对 DataFrame 中的每个元素 应用一个函数。它适用于处理整个 DataFrame，并对每个单独的元素进行转换或操作，而不是按列或按行进行。
语法：
DataFrame.applymap(func)

参数：

func：要应用的函数。这个函数应该能够接受单个元素作为输入，并返回一个新的值。

返回值：

返回一个新的 DataFrame，该 DataFrame 是应用了给定函数之后的结果。

注意：

applymap() 只适用于 DataFrame，对于 Series，应该使用 apply()。

In [137]:
new = df.applymap(lambda x : '优秀' if x >90 else '良好' if x >80 else '及格' if x >60 else '不及格')
new

  new = df.applymap(lambda x : '优秀' if x >90 else '良好' if x >80 else '及格' if x >60 else '不及格')


Unnamed: 0,语文,数学,英语,物理,化学
同学1,优秀,及格,优秀,优秀,及格
同学2,不及格,不及格,优秀,不及格,及格
同学3,及格,不及格,及格,优秀,优秀
同学4,及格,及格,不及格,及格,不及格
同学5,及格,不及格,不及格,及格,良好
同学6,不及格,及格,优秀,优秀,及格
同学7,及格,及格,及格,优秀,优秀
同学8,及格,良好,良好,及格,不及格
同学9,及格,良好,及格,及格,不及格
同学10,不及格,良好,及格,及格,及格


### 4.12 rename() 方法 重命名列

In [138]:
df.rename(columns={'化学':'生物'})

Unnamed: 0,语文,数学,英语,物理,生物
同学1,96,65,99,91,61
同学2,41,47,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


### 4.13 sort_index() 索引排序

In [139]:
df.sort_index()
df

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,66,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


### 4.14 sort_values() 值排序

In [140]:
# ascending=False 降序排序
df.sort_values(by='语文',ascending=False)

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学8,79,88,89,72,56
同学3,72,52,69,94,95
同学5,70,54,59,77,90
同学7,66,78,65,94,99
同学9,61,85,70,64,59
同学4,61,65,45,64,44
同学10,54,81,64,68,78
同学2,41,47,99,46,75
同学6,40,61,97,96,64


In [141]:
# ascending=True 升序排序,默认升序排序
df.sort_values(by='语文')

Unnamed: 0,语文,数学,英语,物理,化学
同学6,40,61,97,96,64
同学2,41,47,99,46,75
同学10,54,81,64,68,78
同学4,61,65,45,64,44
同学9,61,85,70,64,59
同学7,66,78,65,94,99
同学5,70,54,59,77,90
同学3,72,52,69,94,95
同学8,79,88,89,72,56
同学1,96,65,99,91,61


In [142]:
# 你使用了 df.at('同学7','语') 这种调用方式，把 at 当作函数来调用
# at 实际上是一个访问器对象，应该使用方括号语法
# 另外，你的列名是 '语文' 而不是 '语'（除非你确实有一个列名为 '语'）
df.at['同学7','语文'] = 76
df

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61
同学2,41,47,99,46,75
同学3,72,52,69,94,95
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学6,40,61,97,96,64
同学7,76,78,65,94,99
同学8,79,88,89,72,56
同学9,61,85,70,64,59
同学10,54,81,64,68,78


In [143]:
df.sort_values(by=['语文','数学'],ascending=[True,False])

Unnamed: 0,语文,数学,英语,物理,化学
同学6,40,61,97,96,64
同学2,41,47,99,46,75
同学10,54,81,64,68,78
同学9,61,85,70,64,59
同学4,61,65,45,64,44
同学5,70,54,59,77,90
同学3,72,52,69,94,95
同学7,76,78,65,94,99
同学8,79,88,89,72,56
同学1,96,65,99,91,61


### 4.15 reset_index()索引重置

In [144]:
# reset_index(drop=False) 不删除元索引
df3 = df.reset_index(drop=False)
df3

Unnamed: 0,index,语文,数学,英语,物理,化学
0,同学1,96,65,99,91,61
1,同学2,41,47,99,46,75
2,同学3,72,52,69,94,95
3,同学4,61,65,45,64,44
4,同学5,70,54,59,77,90
5,同学6,40,61,97,96,64
6,同学7,76,78,65,94,99
7,同学8,79,88,89,72,56
8,同学9,61,85,70,64,59
9,同学10,54,81,64,68,78


In [145]:
# 重置索引删除原索引
df2 = df.reset_index(drop=True)
df2

Unnamed: 0,语文,数学,英语,物理,化学
0,96,65,99,91,61
1,41,47,99,46,75
2,72,52,69,94,95
3,61,65,45,64,44
4,70,54,59,77,90
5,40,61,97,96,64
6,76,78,65,94,99
7,79,88,89,72,56
8,61,85,70,64,59
9,54,81,64,68,78


### 4.16 set_index() 索引设置

In [146]:
df4 = df.set_index("语文")
df4

Unnamed: 0_level_0,数学,英语,物理,化学
语文,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
96,65,99,91,61
41,47,99,46,75
72,52,69,94,95
61,65,45,64,44
70,54,59,77,90
40,61,97,96,64
76,78,65,94,99
79,88,89,72,56
61,85,70,64,59
54,81,64,68,78


### 4.17 assign() 方法 赋值

In [147]:
df5 = df.copy()
df6 = df5.assign(总分=df5['语文']+df5['数学']+df5['英语'])
df6

Unnamed: 0,语文,数学,英语,物理,化学,总分
同学1,96,65,99,91,61,260
同学2,41,47,99,46,75,187
同学3,72,52,69,94,95,193
同学4,61,65,45,64,44,171
同学5,70,54,59,77,90,183
同学6,40,61,97,96,64,198
同学7,76,78,65,94,99,219
同学8,79,88,89,72,56,256
同学9,61,85,70,64,59,216
同学10,54,81,64,68,78,199


In [156]:
df = df.assign(
    最高分科目 = df.idxmax(axis=1),
    最高分 = df.max(axis=1),
)
df
# max_subject = df.idxmax(axis=1)
# max_subject
# max_score = df.max(axis=1)
# max_score

Unnamed: 0,语文,数学,英语,物理,化学,最高分科目,最高分
同学1,96,65,99,91,61,英语,99
同学2,41,47,99,46,75,英语,99
同学3,72,52,69,94,95,化学,95
同学4,61,65,45,64,44,数学,65
同学5,70,54,59,77,90,化学,90
同学6,40,61,97,96,64,英语,97
同学7,76,78,65,94,99,化学,99
同学8,79,88,89,72,56,英语,89
同学9,61,85,70,64,59,数学,85
同学10,54,81,64,68,78,数学,81


### 4.18 idxmax() 获取行或列(axis决定)最大值索引

In [149]:
max_subject = df.idxmax(axis=1)
max_subject

同学1     英语
同学2     英语
同学3     化学
同学4     数学
同学5     化学
同学6     英语
同学7     化学
同学8     英语
同学9     数学
同学10    数学
dtype: object

In [150]:
max_subject = df.idxmax(axis=0)
max_subject

语文    同学1
数学    同学8
英语    同学1
物理    同学6
化学    同学7
dtype: object

### 4.19 max() 获取行或列(axis决定)最大值

In [151]:
df_max = df.max(axis=1)
df_max

同学1     99
同学2     99
同学3     95
同学4     65
同学5     90
同学6     97
同学7     99
同学8     89
同学9     85
同学10    81
dtype: int32

In [152]:
df_max = df.max(axis=0)
df_max

语文    96
数学    88
英语    99
物理    96
化学    99
dtype: int32

### 4.21 idxmin() 获取行或列(axis决定)最小值索引

In [153]:
idxmin = df.idxmin(axis=1)
idxmin

同学1     化学
同学2     语文
同学3     数学
同学4     化学
同学5     数学
同学6     语文
同学7     英语
同学8     化学
同学9     化学
同学10    语文
dtype: object

### 4.22 min() 获取行或列(axis决定)最小值

In [154]:
df.min(axis=1)

同学1     61
同学2     41
同学3     52
同学4     44
同学5     54
同学6     40
同学7     65
同学8     56
同学9     59
同学10    54
dtype: int32

### 4.23 query() 方法 列查询

特别注意`df.query()`中传入的字符串格式

In [155]:

df.query('数学 > 60 & 语文 > 90')

Unnamed: 0,语文,数学,英语,物理,化学
同学1,96,65,99,91,61


### 4.24 rank() 方法 排序

- rank函数用法：`DataFrame.rank()` 或 `Series.rank()`
- rank函数返回值：以Series或者DataFrame的类型返回数据的排名（哪个类型调用返回哪个类型）
- rank函数包含有6个参数：
- **axis**：设置沿着哪个轴计算排名（0或者1)，默认为0按纵轴计算排名
- **numeric_only**：是否仅仅计算数字型的columns，默认为False
- na_option ：NaN值是否参与排序及如何排序，固定参数：keep  top  bottom
  - keep: NaN值保留原有位置
  - top: NaN值全部放在前边
  - bottom: NaN值全部放在最后
- **ascending**：设定升序排还是降序排，默认True升序
- **pct**：是否以排名的百分比显示排名（所有排名与最大排名的百分比），默认False
- method：排名评分的计算方式，固定值参数，常用固定值如下：
  - average : 默认值，排名评分不连续；数值相同的评分一致，都为平均值
  - min : 排名评分不连续；数值相同的评分一致，都为最小值
  - max : 排名评分不连续；数值相同的评分一致，都为最大值
  - dense : 排名评分是连续的；数值相同的评分一致

In [162]:
df.rank()

Unnamed: 0,语文,数学,英语,物理,化学,最高分科目,最高分
同学1,10.0,5.5,9.5,7.0,4.0,8.5,9.0
同学2,2.0,1.0,9.5,1.0,6.0,8.5,9.0
同学3,7.0,2.0,5.0,8.5,9.0,2.0,6.0
同学4,4.5,5.5,1.0,2.5,1.0,5.0,1.0
同学5,6.0,3.0,2.0,6.0,8.0,2.0,5.0
同学6,1.0,4.0,8.0,10.0,5.0,8.5,7.0
同学7,8.0,7.0,4.0,8.5,10.0,2.0,9.0
同学8,9.0,10.0,7.0,5.0,2.0,8.5,4.0
同学9,4.5,9.0,6.0,2.5,3.0,5.0,3.0
同学10,3.0,8.0,3.0,4.0,7.0,5.0,2.0


In [165]:
df.rank(axis=0,numeric_only=True,na_option='keep',ascending=False,pct=False,method='dense')


Unnamed: 0,语文,数学,英语,物理,化学,最高分
同学1,1.0,5.0,1.0,3.0,7.0,1.0
同学2,8.0,9.0,1.0,8.0,5.0,1.0
同学3,4.0,8.0,5.0,2.0,2.0,3.0
同学4,6.0,5.0,9.0,7.0,10.0,8.0
同学5,5.0,7.0,8.0,4.0,3.0,4.0
同学6,9.0,6.0,2.0,1.0,6.0,2.0
同学7,3.0,4.0,6.0,2.0,1.0,1.0
同学8,2.0,1.0,3.0,5.0,9.0,5.0
同学9,6.0,2.0,4.0,7.0,8.0,6.0
同学10,7.0,3.0,7.0,6.0,4.0,7.0


### 4.25 mean() 方法 求均值

In [167]:
df.mean(numeric_only= True)

语文     65.0
数学     67.6
英语     75.6
物理     76.6
化学     72.1
最高分    89.9
dtype: float64

In [168]:
df.mean(axis=1,numeric_only= True)

同学1     85.166667
同学2     67.833333
同学3     79.500000
同学4     57.333333
同学5     73.333333
同学6     75.833333
同学7     85.166667
同学8     78.833333
同学9     70.666667
同学10    71.000000
dtype: float64

### 4.26 std() 方法 求标准差

In [169]:
df.std(axis=1,numeric_only= True)

同学1     17.463295
同学2     26.925205
同学3     17.963853
同学4     10.053192
同学5     15.227169
同学6     24.276875
同学7     14.162156
同学8     13.105978
同学9     11.707547
同学10    10.917875
dtype: float64

### 4.27 var() 方法 求方差

In [170]:
df.var(axis=1,numeric_only=True)

同学1     304.966667
同学2     724.966667
同学3     322.700000
同学4     101.066667
同学5     231.866667
同学6     589.366667
同学7     200.566667
同学8     171.766667
同学9     137.066667
同学10    119.200000
dtype: float64

### 4.28 sum() 方法 求和

In [171]:
df.sum(axis=1,numeric_only=True)

同学1     511
同学2     407
同学3     477
同学4     344
同学5     440
同学6     455
同学7     511
同学8     473
同学9     424
同学10    426
dtype: int64

### 4.29 count() 方法 求非NaN值个数

In [173]:
df.count(axis=1,numeric_only=True)

同学1     6
同学2     6
同学3     6
同学4     6
同学5     6
同学6     6
同学7     6
同学8     6
同学9     6
同学10    6
dtype: int64

### 4.30 median() 方法 求中位数

In [174]:
df.median(axis=1,numeric_only=True)

同学1     93.5
同学2     61.0
同学3     83.0
同学4     62.5
同学5     73.5
同学6     80.0
同学7     86.0
同学8     83.5
同学9     67.0
同学10    73.0
dtype: float64

### 4.31 mode() 方法 求众数

- df.mode() 是 Pandas 中用于计算 DataFrame 或 Series 的 众数（mode） 的方法。众数是指在数据中出现次数最多的值。在使用 df.mode() 时，可以指定计算的轴 (axis) 和是否仅计算数值类型的列 (numeric_only)。

- df.mode() 的参数说明：

- axis：

    - axis=0（默认）：按列计算每一列的众数（纵向操作）。

    - axis=1：按行计算每一行的众数（横向操作）。

- numeric_only：

    - True：仅计算数值类型的列或行。

    - False（默认）：计算所有列或行，包括非数值类型的列。

- 使用 mode(axis=1, numeric_only=True)：

    - 当你设置 axis=1 时，mode() 会计算每一行的众数，而 numeric_only=True 只会考虑数值列，忽略非数值列。

In [175]:
df.mode(axis=1,numeric_only=True)

Unnamed: 0,0
同学1,99
同学2,99
同学3,95
同学4,65
同学5,90
同学6,97
同学7,99
同学8,89
同学9,85
同学10,81


### 4.32 merge() 方法 合并

- pd.merge(left, right, how='inner', on=None)
  - 可以指定按照两组数据的共同键值对合并或者左右各自
  - `left`: DataFrame
  - `right`: 另一个DataFrame
  - `on`: 指定的共同键
  - how:按照什么方式连接

| Merge method | SQL Join Name      | Description                               |
| ------------ | ------------------ | ----------------------------------------- |
| `left`       | `LEFT OUTER JOIN`  | Use keys from left frame only             |
| `right`      | `RIGHT OUTER JOIN` | Use keys from right frame only            |
| `outer`      | `FULL OUTER JOIN`  | Use union of keys from both frames        |
| `inner`      | `INNER JOIN`       | Use intersection of keys from both frames |

In [179]:
left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                        'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})

right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                        'key2': ['K0', 'K0', 'K0', 'K0'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

# 默认内连接
result = pd.merge(left, right, on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [180]:
result = pd.merge(left, right, how='left', on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [182]:
result = pd.merge(left, right, how='right', on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


In [183]:
result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K0,,,C3,D3
5,K2,K1,A3,B3,,
