In [1]:
import pandas as pd 

## Pandas中的数据计算

### 求和

In [2]:
import pandas as pd 

data  = [[100, 90, 80], [97, 98, 96], [56, 56,45]]
df = pd.DataFrame(data, columns=['Math', 'English', 'Literature'], index=['Tom', 'Jack', 'Mary'])

print(df)
print()

df['Total'] = df.sum(axis=1)
print(df)


      Math  English  Literature
Tom    100       90          80
Jack    97       98          96
Mary    56       56          45

      Math  English  Literature  Total
Tom    100       90          80    270
Jack    97       98          96    291
Mary    56       56          45    157


### 求平均

In [3]:
import pandas as pd 

data  = [[100, 90, 80], [98, 67, 56], [56, 56,45]]
df = pd.DataFrame(data, columns=['Math', 'English', 'Literature'], index=['Tom', 'Jack', 'Mary'])
print(df)

mean_values = pd.DataFrame(df.mean()).transpose()

df = pd.concat([df, mean_values], ignore_index=True)    # 默认按照列计算平均值
df = df.round({'Math': 2, 'English': 2, 'Literature': 2})

print(df)

      Math  English  Literature
Tom    100       90          80
Jack    98       67          56
Mary    56       56          45
     Math  English  Literature
0  100.00     90.0       80.00
1   98.00     67.0       56.00
2   56.00     56.0       45.00
3   84.67     71.0       60.33


### 计算平均值(NaN)

In [4]:
import pandas as pd 

data  = [[100, 90, 80], [98, 67, 56], [56, 56]]
df = pd.DataFrame(data, columns=['Math', 'English', 'Literature'], index=['Tom', 'Jack', 'Mary'])
print(df)

mean_v = pd.DataFrame(df.mean(axis=0), columns=['Average']).transpose().round(2)
df = pd.concat([df, mean_v])
print(df)

      Math  English  Literature
Tom    100       90        80.0
Jack    98       67        56.0
Mary    56       56         NaN
           Math  English  Literature
Tom      100.00     90.0        80.0
Jack      98.00     67.0        56.0
Mary      56.00     56.0         NaN
Average   84.67     71.0        68.0


### 求最大-最小值

In [5]:
import pandas as pd 

data  = [[100, 90, 80], [98, 67, 56], [56, 56]]
df = pd.DataFrame(data, columns=['Math', 'English', 'Literature'], index=['Tom', 'Jack', 'Mary'])
print(df)

max_v = pd.DataFrame(df.max(axis=0), columns=['Max']).transpose()
df = pd.concat([df, max_v])

min_v = pd.DataFrame(df.min(axis=0), columns=['Min']).transpose()
df = pd.concat([df, min_v])


print(df)

      Math  English  Literature
Tom    100       90        80.0
Jack    98       67        56.0
Mary    56       56         NaN
       Math  English  Literature
Tom   100.0     90.0        80.0
Jack   98.0     67.0        56.0
Mary   56.0     56.0         NaN
Max   100.0     90.0        80.0
Min    56.0     56.0        56.0


### 求中位数

In [6]:
import pandas as pd 

data  = [[100, 90, 80], [98, 67, 56], [56, 56]]
df = pd.DataFrame(data, columns=['Math', 'English', 'Literature'], index=['Tom', 'Jack', 'Mary'])
print(df)

median_v = pd.DataFrame(df.median(axis=0), columns=['Median']).transpose()
df = pd.concat([df, median_v])

print(df)


      Math  English  Literature
Tom    100       90        80.0
Jack    98       67        56.0
Mary    56       56         NaN
         Math  English  Literature
Tom     100.0     90.0        80.0
Jack     98.0     67.0        56.0
Mary     56.0     56.0         NaN
Median   98.0     67.0        68.0


### 求众数

In [7]:
import pandas as pd 

data  = [[100, 100, 100], [100, 76, 76], [76, 56, 56]]
df = pd.DataFrame(data, columns=['Math', 'English', 'Literature'], index=['Tom', 'Jack', 'Mary'])
print(df)
print()

# 行中的众数
print(df.mode(axis=1))
print()

# 列中的众数
print(df.mode(axis=0))
print()

# 数学的众数
print(df['Math'].mode())

      Math  English  Literature
Tom    100      100         100
Jack   100       76          76
Mary    76       56          56

        0
Tom   100
Jack   76
Mary   56

    Math  English  Literature
0  100.0       56          56
1    NaN       76          76
2    NaN      100         100

0    100
Name: Math, dtype: int64


### 求方差

In [8]:
import pandas as pd

pd.set_option('display.unicode.east_asian_width', True)

score = [[135, 140, 138, 145, 140], [140, 145, 139, 142, 132]]
stn_name = ['赵云', '郭嘉'] 
moni= ['一模', '二模', '三模', '四模', '五模']
df = pd.DataFrame(data=score, index=stn_name, columns=moni)

print(df)

print(df.var(axis=1))     #Pandas采用的是无偏样式方差     方差和/样本数-1

      一模  二模  三模  四模  五模
赵云   135   140   138   145   140
郭嘉   140   145   139   142   132
赵云    13.3
郭嘉    23.3
dtype: float64


在Pandas中，方差通常是指样本方差（sample variance），而在数学中的方差可能涉及到样本方差或总体方差。下面对这两者进行简要的中文解释：

1. **Pandas中的样本方差（sample variance）：**
   - **定义：** 样本方差是衡量数据集中数值变异程度的一种统计指标。它是每个数据点与样本均值的差的平方和的平均值。
   - **计算公式：** 对于样本数据集 $X$，其样本方差 $\sigma^2$ 的计算公式为：
   
        ![image.png](attachment:image.png)
    
     其中，$n$ 是样本大小，$X_i$ 是第 $i$ 个数据点，$\bar{X}$ 是样本均值。

2. **数学中的方差：**
   - **样本方差 vs 总体方差：** 在数学中，方差的概念可以分为样本方差和总体方差。样本方差通常用于对样本数据的变异程度进行估计，而总体方差则是对整个总体数据的变异程度进行估计。
   - **计算公式：** 总体方差 $\sigma^2$ 的计算公式为：

        ![image-2.png](attachment:image-2.png)
     
     其中，$N$ 是总体大小，$X_i$ 是第 $i$ 个数据点，$\mu$ 是总体均值。

在Pandas中，使用`DataFrame.var()`函数默认计算样本方差。如果想要计算总体方差，可以使用`DataFrame.var(ddof=0)`，其中`ddof`参数表示自由度的调整。如果 `ddof=0`，则计算总体方差，如果 `ddof=1`，则计算样本方差。

###  求标准差

In [9]:
import pandas as pd 

data  = [[100, 90, 100], [100, 76, 76], [76, 90, 76]]
df = pd.DataFrame(data, columns=['Math', 'English', 'Literature'], index=['Tom', 'Jack', 'Mary'])
print(df)
print()

print(df.std())


      Math  English  Literature
Tom    100       90         100
Jack   100       76          76
Mary    76       90          76

Math          13.856406
English        8.082904
Literature    13.856406
dtype: float64


### 求分位数

`quantile()` 函数是用于计算数据集的分位数（quantiles）的方法。在 Pandas 中，`quantile()` 函数可以用于计算指定分位数的值。

语法如下：
```python
DataFrame.quantile(q=0.5, axis=0, numeric_only=True, interpolation='linear')
```

参数说明：
- `q`：指定要计算的分位数，可以是单个分位数的值（如 0.5 表示中位数），也可以是包含多个分位数的列表。
- `axis`：指定计算的方向，0表示按列计算，1表示按行计算。
- `numeric_only`：如果为 True，则只考虑数字类型的列。
- `interpolation`：指定插值方法，可选值包括 'linear'、'lower'、'higher'、'midpoint' 和 'nearest'。


In [10]:
# 分位数

import pandas as pd
from pandas import DataFrame

data = [120, 110, 112, 100, 98, 34, 123, 115]
columns = ['Math']
df = DataFrame(data, columns=columns)
print(df)

x_35 = df['Math'].quantile(0.35)
print(x_35)

print(df[df['Math'] < x_35])

   Math
0   120
1   110
2   112
3   100
4    98
5    34
6   123
7   115
104.5
   Math
3   100
4    98
5    34


In [11]:
# 分位数， numeric_only = False

import pandas as pd 

df = pd.DataFrame(
    {
        'A':[1, 2],
        'B':[pd.Timestamp('2020'), pd.Timestamp('2021')],
        'C':[pd.Timedelta('1 days'), pd.Timedelta('2 days')]
    })

print(df.quantile(0.5, numeric_only=False))

A                    1.5
B    2020-07-02 00:00:00
C        1 days 12:00:00
Name: 0.5, dtype: object


## Pandas 中的数据格式化

### 设置小数位置

`round()` 方法用于 Pandas DataFrame 中的浮点数列，它将浮点数舍入到指定的小数位数。该方法返回一个新的 DataFrame，其中的浮点数列被舍入。

语法如下：
```python
DataFrame.round(decimals=0, *args, **kwargs)
```

参数说明：
- `decimals`：指定要保留的小数位数。默认值为0，表示舍入到整数。



In [19]:
import pandas as pd

df = pd.read_excel('data/格式化数据.xlsx')
print(df)
print('--'*30)

print(df.round(2))      # 对df的所有元素起作用round中的参数是一个整数
print('--'*30)

# 对指定列保留小数位置
print(df.round({'A1':1, 'A2':2}))    # round中的参数是一个字典
print('--'*30)

s1 = pd.Series([1,0,2,1,2], index=['A1','A2','A3','A4','A5'])       # round中的参数是一个Series对象
print(s1)
df2=df.round(s1)
print(df2)
print('--'*30)

# 还可以使用自定义函数实现保留小数位数
df3=df.map(lambda x : '{:.2f}'.format(x))
print(df3)


         A1        A2        A3        A4        A5
0  0.527350  0.410396  0.131101  0.565818  0.322695
1  0.007817  0.663029  0.480029  0.551382  0.603932
2  0.123241  0.935813  0.052935  0.207342  0.183324
3  0.405295  0.623856  0.254653  0.368602  0.751753
4  0.195120  0.623856  0.477747  0.592885  0.751753
------------------------------------------------------------
     A1    A2    A3    A4    A5
0  0.53  0.41  0.13  0.57  0.32
1  0.01  0.66  0.48  0.55  0.60
2  0.12  0.94  0.05  0.21  0.18
3  0.41  0.62  0.25  0.37  0.75
4  0.20  0.62  0.48  0.59  0.75
------------------------------------------------------------
    A1    A2        A3        A4        A5
0  0.5  0.41  0.131101  0.565818  0.322695
1  0.0  0.66  0.480029  0.551382  0.603932
2  0.1  0.94  0.052935  0.207342  0.183324
3  0.4  0.62  0.254653  0.368602  0.751753
4  0.2  0.62  0.477747  0.592885  0.751753
------------------------------------------------------------
A1    1
A2    0
A3    2
A4    1
A5    2
dtype: int64
  

### 设置百分比

In [24]:
import pandas as pd

df = pd.read_excel('data/格式化数据.xlsx')
print(df)
print('--'*30)

df['百分比']=df['A1'].apply(lambda x:format(x, '.0%'))    # 对 A1 列进行百分比设置
print(df)
print('--'*30)

df['百分比']=df['A1'].apply(lambda x:format(x, '.2%'))    # 对 A1 列进行百分比设置
print(df)
print('--'*30)

df['百分比']=df['A1'].map(lambda x:format(x, '.2%'))    # 对 A1 列进行百分比设置
print(df)

df.info()

         A1        A2        A3        A4        A5
0  0.527350  0.410396  0.131101  0.565818  0.322695
1  0.007817  0.663029  0.480029  0.551382  0.603932
2  0.123241  0.935813  0.052935  0.207342  0.183324
3  0.405295  0.623856  0.254653  0.368602  0.751753
4  0.195120  0.623856  0.477747  0.592885  0.751753
------------------------------------------------------------
         A1        A2        A3        A4        A5 百分比
0  0.527350  0.410396  0.131101  0.565818  0.322695    53%
1  0.007817  0.663029  0.480029  0.551382  0.603932     1%
2  0.123241  0.935813  0.052935  0.207342  0.183324    12%
3  0.405295  0.623856  0.254653  0.368602  0.751753    41%
4  0.195120  0.623856  0.477747  0.592885  0.751753    20%
------------------------------------------------------------
         A1        A2        A3        A4        A5  百分比
0  0.527350  0.410396  0.131101  0.565818  0.322695  52.73%
1  0.007817  0.663029  0.480029  0.551382  0.603932   0.78%
2  0.123241  0.935813  0.052935  0.207

### 设置千分位分隔符

In [31]:
import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)

df = pd.read_excel('data/msb课程记录.xls')
print(df)
print(df.info())

print('------------------------------------------------------------------------')

df['买家实际支付金额'] = df['买家实际支付金额'].apply(lambda x:format(int(x), ','))
print(df)
print(df.info())

   买家会员名  买家实际支付金额  课程总数量             课程标题   类别  \
0      msb001          30960.00         2.0  Java互联网高级架构师  课程   
1      msb002              1.00         1.0    金三银四面试突击班   NaN   
2      msb003           9980.00         1.0    GoLang从入门到精通  课程   
3      msb004           9980.00         NaN  算法与数据结构进阶班  课程   
4      msb005              9.90         1.0       大前端VIP体验营   NaN   
5      msb006              0.02         1.0  零基础速成班HTML+CSS  课程   
6      msb007           2400.00         1.0              操作系统  课程   
7      msb008              1.00         NaN            自定义注解  课程   
8      msb009           2980.00         1.0        多线程与高并发  课程   
9      msb010           1980.00         1.0              科技英语  课程   
10     msb010           1980.00         1.0              科技英语  课程   

          订单付款时间  
0  2020-10-09 22:54:26  
1  2020-10-09 22:52:42  
2  2020-01-19 12:53:01  
3  2020-06-30 11:46:14  
4  2020-03-23 18:25:45  
5  2020-03-24 19:25:45  
6  2020-03-25 11:00:45  
7  2020-03-26 23

## apply() 、map()、 applymap()的区别

In [45]:
# apply() 可以在Series, 也可以再DataFrame中起作用
#   对 Series的每一个元素都执行一次函数
#   对 DataFrame中的某一行或某一列中的每一个元素执行一次函数+

import pandas as pd

s1 = pd.Series(data=[11, 22, 33, 44], index=['a', 'b', 'c', 'd'])
print(s1)
print('========================================================')

s1 = s1.apply(lambda x: x*2)
print(s1)
print('========================================================')

df = pd.DataFrame(data=[[10, 20, 30, 40], [44, 55, 66, 77]], index=['a', 'b'], columns=['A', 'B', 'C', 'D'])
print(df)
print('========================================================')

df1 = df.apply(lambda x:x.sum(), axis=0)   # 0 表示行， 1 表示列， 默认行
print(df1)

print('========================================================')

df2 = df.apply(lambda x:x.sum(), axis=1)   # 0 表示行， 1 表示列， 默认行
print(df2)

a    11
b    22
c    33
d    44
dtype: int64
a    22
b    44
c    66
d    88
dtype: int64
    A   B   C   D
a  10  20  30  40
b  44  55  66  77
A     54
B     75
C     96
D    117
dtype: int64
a    100
b    242
dtype: int64


In [54]:
# map() 只能应用在Series的每个元素上
df = pd.DataFrame(data=[['Male'], ['Female'], ['Male'], ['Male']], index=['John', 'Lily', 'Mike', 'Bob'], columns=['Sex'])
print(df)
print('========================================================')

def gender(g):
    if g=='Male':
        return 0
    else:
        return 1


print(type(df['Sex']))   #b <class 'pandas.core.series.Series'>

print('========================================================')
df2 = df['Sex'].map(gender)   # map() 的参数是一个函数
print(df2)

print('========================================================')
# map() 的参数 还可以是一个字典
df3= df['Sex'].map({'Male':0, 'Female':1})
print(df3)

         Sex
John    Male
Lily  Female
Mike    Male
Bob     Male
<class 'pandas.core.series.Series'>
John    0
Lily    1
Mike    0
Bob     0
Name: Sex, dtype: int64
John    0
Lily    1
Mike    0
Bob     0
Name: Sex, dtype: int64


In [56]:
# applymap()  将函数 应用到 DataFrame中的每一个元素中, 与apply()的区别, apply()是针对某行或某列

import pandas as pd
df = pd.DataFrame(data=[[10, 20, 30, 40], [44, 55, 66, 77]], index=['a', 'b'], columns=['A', 'B', 'C', 'D'])
print(df)

df4 = df.applymap(lambda x: x+10)

print(df4)

    A   B   C   D
a  10  20  30  40
b  44  55  66  77
    A   B   C   D
a  20  30  40  50
b  54  65  76  87


  df4 = df.applymap(lambda x: x+10)
