# python语法之Pandas库

Pandas库是在NumPy库基础上开发的一种数据分析工具。

如果想要进一步学习，可以参考[这个](https://www.runoob.com/pandas/pandas-intro.html)


## 1 Pandas库基本操作

Pandas主要提供了3种数据结构：

-	Series：带标签的一维数组。
-	DataFrame：带标签且大小可变的二维表格结构。
-	Panel：带标签且大小可变的三维数组。

这里我们主要介绍pandas的DataFrame数据结构。

### 1.1 生成二维数组


In [3]:
import pandas as pd
import numpy as np
dates=pd.date_range(start='20191101',end='20191124',freq='D') #功能：生成一个日期序列，从 2019年11月1日 到 2019年11月24日。
a1=pd.DataFrame(np.random.randn(24,4), index=dates, columns=list('ABCD'))
a2=pd.DataFrame(np.random.rand(24,4))
print(a1); print(a2)

                   A         B         C         D
2019-11-01 -1.072281  1.445046 -0.324338 -0.044491
2019-11-02  1.047063  0.330124  1.223018 -0.923062
2019-11-03  0.788505 -0.807098 -0.587505 -1.192994
2019-11-04  1.817763  0.687267  0.350036 -1.022037
2019-11-05  1.054668  1.299141  0.062940  0.221341
2019-11-06  0.241825 -0.203342 -0.960979 -0.357667
2019-11-07  0.142060  0.426356  0.026173 -1.226323
2019-11-08 -1.227430  0.901533 -0.966665 -0.501913
2019-11-09 -2.042292  0.311931  0.086942 -1.012062
2019-11-10  0.520879 -1.769547  0.784099  1.267777
2019-11-11  0.547394 -0.661616  0.608697 -0.482361
2019-11-12  0.908498 -0.637471  2.072069  0.021176
2019-11-13 -2.887066  1.700914 -1.166677 -0.750039
2019-11-14 -0.873420 -1.349514  1.292943  0.160206
2019-11-15 -0.109678 -0.956185 -0.458263  0.468198
2019-11-16  0.370924 -0.281364  1.643715  0.743617
2019-11-17  0.716822  1.174719  0.228944 -1.142368
2019-11-18  0.018088  0.546803  1.066295  1.985747
2019-11-19 -0.042471 -0.641976 

DataFrame还可以视为若干个个Series的组合

In [4]:
series_apple = pd.Series([1, 3, 7, 4])
series_banana = pd.Series([2, 6, 3, 5])
df = pd.DataFrame({'Apples' : series_apple, 'Banana' : series_banana})
print(df)

   Apples  Banana
0       1       2
1       3       6
2       7       3
3       4       5


### 1.2 文件读写

在处理实际数据时，经常需要从不同类型的文件中读取数据，这里简单介绍使用pandas直接从Excel和CSV文件中读取数据以及把DataFrame对象中的数据保存至Excel和CSV文件中的方法

课本提供的代码落后了，原因是：pandas 3.0 版本兼容性提示，表示从 pandas 3.0 开始，to_excel() 方法的所有参数（除了 excel_writer）必须通过 关键字参数（如 sheet_name="Sheet1"）显式指定，不再允许直接使用位置参数。

In [5]:
import pandas as pd
import numpy as np

dates = pd.date_range(start='20191101', end='20191124', freq='D')
a1 = pd.DataFrame(np.random.randn(24,4), index=dates, columns=list('ABCD'))
a2 = pd.DataFrame(np.random.randn(24,4))

a1.to_excel('data2_38_1.xlsx')
a2.to_csv('data2_38_2.csv')

with pd.ExcelWriter('data2_38_3.xlsx') as f:
    a1.to_excel(excel_writer=f, sheet_name="Sheet1")  # 显式命名参数
    a2.to_excel(excel_writer=f, sheet_name="Sheet2")

如果写入数据时，不包含行索引，Python程序如下：


In [6]:
import openpyxl
import xlrd
import pandas as pd
import numpy as np
dates=pd.date_range(start='20191101',  end='20191124',  freq='D')
a1=pd.DataFrame(np.random.randn(24,4), index=dates, columns=list('ABCD'))
a2=pd.DataFrame(np.random.randn(24,4))
a1.to_excel('data2_38_4.xlsx', index=False)  #不包括行索引
a2.to_csv('data2_38_5.csv', index=False)   #不包括行索引
with pd.ExcelWriter('data2_38_6.xlsx') as f: #创建文件对象
    a1.to_excel(excel_writer = f,sheet_name = "Sheet1")  #把a1写入Excel文件
    a2.to_excel(excel_writer = f,sheet_name = "Sheet2")  #把a2写入另一个表单中
f.save()

ModuleNotFoundError: No module named 'xlrd'

从文件中读入数据示例

In [4]:
import pandas as pd
a=pd.read_csv("data2_38_2.csv", usecols=range(1,5))
b=pd.read_excel("data2_38_3.xlsx", "Sheet2", usecols=range(1,5))
print(a); print(b)

           0         1         2         3
0  -0.736180 -0.402673 -0.056493  2.104780
1   0.864135  1.793465 -0.205152 -0.134117
2  -0.995517  0.535867 -0.343643 -0.202998
3  -2.551800 -1.045085 -0.478905  1.878571
4   0.141702 -0.005578  1.171675  1.546905
5  -0.482135  1.076879 -0.955621 -0.559546
6   0.550010 -2.874536  0.047323  0.558814
7   1.184629 -0.603139 -0.744881  0.076931
8   1.116749 -1.016542 -1.687747  0.297579
9  -0.930319  1.436951  0.466982  0.346554
10  0.117524  1.057130 -0.475182 -0.738245
11 -0.828855  2.469944  0.949564 -0.735178
12 -0.918166 -0.267182  0.628246 -0.277799
13 -0.246414  0.566422  0.376012 -1.558382
14 -0.604107 -0.287911 -0.228982  0.732421
15 -0.828766 -0.951987 -1.280068 -0.556601
16 -0.298756 -0.002682 -0.666376  0.504368
17 -0.999225 -1.292458 -1.075077  0.299412
18 -1.514353  1.671948  0.866999  0.693077
19  1.092400  2.220157 -1.872545  0.053736
20 -0.652761 -0.648334  1.111811  0.348712
21  2.502838 -0.618573 -0.360601 -1.020147
22 -0.96815

## 2 数据的一些预处理

### 2.1 拆分合并

通过切片操作可以实现数据拆分，可用来计算特定范围内数据的分布情况，连接则是相反的操作，可以把多个DataFrame对象合并为一个DataFrame对象。
在进行数据处理和分析时，经常需要按照某一列对原始数据进行分组，而该列数值相同的行中其他列进行求和、求平均等操作，这可以通过groupby()方法、sum()方法和mean()方法等来实现。

课本上的错误

In [5]:
import pandas as pd
import numpy as np
d=pd.DataFrame(np.random.randint(1,6,(10,4)), columns=list("ABCD"))
d1=d[:4]  #获取前4行数据
d2=d[4:]  #获取第5行以后的数据
dd=pd.concat([d1,d2])   #数据行合并
s1=d.groupby('A').mean()      #数据分组求均值
s2=d.groupby('A').apply(sum)  #数据分组求和

  s2=d.groupby('A').apply(sum)  #数据分组求和
  return reduction(axis=axis, out=out, **passkwargs)
  s2=d.groupby('A').apply(sum)  #数据分组求和


修正后：

In [7]:
import pandas as pd
import numpy as np

# 生成随机数据（4列，列名为A/B/C/D）
d = pd.DataFrame(
    np.random.randint(1, 6, (10, 4)),
    columns=list("ABCD")
)

# 删除冗余的合并操作（dd与原数据d相同）
# d1 = d[:4]
# d2 = d[4:]
# dd = pd.concat([d1, d2])

# 分组计算均值和总和（修正警告）
s1 = d.groupby('A').mean()      # 按A列分组，计算各组的均值
s2 = d.groupby('A').sum()       # 按A列分组，计算各组的和（自动排除非数值列）
print(d)
print("分组均值：\n", s1)
print("\n分组总和：\n", s2)

   A  B  C  D
0  5  4  3  4
1  4  2  1  1
2  2  3  5  4
3  1  1  1  2
4  1  2  1  3
5  5  1  2  5
6  5  4  2  5
7  1  2  1  1
8  3  4  1  4
9  2  3  4  3
分组均值：
           B         C         D
A                              
1  1.666667  1.000000  2.000000
2  3.000000  4.500000  3.500000
3  4.000000  1.000000  4.000000
4  2.000000  1.000000  1.000000
5  3.000000  2.333333  4.666667

分组总和：
    B  C   D
A          
1  5  3   6
2  6  9   7
3  4  1   4
4  2  1   1
5  9  7  14


分组依据：
- 按照列 'A' 的唯一值将数据框 d 分成多个子集（组）。
- 例如，如果列 'A' 的值是 [1, 2, 2, 1, 3]，则分组结果为：
- 组 1：所有 'A' == 1 的行。
- 组 2：所有 'A' == 2 的行。
- 组 3：所有 'A' == 3 的行。
-
以此类推

### 2.2 数据清洗

对DataFrame进行选取，要从3个层次考虑：行列、区域、单元格。
1. 选用中括号[]选取行列。
2. 使用行和列的名称进行标签定位的`df.loc[]`。
3. 使用整型索引（绝对位置索引）的`df.iloc[]`。
在数据预处理中，需要对缺失值等进行一些特殊处理。

In [9]:
import pandas as pd
import numpy as np
a = pd.DataFrame(np.random.randint(1, 6, (5, 3)), index = list('abcde'), columns = ['one', 'two', 'three'])
a.loc['a', 'one'] = np.nan  # 将第1行第1列的值设为NaN
b = a.iloc[1:3, 0:2].values  # 提取第2、3行，第1、2列的数据
a['four'] = 'bar'  # 增加第4列，所有值为'bar'
a2 = a.reindex(['a', 'b', 'c', 'd', 'e', 'f'])
#重新索引：将行索引改为 ['a', 'b', 'c', 'd', 'e', 'f']，新增行 'f'，其值为 NaN。
a3 = a2.dropna()   #删除结果：删除所有包含 NaN 的行（即行 'a' 和 'f'）。
print(a); print(a2); print(a3)

   one  two  three four
a  NaN    3      1  bar
b  5.0    5      5  bar
c  5.0    1      2  bar
d  5.0    4      1  bar
e  5.0    5      5  bar
   one  two  three four
a  NaN  3.0    1.0  bar
b  5.0  5.0    5.0  bar
c  5.0  1.0    2.0  bar
d  5.0  4.0    1.0  bar
e  5.0  5.0    5.0  bar
f  NaN  NaN    NaN  NaN
   one  two  three four
b  5.0  5.0    5.0  bar
c  5.0  1.0    2.0  bar
d  5.0  4.0    1.0  bar
e  5.0  5.0    5.0  bar
