## Pandas 数据挖掘技术

In [2]:
import pandas as pd

#### 条件数据修正
将指定列满足某些条件的数据修改为特定值

In [17]:
df = pd.DataFrame({"a": [1,2,3,4, 100,5,1, 89, 1], "b": [5,4,3,2,1,1,2,1,1]})
df.head(10)

Unnamed: 0,a,b
0,1,5
1,2,4
2,3,3
3,4,2
4,100,1
5,5,1
6,1,2
7,89,1
8,1,1


比如，规定所有值不得大于 10，则可以使用下述方式修正。此方法可以用于数据分箱，去除异常值等处理过程。

In [18]:
da=df[["a"]]
da[da["a"]>10] = 10
df["a"] = da["a"]
df.head(10)

Unnamed: 0,a,b
0,1,5
1,2,4
2,3,3
3,4,2
4,10,1
5,5,1
6,1,2
7,10,1
8,1,1



#### 值映射
将类别数据映射成其他量

In [31]:
df = pd.DataFrame({"cat":["A", "B", "A", "C", "D"], "other": [1,2,3,4,5]})
df.head()

Unnamed: 0,cat,other
0,A,1
1,B,2
2,A,3
3,C,4
4,D,5


In [33]:
code = pd.DataFrame({"cat": ["A", "B", "C", "D"], "value": [0.1, 0.2, 0.3, 0.4]})
code.head()

Unnamed: 0,cat,value
0,A,0.1
1,B,0.2
2,C,0.3
3,D,0.4


数据框 df 的 cat 列是类别变量，它们的编码值由 code 框提供，现在需要将 df 的 cat 替换为它的编码值。

In [40]:
df2=df.merge(code, on="cat", right_index=True)
df2.head()

Unnamed: 0,cat,other,value
0,A,1,0.1
2,A,3,0.1
1,B,2,0.2
3,C,4,0.3
4,D,5,0.4


如果不想改变原数据框的顺序，可以应用 sort_index() 方法

In [41]:
df2.sort_index()

Unnamed: 0,cat,other,value
0,A,1,0.1
1,B,2,0.2
2,A,3,0.1
3,C,4,0.3
4,D,5,0.4


#### 列分割
数据框的某列本身是由多个列以分隔符分开的，但是载入的时候没有自动建列，现在需要对其进行修复

In [3]:
df = pd.DataFrame({"x": ["1,2,3,4", "3,4,5,6"], "y": ["a", "b"]})
df.head()

Unnamed: 0,x,y
0,1234,a
1,3456,b


In [6]:
dfx = df["x"].str.split(",", expand=True)
dfx.head()

Unnamed: 0,0,1,2,3
0,1,2,3,4
1,3,4,5,6
