In [4]:
import pandas as pd  # 导入pandas库
import numpy as np  # 导入numpy库
from sklearn.preprocessing import Imputer  # 导入sklearn.preprocessing中的Imputer库

# 生成缺失数据
df = pd.DataFrame(np.random.randn(6, 4), columns=['col1', 'col2', 'col3', 'col4'])  # 生成一份数据
df.iloc[1:2, 1] = np.nan  # 增加缺失值
df.iloc[4, 3] = np.nan  # 增加缺失值
print (df)

# 查看哪些值缺失
nan_all = df.isnull()  # 获得所有数据框中的N值
print (nan_all)  # 打印输出

# 查看哪些列缺失
nan_col1 = df.isnull().any()  # 获得含有NA的列
nan_col2 = df.isnull().all()  # 获得全部为NA的列
print (nan_col1)  # 打印输出
print (nan_col2)  # 打印输出

       col1      col2      col3      col4
0 -1.438188 -0.909962  1.261610  0.388414
1  0.502517       NaN  1.072976 -0.590623
2 -0.220279 -0.254892  1.612128  0.523177
3  0.542606  1.148270  1.598071  2.244426
4  0.258106  0.946007 -1.145129       NaN
5  2.453867  0.528798 -1.659088 -0.396861
    col1   col2   col3   col4
0  False  False  False  False
1  False   True  False  False
2  False  False  False  False
3  False  False  False  False
4  False  False  False   True
5  False  False  False  False
col1    False
col2     True
col3    False
col4     True
dtype: bool
col1    False
col2    False
col3    False
col4    False
dtype: bool


In [5]:
# 丢弃缺失值
df2 = df.dropna()  # 直接丢弃含有NA的行记录
print (df2)  # 打印输出

       col1      col2      col3      col4
0 -1.438188 -0.909962  1.261610  0.388414
2 -0.220279 -0.254892  1.612128  0.523177
3  0.542606  1.148270  1.598071  2.244426
5  2.453867  0.528798 -1.659088 -0.396861




In [6]:
# 使用sklearn将缺失值替换为特定值
nan_model = Imputer(missing_values='NaN', strategy='mean', axis=0)  # 建立替换规则：将值为Nan的缺失值以均值做替换
nan_result = nan_model.fit_transform(df)  # 应用模型规则
print (nan_result)  # 打印输出

[[-1.43818795 -0.90996192  1.26161039  0.38841426]
 [ 0.50251733  0.29164428  1.07297616 -0.59062252]
 [-0.22027851 -0.25489225  1.61212832  0.5231771 ]
 [ 0.54260647  1.14827047  1.59807087  2.24442568]
 [ 0.25810586  0.94600708 -1.14512888  0.43370663]
 [ 2.45386697  0.52879801 -1.65908792 -0.39686138]]




In [7]:
# 使用pandas将缺失值替换为特定值
nan_result_pd1 = df.fillna(method='backfill')  # 用后面的值替换缺失值
nan_result_pd2 = df.fillna(method='bfill', limit=1)  # 用后面的值替代缺失值,限制每列只能替代一个缺失值
nan_result_pd3 = df.fillna(method='pad')  # 用前面的值替换缺失值
nan_result_pd4 = df.fillna(0)  # 用0替换缺失值
nan_result_pd5 = df.fillna({'col2': 1.1, 'col4': 1.2})  # 用不同值替换不同列的缺失值
nan_result_pd6 = df.fillna(df.mean()['col2':'col4'])  # 用平均数代替,选择各自列的均值替换缺失值
# 打印输出
print (nan_result_pd1)  # 打印输出
print (nan_result_pd2)  # 打印输出
print (nan_result_pd3)  # 打印输出
print (nan_result_pd4)  # 打印输出
print (nan_result_pd5)  # 打印输出
print (nan_result_pd6)  # 打印输出

       col1      col2      col3      col4
0 -1.438188 -0.909962  1.261610  0.388414
1  0.502517 -0.254892  1.072976 -0.590623
2 -0.220279 -0.254892  1.612128  0.523177
3  0.542606  1.148270  1.598071  2.244426
4  0.258106  0.946007 -1.145129 -0.396861
5  2.453867  0.528798 -1.659088 -0.396861
       col1      col2      col3      col4
0 -1.438188 -0.909962  1.261610  0.388414
1  0.502517 -0.254892  1.072976 -0.590623
2 -0.220279 -0.254892  1.612128  0.523177
3  0.542606  1.148270  1.598071  2.244426
4  0.258106  0.946007 -1.145129 -0.396861
5  2.453867  0.528798 -1.659088 -0.396861
       col1      col2      col3      col4
0 -1.438188 -0.909962  1.261610  0.388414
1  0.502517 -0.909962  1.072976 -0.590623
2 -0.220279 -0.254892  1.612128  0.523177
3  0.542606  1.148270  1.598071  2.244426
4  0.258106  0.946007 -1.145129  2.244426
5  2.453867  0.528798 -1.659088 -0.396861
       col1      col2      col3      col4
0 -1.438188 -0.909962  1.261610  0.388414
1  0.502517  0.000000  1.072976 -0

In [8]:
## 异常值处理
import pandas as pd  # 导入pandas库

# 生成异常数据
df = pd.DataFrame({'col1': [1, 120, 3, 5, 2, 12, 13],
                   'col2': [12, 17, 31, 53, 22, 32, 43]})
print (df)  # 打印输出

# 通过Z-Score方法判断异常值
df_zscore = df.copy()  # 复制一个用来存储Z-score得分的数据框
cols = df.columns  # 获得数据框的列名
for col in cols:  # 循环读取每列
    df_col = df[col]  # 得到每列的值
    z_score = (df_col - df_col.mean()) / df_col.std()  # 计算每列的Z-score得分
    df_zscore[col] = z_score.abs() > 2.2  # 判断Z-score得分是否大于2.2，如果是则是True，否则为False
print (df_zscore)  # 打印输出


   col1  col2
0     1    12
1   120    17
2     3    31
3     5    53
4     2    22
5    12    32
6    13    43
    col1   col2
0  False  False
1   True  False
2  False  False
3  False  False
4  False  False
5  False  False
6  False  False


In [10]:
## 重复值处理
import pandas as pd  # 导入pandas库

# 生成重复数据
data1 = ['a', 3]
data2 = ['b', 2]
data3 = ['a', 3]
data4 = ['c', 2]
df = pd.DataFrame([data1, data2, data3, data4], columns=['col1', 'col2'])
print (df)

# 判断重复数据
isDuplicated = df.duplicated()  # 判断重复数据记录
print (isDuplicated)  # 打印输出

  col1  col2
0    a     3
1    b     2
2    a     3
3    c     2
0    False
1    False
2     True
3    False
dtype: bool


In [11]:
# 删除重复值
new_df1 = df.drop_duplicates()  # 删除数据记录中所有列值相同的记录
new_df2 = df.drop_duplicates(['col1'])  # 删除数据记录中col1值相同的记录
new_df3 = df.drop_duplicates(['col2'])  # 删除数据记录中col2值相同的记录
new_df4 = df.drop_duplicates(['col1', 'col2'])  # 删除数据记录中指定列（col1/col2）值相同的记录
print (new_df1)  # 打印输出
print (new_df2)  # 打印输出
print (new_df3)  # 打印输出

  col1  col2
0    a     3
1    b     2
3    c     2
  col1  col2
0    a     3
1    b     2
3    c     2
  col1  col2
0    a     3
1    b     2


In [12]:
# 3.2 将分类数据和顺序数据转换为标志变量
import pandas as pd  # 导入pandas库
from sklearn.preprocessing import OneHotEncoder  # 导入OneHotEncoder库

# 生成数据
df = pd.DataFrame({'id': [3566841, 6541227, 3512441],
                   'sex': ['male', 'Female', 'Female'],
                   'level': ['high', 'low', 'middle']})
print (df)  # 打印输出原始数据框

# 自定义转换主过程
df_new = df.copy()  # 复制一份新的数据框用来存储转换结果
for col_num, col_name in enumerate(df):  # 循环读出每个列的索引值和列名
    col_data = df[col_name]  # 获得每列数据
    col_dtype = col_data.dtype  # 获得每列dtype类型
    if col_dtype == 'object':  # 如果dtype类型是object（非数值型），执行条件
        df_new = df_new.drop(col_name, 1)  # 删除df数据框中要进行标志转换的列
        value_sets = col_data.unique()  # 获取分类和顺序变量的唯一值域
        for value_unique in value_sets:  # 读取分类和顺序变量中的每个值
            col_name_new = col_name + '_' + value_unique  # 创建新的列名，使用原标题+值的方式命名
            col_tmp = df.iloc[:, col_num]  # 获取原始数据列
            new_col = (col_tmp == value_unique)  # 将原始数据列与每个值进行比较，相同为True，否则为False
            df_new[col_name_new] = new_col  # 为最终结果集增加新列值
print (df_new)  # 打印输出转换后的数据框

        id   level     sex
0  3566841    high    male
1  6541227     low  Female
2  3512441  middle  Female
        id level_high level_low level_middle sex_male sex_Female
0  3566841       True     False        False     True      False
1  6541227      False      True        False    False       True
2  3512441      False     False         True    False       True


In [19]:
# 使用sklearn进行标志转换
df2 = pd.DataFrame({'id': [3566841, 6541227, 3512441],
                    'sex': [1, 2, 2],
                    'level': [3, 1, 2]})
id_data = df2.values[:, :1]  # 获得ID列
transform_data = df2.values[:, 1:]  # 指定要转换的列
enc = OneHotEncoder()  # 建立模型对象
df2_new = enc.fit_transform(transform_data).toarray()# 标志转换
df2_all = pd.concat((pd.DataFrame(id_data), pd.DataFrame(df2_new)), axis=1)  # 组合为数据框
print (df2_all)  # 打印输出转换后的数据框

         0    0    1    2    3    4
0  3566841  0.0  0.0  1.0  1.0  0.0
1  6541227  1.0  0.0  0.0  0.0  1.0
2  3512441  0.0  1.0  0.0  0.0  1.0


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


In [20]:
import os
os.chdir('C:\\Users\\Administrator\\Desktop\\')
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.decomposition import PCA

# 读取数据文件
data = np.loadtxt('data1.txt')  # 读取文本数据文件
x = data[:, :-1]  # 获得输入的x
y = data[:, -1]  # 获得目标变量y
print (x[0], y[0])  # 打印输出x和y的第一条记录

[ 1.88622997  1.31785876 -0.16480621  0.56536882 -1.11934542 -0.53218995
 -0.6843102   1.24149827  1.00579225  0.45485041] 0.0


In [21]:
# 使用sklearn的DecisionTreeClassifier判断变量重要性
model_tree = DecisionTreeClassifier(random_state=0)  # 建立分类决策树模型对象
model_tree.fit(x, y)  # 将数据集的维度和目标变量输入模型
feature_importance = model_tree.feature_importances_  # 获得所有变量的重要性得分
print (feature_importance)  # 打印输出

[ 0.03331054  0.01513967  0.02199713  0.119727    0.47930312  0.04776297
  0.17111746  0.02585441  0.02012725  0.06566044]


In [22]:
# 使用sklearn的PCA进行维度转换
model_pca = PCA()  # 建立PCA模型对象
model_pca.fit(x)  # 将数据集输入模型
model_pca.transform(x)  # 对数据集进行转换映射
components = model_pca.components_  # 获得转换后的所有主成分
components_var = model_pca.explained_variance_  # 获得各主成分的方差
components_var_ratio = model_pca.explained_variance_ratio_  # 获得各主成分的方差占比
print (components[:2])  # 打印输出前2个主成分
print (components_var[:2])  # 打印输出前2个主成分的方差
print (components_var_ratio)  # 打印输出所有主成分的方差占比

[[  7.18818316e-03   1.41619205e-02   1.00543847e-02   3.65097575e-01
    6.38944537e-01  -1.95750380e-02  -1.73413378e-01  -3.80829974e-02
   -2.87413113e-03  -6.52829504e-01]
 [  1.01307710e-02  -1.95270201e-04  -2.33689543e-02  -6.12915216e-01
    5.08983971e-01  -2.23429533e-02   6.02958940e-01  -1.49061329e-02
   -1.81362216e-02  -3.41623971e-03]]
[ 4.22602937  2.21149972]
[  3.38339364e-01   1.77054475e-01   8.92753857e-02   8.73655166e-02
   8.23542686e-02   8.03329836e-02   7.38094896e-02   7.14685179e-02
   3.14726161e-32   2.98680265e-33]
