**数据标准化**

本部分主要采用独热算法或者词袋模型将字符串转换成数值型，然后采用z-score算法将数据进行标准化

**导入数据**

In [1]:
import pandas as pd
import os
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.cluster import KMeans
# 重新导入文件
csvFile='./out'+os.sep+'data_cleaned.csv'
data = pd.read_csv(csvFile,encoding='utf-8')
# print(data) #全部输出
print("\n输出数据前5条")
print(data.head()) #只输出前五条


输出数据前5条
               name   LS         photo                                    RA  \
0     吉林省昌农实业集团有限公司  张笑恺  4.318588e+10  长春市经济技术开发区金川街与浦东路交汇绿城米兰公馆B栋层304、305室   
1   吉林省华咨工程技术集团有限公司   刘尚  1.739008e+10              经济开发区洋浦大街4629号佳泰云大厦1102室   
2     吉林省英辰科技股份有限公司   吴琼  1.850068e+10         吉林省长春市高新开发区超群街191号孵化大厦1号楼6层东侧   
3     吉林省寰旗科技股份有限公司  刘田影  4.318259e+10                      吉林省长春市朝阳区建政路815号   
4  长春融成智能设备制造股份有限公司  霍箭东  4.318702e+10                 吉林省长春市北湖科技开发区中盛路3088号   

                                                  BS      RC          CT  \
0  一般项目：中草药种植；中草药收购；谷物种植；食用菌种植；豆类种植；油料种植；薯类种植；花卉种...  4000.0   2001/4/27   
1  工程咨询，工程设计，规划咨询，工程监理，工程造价，工程勘察与测量，地产评估，招投标代理，合同...  2000.0   2015/1/30   
2  一般项目：软件开发；软件销售；电子产品销售；机械设备研发；计算机软硬件及辅助设备零售；橡胶制...  2200.0   2008/1/28   
3  一般项目：信息系统集成服务；广告设计、代理；广告制作；平面设计；卫星技术综合应用系统集成；卫...  2000.0    2010/4/8   
4  一般项目：通用设备制造（不含特种设备制造）；通用设备修理；专用设备制造（不含许可类专业设备制...  5230.0  1996/10/21   

         DAC    NOI   AROIN                   TOE   F

**处理字符串**

采用独热算法

In [2]:
# 指定要处理的列
columns_to_process = ['DAC', 'TOE','IS','IBC']  # 替换为要处理的列名称
data1 = data
# 遍历每一列，对每列中的唯一值进行独热编码
for col in columns_to_process:
    unique_values = data1[col].unique()
    # 为每个唯一值创建一个新的数值编码
    value_mapping = {val: idx for idx, val in enumerate(unique_values)}
    # 使用map函数将原始值映射为数值编码
    data1[col] = data1[col].map(value_mapping)

# 保存处理后的数据集
csvPath = os.getcwd() + os.sep + 'out' #返回根目录

# 指定地址并调用函数写入
csvFile = csvPath + os.sep + 'One_Hot_dataset.csv'
# 写入
data1.to_csv(csvFile,encoding='utf_8_sig',index = False)
print('\n数据写入成功')


数据写入成功


采用词袋模型

In [3]:
# 指定要处理的列
columns_to_process = ['DAC', 'TOE','IS','IBC']  # 替换为要处理的列名称
data2 = data

# 创建 LabelEncoder 对象
label_encoder = LabelEncoder()

# 对每一列进行处理
for column in columns_to_process:
    # 填充空值
    data2[column].fillna('', inplace=True)
    
    # 使用 LabelEncoder 对象将字符串转换为数值
    data2[column] = label_encoder.fit_transform(data2[column])

# 保存处理后的数据集
csvPath = os.getcwd() + os.sep + 'out' #返回根目录

# 指定地址并调用函数写入
csvFile = csvPath + os.sep + 'LabelEncoder_dataset.csv'
# 写入
data1.to_csv(csvFile,encoding='utf_8_sig',index = False)
print('\n数据写入成功')


数据写入成功


**数据标准化**

对这两种方法导致的数据进行标准化处理

In [5]:
# # LabelEncoder的标准化
# csvFile='./out'+os.sep+'LabelEncoder_dataset.csv'
# data0 = pd.read_csv(csvFile,encoding='utf-8')
# data1 = data[['RC','DAC','NOI','TOE','FS','IS','IBC']]
# # axis 表示按列(0)或者按行(1)进行计算
# data1 = (data1 - data1.mean(axis=0, numeric_only=True)) / data1.std(axis=0, numeric_only=True)
# # data = (data - data.mean(axis=0)) / data.std(axis=0)
# # 采用列表推导式，进行统一推导
# data1.columns = ['Z' + i for i in data1.columns]
# print(data1.head())


# One_Hot的标准化
csvFile='./out'+os.sep+'One_Hot_dataset.csv'
data00 = pd.read_csv(csvFile,encoding='utf-8')
data01 = data[['RC','DAC','NOI','TOE','FS','IS','IBC']]
# axis 表示按列(0)或者按行(1)进行计算
data01 = (data01 - data01.mean(axis=0, numeric_only=True)) / data01.std(axis=0, numeric_only=True)
# data = (data - data.mean(axis=0)) / data.std(axis=0)
# 采用列表推导式，进行统一推导
data01.columns = ['Z' + i for i in data01.columns]
print(data01.head())



csvFile = os.getcwd() + os.sep + 'out' + os.sep + 'data_zscore.csv'
data.to_csv(csvFile,encoding='utf_8_sig', index = False)
print('\n 数据文件存入成功')

        ZRC      ZDAC      ZNOI      ZTOE       ZFS       ZIS      ZIBC
0  0.648728 -1.264098 -0.018993 -0.437196 -0.017479 -0.875987 -1.350068
1  0.190141 -1.264098 -0.023719 -0.018151 -0.017479 -0.875987 -1.350068
2  0.236000 -0.866729  0.015273  0.400894 -0.017479  1.141139 -0.724731
3  0.190141 -0.866729  0.009365  0.400894 -0.017479  1.141139 -0.099394
4  0.930760 -0.469360  0.242138  0.400894  2.425033 -0.875987 -1.350068

 数据文件存入成功
