现在经过jiaba分词并同义化的数据保存在"data_syn.csv"文件，但只有text一列，
而对应的标签则保存在“labels_1.csv”文件的第2列customer_label，如何合并成一个文件，以便后续数据集可以给到模型训练 

1. 加载数据
首先，需要加载包含文本的data_syn.csv文件和包含标签的labels_1.csv文件。

In [2]:
import pandas as pd

# 加载文本数据
text_df = pd.read_csv("data_syn.csv", encoding='utf-8')
print("Text data loaded:", text_df.head())

# 加载标签数据
label_df = pd.read_csv("labels_1.csv", encoding='utf-8')
print("Label data loaded:", label_df.head())

Text data loaded:                                                 text
0  五点 十多 去 店里 都 没开 灯 很 暗 真的 很 影响 用餐 体验 南昌 吃 感觉 完全...
1  朋友 带来 吃 说 霸占 南昌 平价 火锅 悠闲 味道 确实 不赖 四个 女生 加 三次 菜...
2                            美味 服务 好 经常 带 小孩 一家人 去 吃
3  南昌 几天 经常 大街 上 看到 季季红 广告牌 感觉 应该 本地 比较 有名 火锅 尝尝 ...
4  季季红 火锅 食材 新鲜 味道 正宗 锅底 浓郁 调味 恰到好处 服务周到 热情 火锅 爱好...
Label data loaded:   sentiment_label customer_label
0              负面             负面
1              正面             正面
2              正面             正面
3              正面            NaN
4              正面             正面


2. 合并数据
如果行是对应的，可以直接将标签列添加到文本数据的DataFrame中。如果行不对应，您需要确保两个文件按某种方式同步，例如通过共同的索引或唯一标识符。

In [3]:
# 假设第2列为标签，根据实际列名调整
text_df['label'] = label_df['customer_label']

# 查看合并后的数据
print("Combined data sample:", text_df.head())

Combined data sample:                                                 text label
0  五点 十多 去 店里 都 没开 灯 很 暗 真的 很 影响 用餐 体验 南昌 吃 感觉 完全...    负面
1  朋友 带来 吃 说 霸占 南昌 平价 火锅 悠闲 味道 确实 不赖 四个 女生 加 三次 菜...    正面
2                            美味 服务 好 经常 带 小孩 一家人 去 吃    正面
3  南昌 几天 经常 大街 上 看到 季季红 广告牌 感觉 应该 本地 比较 有名 火锅 尝尝 ...   NaN
4  季季红 火锅 食材 新鲜 味道 正宗 锅底 浓郁 调味 恰到好处 服务周到 热情 火锅 爱好...    正面


In [4]:
# 删除合并后的label为空的行
text_df = text_df.dropna(subset=['label'])
print(text_df.head())

                                                text label
0  五点 十多 去 店里 都 没开 灯 很 暗 真的 很 影响 用餐 体验 南昌 吃 感觉 完全...    负面
1  朋友 带来 吃 说 霸占 南昌 平价 火锅 悠闲 味道 确实 不赖 四个 女生 加 三次 菜...    正面
2                            美味 服务 好 经常 带 小孩 一家人 去 吃    正面
4  季季红 火锅 食材 新鲜 味道 正宗 锅底 浓郁 调味 恰到好处 服务周到 热情 火锅 爱好...    正面
5  非常 美味 真的 推荐 吃 都 美味 服务 好 态度 已经 不是 一次 两次 吃 超 喜欢 ...    正面


3. 保存合并后的数据
将合并后的数据保存到一个新的CSV文件中，以便后续使用。

In [5]:
# 保存到新的CSV文件
text_df.to_csv("data_syn_with_label.csv", index=False, encoding='utf-8')
print("Data has been saved to 'combined_data.csv'.")

Data has been saved to 'combined_data.csv'.
