# 处理单个文件

In [4]:
# 导入pandas库
import pandas as pd

# 加载CSV文件
file_path = './1.result_csv/search_baidu_200m.csv'
df = pd.read_csv(file_path)

# 计算文件中的总行数
total_rows = len(df)

# 计算存在空字段的行数
rows_with_empty_fields = df.isnull().any(axis=1).sum()

# 计算没有空字段的行数
rows_without_empty_fields = df.dropna()
rows_without_empty_fields_count = len(rows_without_empty_fields)

# 计算 'svid' 重复出现的次数（不包括第一次出现）
# 这里使用 duplicated 方法，并设置 keep='first' 参数
# 这样就只标记第一次出现之后的重复行
# 然后使用 nunique 方法计算这些重复行中不同 'svid' 的数量
duplicate_svid_count = rows_without_empty_fields[rows_without_empty_fields.duplicated(subset='svid', keep='first')]['svid'].nunique()

# 打印结果
print(f"总行数: {total_rows}")
print(f"有空字段的行数: {rows_with_empty_fields}")
print(f"无空字段的行数: {rows_without_empty_fields_count}")
print(f"不存在空字段的行中svid重复出现的行数: {duplicate_svid_count}")


总行数: 207265
有空字段的行数: 64680
无空字段的行数: 142585
不存在空字段的行中svid重复出现的行数: 34663


# 处理所有文件，把结果储存到csv文件中

In [7]:
import pandas as pd
import os

# 设置CSV文件所在的文件夹路径
folder_path = './1.result_calculate/'

# 获取文件夹中所有CSV文件的列表
csv_files = [f for f in os.listdir(folder_path) if f.endswith('.csv')]

# 初始化一个空的DataFrame用于存储结果
results_df = pd.DataFrame(columns=['name', 'total_rows', 'rows_with_empty_fields', 'rows_without_empty_fields', 'duplicate_svid_count'])

# 遍历每个CSV文件
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_csv(file_path)
    
    print('正在处理:',file_path)
    # 执行之前的数据处理步骤
    total_rows = len(df)
    rows_with_empty_fields = df.isnull().any(axis=1).sum()
    rows_without_empty_fields = df.dropna()
    rows_without_empty_fields_count = len(rows_without_empty_fields)
    duplicate_svid_count = rows_without_empty_fields[rows_without_empty_fields.duplicated(subset='svid', keep='first')]['svid'].nunique()

    # 将结果作为新行添加到结果DataFrame中
    new_row = pd.DataFrame({'name': [file],
                            'total_rows': [total_rows],
                            'rows_with_empty_fields': [rows_with_empty_fields],
                            'rows_without_empty_fields': [rows_without_empty_fields_count],
                            'duplicate_svid_count': [duplicate_svid_count]})
    results_df = pd.concat([results_df, new_row], ignore_index=True)

# 保存结果到CSV文件
results_df.to_csv('./2.result_satistic/final_results.csv', index=False)


正在处理: ./2.result_calculate/search_google_20m.csv
正在处理: ./2.result_calculate/search_baidu_50m.csv
正在处理: ./2.result_calculate/search_baidu_100m.csv
正在处理: ./2.result_calculate/search_baidu_5m.csv
正在处理: ./2.result_calculate/search_google_40m.csv
正在处理: ./2.result_calculate/search_baidu_10m.csv
正在处理: ./2.result_calculate/search_baidu_30m.csv
正在处理: ./2.result_calculate/search_baidu_40m.csv
正在处理: ./2.result_calculate/search_google_10m.csv
正在处理: ./2.result_calculate/search_google_30m.csv
正在处理: ./2.result_calculate/search_baidu_20m.csv
正在处理: ./2.result_calculate/search_google_50m.csv
正在处理: ./2.result_calculate/search_google_100m.csv
正在处理: ./2.result_calculate/search_google_5m.csv
正在处理: ./2.result_calculate/search_baidu_200m.csv
正在处理: ./2.result_calculate/search_google_200m.csv
