In [6]:
import pandas as pd
import numpy as np
import os
from scipy import stats
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [14]:
import os
import pandas as pd

# 指定文件夹路径
folder_path = r'C:\Users\yil\Desktop\ipy project\week6-week8 lab project\FBG_up\up_data'

# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
    if filename.endswith('.csv'):
        # 构建完整文件路径
        file_path = os.path.join(folder_path, filename)
        
        # 读取CSV文件
        df = pd.read_csv(file_path)
        
        # 检查第一列是否存在
        if df.shape[1] == 0:
            print(f"文件 {filename} 没有任何列.")
            continue
        
        # 将该列的数据按分号拆分
        try:
            split_data = df.iloc[:, 0].str.split(';', expand=True)
        except AttributeError:
            print(f"文件 {filename} 的第一列无法拆分，可能不是字符串类型.")
            continue

        # 打印拆分后的数据形状以检查列数
        print(f"文件 {filename} 拆分后的数据形状: {split_data.shape}")

        # 假设数据有 16 列，你需要根据实际情况设置列名
        if split_data.shape[1] != 16:
            print(f"文件 {filename} 拆分后的列数与预期不符: {split_data.shape[1]} 列")
            continue

        split_data.columns = ['receive_ts', 'packet_ts', 'seqnr', 'sync status', 'TEC status', 
                              'missed frames', 'channel', 'numsens', 'wavelength 1', 
                              'wavelength 2', 'extra1', 'extra2', 'extra3', 'extra4', 
                              'extra5', 'extra6']

        # 将拆分后的数据合并到原 DataFrame 中
        df = pd.concat([df, split_data], axis=1)

        # 如果需要，删除原来的列
        df.drop(columns=[df.columns[0]], inplace=True)
        
        # 将处理后的数据保存回CSV文件
        df.to_csv(file_path, index=False)
        print(f"已保存处理后的文件: {filename}\n")


文件 2.1_75degrees.csv 拆分后的数据形状: (30059, 16)
已保存处理后的文件: 2.1_75degrees.csv

文件 2.2_65degrees.csv 拆分后的数据形状: (27392, 16)
已保存处理后的文件: 2.2_65degrees.csv

文件 2.3_55degrees.csv 拆分后的数据形状: (36140, 16)
已保存处理后的文件: 2.3_55degrees.csv

文件 2.4_45degrees.csv 拆分后的数据形状: (35582, 16)
已保存处理后的文件: 2.4_45degrees.csv

文件 2.5_35degrees.csv 拆分后的数据形状: (37442, 16)
已保存处理后的文件: 2.5_35degrees.csv

文件 2.6_25degrees.csv 拆分后的数据形状: (25969, 16)
已保存处理后的文件: 2.6_25degrees.csv

文件 2.7_15degrees.csv 拆分后的数据形状: (36467, 16)
已保存处理后的文件: 2.7_15degrees.csv



In [None]:
# 指定文件夹路径
folder_path = r'C:\Users\yil\Desktop\ipy project\week6-week8 lab project\FBG_up\up_data'
cleaned_folder = os.path.join(folder_path, 'cleaned')

# 创建新文件夹，如果不存在
os.makedirs(cleaned_folder, exist_ok=True)

# 遍历文件夹中的所有文件
for filename in os.listdir(folder_path):
    if filename.endswith('.csv'):
        # 构建完整文件路径
        file_path = os.path.join(folder_path, filename)
        
        # 读取CSV文件
        df = pd.read_csv(file_path)

        # 确保 'wavelength 1' 和 'wavelength 2' 列为数值类型
        df['wavelength 1'] = pd.to_numeric(df['wavelength 1'], errors='coerce')
        df['wavelength 2'] = pd.to_numeric(df['wavelength 2'], errors='coerce')

        # 基于 Z-score 删除异常值
        z_scores = stats.zscore(df[['wavelength 1', 'wavelength 2']], nan_policy='omit')  # 忽略缺失值
        abs_z_scores = abs(z_scores)
        mask_z = (abs_z_scores <= 3).all(axis=1)  # 对每一行的所有列进行布尔索引
        
        # 保留 Z-score 在 -3 到 3 之间的行
        df = df[mask_z]

        # 基于 IQR 删除异常值
        for col in ['wavelength 1', 'wavelength 2']:
            Q1 = df[col].quantile(0.25)
            Q3 = df[col].quantile(0.75)
            IQR = Q3 - Q1
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            df = df[(df[col] >= lower_bound) & (df[col] <= upper_bound)]  # 保留在范围内的行
        
        # 计算并打印均值
        mean_wavelength1 = df['wavelength 1'].mean()
        mean_wavelength2 = df['wavelength 2'].mean()

        print(f"去除异常值后的均值 (wavelength 1): {mean_wavelength1}")
        print(f"去除异常值后的均值 (wavelength 2): {mean_wavelength2}")

        # 保存处理后的 DataFrame 到新的 CSV 文件
        cleaned_file_path = os.path.join(cleaned_folder, filename)
        df.to_csv(cleaned_file_path, index=False)

        print(f"已保存处理后的文件: {cleaned_file_path}")