In [4]:
#　SparkyのlistファイルをCSVファイルに変換するコード

In [8]:
# ライブラリの読み込み
import numpy as np
import pandas as pd
import matplotlib
import csv
import os
from pandas import Series, DataFrame
import numpy.random as random

In [4]:
# listファイルの読み込み
# CSVファイルへの変換
def convert_list_to_csv(input_filepath, output_directory=None):
    """
    .listファイルを読み込み、CSVファイルとして保存します。
    このバージョンは、複数のスペースで区切られたデータに対応しています。
        input_filepath (str): 変換したい.listファイルのパス。
        output_directory (str, optional): CSVファイルを保存するディレクトリのパス。指定しない場合は、入力ファイルと同じディレクトリに保存されます。
    """
    # 出力ファイルパスの決定
    if output_directory:
        os.makedirs(output_directory, exist_ok=True)
        filename_without_ext = os.path.splitext(os.path.basename(input_filepath))[0]
        output_filepath = os.path.join(output_directory, f"{filename_without_ext}.csv")
    else:
        output_filepath = os.path.splitext(input_filepath)[0] + ".csv"

    try:
        with open(input_filepath, 'r', encoding='utf-8') as infile:
            with open(output_filepath, 'w', newline='', encoding='utf-8') as outfile:
                csv_writer = csv.writer(outfile)

                header_written = False
                for line in infile:
                    # 行末の改行文字を削除し、複数のスペースで分割
                    # split() 引数なしの場合、任意の空白文字（スペース、タブ、改行）で分割し、
                    # 空の要素は自動的に除去されるため、連続するスペースに対応できます。
                    parts = line.strip().split()

                    if not parts:  # 空行をスキップ
                        continue

                    if not header_written:
                        # 最初の有効な行をヘッダーとして書き込む
                        csv_writer.writerow(parts)
                        header_written = True
                    else:
                        # データを書き込む
                        csv_writer.writerow(parts)

        print(f"'{input_filepath}' を '{output_filepath}' に正常に変換しました。")

    except FileNotFoundError:
        print(f"エラー: ファイル '{input_filepath}' が見つかりません。")
    except Exception as e:
        print(f"変換中にエラーが発生しました: {e}")

# --- 使用例 ---
if __name__ == "__main__":
    # 画像のファイル名 "hsqc_GDPC.list" に合わせています。
    # 実際のファイルのパスに置き換えてください。
    list_file_path = r"C:\Users\mrtak\JupyterNotebook\NMR_Folder\list_folder\hsqc_GDP.list"

    # 出力先を元のディレクトリと同じにする場合
    #convert_list_to_csv(list_file_path)

    # 出力先を特定のフォルダにする場合 (例: "Converted_CSV" サブフォルダ)
    output_folder = r"C:\Users\mrtak\JupyterNotebook\NMR_Folder\CSV_folder"
    convert_list_to_csv(list_file_path, output_directory=output_folder)

'C:\Users\mrtak\JupyterNotebook\NMR_Folder\list_folder\hsqc_GDP.list' を 'C:\Users\mrtak\JupyterNotebook\NMR_Folder\CSV_folder\hsqc_GDP.csv' に正常に変換しました。


In [5]:
# データの整理

In [16]:
# CSVファイル名とパスを指定します
# 例えば、同じディレクトリにある 'your_file.csv' を読み込む場合
file_path = r"C:\Users\mrtak\JupyterNotebook\NMR_Folder\CSV_folder\hsqc_GDP.csv"

# CSVファイルをDataFrameとして読み込みます
df = pd.read_csv(file_path)

# 読み込んだデータの最初の5行を表示して確認
df.head()

Unnamed: 0,Assignment,w1,w2
0,?-?,118.852,8.431
1,?-?,113.201,6.901
2,?-?,112.715,7.643
3,?-?,112.715,6.918
4,?-?,112.687,7.92


In [23]:
# 全ての行を表示するオプションを一時的に設定 (確認のため)
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

try:
    # 1. CSVを読み込む際に、'?-?' を欠損値 (NaN) として認識させる
    # 'Assignment' 列と 'Value' 列の両方に '?-?' が入っている可能性があるため、
    # na_values にリストで指定すると、DataFrame全体でその文字列をNaNとして扱います。
    # 特定の列のみ指定したい場合は、{'列名1': ['?-?'], '列名2': ['?-?']} のように辞書で渡します。
    df = pd.read_csv(file_path, encoding='utf-8', na_values=['?-?'])

    print("--- 欠損値として認識後のデータフレームの最初の数行 ---")
    
    print(df.head())
    
    # ここで Assignment 列や Value 列の '?-?' が NaN になっていることを確認できます

    # 欠損値（NaN）の数を確認する (削除前)
    print("\n--- 欠損値の数（削除前） ---")
    print(df.isnull().sum())

    # 2. 欠損値を含む行を削除する
    # how='any' は、いずれか1つでもNaNがあればその行を削除します。
    # how='all' は、全ての列がNaNの場合のみ行を削除します。
    # 今回は '?-?' が入った行全体を削除したいので、'any' が適切です。
    
    df_cleaned = df.dropna(how='any')

    print("\n--- 欠損値を含む行削除後のデータフレームの最初の数行 ---")
    
    print(df_cleaned.head())

    print(f"\n元の行数: {len(df)}")
    print(f"削除後の行数: {len(df_cleaned)}")

except FileNotFoundError:
    print(f"エラー: ファイル '{file_path}' が見つかりません。パスを確認してください。")
except Exception as e:
    print(f"ファイルの読み込みまたは処理中にエラーが発生しました: {e}")

# オプションをデフォルトに戻す (必要であれば)
pd.reset_option('all')

--- 欠損値として認識後のデータフレームの最初の数行 ---
  Assignment       w1     w2
0        NaN  118.852  8.431
1        NaN  113.201  6.901
2        NaN  112.715  7.643
3        NaN  112.715  6.918
4        NaN  112.687  7.920

--- 欠損値の数（削除前） ---
Assignment    43
w1             0
w2             0
dtype: int64

--- 欠損値を含む行削除後のデータフレームの最初の数行 ---
   Assignment       w1     w2
43      T2N-H  121.863  8.508
44      E3N-H  126.537  8.297
45      Y4N-H  121.474  8.742
46      K5N-H  124.199  9.145
47      L6N-H  126.565  9.565

元の行数: 205
削除後の行数: 162


  pd.reset_option('all')
  pd.reset_option('all')


In [25]:
# df_cleaned = df.dropna(...) など、df_cleaned が生成されていると仮定

# 保存したいファイル名とパスを指定
# Jupyter Notebookと同じディレクトリに保存する場合
# output_file_path = 'cleaned_data.csv'

# 特定のフォルダに保存したい場合（例: outputフォルダ）
output_folder = r"C:\Users\mrtak\JupyterNotebook\NMR_Folder\arrange_CSV_folder"
# import os
os.makedirs(output_folder, exist_ok=True) # フォルダが存在しない場合は作成
output_file_path = os.path.join(output_folder, 'cleaned_data.csv')


# データフレームをCSVファイルに保存
# index=False は、DataFrameのインデックス（左端の数字）をCSVに書き込まないようにするオプションです。
# 通常は不要なので False に設定します。
df_cleaned.to_csv(output_file_path, index=False)

print(f"データフレームが '{output_file_path}' に正常に保存されました。")

データフレームが 'C:\Users\mrtak\JupyterNotebook\NMR_Folder\arrange_CSV_folder\cleaned_data.csv' に正常に保存されました。
