## 概要

- Web of Science からダウンロードしたタブ区切りの`txt` ファイルを、`csv` ファイルに変換するスクリプト
- 入力：`data/raw_data`内の`txt`ファイルを入力
- 出力：`data/csv`フォルダに`csv`ファイルとして出力
- データの前処理も行う（Publication Type, Authors, Title, Abstract, DOI）


In [50]:
!pip install pandas



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [51]:
import pandas as pd

# 入力ファイルと出力ファイルのパスを指定
file_name = "Physics_low1000"  # ファイル名
input_file = f"../data/raw_data/{file_name}.txt"  # タブ区切りの.txtファイル
output_file = f"../data/csv/{file_name}.csv"  # 出力する.csvファイル

# タブ区切りの.txtファイルをDataFrameとして読み込む
try:
    df = pd.read_csv(input_file, sep="\t", encoding="utf-8")
    print("データの読み込みに成功しました。")
except Exception as e:
    print(f"エラーが発生しました: {e}")


データの読み込みに成功しました。


In [52]:
df.head()

Unnamed: 0,PT,AU,BA,BE,GP,AF,BF,CA,TI,SO,...,WC,WE,SC,GA,PM,OA,HC,HP,DA,UT
0,J,"Hossain, MF",,,,"Hossain, M. F.",,,Fabrication of Nanosticks-Like CdS Sensitizer ...,JOURNAL OF NANOSCIENCE AND NANOTECHNOLOGY,...,,,,,31635638.0,,,,,WOS:000492366900040
1,J,"Li, KD",,,,"Li, Kun-Dar",,,The Influence of Process Parameters on the Mor...,JOURNAL OF NANOSCIENCE AND NANOTECHNOLOGY,...,,,,,31635649.0,,,,,WOS:000492366900051
2,J,"Oguma, H; Seitoku, E; Mutoh, M; Yoshizawa, S; ...",,,,"Oguma, Hidetoshi; Seitoku, Eri; Mutoh, Mami; Y...",,,Size- and Morphology-Controlled Preparation of...,JOURNAL OF NANOSCIENCE AND NANOTECHNOLOGY,...,,,,,31635601.0,,,,,WOS:000492366900003
3,J,"Shakya, J; Kasana, PK; Mohanty, T",,,,"Shakya, Jyoti; Kasana, P. K.; Mohanty, T.",,,Investigation of Swift Heavy Ion Irradiated Re...,JOURNAL OF NANOSCIENCE AND NANOTECHNOLOGY,...,,,,,31635662.0,,,,,WOS:000492366900064
4,J,"Vathani, AM; Dhanalakshmi, S; Jeyakumaran, N; ...",,,,"Vathani, A. Mathi; Dhanalakshmi, S.; Jeyakumar...",,,Fabrication of Al-TiO<sub>2</sub> Thin Film El...,JOURNAL OF NANOSCIENCE AND NANOTECHNOLOGY,...,,,,,31635625.0,,,,,WOS:000492366900027


In [53]:
# 列名を変更（例: "旧列名1" を "新列名1" に変更）
columns_to_rename = {
    "PT": "Publication Type",
    "AU": "Authors",
    "TI": "Title",
    "SO": "Source",
    "AB": "Abstract",
    "DI": "DOI",
}  # 変更したい列名を辞書形式で指定
try:
    df = df.rename(columns=columns_to_rename)
    print("列名を変更しました。")
except Exception as e:
    print(f"エラーが発生しました: {e}")

列名を変更しました。


In [54]:
# 保持したい列を指定（例: "列名1", "列名2" のみ保持）
columns_to_keep = ["Publication Type", "Authors", "Title", "Abstract", "DOI"]  # 保持したい列名をリストで指定
try:
    df = df[columns_to_keep]  # 指定した列以外を削除
    print(f"指定した列 {columns_to_keep} 以外を削除しました。")
except KeyError as e:
    print(f"指定した列が存在しません: {e}")

指定した列 ['Publication Type', 'Authors', 'Title', 'Abstract', 'DOI'] 以外を削除しました。


In [55]:
df.head()

Unnamed: 0,Publication Type,Authors,Title,Abstract,DOI
0,J,"Hossain, MF",Fabrication of Nanosticks-Like CdS Sensitizer ...,The novelty of this work is to fabricate the N...,10.1166/jnn.2020.17477
1,J,"Li, KD",The Influence of Process Parameters on the Mor...,"In nanoarchitectonics, the advanced technology...",10.1166/jnn.2020.17429
2,J,"Oguma, H; Seitoku, E; Mutoh, M; Yoshizawa, S; ...",Size- and Morphology-Controlled Preparation of...,"In this study, we investigated water-dispersib...",10.1166/jnn.2020.17473
3,J,"Shakya, J; Kasana, PK; Mohanty, T",Investigation of Swift Heavy Ion Irradiated Re...,"In this work, a few layer molybdenum disulfide...",10.1166/jnn.2020.17400
4,J,"Vathani, AM; Dhanalakshmi, S; Jeyakumaran, N; ...",Fabrication of Al-TiO<sub>2</sub> Thin Film El...,A simple cost effective Al-TiO2 thin film elec...,10.1166/jnn.2020.17447


In [56]:
# CSVファイルとしてエクスポート
try:
    df.to_csv(output_file, index=False, encoding="utf-8-sig")
    print(f"CSVファイルとして保存しました: {output_file}")
except Exception as e:
    print(f"エラーが発生しました: {e}")

CSVファイルとして保存しました: ../data/csv/Physics_low1000.csv
