## 概要

- Web of Science からダウンロードしたタブ区切りの`txt` ファイルを、`csv` ファイルに変換するスクリプト
- 入力：`data/raw_data`内の`txt`ファイルを入力
- 出力：`data/csv`フォルダに`csv`ファイルとして出力
- データの前処理も行う（Publication Type, Authors, Title, Abstract, DOI）


In [1]:
!pip install pandas



[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [2]:
import pandas as pd

# 入力ファイルと出力ファイルのパスを指定
file_name = "Biochemistry_Molecular_Biology_low1000"  # ファイル名
input_file = f"../data/raw_data/{file_name}.txt"  # タブ区切りの.txtファイル
output_file = f"../data/csv/{file_name}.csv"  # 出力する.csvファイル

# タブ区切りの.txtファイルをDataFrameとして読み込む
try:
    df = pd.read_csv(input_file, sep="\t", encoding="utf-8")
    print("データの読み込みに成功しました。")
except Exception as e:
    print(f"エラーが発生しました: {e}")


データの読み込みに成功しました。


In [None]:
df.head()

Unnamed: 0,PT,AU,BA,BE,GP,AF,BF,CA,TI,SO,...,WC,WE,SC,GA,PM,OA,HC,HP,DA,UT
0,J,"Athare, SV; Gejji, SP",,,,"Athare, Sulakshana, V; Gejji, Shridhar P.",,,Regioselectivity in nonsymmetric methyl pentyl...,JOURNAL OF MOLECULAR GRAPHICS & MODELLING,...,,,,,31593920.0,,,,,WOS:000503098000004
1,J,"Brunetti, M; Mortola, JP",,,,"Brunetti, Mia; Mortola, Jacopo P.",,,Hypoxic hypometabolism in chicken embryos: con...,COMPARATIVE BIOCHEMISTRY AND PHYSIOLOGY A-MOLE...,...,,,,,31521704.0,,,,,WOS:000498317300002
2,J,"Du, ZF; Qu, Y; Farrell, NP",,,,"Du, Zhifeng; Qu, Yun; Farrell, Nicholas P.",,,Intramolecular platinum migration on a peptide...,JOURNAL OF INORGANIC BIOCHEMISTRY,...,,,,,31689625.0,,,,,WOS:000502686300017
3,B,"Jahn, D; Geier, A",,"Patel, VB",,"Jahn, Daniel; Geier, Andreas",,,Transcriptional control of cells by vitamin D ...,MOLECULAR NUTRITION: VITAMINS,...,,,,,,,,,,WOS:000487827500033
4,J,"Pakravan, M; Shamsollahi, MB",,,,"Pakravan, Mansooreh; Shamsollahi, Mohammad Bagher",,,"Spatial and temporal joint, partially-joint an...",JOURNAL OF NEUROSCIENCE METHODS,...,,,,,31644994.0,,,,,WOS:000499768800004


In [5]:
# 列名を変更（例: "旧列名1" を "新列名1" に変更）
columns_to_rename = {
    "PT": "Publication Type",
    "AU": "Authors",
    "TI": "Title",
    "SO": "Source",
    "AB": "Abstract",
    "DI": "DOI",
}  # 変更したい列名を辞書形式で指定
try:
    df = df.rename(columns=columns_to_rename)
    print("列名を変更しました。")
except Exception as e:
    print(f"エラーが発生しました: {e}")

列名を変更しました。


In [6]:
# 保持したい列を指定（例: "列名1", "列名2" のみ保持）
columns_to_keep = ["Publication Type", "Authors", "Title", "Abstract", "DOI"]  # 保持したい列名をリストで指定
try:
    df = df[columns_to_keep]  # 指定した列以外を削除
    print(f"指定した列 {columns_to_keep} 以外を削除しました。")
except KeyError as e:
    print(f"指定した列が存在しません: {e}")

指定した列 ['Publication Type', 'Authors', 'Title', 'Abstract', 'DOI'] 以外を削除しました。


In [7]:
df.head()

Unnamed: 0,Publication Type,Authors,Title,Abstract,DOI
0,J,"Athare, SV; Gejji, SP",Regioselectivity in nonsymmetric methyl pentyl...,The present work illustrates regioselective bi...,10.1016/j.jmgm.2019.107960
1,J,"Brunetti, M; Mortola, JP",Hypoxic hypometabolism in chicken embryos: con...,"Postnatally, during hypoxia the decrease in ox...",10.1016/j.cbpa.2019.110578
2,J,"Du, ZF; Qu, Y; Farrell, NP",Intramolecular platinum migration on a peptide...,We report the migration of platinum ligand uni...,10.1016/j.jinorgbio.2019.110858
3,B,"Jahn, D; Geier, A",Transcriptional control of cells by vitamin D ...,,10.1016/B978-0-12-811907-5.00030-0
4,J,"Pakravan, M; Shamsollahi, MB","Spatial and temporal joint, partially-joint an...",absectionBackground Three types of sources can...,10.1016/j.jneumeth.2019.108453


In [8]:
# CSVファイルとしてエクスポート
try:
    df.to_csv(output_file, index=False, encoding="utf-8-sig")
    print(f"CSVファイルとして保存しました: {output_file}")
except Exception as e:
    print(f"エラーが発生しました: {e}")

CSVファイルとして保存しました: ../data/csv/Biochemistry_Molecular_Biology_low1000.csv
