In [3]:
# prompt: アップロードしたBsubtilis_exp.for_lec.0613.txtはタブ区切りファイルです。このファイルには枯草菌（Bacillus subtilis var. natto）の遺伝子発現データが記載されています。このファイルは9列から構成されており、Feature_IDは独自ID、Protein_IDはUniProtのID、Productは遺伝子名、liquid_1・liquid_2・bean_1・bean_2・agar_1・agar_2は遺伝子発現量が記載されています。liquid_1とliquid_2は液体の条件で、bean_1とbean_2は豆の表面の条件で各2回実験した遺伝子発現データです。今回、液体条件と豆の表面の条件で遺伝子発現量を比較し、豆の表面で遺伝子発現が顕著に増加したものをピックアップした後、その遺伝子の生物学的な機能を表示するためのコードを必要とします。

import pandas as pd

# ファイルの読み込み
df = pd.read_csv('Bsubtilis_exp.for_lec.0613.txt', sep='\t')

# liquid条件とbean条件の平均発現量を計算
df['liquid_mean'] = df[['liquid_1', 'liquid_2']].mean(axis=1)
df['bean_mean'] = df[['bean_1', 'bean_2']].mean(axis=1)

# bean_meanがliquid_meanより顕著に増加した遺伝子を抽出（例として2倍以上を条件とする）
# ゼロ除算を防ぐために、liquid_meanに小さい値を加えるか、条件を調整する必要があります。
# ここでは、bean_meanがliquid_meanの2倍以上かつliquid_meanが0でないものを抽出します。
# → 自分で >=2 としていた部分を >= 16 に変更した
significant_increase_df = df[(df['bean_mean'] >= 16 * df['liquid_mean']) & (df['liquid_mean'] > 0)]

# 結果の表示（Feature_ID, Product, liquid_mean, bean_meanを表示）
print("遺伝子発現が豆の表面で顕著に増加した遺伝子:")
print(significant_increase_df[['Feature_ID', 'Product', 'liquid_mean', 'bean_mean']])

# Protein_IDを用いて生物学的な機能を取得する（ここではProduct列を利用）
# Protein_ID（UniProt ID）を使って外部データベースから情報を取得するのが一般的ですが、
# この例ではProvidedのProduct列を機能として利用します。
print("\nピックアップされた遺伝子の生物学的な機能:")
print(significant_increase_df[['Feature_ID', 'Product']])

# Note: Protein_ID (UniProt ID) を使用して、UniProtなどのデータベースから
# より詳細な機能情報を取得するには、追加のコード（API呼び出しやデータベース検索など）が必要です。
# 例えば、UniProtのREST APIを利用する方法などがあります。
# 例: https://www.uniprot.org/help/rest_api


遺伝子発現が豆の表面で顕著に増加した遺伝子:
     Feature_ID                             Product  liquid_mean    bean_mean
237     gene297             galactarate dehydratase    16.036584   575.809417
270     gene336    luciferase family oxidoreductase    10.519541   844.793749
411     gene482  ribosomal N-acetyltransferase YdaF     3.643010   197.754798
649     gene741                 amino acid permease    50.173308   820.668833
650     gene742                hypothetical protein    40.708137   715.718334
...         ...                                 ...          ...          ...
4241   gene4565                                   .    12.634884  1287.040795
4242   gene4566                                   .    10.535209   752.930879
4243   gene4567                                   .     5.826911   318.671787
4244   gene4568                                   .    16.583285   502.710045
4245   gene4569                                   .    13.291242   376.804526

[112 rows x 4 columns]

ピックアップされた遺伝子の生物学