In [2]:
from dotenv import load_dotenv
import os
from sshtunnel import SSHTunnelForwarder
from pymongo import MongoClient

# .envファイルをロードして環境変数を読み込む
load_dotenv()

# SSH接続情報（.envから読み込み）
SSH_HOST = os.getenv('SSH_HOST')
SSH_PORT = int(os.getenv('SSH_PORT', 22))
SSH_USERNAME = os.getenv('SSH_USERNAME')
SSH_PASSWORD = os.getenv('SSH_PASSWORD')

# MongoDB接続情報（.envから読み込み）
MONGO_HOST = os.getenv('MONGO_HOST', '127.0.0.1')
MONGO_PORT = int(os.getenv('MONGO_PORT', 27017))
DATABASE_NAME = 'test'
COLLECTION_NAME = 'collection'

def ssh_connection_and_count():
    # SSHトンネルを確立
    tunnel = SSHTunnelForwarder(
        (SSH_HOST, SSH_PORT),
        ssh_username=SSH_USERNAME,
        ssh_password=SSH_PASSWORD,
        remote_bind_address=(MONGO_HOST, MONGO_PORT)
    )
    
    try:
        tunnel.start()
        local_port = tunnel.local_bind_port
        print(f"SSHトンネル確立: ローカルポート {local_port}")
        
        # MongoDBクライアントを作成
        client = MongoClient('127.0.0.1', local_port)
        db = client[DATABASE_NAME]
        collection = db[COLLECTION_NAME]
        
        # カウントを実行
        count = collection.count_documents({})
        print(f"コレクション '{COLLECTION_NAME}' のドキュメント数: {count}")
        
        # 特定の条件でカウントする場合の例
        # count_filtered = collection.count_documents({"field_name": "value"})
        # print(f"条件付きカウント: {count_filtered}")
        
        return count
        
    except Exception as e:
        print(f"エラーが発生しました: {e}")
        return None
        
    finally:
        # 接続を閉じる
        tunnel.stop()
        print("SSHトンネルを閉じました")

# 実行
if __name__ == "__main__":
    result = ssh_connection_and_count()
    print(f"最終結果: {result}")

SSHトンネル確立: ローカルポート 50120
コレクション 'collection' のドキュメント数: 5863425
SSHトンネルを閉じました
最終結果: 5863425


In [3]:
from dotenv import load_dotenv
import os
from sshtunnel import SSHTunnelForwarder
from pymongo import MongoClient
import pandas as pd

# .envファイルをロードして環境変数を読み込む
load_dotenv()

# SSH接続情報（.envから読み込み）
SSH_HOST = os.getenv('SSH_HOST')
SSH_PORT = int(os.getenv('SSH_PORT', 22))
SSH_USERNAME = os.getenv('SSH_USERNAME')
SSH_PASSWORD = os.getenv('SSH_PASSWORD')

# MongoDB接続情報（.envから読み込み）
MONGO_HOST = os.getenv('MONGO_HOST', '127.0.0.1')
MONGO_PORT = int(os.getenv('MONGO_PORT', 27017))
DATABASE_NAME = 'test'
COLLECTION_NAME = 'collection'

def ssh_connection_and_load_to_pandas(limit=None, query=None):
    """
    SSH経由でMongoDBに接続し、データをpandas DataFrameに一括読み込み
    
    Args:
        limit (int, optional): 取得する件数の上限. Noneの場合は全件取得
        query (dict, optional): MongoDB検索条件. Noneの場合は全件対象
    
    Returns:
        pd.DataFrame: MongoDBのデータ
    """
    # SSHトンネルを確立
    tunnel = SSHTunnelForwarder(
        (SSH_HOST, SSH_PORT),
        ssh_username=SSH_USERNAME,
        ssh_password=SSH_PASSWORD,
        remote_bind_address=(MONGO_HOST, MONGO_PORT)
    )
    
    try:
        tunnel.start()
        local_port = tunnel.local_bind_port
        print(f"SSHトンネル確立: ローカルポート {local_port}")
        
        # MongoDBクライアントを作成
        client = MongoClient('127.0.0.1', local_port)
        db = client[DATABASE_NAME]
        collection = db[COLLECTION_NAME]
        
        # 総件数の確認
        total_count = collection.count_documents(query or {})
        print(f"総ドキュメント数: {total_count}")
        
        if total_count == 0:
            print("データが存在しません")
            return pd.DataFrame()
        
        # データを取得
        print("データを取得中...")
        cursor = collection.find(query or {})
        
        if limit:
            cursor = cursor.limit(limit)
            print(f"最大 {limit} 件を取得します")
        
        # DataFrameに変換
        docs = list(cursor)
        df = pd.DataFrame(docs)
        
        print(f"取得完了: {len(df)} 件")
        print(f"カラム数: {len(df.columns)}")
        print(f"メモリ使用量: {df.memory_usage(deep=True).sum() / 1024 / 1024:.2f} MB")
        
        return df
        
    except Exception as e:
        print(f"エラーが発生しました: {e}")
        return pd.DataFrame()
        
    finally:
        # 接続を閉じる
        tunnel.stop()
        print("SSHトンネルを閉じました")


In [4]:
# 全件取得（大きなコレクションの場合は注意）
df = ssh_connection_and_load_to_pandas()

# 最初の1000件だけ取得
#df = ssh_connection_and_load_to_pandas(limit=1000)

# 特定条件で取得（例: ageが30以上）
# df = ssh_connection_and_load_to_pandas(query={"age": {"$gte": 30}}, limit=1000)

# DataFrameが取得できた場合の基本確認
if not df.empty:
    print("\n=== DataFrame 基本情報 ===")
    print(f"Shape: {df.shape}")
    print(f"Columns: {list(df.columns)}")
    print("\n=== データ型 ===")
    print(df.dtypes)
    print("\n=== 最初の5行 ===")
    print(df.head())
    print("\n=== 統計情報 ===")
    print(df.describe(include='all'))
    print("\n=== 欠損値 ===")
    print(df.isnull().sum())
else:
    print("取得されたDataFrameが空です")

SSHトンネル確立: ローカルポート 50390
総ドキュメント数: 5863425
データを取得中...
取得完了: 5863425 件
カラム数: 10
メモリ使用量: 4577.53 MB
SSHトンネルを閉じました


2025-05-14 17:50:01,764| ERROR   | Could not establish connection from local ('127.0.0.1', 50390) to remote ('127.0.0.1', 27017) side of the tunnel: open new channel error: 



=== DataFrame 基本情報 ===
Shape: (5863425, 10)
Columns: ['_id', 'concept', 'concept_jp', 'value', 'unit', 'context', 'year', 'is_non_consolidated', 'edinetCode', '証券コード']

=== データ型 ===
_id                    object
concept                object
concept_jp             object
value                  object
unit                   object
context                object
year                   object
is_non_consolidated      bool
edinetCode             object
証券コード                  object
dtype: object

=== 最初の5行 ===
                        _id                           concept concept_jp  \
0  67cd7312c811f2c461183dc0             NumberOfSubmissionDEI       提出回数   
1  67cd7312c811f2c461183dc1  NetSalesSummaryOfBusinessResults        売上高   
2  67cd7312c811f2c461183dc2  NetSalesSummaryOfBusinessResults        売上高   
3  67cd7312c811f2c461183dc3  NetSalesSummaryOfBusinessResults        売上高   
4  67cd7312c811f2c461183dc4  NetSalesSummaryOfBusinessResults        売上高   

        value  unit            

In [7]:
df.info()
df.head()
df.tail()
df.columns
df.shape






<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5863425 entries, 0 to 5863424
Data columns (total 10 columns):
 #   Column               Dtype 
---  ------               ----- 
 0   _id                  object
 1   concept              object
 2   concept_jp           object
 3   value                object
 4   unit                 object
 5   context              object
 6   year                 object
 7   is_non_consolidated  bool  
 8   edinetCode           object
 9   証券コード                object
dtypes: bool(1), object(9)
memory usage: 408.2+ MB


(5863425, 10)

In [11]:
df_6777 = df[df['証券コード']=='6777']


In [12]:
df_6777

Unnamed: 0,_id,concept,concept_jp,value,unit,context,year,is_non_consolidated,edinetCode,証券コード
687552,67cd7d04c811f2c46122bb80,NumberOfSubmissionDEI,提出回数,1,pure,FilingDateInstant,,False,E01870,6777
687553,67cd7d04c811f2c46122bb81,NetSalesSummaryOfBusinessResults,売上高,6382727000,JPY,Prior4YearDuration,2020,False,E01870,6777
687554,67cd7d04c811f2c46122bb82,NetSalesSummaryOfBusinessResults,売上高,7509942000,JPY,Prior3YearDuration,2021,False,E01870,6777
687555,67cd7d04c811f2c46122bb83,NetSalesSummaryOfBusinessResults,売上高,8890439000,JPY,Prior2YearDuration,2022,False,E01870,6777
687556,67cd7d04c811f2c46122bb84,NetSalesSummaryOfBusinessResults,売上高,15246170000,JPY,Prior1YearDuration,2023,False,E01870,6777
...,...,...,...,...,...,...,...,...,...,...
688977,67cd7d04c811f2c46122c111,OtherInformationFinancialStatementsEtcTextBlock,その他,（３）【その他】 該当事項はありません。,,CurrentYearDuration,2024,False,E01870,6777
688978,67cd7d04c811f2c46122c112,OverviewOfOperationalProceduresForSharesTextBlock,提出会社の株式事務の概要,第６【提出会社の株式事務の概要】 事業年度 ４月１日から３月31日まで 定時株主総会 ６月中...,,FilingDateInstant,,False,E01870,6777
688979,67cd7d04c811f2c46122c113,InformationAboutParentCompanyEtcOfReportingCom...,提出会社の親会社等の情報,１【提出会社の親会社等の情報】 当社は、金融商品取引法第24条の７第１項に規定する親会社等は...,,FilingDateInstant,,False,E01870,6777
688980,67cd7d04c811f2c46122c114,OtherReferenceInformationTextBlock,その他の参考情報,２【その他の参考情報】 当事業年度の開始日から有価証券報告書提出日までの間に、次の書類を提出...,,FilingDateInstant,,False,E01870,6777


In [27]:
df_6777['concept_jp']=='売上高' 

687552    False
687553     True
687554     True
687555     True
687556     True
          ...  
688977    False
688978    False
688979    False
688980    False
688981    False
Name: concept_jp, Length: 1430, dtype: bool