# 認証を通す

In [1]:
from google.colab import auth
auth.authenticate_user()

# 必要なライブラリをインポート

In [2]:
!pip install pandas==2.2.2
!pip install google-cloud-bigquery db-dtypes



# BigQueryからpandasのDataFrameとして読み込む

In [3]:
from google.cloud import bigquery
import pandas as pd


# プロジェクトIDを指定
project_id = '○○'


# BigQueryクライアントを作成
client = bigquery.Client(project=project_id)


# 実行するSQLクエリ
# 運賃、距離、チップの3列のみを読み込む
query = """
    SELECT
        trip_distance,
        total_amount,
        tip_amount
    FROM `○○.○○.○○`
"""

# クエリを実行し、結果をpandas DataFrameとして読み込む
df = client.query(query).to_dataframe()

# 運賃と距離の相関を分析

In [8]:
# 極端な外れ値を除く
df_clean = df[
    (df['trip_distance'] > 0) &          # 距離は0より大きい
    (df['trip_distance'] <= 100) &       # 距離は100マイル以下
    (df['total_amount'] > 0) &           # 運賃は0より大きい
    (df['total_amount'] <= 1000)         # 運賃は1000ドル以下
].copy()

# 運賃と距離の相関
distance_fare_corr = df_clean['trip_distance'].corr(df_clean['total_amount'])
print(f"運賃と距離の相関係数: {distance_fare_corr:.4f}")

# 距離とチップの相関
distance_tip_corr = df_clean['trip_distance'].corr(df_clean['tip_amount'])
print(f"距離とチップの相関係数: {distance_tip_corr:.4f}")

運賃と距離の相関係数: 0.9333
距離とチップの相関係数: 0.5325
