# CitiBikeのデータでデータ加工や可視化を試してみよう
![IMAGE](https://lh3.googleusercontent.com/pw/AP1GczPS2TfYRrwROnzWv5eLKTVzi4mGlyrwLVsaTlXsdwKsuAGG2nawb8IcNdq6md7VJLMs3bqAMMNofiSSXBWp2gaAcGmRoxxFDqCcUUirtnMF7WXm8E4ZubjHvbWTyUGoOipaOJMooVQomZpku6PBI5Ae=w960-h540-s-no-gm?authuser=0)

![IMAGE](https://lh3.googleusercontent.com/pw/AP1GczNF0E4PI2z5VK9DGPaZNpoB4PoMCdxuXbe5C1QIkh_UTrgZuOAwr7rU5GPAhbh2ohoxRw_cwZ-J_Dl9SPxce-dUVAx9qFydap_F2e9-Gy3HHvRRvYpkNO8rTd2jBy6VvRQCDyg_hOQwTW7mZelnTaNh=w960-h540-s-no-gm?authuser=0)

- [該当QuickStarts](https://docs.snowflake.com/developer-guide/snowpark/reference/python/latest/snowpark/index)

In [None]:
use role accountadmin;

create or replace database citibike; -- CitiBikeデータベースを作成

use database citibike;
use schema public; -- CitiBikeデータベースの下に,publicスキーマを作成
use warehouse compute_wh;

In [None]:
/* Tripsテーブルを作成 */
create or replace table trips
(
    tripduration integer,              -- 利用時間（秒単位など）
    starttime timestamp,               -- 出発時刻（いつ借りたか）
    stoptime timestamp,                -- 到着時刻（いつ返却したか）
    
    start_station_id integer,          -- 出発ステーションのID
    start_station_name string,         -- 出発ステーションの名称
    start_station_latitude float,      -- 出発ステーションの緯度
    start_station_longitude float,     -- 出発ステーションの経度
    
    end_station_id integer,            -- 到着ステーションのID
    end_station_name string,           -- 到着ステーションの名称
    end_station_latitude float,        -- 到着ステーションの緯度
    end_station_longitude float,       -- 到着ステーションの経度
    
    bikeid integer,                    -- 自転車のID（どの自転車を使ったか）
    
    membership_type string,            -- 会員種別（例: 年間会員/1日利用など）
    usertype string,                   -- ユーザータイプ
    
    birth_year integer,                -- 利用者の生年（例: 1990）
    gender integer                     -- 性別（数値で表現されるケースあり：0=不明, 1=男性, 2=女性 など）
);


In [None]:
/* 外部ステージ作成
s3のパスは以下の通り
s3://snowflake-workshop-lab/japan/citibike-trips/
*/
create or replace stage citibike_trips
    ***;

--> 外部ステージにあるファイルの一覧を確認
list @citibike_trips;
 -- 年毎に複数ファイルに分割されて格納されている
 -- AWS S3上に置かれているデータは 377個のファイル(gz圧縮後 1.9GB), 6,150万行

In [None]:
/* ファイルフォーマットの作成 */
create or replace file format csv type='csv'
  compression = 'auto' field_delimiter = ',' record_delimiter = '\n'
  skip_header = 0 field_optionally_enclosed_by = '\042' trim_space = false
  error_on_column_count_mismatch = false escape = 'none' escape_unenclosed_field = '\134'
  date_format = 'auto' timestamp_format = 'auto' null_if = ('') comment = 'file format for ingesting data for zero to snowflake';

--> 作成した File Format を確認
show file formats in database citibike;

In [None]:
/* 外部ステージからデータロード */
*** ;

In [None]:
select * from trips limit 10;

In [None]:
# Import python packages
import streamlit as st
import pandas as pd
import snowflake.snowpark.functions as F

# We can also use Snowpark for our analyses!
from snowflake.snowpark.context import get_active_session
session = get_active_session()


In [None]:
# Snowflake セッションから "CITIBIKE.PUBLIC.TRIPS" というテーブルを取得し、
# そのテーブルを DataFrame として扱えるように変数 df に格納
df = ****

# DataFrame (df) の最初の 5 行だけを取り出して、
# Streamlit の st.dataframe を使って画面に表形式で表示する
st.dataframe(df.limit(5))


In [None]:
# 年月ごとに利用回数を集計

# 結果を表示
st.dataframe()

In [None]:
# Streamlitで可視化