Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

チュートリアルのタイムテーブルの作成 #20

Closed
kozo2 opened this issue Aug 8, 2020 · 6 comments
Closed

チュートリアルのタイムテーブルの作成 #20

kozo2 opened this issue Aug 8, 2020 · 6 comments

Comments

@kozo2
Copy link
Collaborator

kozo2 commented Aug 8, 2020

イントロダクション 10:00 ~ 10:10 (講師 大橋、サブ講師 小川)

貿易収支データの分析 10:10 ~12:10 (講師 小川・吉岡、サブ講師 西田・大橋・kaisen) (小川60分/ 吉岡60分)

  • データ・ソフトウェアの紹介(出典説明)
    • 紹介前に必要ライブラリのインストール・データの読み込み
    • 本日やること
    • データの紹介
    • ダウンロードされたデータの確認
  • データ読み込み
    • sqlite3を使って、データベースのテーブルを調べる
    • 課題2 ほかのデータベースのテーブルを調べ、テーブル名を格納する (5分)
    • テーブルを読み込む
      • 全て読み込み (国コードデータ)
      • sqlコマンドで操作しての読み込み (各国の輸出入データ)
    • 課題3 日本の各年の輸出入データを作成する
    • テーブルの前処理を行う
      • mapで輸出入、関数を作成して国名の割り当て
  • plotlyで可視化
    • PlotlyExpress
      • 基本的な使い方
      • 韓国の輸出入の可視化
      • 全データを使って、treemapの作成
          - 課題4 グラフを作ってみる (10分)
      • PlotlyExpressの限界
  • Plotly Graph Objects
    • 基本的な使い方の解説
    • pxでできなかったことをやる
    • 複数のグラフを並べて表示
  • dashで可視化
    • dashの基本構造 コンポーネント、レイアウト、コールバック
    • コンポーネントとレイアウト
    • コールバック
    • パターンマッチングコールバック
  • 機械学習(クラスタリング)
  • ハンズオン

家計調査データの分析 13:00 ~ 15:00 (講師 西田・吉岡、サブ講師 小川・大橋・kaisen)

  • 支出の費目毎の分布の違いを可視化する (講義30分 演習30分)
    • 「統計センター 一般用ミクロデータ 全国消費実態調査」の紹介
      • 一般用ミクロデータのフォーマットの確認 (pandasを使わずに)
    • pandasを使ったデータの読み込みと整形
    • joypy, plotly, dashを使った支出の分布の可視化
      • joypyで静的なridgeline plot
      • plotlyでインタラクティブなヒストグラム
      • dashでダッシュボードの作成
  • 支出情報から機械学習で世帯の属性情報を予測する (講義30分 演習30分)
    • 教師あり学習の紹介
    • scikit-learnの複数の分類機を用いた予測
      • 2値分類
      • 他クラス分類

地理データの可視化 15:00 ~ 17:00 (講師 kaisen、サブ講師 小川・西田)

1. 大阪の平均路線価の可視化 (40min)

  • データ・ソフトウェアの紹介(出典説明) (10min)
  • binderの使い方 (10min)
    • binderの説明 (5min)
    • mapbox api key のセットの仕方 (5min)
  • データ前処理 (15min)
    • データ読み込み (5min)
      • geopandasを用いた大阪の地価(shp)の読み込み
    • CRSから緯度経度情報の変換 (5min)
    • 緯度および経度のデータが入ったカラムの作成 (5min)
  • pydeckで可視化 (15min)
    • GridCellLayerを使う (0min)
    • パラメタの説明 (10min)
    • パラメタやレイヤを変更してようすを見てみる (5min)

2. 平均路線価と自転車盗難数の可視化 (25min)

  • データの紹介 (5min)
  • データ前処理 (10min)
  • pydeckで可視化(発展版)(10min)
    • multi layer
      • GridCellLayerを使う
      • ScreenGridLayerを使う
    • 複数データタイプの組み合わせ
      • 路線価データと自転車盗難数データ

3. 平均路線価の可視化と自転車盗難数データのより正確な可視化 (25min)

  • データの紹介 (5min)
  • データ前処理 (10min)
  • pydeckで可視化(発展版)(10min)
    • GridCellLayerを使う
    • PolygonLayerを使う

4. Streamlitでアプリケーション化 (10min)

  • streamlitでアプリ化 ※binderで使えない場合はローカルのPCでやってみる -> GAE上にデプロイしたものがあるので、チャットでURLを教えて手元で使ってもらう
    • plotの透明度を変化させて見やすいグラフを探る
    • レイヤーをつけたり(?)消したりして見やすいグラフを探る

5. 課題(ハンズオン) (20min)

  • 参加者が地理データ活用をしてくれることを期待するような流れに
  • 自分が調べたいデータを探し、当日やったことをひと通りやってみる
  • データを探すコツとして、緯度と経度があるデータを探すことを勧める。
  • 他に、市町村コードというコードがついていると、ESRI社が提供している全国市区町村界データと組み合わせることで階級区分図を作成することができるということを伝える。
  • 時間があれば実際に手を動かしてみてもらう
@mazarimono
Copy link
Contributor

Intro

  • 当日の流れを話す
  • 3つのデータに触れる
  • 利用パッケージ
  • 全体のスケジュール

@ksnt ksnt mentioned this issue Aug 21, 2020
17 tasks
@mazarimono
Copy link
Contributor

libraryの部分は先に予習的に読んでおいてもらう。

@taku-y
Copy link
Collaborator

taku-y commented Aug 26, 2020

@mazarimono
#27 (comment)
上記リンク先コメントの説明時間について、ML説明30分+ハンズオン30分、計60分で大丈夫です。可視化の説明により時間が必要であれば私の持ち時間を減らしてもらって大丈夫です。

@mazarimono
Copy link
Contributor

@taku-y では貿易データの時間配分は60分ずつでよろしくお願いいたします。

@mazarimono
Copy link
Contributor

かいせんさんのネットワークが不安定なので、バックアップ要因として小川が控える

@mazarimono
Copy link
Contributor

mazarimono commented Aug 27, 2020

  • slidoは可視化部分は小川・西田・かいせん、機械学習部分は大橋が担当する
  • 参加者が困った際はbreakout room /
  • colabはトップにリンクを張ることができる
  • かいせんさんのネットワークが悪くなったら、割って入る。

@kozo2 kozo2 closed this as completed Aug 31, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants