Skip to content

rinsaka/sample-data-sets

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

90 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

サンプルデータ集

  • このリポジトリに収録されているデータは Python 入門等で利用可能できるデータです.
  • 実際のデータと演習のために生成されたデータの両方が混在しています.

電子機器販売業者の受注データ (machine-sales.csv など)

  1. machine-sales.csv
    • ピボットテーブルによる分析などを行うためのデータ
  2. machine-sales-utf8.csv
    • machine-sales.csv の支店名や営業担当者名に漢字を使用 (UTF-8)
  3. machine-sales-sjis.csv
    • machine-sales.csv の支店名や営業担当者名に漢字を使用 (Shift-JIS)
  4. machine-sales-sales.csv, machine-sales-branch.csv, machine-sales-staff.csv
    • machine-sales.csv を正規化して3つのファイルに分割したもの
    • 結合時には同じ系列名のリレーションシップをたどれば良い
  5. machine-sales-sales.csv, machine-sales-branch-id.csv, machine-sales-staff-id.csv
    • machine-sales.csv を正規化して3つのファイルに分割したもの
    • 3つのファイルの主キーがすべて id になっているため,結合時には系列名を明示的に指定する必要がある
  6. machine-salesフォルダ
    • PowerQueryのための分割データ
  • クラスタリング (k-means法や非階層クラスタリング) で利用する2次元データ

  • k-means による非階層クラスタリングをしてみよう

    • clustering-sample.csv は先頭行に列名があり,clustering-sample-notitle.csv は先頭行に列名がない
    • clustering-sample-kmeans.csv は k-means 法のアルゴリズムを理解するための小さなサンプルデータ
  • 階層的クラスタリングをしてみよう

    • clustering-sample-small.csv は非階層クラスタリングのアルゴリズムを理解するための小さなサンプルデータ
  • 相関分析,複数のグラフ(散布図)を作成するためのサンプルデータ
  • データ数 100
  • x列は 平均5, 標準偏差 2 の一様乱数
  • その他の列は x との相関係数が -1.0 から +1.0 になるように生成したもの
  • https://rinsaka.com/python/matplotlib/10-subplot.html

百人一首のデータ

協調フィルタリングのためのデータ

Twitter のツイート数データ

  • tweet_20140617_hour.csv
    • 2014年6月17日の16時から8月7日12時までの1時間ごとの日本語ツイート数(全ツイートの1%を取得した結果を集計)
  • tweet_20140624_minute.csv
    • 2014年6月24日の5時から8時までの1分ごとの日本語ツイート数(全ツイートの1%を取得した結果を集計)
  • tweet_20140617_usj_hour.csv
    • 2014年6月17日15時から8月6日13時までの1時間ごとのUSJ関連ツイート数
  • tweet_20140618_usj_day.csv
    • 2014年6月18日から8月6日までの1日ごとのUSJ関連ツイート数

画像内文字認識とPDFからの文字列抽出用テストデータ

物体検出のための画像データ

db.sqlite

% sqlite3 db.sqlite
SQLite version 3.37.0 2021-12-09 01:34:53
Enter ".help" for usage hints.
sqlite> .tables
staffs
sqlite> .schema staffs
CREATE TABLE staffs (
    id INT NOT NULL,
    name VARCHAR(32),
    age INT,
    department VARCHAR(32),
    PRIMARY KEY(id)
);
sqlite> .headers ON
sqlite> SELECT * FROM staffs;
id|name|age|department
1|藤川|23|営業部
2|藤本|35|人事部
3|藤枝|32|製造部
4|藤原|48|営業部
5|藤森|44|人事部
6|藤平|28|製造部
7|藤谷|38|営業部
sqlite> .exit
%

sales.sqlite

  • もうひとつの SQLite データベースのサンプル

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published