<a href="https://colab.research.google.com/github/onolab-tmu/audio-processing-100-knocks/blob/master/lesson5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lesson 5: ファイルとデータ

今日はファイルでデータを扱う色々なやり方を学びます。
ファイルでデータを埋め込む時はいっぱいあります。

* 人からもらった資料
* 個人で取ったノート、作成した書類
* 実験の測定が自動的にファイルで記録される
* 数値実験の結果がファイルで記録して、あとで分析する
* ウエッブサービスなどのやり取りは大体テキストで行う
* 実験や、プログラムのコンフィギュレーション

テキストデータファイル形式は沢山ありますが、今日は最近良くよく使われる3つを学びましょう。

## CSV (Comma Separated File; カンマ区切りテキスト)

一番伝統的な形式です。CSVファイルの中は同じ形のデータは１行ずつ書いてます。第１行に列のラベルが載ってる場合もあります。もちろん、すべての行は同じ形ではないと困ります。
  
        # name, city, age
        Takeshi,Tokyo,21
        Mari,Hino,27
        Hiroshi,Tokyo,31
        Steve,New York,17
        Kyoko,Fukuoka,42

  CSVのメリットは

  * 簡単に読み込める
  * 処理も簡単
  * 割とコンパクト

  デメリットは

  * 人間に読みづらい
  * ストラクチャーは堅い、データはすべて同じじゃないといけない
  * ヘッダーがないと列の意味は不明

### CSV課題

CSVのファイルを読み込むツールを書きましょう。

まずはCSVファイルをネットから持ってきましょう。そのために、`requests`パッケージを使います。

In [0]:
import requests

def textfile_from_url(url):
  """
  This function retrieves a URL and returns
  its content as a string.
  """
  r = requests.get(url)
  return r.text

このウエッブサイトで色々例なCSVファイルがあって、その一つを持ってきましょ。

In [0]:
url = "https://people.sc.fsu.edu/~jburkardt/data/csv/hw_25000.csv"
csv_string = textfile_from_url(url)
print(csv_string[:200])

"Index", "Height(Inches)", "Weight(Pounds)"
1, 65.78331, 112.9925
2, 71.51521, 136.4873
3, 69.39874, 153.0269
4, 68.2166, 142.3354
5, 67.78781, 144.2971
6, 68.69784, 123.3024
7, 69.80204, 141.4947
8, 


このファイルは２万５千人の人の身長と体重載ってる。

この問題の目的は、身長と体重のヒストグラムを描くこと。

データ処理のため、`split`関数が役にたつ


In [0]:
x = "this is an example"
y = x.split("i")
print(y)

['th', 's ', 's an example']


では、最初は`split`を使って、2つのリストすべての身長と体重を集めよう。


In [0]:
heights = []
weights = []

# process "csv_string" to fill the two lists


最後は`matplotlib`で図を描く

In [0]:
import matplotlib.pyplot as plt

In [0]:
# First the heights
plt.hist(heights)
plt.xlabel("Height [Inches]")

In [0]:
# Then the weights
plt.hist(weights)
plt.title("Weight [Pounds]")

## JSON (JavaScript Object Notation)

割と最近よく使われる形式である。ほとんどのプログラミング言語でJSONを読み込むライブラリーは存在する。そして、多くのウエッブサービスのAPIはJSONで返事している。JSON形式はPythonの`list`と`dict`によく似てる。

    [
      {
        "name": "Takeshi",
        "city": "Tokyo",
        "age": 21
      },
      {
        "name": "Mari",
        "city": "Hino",
        "age": 27
      },
      {
        "name": "Hiroshi",
        "city": "Tokyo",
        "age": 31
      },
      {
        "name": "Steve",
        "city": "New York",
        "age": 17
      },
      {
        "name": "Kyoko",
        "city": "Fukuoka",
        "age": 42
      }
    ]

JSONのメリット
* 人間が読んでも分かりやすい
* 同じファイルで、ストラクチャーが異なるデータでもオッケー
* Pythonに簡単に読み込める（他の言語も）
* プログラムのコンフィギュレーションに使いやすい

デメリットは
* `{`,`}`,`"`,などは多い、手書きは面倒
* コメントが書けない
* 少しだけファイルサイズが多くなる

Pythonでは`list`と`dict`の変数はそのままJSONになれる。

In [0]:
import json

people = [
  {
    "name": "Takeshi",
    "city": "Tokyo",
    "age": 21
  },
  {
    "name": "Mari",
    "city": "Hino",
    "age": 27
  },
  {
    "name": "Hiroshi",
    "city": "Tokyo",
    "age": 31
  },
  {
    "name": "Steve",
    "city": "New York",
    "age": 17
  },
  {
    "name": "Kyoko",
    "city": "Fukuoka",
    "age": 42
  }
]

print(people[0]["name"])

Takeshi


`people`変数をJSONテキストにするには簡単。

In [0]:
import json
people_str = json.dumps(people)
print(people_str)

[{"name": "Takeshi", "city": "Tokyo", "age": 21}, {"name": "Mari", "city": "Hino", "age": 27}, {"name": "Hiroshi", "city": "Tokyo", "age": 31}, {"name": "Steve", "city": "New York", "age": 17}, {"name": "Kyoko", "city": "Fukuoka", "age": 42}]


見えるようにフォーマットは１行でも書ける。

次は逆にもう字列から、パイソンの変数にもできます。

In [0]:
s = '{"numbers": [1, 2, 3, 4], "floats": [1.2, -3.5], "sub_dict": { "pet": "dog", "hobby": "fishing"}}'
example = json.loads(s)
print(example["numbers"])
print(example["sub_dict"]["pet"])

[1, 2, 3, 4]
dog


### JSON課題

[スターウォーズAPI](https://swapi.co/)から、女性と男性キャラクターを数えましょう。

In [0]:
import json

# APIから、データを文字列としてダウンロードする
data_str = textfile_from_url("https://swapi.co/api/people")

# 文字列のJSONパースでパイソンデータストラクチャーに変換する
data = json.loads(data_str)

どんなデータが入ってるかわからないので、内容とタイプを確認しましょう。

In [29]:
print("Data type:", type(data))
print("List of entries:", data.keys())

Data type: <class 'dict'>
List of entries: dict_keys(['count', 'next', 'previous', 'results'])


データタイプは辞書です。

スターウォーズのキャラクターが多いので、全て一括でダウンルオーど出来なくて、ページで区切られてます。
* `count`: このページのキャラクター数
* `next`: 次のページへのURL
* `previous`: 前のページへのURL
* `results`: キャラクターのリスト

一つのキャラクターのエントリーをみてみましょう。


In [30]:
print(data['results'][0])

{'name': 'Luke Skywalker', 'height': '172', 'mass': '77', 'hair_color': 'blond', 'skin_color': 'fair', 'eye_color': 'blue', 'birth_year': '19BBY', 'gender': 'male', 'homeworld': 'https://swapi.co/api/planets/1/', 'films': ['https://swapi.co/api/films/2/', 'https://swapi.co/api/films/6/', 'https://swapi.co/api/films/3/', 'https://swapi.co/api/films/1/', 'https://swapi.co/api/films/7/'], 'species': ['https://swapi.co/api/species/1/'], 'vehicles': ['https://swapi.co/api/vehicles/14/', 'https://swapi.co/api/vehicles/30/'], 'starships': ['https://swapi.co/api/starships/12/', 'https://swapi.co/api/starships/22/'], 'created': '2014-12-09T13:50:51.644000Z', 'edited': '2014-12-20T21:17:56.891000Z', 'url': 'https://swapi.co/api/people/1/'}


キャラクターの特徴は辞書の形でひとつひとつ入ってます。今回性別で数えたいので、`gender`を見るべきです。

そうすると、下記のアルゴリズムで、すべてのキャラクターの性別を確認できます。

1. スタートURL`https://swapi.co/api/people`からデータをダウンロードする
2. こんページのキャラクターリスト(`results`)を`for`文で回して、女性・男性・その他を数える
3. `next`のURLで繰り返す、`next`の内容は`None`になった場合、終わる

このアルゴリズムをパイソンのコードで書きましょう。

* データをダウンロードするには`textfile_from_url`を使う
* 文字列 -> JSON は`json.loads`

In [0]:
# コードをここに書いてください
