<a href="https://colab.research.google.com/github/loverico/python_lecture/blob/master/%5BPython%E8%AC%9B%E5%BA%A7%5D%E7%AC%AC2%E5%9B%9ECSV%E3%83%95%E3%82%A1%E3%82%A4%E3%83%AB%E3%81%AE%E3%83%87%E3%83%BC%E3%82%BF%E3%82%92%E5%8F%AF%E8%A6%96%E5%8C%96%E3%81%99%E3%82%8B.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 今回学ぶこと

* CSV データをPythonプログラムに読み込む方法
* Pandas を用いてデータをを扱う方法
* Seaborn でデータを描画する方法
* spotify APIを使ってプレイリストや曲情報を取得する



## Pandasについて

Pandas とは

* Pythonにおいて、データ解析を支援する機能を提供するライブラリ
* データ操作を行うための DataFrame クラスを持つ。DataFrame内のデータをデータベースのように扱える。
* CSVなど、様々なデータを簡単に読み込める



In [0]:
import pandas as pd

## Python の可視化ライブラリ

matplotlib について

* Python でグラフを描くためのライブラリ


seaborn について

* matplotlib のグラフを簡単にきれいに描画できるライブラリ

例: https://seaborn.pydata.org/examples/index.html

この講座ではseabornを使ってグラフを描画します

In [0]:
import seaborn as sns

# グラフのデザインを指定
sns.set(style="whitegrid")

# ライブラリの中に含まれているサンプルデータセットを読み込み
titanic = sns.load_dataset("titanic")

In [0]:
titanic

In [0]:
# 棒グラフを描画
g = sns.catplot(x="class", y="survived", hue="sex", data=titanic,
                height=6, kind="bar", palette="muted")
# 軸を除去
g.despine(left=True)
# y軸のラベルに名前を付ける
g.set_ylabels("survival probability")

In [0]:
# サンプルデータを読み込み
fmri = sns.load_dataset("fmri")
fmri

In [0]:
# 折れ線グラフを描画
sns.lineplot(x="timepoint", y="signal", 
             hue="event",# event 毎に折れ線を表示
             data=fmri)

In [0]:
# ヒストグラムを描画
sns.distplot(titanic['fare'])

In [0]:
# サンプルデータを読み込み
tips = sns.load_dataset("tips")
tips

In [0]:
# 散布図を描画
g = sns.jointplot(x="total_bill", y="tip", data=tips)

その他、チャートの種類に関しては、以下を参照されたし
- [よく使うグラフをseabornで可視化する方法を調べてみた](https://qiita.com/ninomiyt/items/cda7ee0b940dd461cd09)
- [公式サイト](https://seaborn.pydata.org/)

## Spotifyデータを可視化する


以下のcsvを利用します（使用の手順）

https://drive.google.com/file/d/1-ZjhK4q3PANqdeutqjqVDTguXe_3Ghxk/view?usp=sharing
- 上のリンクを踏み、マイドライブへ追加する（画像を参照のこと）
![代替テキスト](https://storage.cloud.google.com/akiyama_workspace/images/chart_weekly.csv%20-%20Google%20%E3%83%88%E3%82%99%E3%83%A9%E3%82%A4%E3%83%95%E3%82%99%202020-03-24%2013-18-02.png?hl=ja)
- マイドライブとこのノートブックをマウントする.(以下のセルを実行）
- Go to this URL in a browser:と書かれたリンク先にとび、現在のgoogleアカウントでログイン
- ログイン後、Google Drive File Stream が Google アカウントへのアクセスをリクエストしていますと表示がなされるので、許可ボタンをおす
- secretコード（許可ボタンを押した後に表示される文字列）をコピーして、 下セルの
実行結果にあるEnter your authorization code: のフォームに、先ほどコピーした文字列を入れてenter
- Mounted at /content/drive　と出たら、マウント成功。自分のドライブにあるファイルを読み込むことができる

In [0]:
from google.colab import drive
drive.mount('/content/drive')

In [0]:
import pandas as pd
import seaborn as sns

In [0]:
# spotify の日本の週間チャートデータを読み込む
master_df = pd.read_csv("/content/drive/My Drive/chart_weekly.csv")

In [0]:
#全部で26600 件、７カラムあることを確認
master_df

In [0]:
#Unnamed: 0 となっているカラムはいらないので消す（他にも沢山やり方があるが、ここでは、列を指定して、再代入するやり方をとる)
master_df = master_df.iloc[:,1:] # ilocのブラケット内の引数は、 1番目の引数で行番号を指定できて、二番目の引数で列番号を指定できる
print(f"master_df columns : {master_df.columns}") # .columns でカラムが表示される
master_df

In [0]:
# 最初の行のみを表示
master_df.head(3) #引数に指定しない場合は、五行分が表示される

In [0]:
# 特定の列のみ抽出
master_df[['Track Name', 'Artist']].head()

In [0]:
# date カラムを明示的にdate型に変換
master_df["date"] = pd.to_datetime(master_df["date"])
print(f"'date' column's type is {type(pd.to_datetime(master_df['date'])[0])}")
# 逆に、文字列にするには、astypeを使う
print(f"'date' column's type is {type(master_df['date'].astype(str)[0])}")

In [0]:
master_df["date"].head()

### アーティスト名の長さをカラムに追加

In [0]:
# 各カラムの型と、欠損値を確認（Track Name,Artistに欠損値がみられる。欠損値があると、うまく行の変換が行えなかったりするので注意)
master_df.info()

### 欠損した行をみてみると

In [0]:
#Artist が欠損したレコード
master_df[master_df["Artist"].isnull()]

In [0]:
#Track Name が欠損したレコード
master_df[master_df["Track Name"].isnull()]

In [0]:
#欠損値を置換
master_df.fillna(value={'Track Name': '','Artist':''}, inplace=True)#inplace=Trueで再代入しなくても元のオブジェクトに変更が反映される


In [0]:
# artist_name カラムの要素に1つずつ、len() メソッドを適用し、アーティスト名の長さを取得
master_df["artist_length"] = master_df["Artist"].map(len) # map関数で各行の値を長さにマッピング（変換）している

In [0]:
master_df.head()

In [0]:
# 長さが30以上のアーティストのみ抽出
master_df[master_df['artist_length'] >= 30]

In [0]:
# ブラケット内ではこのようになっている
master_df['artist_length'] >= 30

上では、行ごとにTrue、Falseといった判定結果が記載されたpandas.Series（pandas データフレームの1カラムバージョンのオブジェクト）が生成され、それをpandas.DataFrameのブラケットに入れることにより、Trueになっている行のみが抽出される



In [0]:
# 長い順にソート
master_df.sort_values(by='artist_length', ascending=False).head()

In [0]:
#短い順にソート
master_df.sort_values(by='artist_length', ascending=True).head()

## アーティストの名前の長さと、曲名の長さには相関性があるのか考えてみる。

**そうかん**

**【相関】**

《名・ス自》二つ以上の事物の、一方が変われば他方もそれに連れて変わるとか、あるものの影響を受けてかかわり合っているとかいうように、互いに関係を持つこと。また、そういう関係。

##### **→やはり短い名前のアーティストは曲名を短く、長い名前のアーティストは曲名を長く書きがちなのではないか🤔？**

In [0]:
#曲名の長さの列を生成
master_df["track_name_length"] = master_df["Track Name"].map(len)

spotifyチャートデータには、同じ曲のデータがいくつもあるので重複を排除したい。

In [0]:
#groupby("Track Name")でTrack Name毎にデータをまとめることができる。
# さらに、max()で曲ごとの最大値（曲毎であるなら、曲名の長さも、アーティスト名の長さも同じなはず）をとることで master_df から同じ曲の排除を行える
track_master= master_df.groupby("Track Name").max()
track_master.head()

In [0]:
# corr()でそれぞれの特徴同士での相関係数（ -1 ~ 1　の間の数字で -1 か 1に近づくほど相関性が高く、 0 に近づくほど相関性が低くなる)をみることができる
# 参考 https://bellcurve.jp/statistics/course/9591.html
track_master.corr()

track_name_length と artist_lengthには相関性がほぼない？！(相関係数は±0.2を超えて初めて相関性があるのかを検討できるので）

**→とりあえず散布図でプロットしてみる**

In [0]:
sns.jointplot(x="artist_length",y="track_name_length", data=track_master)

artist_lengthが２０文字以上である場合、アーティスト名の長さが増えるにしたがって、曲名の長さも増えていかないか？（相関関係がないか？）

**→同じアーティストによる楽曲名の長さもばらつきがあるため、一旦アーティスト毎の、曲名の長さの平均値をプロットしてみる**

アーティスト名ごとに曲の平均の長さを求める手順
1. DataFrameの全データをアーティスト名毎に分割して、グループを作成 (Splitting)
2. グループ毎に平均値を求める (Applying)
3. それぞれのグループを合わせた新しいDataFrameを作成 (Combining)



![年毎の平均値を求める](http://drive.google.com/uc?export=view&id=1jWuNslF69Rd2dYjJfN1LkzELnOJ0k8js)


公式ドキュメント

https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html


In [0]:
# アーティスト毎の、平均値を取得
track_mean_by_artist =track_master.groupby('Artist').mean()
sns.jointplot(x="artist_length",y="track_name_length", data=track_mean_by_artist)

In [0]:
# さらに、アーティスト名２1文字以上の部分でプロットしてみると...
sns.jointplot(x="artist_length",y="track_name_length", data=track_mean_by_artist[track_mean_by_artist.artist_length >= 21])

データは少ないが、右肩上がりで比例してる様に見えそう

In [0]:
#　この状態で相関係数をみてみると
track_mean_by_artist[track_mean_by_artist.artist_length >= 21].groupby('Artist').mean().corr()

In [0]:
#ちなみに、２１文字未満の相関係数では
track_mean_by_artist[track_mean_by_artist.artist_length < 21].groupby('Artist').mean().corr()

## 考察ポイント
自身の名前２０文字以上のアーティストではやや強い正の相関性がみられる(0.64)
＝自分のアーティスト名が長いほど、長い曲をつける傾向がみられる

逆に20文字以下のアーティストでは、ほぼ無相関だと言える

**この様に、調査対象を特徴毎に分けて分析するやり方を層別解析と言ったりします。**

　しかし、強い相関がみられる背後の原因はなんなのか。
英字のアーティストによるものではなかろうか？spotifyのチャートに載っているようなアーティストだからだろうか？　　また、なんで20文字以下になると相関係数が下がってしまうのか？

**原因と思われる特徴でさらに分割したり、新たにデータを追加したりして考えてみてもいいかもしれません**


*（というか、そもそも曲名とアーティスト名のみが網羅的に載ったファイルを作るべきでは...)*


# Spotify APIを使用する

Spotify API の特徴

![代替テキスト](https://cdn-ssl-devio-img.classmethod.jp/wp-content/uploads/2017/12/spotify-api-overview.png)

* Spotify URIやSpotify IDなど、Spotify特有のパラメータ情報をリクエスト、レスポンス時に扱うことがあります。
* レート制限に引っかかるとステータスコード429が返却される。これが返ってきた場合は、Retry-Afterヘッダーの値を確認し、そこに記載されている秒の間はAPIをコールすることができない。

* レスポンスデータは、JSON Object形式で取得します。

* タイムスタンプはUTC zero offset形式（YYYY-MM-DDTHH:MM:SSZ）

* 一部のAPIではページネーションをサポート（offset、limitパラメータで指定）

* 多くのAPIでは、クライアント側でレスポンスデータのキャッシュを行うためのヘッダー情報が付与される。

* レスポンスステータスコードは、RFC 2616 と RFC 6585に則って2xx、3xx、4xx、5xxを返す。

* レスポンスデータのエラー表現には、下記2種類のフォーマットを使用する。

  * Authentication Error Object
  * Regular Error Object
*APIをコールするにはOAuthアクセストークンが必要。

認証方法の種類

![代替テキスト](https://cdn-ssl-devio-img.classmethod.jp/wp-content/uploads/2017/12/Obtaining-Authorization.png)

* App Authorization
  * システム（Spotify）が、クライアントアプリケーションに、Spotify Platform (APIs, SDKs and Widgets)へアクセスすることを許可します。
* User Authorization
  * エンドユーザー（Spotifyのエンドユーザー）が、クライアントアプリケーションに、エンドユーザーが所有するデータへアクセスすることを許可します。

アプリが認証の許可を得るための3つの方法


* Refreshable user authorization: Authorization Code
  * このフローでは、エンドユーザーはクライアントアプリケーションがリソースへアクセスすることを1度だけ許可します。そのため長期間稼働させるアプリケーションに適しています。 アプリケーションにはリフレッシュ可能なアクセストークンを提供されます。ちなみにトークン交換には秘密鍵の送信が含まれるため、ブラウザやモバイルアプリなどのクライアントからではなく、バックエンドサービスなどの安全な場所でこれを実行します。
* Temporary user authorization: Implicit Grant
  * このフローは、JavaScriptを使用するため、リソース所有者のブラウザで実行されるクライアントアプリケーション向けです。サーバー側のコードを使用する必要はありません。リクエストのレート制限は改善されていますが、リフレッシュトークンは提供されていません。このフローはRFC-6749で定義されています。
* **Refreshable app authorization: Client Credentials Flow**
  * このフローは、サーバー間認証で使用されます。エンドユーザー情報にアクセスしないエンドポイントのみにアクセスが可能です。
  * **このセミナーではこの認証方法を使用**

## アカウントを作る

1. https://www.spotify.com/ にアクセスしてアカウントを作る。
2. https://developer.spotify.com/my-applications に行ってログイン
3. Create an Application に Application Name と Description を入れる
4. Are you developing a commercial integration? と聞かれたら、この講座では NO を選択
5. チェックボックスをオンにして Submit
6. Client ID と Client Secret メモしておく。APIを呼ぶ際に使います。

## Spotipyのインストール

Spotipy とは、Spotify APIを呼ぶためのPythonライブラリ

* HTTPリクエストを送る操作をライブラリ内で行っているため、リクエストを意識せずに使うことができる
* pip install spotipy でインストール

In [0]:
!pip install spotipy

spotipy.Spotify クラスがAPIへ様々なリクエストを送る

https://spotipy.readthedocs.io/en/latest/#module-spotipy.client

In [0]:
import spotipy
from spotipy.oauth2 import SpotifyClientCredentials

CLIENT_ID = "ここにclientIDを入力"
CLIENT_SECRET = "ここにclientSecretを入力"

# 認証情報をセット
client_credentials_manager = SpotifyClientCredentials(client_id=CLIENT_ID, client_secret=CLIENT_SECRET)
# 認証情報を元に、APIクライアントを作成
sp = spotipy.Spotify(client_credentials_manager=client_credentials_manager)

プレイリストを取得

公式リファレンス: https://developer.spotify.com/documentation/web-api/reference/playlists/get-list-users-playlists/

Spotipyリファレンス: https://spotipy.readthedocs.io/en/latest/#spotipy.client.Spotify.user_playlist

In [0]:
# Spotify 公式のプレイリストから2つ取得
playlists = sp.user_playlists('spotify',limit=2)
# 辞書形式で返却される
type(playlists)

pprint を用いるとよりきれいにデータを表示できる

https://docs.python.org/ja/3/library/pprint.html

In [0]:
from pprint import pprint
pprint(playlists)

In [0]:
# 見にくいのでitemsで抽出
pprint(playlists['items'])

In [0]:
# タイトルを取得
pprint([x["name"] for x in playlists['items']])
# id を取得
pprint([x["id"] for x in playlists['items']])
# URLを取得
pprint([x["external_urls"] for x in playlists['items']])

In [0]:
# 複数のタイトルとURLを取得
for playlist in playlists['items']:
  # playlists['items'][0] を playlist で置き換える
  pprint('タイトル: ' + playlist['name'])
  pprint('id: ' + playlist['id'])
  pprint('URL: ' + playlist['external_urls']['spotify'])
  print()