# Introduction to pandas and tidy data

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/shinchu/dataviz-notebooks/blob/main/week_2/intro-to-pandas.ipynb)

# pandas

pandasは、ExcelファイルやCSVファイルのような表形式のデータを高速に処理することができるライブラリです。

主な機能として、

* CSVファイルの読み書き
* 統計量の算出
* 並べ替え
* データの選択
* 条件指定による選択
* 欠損値の除去／補間

があります。

pandasにはデータ処理に便利なデータ構造と関数が含まれています。特にDataFrameオブジェクトは、2次元の表形式でデータを保持することができて取り扱いに便利なので、よく使われます。

次のようにpandasパッケージを`pd`という名前で呼び出しましょう。

以降、`pd.DataFrame()`などと書くことでpandas内で定義されている関数などにアクセスできるようになります。

In [None]:
import pandas as pd

## pandasの基本

###  データ形式

pandasが扱う主なデータ構造は、`Series`と`DataFrame`です。

#### Series

* 1次元のリストの値とインデックスが付いたオブジェクト
* 特別に指定しない限りは、0からインデックスが付与される

In [None]:
sample_series = pd.Series([1, 2, 3])

In [None]:
sample_series

In [None]:
type(sample_series)

#### DataFrame

* データ分析に使うデータはDataFrameとして扱うことが多い
* Seriesの集合体で、行と列からなる

In [None]:
sample_df = pd.DataFrame({
    "名前": ["David", "Eliza", "Fred"],
    "点数": [90, 87, 68]
})

In [None]:
sample_df

In [None]:
type(sample_df)

## 基本的な操作

### CSVファイルを読み込む

`pd.read_csv()`でカンマ区切りのファイルを読み込みます。区切り文字を指定することで、タブ区切りなどのファイルも読み込むことができます。

今回はURLから読み込みますが、PC上に保存されているローカルファイルもパスを指定することで、同じ要領で読み込めます。

Google Driveに保存されているファイルを読み込むこともできます。ぜひ方法を調べてみてください。

In [None]:
new_data = pd.read_csv("https://raw.githubusercontent.com/shinchu/dataviz-notebooks/main/data/week_1/read_sample.csv")

In [None]:
new_data

### CSVファイルとして保存する

`DataFrame.to_csv()`でデータフレームをカンマ区切りのファイルとして保存できます。

`sep="\t"`とすると、タブ区切りで保存できます。

In [None]:
sample_df.to_csv("sample_df.csv", index=False, header=True, sep=",")

In [None]:
# Colabからファイルをダウンロードする

from google.colab import files

files.download("sample_df.csv")

## データフレームを扱う

Titanic datasetを使って、pandasの使い方を学びましょう。

これは、1912年に北大西洋で氷山に衝突して沈没したタイタニック号の乗客の生存状況に関するデータセットです。

In [None]:
# ライブラリのインポート

import pandas as pd
import numpy as np

In [None]:
# データの読み込み
titanic = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv")

In [None]:
# データの確認
titanic

In [None]:
titanic["deck"].value_counts()

このデータセットには、891データ（行）、15属性（列）が含まれていることが分かります。

15の属性が意味するところは、下記の通りです。
各属性の意味はの、データ取得時に整理しておきましょう。

オープンデータであれば、カラム情報は通常公開されています。  
ログを取得したり、スクレイピングをしたりして自分で作成するデータの場合は、データ仕様書も作りましょう。

| カラム | カラムの説明 | 型情報 | 値の説明 | NULL | UNIQ | CHECK |
|---|---|---|---|---|---|---|
| survived | 生存したかどうか | フラグ | 0=死亡, 1=生存 |  |  |  |
| pclass | チケットの等級 | カテゴリ | 1=上層, 2=中級, 3=下層 |  |  |  |
| sex | 性別 | カテゴリ | male, female |  |  |  | 
| age | 年齢 | 数値 |  |  |  | >=0 | 
| sibsp | 乗船した兄弟、配偶者の数 | 数値 |  |  |  | >=0 |
| parch | 乗船した両親、子供の数 | 数値 |  |  |  | >=0 |
| fare | 乗船代金 | 数値 |  |  |  | >=0 | 
| embarked | 出港地 | カテゴリ | C=Cherbourg, Q=Queenstown, S=Southampton |  |  |  |
| class | チケットの等級 | カテゴリ | First, Second, Third |  |  |  |
| who | 属性 | カテゴリ | man, woman, child |  |  |  |
| adult_male | 成人男性かどうか | フラグ | True, False |  |  |  |
| deck | 乗船していたデッキ | カテゴリ | A, B, C, D, E, F, G | ✓ |  |  |
| embark_town | 出港地 | カテゴリ | Cherbourg, Queenstown, Southampton |  |  |  |
| alive | 生存したかどうか | フラグ | yes, no |  |  |  |
| alone | 一人で乗船したかどうか | フラグ | True, False |  |  |  |


### 1行目の要素を取得する


pandasでは、整数の位置インデックスを参照できます。位置インデックスは0から始まる整数です。参照する場合は、`iloc`属性を利用します。

In [None]:
titanic.iloc[0]

【演習】3行目の要素を取得してみましょう

In [None]:
# your code goes here


In [None]:
# answer

titanic.iloc[2]

### 特定の列（カラム）を取得する

取得したいカラム名を指定することで、特定のカラムをシリーズ形式で抽出できます。

In [None]:
titanic_class = titanic["class"]

In [None]:
titanic_class

【演習】出港地を示すカラムを取得してみましょう

In [None]:
# your code goes here


In [None]:
# answer

titanic["embark_town"]

### データの行数を数える

ヒント：文字列やリストの長さを数えるときは、`len()`関数を使います。

In [None]:
len("data science")

In [None]:
len(["apple", "orange", "mango", "banana"])

【演習】データフレーム`titanic`の行数を数えてみましょう

In [None]:
# your code goes here

In [None]:
# answer

len(titanic)

###  データの集約をする

データを取得した後に、全体像を把握するためにデータを集約することがよくあります。

また、データの集約はデータ可視化の準備としても重要です。

ここではpandasによるいくつかのデータ集約方法を見ていきましょう。

#### 要約統計量を確認する

`DataFrame.describe()`関数を使うと、数値の列の要約統計量が確認できます。概要を把握する時に便利です。

In [None]:
titanic.describe()

#### カラム内のデータ数を数える

特定のカラムに含まれる値について件数を数える場合、`Series.value_counts()`関数を使います。

In [None]:
titanic["class"].value_counts()

【演習】各出港地から乗船した人がどれくらいいたか数えてみましょう

In [None]:
# your code goes here


In [None]:
# answer

titanic["embark_town"].value_counts()

#####  列データのユニーク要素数を数える

列データの中にどれだけユニークな（重複のない）要素があるのかを調べる場合には、`Series.nunique()`関数を使います。

In [None]:
titanic["class"].nunique()

【演習】乗客が乗っていたデッキが何個あったか数えてみましょう

In [None]:
# your code goes here


In [None]:
# answer

titanic["deck"].nunique()

#### グループごとの集約

列に条件を付けて集約する必要がある時は（チケットの等級ごとの生存者数を知りたいなど）、`DataFrame.groupby()`関数を使うことができます。

In [None]:
titanic.groupby("sex")["class"].value_counts()

【演習】チケットの等級ごとの生存者数を見てみましょう

In [None]:
# your code goes here


In [None]:
# answer

titanic.groupby("class")["alive"].value_counts()

`Series.value_counts()`関数では件数を取得しました。`Series.mean()`関数を使うことで、平均値を出すことができます。

In [None]:
titanic.groupby("sex").mean(numeric_only=True)

`DataFrame.groupby()`関数を使った出力は、デフォルトでは集約に使ったカラムがインデックスになるため、インデックスにしない場合は、`as_index=False`と引数を指定します。

In [None]:
titanic.groupby("sex", as_index=False).mean(numeric_only=True)

`DataFrame.groupby()`関数は2つ以上のカラムを指定することもできます。2つ以上の列で集約する場合、リストとして指定します。

In [None]:
titanic.groupby(["sex", "class"], as_index=False).mean(numeric_only=True)

ちなみに、集約結果の関数を指定しないと、pandasのオブジェクトが返されます。

In [None]:
titanic.groupby("sex")

### クロス集計を行う

`pd.crosstab()`関数を使うことで、クロス集計をすることができます。グループの出現頻度を見る時に有用です。

In [None]:
pd.crosstab(titanic["who"], titanic["class"])

絶対数ではなく比率が知りたい時は、`normalize="index"`という引数を指定します。

In [None]:
pd.crosstab(titanic["who"], titanic["class"], normalize="index")

### 条件に該当したデータを抽出する

カラムに含まれる値が特定の条件を満たした行を取得する方法はいくつかあります。

In [None]:
titanic[titanic["who"] == "child"]

`DataFrame.query()`関数を使うと、複数の条件を簡便に指定できます。

In [None]:
titanic.query("who == 'child' & pclass > 1")

### データの並べ替えを行う

昇順や降順にデータを並べ替える時には、`DataFrame.sort()`関数を使います。

In [None]:
titanic.sort_values("fare", ascending=False)

【演習】乗客の年齢の昇順にデータを並び替えてみましょう

In [None]:
# your code goes here



In [None]:
# answer

titanic.sort_values("age", ascending=True)

### カラム名の変更を行う

`DataFrame.rename()`関数を使うことで、カラム名を変更することができます。

In [None]:
titanic.rename(columns={"age": "年齢"})

In [None]:
titanic

いずれの変更も、もとのDataFrameを変えているわけではないことに注意してください。  
変更を保持したい場合は、新しい変数（またはもとの変数）に代入する必要があります。

In [None]:
titanic_renamed = titanic.rename(columns={"age": "年齢"})

In [None]:
titanic_renamed.head(1)

In [None]:
titanic.head(1)

pandasの基本的な操作は以上です。

以上の操作を応用して、messy data（雑然データ）をtidy data（整然データ）にしてみましょう。

# Tidy data（整然データ）

整然データは、次の4つの条件を満たすデータなのでした。

1. 1つの列は、1つの変数を表す。
2. 1つの行は、1つの観測を表す。
3. 1つのセル（特定の列の特定の行）は、1つの値を表す。
4. 1つの表は、1つの観測単位を持つ（異なる観察単位が混ざっていない）。

たとえば、2020年1月1〜3日の各都市の平均気温データでデータセットを作ってみます。

In [None]:
import datetime # 日付や時間を扱うライブラリ

wide_df = pd.DataFrame(
    [
        ["Tokyo", 5.8, 5.7, 5.6],
        ["Osaka", 6.8, 6.7, 6.6],
        ["Nagoya", 5.1, 5.1, 5.0]
    ],
    columns=["Location"] + pd.date_range("2020-01-01", periods=3).tolist()
)

wide_df

このデータでは、各行が複数の日付で構成（観測が複数）されています。また、各列が日付と気温の2つの変数で構成（変数が複数）されています。

整然データの条件1と条件2を満たさないため、雑然データであると言えます。

DataFrameの`melt`メソッドを使うと、このデータを整然データへ変換できます。次の引数を渡します。

- `id_vars`: 基本となる列名を指定
- `var_name`: 変数となる列名を指定
- `value_name`: 値となる列名を指定

In [None]:
tidy_df = wide_df.melt(id_vars="Location", var_name="Date", value_name="Temperature")
tidy_df

これで整然データを作ることができました。

整然データは最もコンパクトなデータ形式ではありません。また、雑然データが間違っているデータ形式ということでもありません。むしろ、自分で数字を見たい／人に数字を見せたいだけであれば、雑然データの方が分かりやすいこともあります。

しかし、データ可視化を行う際に、最も直接的に扱う優れたデータは整然データです。データ処理を通して整然データを作成してから次のステップへ進むことをおすすめします。

# おまけ：Plotlyを使った可視化

今日のおまけとして、Plotlyというパッケージを使ってデータ可視化を行います。

詳しくは次回の講義で説明しますが、データセット中の変数を図の要素に明示的に割り当てることで、可視化を作成します。

In [None]:
# Plotlyパッケージのインストール（初回のみ実行）
!pip install plotly

In [None]:
import plotly.express as px

px.bar(tidy_df, x="Date", y="Temperature", color="Location", barmode="group").show()

---

pandasを使っていくうちにもっと複雑な処理をしたくなると思うので、そんな時は公式ドキュメントを調べてみましょう。

* [10 minutes to pandas](https://pandas.pydata.org/docs/user_guide/10min.html)
* [pandas documentation](https://pandas.pydata.org/docs/index.html)