# pandas の DataFrame を用い，行列（表）データを扱う

行データを拡張し，いよいよ表データを扱います！！

これを使いこなせるようになるのが，これまで3回の最終目標です！

## 目標
- DataFrame のデータを概観できる
- DataFrame を適切に参照できる
- DataFrame を定義する方法を知る

## 目次
- データの特徴をつかむ
- DataFrame を参照する
- DataFrame を定義する

In [None]:
import pandas as pd
from pandas import DataFrame, Series

In [None]:
# データの読み込み
import sklearn.datasets
data = sklearn.datasets.load_linnerud()
df = DataFrame(data.data, columns=data.feature_names).join(
    DataFrame(data.target, columns=data.target_names))

# 表示
df

## データの特徴をつかむ

データを読み込んで，まずはどのようなデータか概観したいときに用いるメソッドを紹介する。

- columns
- head()
- describe()
- hist()
- scatter()

In [None]:
# 先頭5行を表示する

df.head()

In [None]:
# 列名を確認する

df.columns

In [None]:
# 統計量を確認する

df.describe()

In [None]:
# 分布を確認する

df.hist()

In [None]:
# 分布を確認する（特定の列）

df.hist('Waist')

In [None]:
# 散布図

df.plot.scatter('Weight', 'Waist')

## DataFrame を参照する

適切にデータを参照する方法を学ぶ。

全てのデータを分析対象とすることは少ない。分析対象のデータのみを参照したうえで，データの集計・分析・グラフ化を行う。


In [None]:
# 列を参照する (1)

df['Weight']

In [None]:
# 列を参照する (2)

df.Weight

In [None]:
# 行を参照する

df.loc[0]  # [] の中にインデックスラベルを入れる

In [None]:
# 1行，複数列を参照する (1) 連続する列

df.loc[0, 'Weight':'Pulse']  # インデックス，列名スライス

In [None]:
# 1行，複数列を参照する (2) とびとびの列

df.loc[0, ['Situps','Waist','Pulse']]  # インデックス，列名のリスト

In [None]:
# 複数行，1列を参照する (1) 連続する列

df.loc[0:2, 'Weight']  # インデックススライス，列名

In [None]:
# 複数行，1列を参照する (2) とびとびの列

df.loc[[0, 2, 4, 6], 'Weight']  # インデックスのリスト，列名

### スライスの挙動

- Python の通常のスライス（リストのスライスなど）
  - 末尾は含まない
- pandas のスライス
  - 末尾を含む 

Python スライスを確認する

In [None]:
arr = [3, 9, 27, 81, 243]

print('リストのスライス = Python スライス')
print('  arr[0:3] --> インデックス番号0から2，3つ表示')
print()
print(arr[0:3])

pandas の DataFrame・Series は，pandas スライスと Python スライスの，どちらも使用できる

In [None]:
print('DataFrame だが Python スライスを用いる場合')
print('  df[0:3] --> pandasのインデックス番号0から2，3つ表示')
print()
print(df[0:3])

print()
print('DataFrame で pandas スライスを用いる')
print('  df.loc[0:3, :] --> pandasのインデックスラベル0から3，4つ表示')
print()
print(df.loc[0:3, :])


### 推奨

書いているコードが，Python スライスなのか，pandas スライスなのか混同するのが一番よくない。pandas の DataFrame, Series でスライスする方法を自分の中で統一する必要がある。

**推奨するのは，pandas の参照には基本的にすべて .loc() を用うこと。**

.loc() で参照する場合は，pandas スライスとなるので，スライスの末尾を含む。インデックスラベル・列名ラベルを用いる。


In [None]:
# 複数行，複数列を参照する (1) 連続

df.loc[0:5, 'Weight':'Pulse']

In [None]:
# 複数行，複数列を参照する (1) 飛び飛び

df.loc[[2,4,6], ['Chins', 'Weight']]

In [None]:
# 全行，複数列を参照する

df.loc[:, 'Weight':'Pulse']

In [None]:
# セルを参照する (1) loc

df.loc[0, 'Weight']

In [None]:
# セルを参照する (2) at (推奨)

df.at[0, 'Weight']  # .loc と結果は同じだが，セル参照の内部処理は， .at が最適

(参考・非推奨) loc の代わりにiloc，atの代わりにiatを用いると，Python インデックスを用いた参照ができる

In [None]:
# iloc は Python インデックスになる（非推奨）

df.iloc[0:2, 0:3]

In [None]:
# iloc はインデックス番号のみなので，ラベルを使うとエラーになる

df.iloc[0:2, 'Weight':'Pulse']  

### True, False を用いた参照

In [None]:
df < 50

In [None]:
# よくやる使い方
df[df.Jumps < 50]

In [None]:
# 条件で絞った上で，必要なデータのみ取り出すとき
df[df.Jumps < 50].loc[:, 'Chins':'Jumps']

### 練習

体重が 180 以上の人の，懸垂の成績・体重・ウェストを出力してください

In [None]:
# 体重が 180 以上の人の，懸垂の成績・体重・ウェストを出力する

## DataFrame を定義する

### 既に作ってあるファイルを読み込む

### 新たに DataFrame を定義する

ディクショナリを用いる

In [None]:
# ディクショナリを用いて DaraFrameを定義する

# データ
cities = ['Tokyo', 'Shanghai', 'London', 'Moscow']
climates = ['Cfa', 'Cfa', 'Cfb', 'Dfb']
populations = [3814000, 3400000, 1400000, 17200000]

# 定義 インデックス有

In [None]:
# 定義 インデックス無

### DaraFrame を保存する

In [None]:
# 保存する

In [None]:
# 保存する インデックス無の場合