## 抽出
- データ列を指定して抽出
- 条件指定によるデータ行の抽出
- データ値に基づかないサンプリング
- 集約IDに基づくサンプリング

### データ列指定によるサンプリング
- 不要な列を削除し必要な列のみに絞り込むことによって1行あたりのデータサイズを減らし、後続のデータ分析をやりやすくすることがデータ列抽出の役割

In [2]:
import pandas as pd
df = []
# 指定した列名の列を抽出
df[['column_name_A', 'column_name_B', 'column_name_C']]

df.loc[:, ['column_name_A', 'column_name_B', 'column_name_C']]

# drop関数によって不要な列を削除
# axis=1にすることで列の削除を実施
# inplace = Trueに指定することによってdfの書き換えを指定　処理が軽くなる
df.drop(['drop_column_nameA', 'drop_column_nameB'], axis=1, inplace=True)

### 条件指定によるデータ行の抽出

In [None]:
df.query('"2016-10-01" <= date <= "2017-10-01"')
# @var_nameのように@の後に参照したい変数名を書くことによってpythonのメモリ上の変数を利用できる
# 条件をandでつなげる時は&、orでつなげる時は| を利用する

### データ値に基づかないサンプリング
- データ分析する際に、抽出したデータ数が多すぎて扱いに困る場合がある
- サンプリングによってデータ数を減らすのが有効
    - 恣意的なサンプリングとランダムサンプリング
- 恣意的なサンプリング
    - 自らサンプリングする条件を決める手法
- ランダムサンプリング
    - 乱数によって対象のデータを抽出する方法

In [None]:
# df から50%サンプリング
df.sample(frac=0.5)

# 100件サンプリング
df.sample(n=100)

### 集約IDに基づくサンプリング
- 公平なサンプリングのために、分析対象の単位とサンプリングする単位を揃えることは必要不可欠

In [None]:
# df['column'].unique()は重複を排除したcolumnの値を返す
# sample関数を利用するためにpandas.Series(pandasのリストオブジェクト)に変換
# sample関数によってidをサンプリング
target = pd.Series(df['id'].unique()).sample(frac=0.5)

# isin関数によってidがサンプリングしたidのいずれかに一致した行を抽出
df[df['id'].isin(target)]