# データの前処理

## Numpy


### ベクトルの作成
```np.arange, np.linspace, np.repeat, np.tile, np.isin(x, y)```

- ```np.arange(x, y, z)```
    - xからyまでの等差zの等差ベクトル
- ```np.linspace(x, y, n)```
    - xからyまで長さnの等差ベクトル
- ```np.repeat(vec, n)```
    - vecの要素をn回ずつ繰り返す
- ```np.tile(vec, n)```
    - vecをn回繰り返す
- ```np.isin(x, y)```
    - xはyに含まれているか？

## Pandas

### メソッドチェーン
- メソッドを繋げて、同じ動作を繰り返しても結果が変わらない様にする

```
#good
df.assign(sepal_length = lambda x: x["sepal_length"] + x["sepal_width"])\
    .query("sepal_length > 8")

#bad
df = df.assign(sepal_length=lambda x: x["sepal_length"] + x["sepal_width"])
df_rev = df.query("sepal_length > 8")
```

### データフレーム処理
```query, filter, assign, merge, concat, group_by, sort_values, drop_dupulicated, melt(pivot)```

#### query:  行の抽出


```
#good
df.query("depth >= 62 & color == 'H")

#bad
df[(df["depth"] >= 62) & (df["color"] == "H")]
```

#### filter: 列の抽出

引数
- items
    - 列名を指定する, 引数itemsは省略可
- like
    - 列名の一部を指定する
- regex
    - 列名の一部を正規表現で指定する

データ型指定
- select_dtypes(データ型)
    - 指定したデータ型に該当する列を抽出

```
#good
df.filter(["sepal_length"])

#bad
df[["sepal_length"]]
```

#### assign: 列の追加、更新

- 既存の列は更新、新規の列は追加

```
df.assign(
    color = "color",
    new_1 = 1,
    new_2 = 2
)
```

- 関数を指定すると、関数を適応した列に更新、もしくは列を新たに追加してくれる

```
#dfにfunc_1を適応した結果をnew列として追加
df.assign(new = func_1)
```

- np.whereを用いて、条件によって列に追加する項目を変えられる

```
#color列がEなら”E",違うなら"not_E"をnew列に追加
df.assign(
    new = lambda x:np.where(
        x["color"] == "E",
        "E",
        "not_E"
        )
)
```

#### merge: キー結合

```
pd.merge(df_name, df_group, how="inner")
```
その他、left, right, outerがある。



#### concat: 縦横結合

- ignore_index=Trueがおすすめ

```pd.concat([df1, df2], axis=0, ignore_index=True)```

- 連番ではないindexは、reset_indexで解除

```
df_name_bad.reset_index(drop=True)
```

#### group_by: グルーピング

- dfにこの後も処理を続ける場合は、as_index=Falseにすると良い
```
df.groupby(["class", "gender"], as_index=False).mean()
```

- 特定のグループ取得は.get_group("a")
```
df.groupby("class").get_group("a")
```

#### sort_values: ソート

- ascending=Falseで大きい順
```
df.sort_values("depth", ascending=False)
```


#### drop_duplicates: 重複削除

- 一番最初のものが残る
```
df.drop_duplicates(["cut", "color"])
```

#### melt,pivot: 縦横変換

![melt, pivot](img/melt_pivot.png) 

- wide型をlong型に変換
```
df_wide.melt(
    id_vars="store",
    value_vars=["orange", "apple"], 
    var_name="fruit",
    value_name="price"
)
```

- long型をwide型に変換
```
df_long.pivot(
    index="store",
    columns="fruit",
    values="proce",
)
```

### 文字列処理