## データの加工
### 1. 列の演算
Pandasでは、データフレームの列間の演算を簡単に行うことができる  
例：dfの Fresh 列の2倍とFrozen列の和から20000を引いた値を求め、変数 ser1 に代入する。  
→列の数値をまとめて一気に計算できる  

```python
ser1 = 2 * df['Fresh'] + df['Frozen'] - 20000
print(ser1)
```

### 2. データフレームへの列の追加
以下のようにすると、データフレーム df に新しい列を追加することができる。  

```python
df['新しい列名'] = リストやSeriesなど
```

例：
```python
df['new_col'] = ser1
df['new_col'] = 2 * df['Fresh'] + df['Frozen'] - 20000 display(df.head())  
# どちらでも同じ結果が得られる。
```

新しい列「new_col」が追加され、さきほど計算した「Fresh列の2倍とMilk列の和から20000を引いた値（ser1）」が格納されていることが分かる。

### 3. 列・行の削除
- データフレームdfから、指定した列を削除する  
```python
変数 = df.drop(columns='列名') または 変数 = df.drop('列名', axis=1)
```

- データフレームdfから、指定した行を削除する  
```python
変数 = df.drop(index=行番号) または 変数 = df.drop(行番号)
```

columns= や index= の右辺はリストにして、複数の列や行を削除することもできる。

例：
```python
df_drop_c = df.drop(columns='Detergents_Paper')
display(df_drop_c.head())
df_drop_r = df.drop(index=[1, 3])
display(df_drop_r.head())
```

### 3. (発展)列・行のスライスによる削除
スライスで、連続する行番号、列名を指定して削除することもできる。

```python
df_drop_c2 = df.drop(df.loc[:, 'Fresh':'Frozen'], axis=1)
display(df_drop_c2.head())
```

→ dfのFresh列からFrozen列までを削除して df_drop_c2 に代入

```python
df_drop_r2 = df.drop(df.index[1:3])
display(df_drop_r2.head())
```

→ dfの行番号1から2までを削除して df_drop_r2 に代入

### 4. inplaceオプション
dropなどのデータフレームを変更するメソッドでは、多くの場合inplace オプションが使える。  
inplace=True とすると、変更対象のデータフレームが直接変更されて戻り値が返らないため、  
たとえばデータフレーム df の new_col列を削除する際は、  

変更後のデータフレーム用変数 = df.drop(columns='new_col')
ではなく、  
df.drop(columns='new_col', inplace=True)
と書く。

例：  
```python
df.drop(columns='new_col', inplace=True)
display(df.head())
```

### 5. 条件にマッチするデータの取り出し
変数 = df[ 条件 ]  
データフレーム dfから、「条件」にマッチする行だけを取り出して、左辺の変数に代入  

「条件」の典型例  
- df['列名']==値1、df['列名']!=値1
    - 当該列の値が「値1」に一致する行、「値1」に不一致の行
- df['列名']>値1、df['列名']<=値1、...
    - 当該列の値が「値1」より大である行、「値1」以下である行、...
- df['列名'].str.match(r'正規表現パターン')
    - 当該列の値が「正規表現パターン」にマッチする行
- df['列名'].isin(['値1', '値2', ...])
    - 当該列の値が、値1, 値2, ... のいずれかである行

例1：  
```python
df_ret1 = df[ df['Region']=='Lisbon' ]
     display(df_ret1.head())
```
df の中でRegion列の値が「Lisbon」の行を抜き出して、
変数df_ret1 に代入、表示。

(参考)  
1. df['Region']=='Lisbon' は、Region列を検索して、値がLisbonならTrue、Lisbon以外ならFalseを返す。
2. 一般に、df[ xxx ]のxxxの部分にTrueかFalseが並んだリストを与えると、Trueの行だけが取り出せる。
3. 1.と2.を組み合わせると、dfからdf['Region']=='Lisbon'がTrueになる行だけが取り出せる。

### 6. 条件にマッチするデータの取り出し
「条件」が複数の場合は、それぞれを( )で囲み、&(かつ)、|(または)、~(否定)を用いて組み合わせる。 

例2：  
```python
df_ret2 = df[ (df['Region']=='Other') & (df['Fresh']>100000) ]
display(df_ret2.head())
```
dfの中でRegion列の値が「Other」、かつFresh列が100000より大きい行を抜き出して、変数df_ret2に代入、表示。

例3：  
```python
df_ret3 = df[ ~(df['Region']=='Other') | (df['Fresh']>100000) ]
display(df_ret3.head())
```

dfの中でRegion列の値が「Other」ではない、またはFresh列が100000より大きい行を抜き出して、変数df_ret3に代入、表示。  
Region列の値が「Other」ではない行と、Region列の値に関係なく、Fresh列が100000より大きい行の両方が抜き出されていることがわかる。

### 7. 条件にマッチするデータの削除
条件にマッチするデータを削除するには、「not条件」にマッチする行を取り出す、と考える。  

例4：  
```python
df_ret4 = df[ ~(df['Region']=='Other') ]
display(df_ret4.head())
```

dfの中でRegion列の値が「Other」の行を削除する
→ Region列の値が「Other」以外の行を取り出す、と考える

### 8. 行番号のreset
- データを削除したり、条件にマッチするデータだけを取り出すと、行番号が不連続になる。
- reset_indexメソッドと用いると、不連続になった行番号を、0から始まる連番につけ直すことができる。
- 元の行番号が自動的に「index列」として追加されますが、不要な場合はdrop=Trueオプションを追加する。

例5：
```python
df_ret5 = df_ret3.reset_index()
display(df_ret5.head())
```
df_ret3: indexが不連続になっている  
df_ret5: indexが連番になり、元のindexは「index」列に

例6：
```python
df_ret6 = df_ret3.reset_index(drop=True)
display(df_ret6.head())
```
df_ret6: indexが連番になる。「index」列は生成されない。

### 9. 列のソート
変数 = df.sort_values(by='列名', ascending=True or False)  
データフレーム df の各行を、指定した列の値の昇順 (ascending=True) または降順 (ascending=False) にソートして変数に代入  
※ ascendingを省略すると ascending=True とみなされる。

例：
```python
df_sorted_by_fresh = df.sort_values(by='Fresh', ascending=False)
display(df_sorted_by_fresh.head())
display(df_sorted_by_fresh.tail())
```

### 10. 最大値・最小値の行番号の取得
変数 = df['Fresh'].idxmax()  
変数 = df['Fresh'].idxmin()  

例：
```python
idx_max_fresh = df['Fresh'].idxmax()
idx_min_fresh = df['Fresh'].idxmin()
print(idx_max_fresh, idx_min_fresh)
# 181 95
```
df の Fresh列の最大値(最小値) に対応する行番号が取得できる。(複数行ある場合は最初の行番号になる)

### 11. numpyでの最大値・最小値のindexの取得

例：
```python
a = np.array([5,-2,7,4,1])
print(a.max(), a.min())
print(a.argmax(), a.argmin())
# 7 -2
# 2 1
```
ndarrayの最大値(最小値) に対応するindexは、argmax(), argmin() で取得できる。