# テーブルデータ操作ライブラリ pandas（入門編）


---

- ref: https://pandas.pydata.org/
- blog: https://slash-z.com/
- github: https://github.com/KazutoMakino/PythonCourses

---

よくあるデータの形式として，

- テーブルデータ
- 時系列データ
- テキストデータ
- 画像データ
- 音声データ
- 映像データ

などがありますが，世の中で最も良くあるのは，特に汎用性の高いエクセルのシートで表されるような行列のデータであるテーブルデータと思われます．  
このテーブルデータを効率的に操作することができるのが pandas です．  
今回は pandas について，ある程度使えるようになるために一部紹介していきます．

## pandas 概要

pandas（パンダズ）は，テーブルデータを効率的に操作することができ，テキストファイルはもちろんのこと，CSV や JSON, excel ファイルの読み書きについても，簡単なコードで実現できます．  
また，jupyter への出力も視覚的にキレイに出力させるのもサポートされており，データ分析には欠かせないライブラリと言えます．
ライブラリのインポートは，は公式ドキュメントにて pd と省略形でインポートしており，この方法が一般的です．

In [1]:
import pandas as pd

pandas は基本的には，pandas.Series と pandas.DataFrame という 2 つのオブジェクトで操作します．  
Series は，行の名称が辞書型のキーのように紐付いていて，テーブルの一つの列として扱うことができます．  
DataFrame は，行名と列名がある表形式のデータテーブルを扱うことができます．

## Series / DataFrame の生成

Series の生成について，構文とその例は以下です．  
Series をなにかの変数として代替させる場合，"ser" が良く用いられます．

```
pd.Series(data=None, index=None, dtype=None, name=None, copy=False)
- data: 要素として入れられるデータで，リストなどのイテラブルオブジェクトが使用可能
- index: 行の名称で，リストなどのイテラブルオブジェクトが使用可能
- dtype: データタイプで，文字列やタイプが使用可能
- name: Series の名称
- copy: True のときに Series を変更した場合に，元のデータが numpy の 1 次元配列である場合は元のデータも変更される
```

In [2]:
arr = list(range(10, 13))
ser = pd.Series(data=arr)
ser

0    10
1    11
2    12
dtype: int64

In [3]:
pd.Series(data=arr, index=["a", "b", "c"], dtype=float, name="age")

a    10.0
b    11.0
c    12.0
Name: age, dtype: float64

In [4]:
pd.Series(data={"a": 10, "b": 11, "c": 12}, name="age")

a    10
b    11
c    12
Name: age, dtype: int64

続いて，DataFrame の生成について，構文とその例は以下です．  
DataFrame をなにかの変数として代替させる場合，"df" が良く用いられます．

```
pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
- data: 多次元配列やイテラブルオブジェクトや辞書や DataFrame
- index: 行の名称で，リストなどのイテラブルオブジェクトが使用可能
- columns: 列の名称で，リストなどのイテラブルオブジェクトが使用可能
- dtype: データタイプで，文字列やタイプが使用可能
- copy: True のときに Series を変更した場合に，元のデータが numpy 配列である場合は元のデータも変更される
```

In [5]:
df = pd.DataFrame(data=arr)
df

Unnamed: 0,0
0,10
1,11
2,12


In [6]:
arr2 = [
    [10, 21],
    [11, 22],
    [12, 23],
]
pd.DataFrame(data=arr2, index=["a", "b", "c"], columns=["A", "B"], dtype=float)

Unnamed: 0,A,B
a,10.0,21.0
b,11.0,22.0
c,12.0,23.0


In [7]:
pd.DataFrame(data={"A": [10, 11, 12], "B": [21, 22, 23]}, index=["a", "b", "c"])

Unnamed: 0,A,B
a,10,21
b,11,22
c,12,23


## Series / DataFrame の属性

良く使われるものの内一覧としては以下で，Series と DataFrame で共通するものやしないものがあります．

| 属性 | Series | DataFrame |
|-|-|-|
| T | なし | 転置を返す |
| at | 指定するインデックスの要素一つにアクセス | 指定するインデックスとカラムの要素一つにアクセス |
| columns | なし | カラムを返す |
| hasnans | どれかの要素が NaN である場合に True を返す | なし |
| iat | 指定する行番号の要素一つにアクセス | 指定する行・列番号の要素一つにアクセス |
| iloc | 指定する行番号の要素にアクセス | 指定する行・列番号の要素にアクセス |
| index | index 列を返す | <- |
| loc | 指定する要素にアクセス | <- |
| name | Series の名称を返す | なし |
| shape | 形状を返す | <- |
| size | 要素数を返す | <- |
| values | 要素のみを numpy.ndarray で返す | <- |

上記の属性について，下記で定義する "ser", "df" を用いて，以下に例を示していきます．

In [8]:
ser = pd.Series(data={"a": 10, "b": 11, "c": 12}, name="series_abc")
ser

a    10
b    11
c    12
Name: series_abc, dtype: int64

In [9]:
df = pd.DataFrame(data={"A": [10, 11, 12], "B": [20, 21, 22], "C": ["a", "b", "c"]})
df

Unnamed: 0,A,B,C
0,10,20,a
1,11,21,b
2,12,22,c


```
.T : 転置
```

In [10]:
df.T

Unnamed: 0,0,1,2
A,10,11,12
B,20,21,22
C,a,b,c


```
.at : 指定するインデックスやカラムの要素一つにアクセス
```

In [11]:
ser.at["b"]

11

In [12]:
df.at[1,"C"]

'b'

```
.columns : カラムを返す
```

In [13]:
df.columns

Index(['A', 'B', 'C'], dtype='object')

```
.hasnans : どれかの要素が NaN である場合に True を返す
```

In [14]:
ser.hasnans

False

```
.iat : 指定する行番号や列番号の要素一つにアクセス
```

In [15]:
ser.iat[1]

11

In [16]:
df.iat[1, 2]

'b'

```
.iloc : 指定する行番号や列番号の要素にアクセス
```

In [17]:
ser.iloc[1:]

b    11
c    12
Name: series_abc, dtype: int64

In [18]:
df.iloc[1:, 1:]

Unnamed: 0,B,C
1,21,b
2,22,c


```
.index : index を返す
```

In [19]:
ser.index

Index(['a', 'b', 'c'], dtype='object')

In [20]:
df.index

RangeIndex(start=0, stop=3, step=1)

```
.loc : 指定する要素にアクセス
```

In [21]:
ser.loc[["b","c"]]

b    11
c    12
Name: series_abc, dtype: int64

In [22]:
df.loc[[1, 2], ["B", "C"]]

Unnamed: 0,B,C
1,21,b
2,22,c


```
.name : Series の名称を返す
```

In [23]:
ser.name

'series_abc'

```
.shape : 形状を返す
```

In [24]:
ser.shape

(3,)

In [25]:
df.shape

(3, 3)

```
.size : 要素数を返す
```

In [26]:
ser.size

3

In [27]:
df.size

9

```
.values : 要素のみを numpy.ndarray で返す
```

In [28]:
ser.values

array([10, 11, 12], dtype=int64)

In [29]:
df.values

array([[10, 20, 'a'],
       [11, 21, 'b'],
       [12, 22, 'c']], dtype=object)

## Series / DataFrame のメソッド

良く使われるものの内一覧としては以下で，Series と DataFrame で共通するものやしないものがあります．  
このとおり，メソッドだけでも多くのテーブルデータの操作が可能です．

| メソッド | Series | DataFrame |
|-|-|-|
| .abs() | 各要素の絶対値を返す | <- |
| .all(axis=0, bool_only=None, skipna=True, level=None) | 全ての要素が True の場合に True を返す | <- |
| .any(axis=0, bool_only=None, skipna=True, level=None) | ある要素が True の場合に True を返す | <- |
| .argmax(axis=None, skipna=True) | 要素が最大となる index を返す | なし |
| .argmin(axis=None, skipna=True) | 要素が最小となる index を返す | なし |
| .astype(dtype, copy=True, errors='raise') | dtype にて指定する型へキャストする | <- |
| .autocorr(lag=1) | 指定する要素数のラグを用いた自己相関係数を返す | なし |
| .clip(lower=None, upper=None, axis=None, inplace=False) | 要素の値を lower から upper の間にトリムする | <- |
| .compare(other, align_axis=1, keep_shape=False, keep_equal=False) | 元のオブジェクトと other にて指定するオブジェクトを比較したものを返す | <- |
| .corr(method='pearson', min_periods=1) | なし | 各カラムどうしの相関係数を返す（method で "pearson", "kendall", "spearman" が選択できる） |
| .copy(deep=True) | コピーを作成する．deep=True であれば deep copy を生成 | <- |
| .cov(min_periods=None, ddof=1) | なし | カラムどうしの分散を返す |
| .describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False) | オブジェクトの統計量を返す | <- |
| .diff(periods=1) | 行の変化率を返す（period で何行分の差を取るかを指定） | <- |
| .dot(other) | other にて指定したオブジェクトとのドット積を返す | <- |
| .drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors="raise") | 指定した行・列を削除したオブジェクトを返す | <- |
| .drop_duplicates(keep='first', inplace=False) | 重複を削除した Series を返す | - |
| .drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False) | - | 重複を削除した DataFrame を返す (ignore_index=True にすると返される index がリセットされる) |

| メソッド | Series | DataFrame |
|-|-|-|
| .dropna(axis=0, inplace=False, how=None) | None や NaN を削除したオブジェクトを返す | <- |
| .fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None) | NaN を value で指定した値に置換 | <- |
| .head(n=5) | 上位 n 行目までのオブジェクトを返す | <- |
| .idxmax(axis=0, skipna=True) | 最大となる index を返す | <- |
| .idxmin(axis=0, skipna=True) | 最小となる index を返す | <- |
| .info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=True) | オブジェクトの情報を表示する | <- |
| .interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None) | NaN を補間したオブジェクトを返す | <- |
| .isin(values) | values で指定した値が要素と同じであれば True, そうでなければ False としたオブジェクトを返す | <- |
| .isna() | 要素が NaN であれば True, そうでなければ False としたオブジェクトを返す | <- |
| .items() | dict.items() のように index と要素のタプルを返す | カラム名と pd.Series  |
| .mask(cond, other=nan, inplace=False, axis=None, level=None, errors=NoDefault.no_default, try_cast=NoDefault.no_default) | cond にて指定する条件に一致する要素を other にて指定する値に置換したオブジェクトを返す | <- |
| .max(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None) | axis で指定した軸の最大値を返す | <- |
| .mean(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None) | axis で指定した軸の平均値を返す | <- |
| .median(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None) | axis で指定した軸の中央値を返す | <- |
| .min(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None) | axis で指定した軸の最小値を返す | <- |
| .notna() | NaN でない要素を True, NaN の要素を False として返す | <- |

| メソッド | Series | DataFrame |
|-|-|-|
| .nunique(dropna=True) | 重複のない要素の数を返す | <- |
| .rank(axis=0, method='average', numeric_only=NoDefault.no_default, na_option='keep', ascending=True, pct=False) | 指定した軸の要素の順序を返す | <- |
| .repeat(repeats, axis=None) | 元オブジェクトを repeats に指定した回数分繰り返したオブジェクトを返す | なし |
| .replace(to_replace=None, value=NoDefault.no_default, inplace=False, limit=None, regex=False, method=NoDefault.no_default) | to_replace で指定した値を value で指定した値に置換したオブジェクトを返す | <- |
| .reset_index(level=None, drop=False, name=NoDefault.no_default, inplace=False) | index を振り直したオブジェクトを返す | <- |
| .round(decimals=0) | decimals で指定した桁で要素を丸めたオブジェクトを返す | <- |
| .sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False) | 指定した axis から n 個のサンプルを取得する | <- |
| .sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None) | index をソートしたオブジェクトを返す | <- |
| .sort_values(ny, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None) | by で指定したでソートしたオブジェクトを返す | <- |
| .sum(axis=None, skipna=True, level=None, numeric_only=None, min_count=0) | axis で指定した軸の総和を返す | <- |
| .tail(n=5) | 下位 n 行目までのオブジェクトを返す | <- |
| .to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None) | path_or_buf で指定したファイルに CSV 形式で出力する | <- |
| .to_dict(into=<class 'dict'>) | オブジェクトの辞書型を返す | <- |
| .to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None, storage_options=None) | path_or_buf で指定した名称の excel ファイルを出力する | <- |
| .to_json(path_or_buf=None, orient=None, date_format=None, double_precision=10, force_ascii=True, date_unit='ms', default_handler=None, lines=False, compression='infer', index=True, indent=None, storage_options=None) | path_or_buf で指定した名称の json ファイルを出力する | <- |
| .to_list() | Series をリストに変換して返す | なし |
| .to_numpy(dtype=None, copy=False, na_value=NoDefault.no_default) | Series を numpy.ndarray に変換して返す | なし |
| .to_pickle(path, compression='infer', protocol=5, storage_options=None) | .pickle 形式で出力する（compression にてファイル圧縮も可） | <- |
| .unique() | 重複のない要素の numpy.ndarray を返す | なし |
| .value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True) | 行の数をカウントした結果を返す | <- |
| .where(cond, other=NoDefault.no_default, inplace=False, axis=None, level=None, errors=NoDefault.no_default, try_cast=NoDefault.no_default) | cond の条件式に合わない要素以外を NaN としたオブジェクトを返す | <- |

メソッドの引数で共通の引数として以下が挙げられ，それぞれ役割があります．

| 引数 | 意味 |
|-|-|
| axis | 行もしくは列に対する操作を指定．0: 行，1: 列 |
| level | マルチインデックスに対して有効（今回は取り扱わず） |
| inplace | メソッド適用後に上書きするかどうかを制御 |
| index | 行を index で指定するときに用いる |
| columns | 列をカラム名で指定するときに用いる |
| skipna | NaN をスキップして処理するかどうか |
| cond | condition の略で条件式 |
| ascending | True だと昇順，False だと降順 |

上記について，下記で定義する "ser", "df" を用いて，以下に例を示していきます．

In [30]:
ser = pd.Series(data={"a": 10, "b": -10, "c": 0}, name="series_abc")
ser

a    10
b   -10
c     0
Name: series_abc, dtype: int64

In [31]:
df = pd.DataFrame(data={"A": [10, -10, 0], "B": [11, 22, 33]})
df

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
.abs()
・・・・各要素の絶対値を返す
```

In [32]:
ser.abs()

a    10
b    10
c     0
Name: series_abc, dtype: int64

In [33]:
df.abs()

Unnamed: 0,A,B
0,10,11
1,10,22
2,0,33


```
.all(axis=0, bool_only=None, skipna=True, level=None)
・・・・全ての要素が True の場合に True を返す
```

In [34]:
ser.all()

False

In [35]:
df.all()

A    False
B     True
dtype: bool

In [36]:
df.all(axis=1)

0     True
1     True
2    False
dtype: bool

```
.any(axis=0, bool_only=None, skipna=True, level=None)
・・・・ある要素が True の場合に True を返す
```

In [37]:
ser.any()

True

In [38]:
df.any()

A    True
B    True
dtype: bool

In [39]:
df.any(axis=1)

0    True
1    True
2    True
dtype: bool

```
.argmax(axis=None, skipna=True)
・・・・要素が最大となる index を返す
```

In [40]:
ser.argmax()

0

```
.argmin(axis=None, skipna=True)
・・・・要素が最小となる index を返す
```

In [41]:
ser.argmin()

1

```
.astype(dtype, copy=True, errors='raise')
・・・・dtype にて指定する型へキャストする
```

In [42]:
ser.astype(dtype="float64")

a    10.0
b   -10.0
c     0.0
Name: series_abc, dtype: float64

In [43]:
df.astype(dtype="float64")

Unnamed: 0,A,B
0,10.0,11.0
1,-10.0,22.0
2,0.0,33.0


```
.autocorr(lag=1)
・・・・指定する要素数のラグを用いた自己相関係数を返す
```

In [44]:
ser.autocorr()

-0.9999999999999999

In [45]:
ser.autocorr(lag=0)

1.0

```
.clip(lower=None, upper=None, axis=None, inplace=False)
・・・・要素の値を lower から upper の間にトリムする
```

In [46]:
ser.clip(lower=1, upper=50)

a    10
b     1
c     1
Name: series_abc, dtype: int64

In [47]:
df.clip(lower=1, upper=10)

Unnamed: 0,A,B
0,10,10
1,1,10
2,1,10


```
.compare(other, align_axis=1, keep_shape=False, keep_equal=False)
・・・・元のオブジェクトと other にて指定するオブジェクトを比較したものを返す
```

In [48]:
s1 = pd.Series(["a", "b", "c", "d", "e"])
s2 = pd.Series(["a", "a", "c", "b", "e"])
s1.compare(other=s2)

Unnamed: 0,self,other
1,b,a
3,d,b


In [49]:
s1.compare(other=s2, align_axis=0)

1  self     b
   other    a
3  self     d
   other    b
dtype: object

In [50]:
s1.compare(other=s2, keep_shape=True)

Unnamed: 0,self,other
0,,
1,b,a
2,,
3,d,b
4,,


In [51]:
df

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
.corr(method='pearson', min_periods=1)
・・・・各カラムどうしの相関係数を返す（method で "pearson", "kendall", "spearman" が選択できる
```

In [52]:
df.corr()

Unnamed: 0,A,B
A,1.0,-0.5
B,-0.5,1.0


```
.copy(deep=True)
・・・・コピーを作成する．deep=True であれば deep copy を生成
```

In [53]:
df2 = df.copy()
df2.iat[0,0] = -777
df2.iat[1,1] = -777
df2

Unnamed: 0,A,B
0,-777,11
1,-10,-777
2,0,33


In [54]:
df.compare(other=df2)

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,self,other,self,other
0,10.0,-777.0,,
1,,,22.0,-777.0


In [55]:
df.compare(other=df2, align_axis=0)

Unnamed: 0,Unnamed: 1,A,B
0,self,10.0,
0,other,-777.0,
1,self,,22.0
1,other,,-777.0


In [56]:
df.compare(other=df2, keep_shape=True)

Unnamed: 0_level_0,A,A,B,B
Unnamed: 0_level_1,self,other,self,other
0,10.0,-777.0,,
1,,,22.0,-777.0
2,,,,


```
.cov(min_periods=None, ddof=1)
・・・・カラムどうしの分散を返す
```

In [57]:
df.cov()

Unnamed: 0,A,B
A,100.0,-55.0
B,-55.0,121.0


```
.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)
・・・・オブジェクトの統計量を返す
```

In [58]:
ser.describe()

count     3.0
mean      0.0
std      10.0
min     -10.0
25%      -5.0
50%       0.0
75%       5.0
max      10.0
Name: series_abc, dtype: float64

In [59]:
ser.describe(percentiles=[0.1, 0.2, 0.3])

count     3.0
mean      0.0
std      10.0
min     -10.0
10%      -8.0
20%      -6.0
30%      -4.0
50%       0.0
max      10.0
Name: series_abc, dtype: float64

In [60]:
df.describe()

Unnamed: 0,A,B
count,3.0,3.0
mean,0.0,22.0
std,10.0,11.0
min,-10.0,11.0
25%,-5.0,16.5
50%,0.0,22.0
75%,5.0,27.5
max,10.0,33.0


```
.diff(periods=1)
・・・・行の変化率を返す（period で何行分の差を取るかを指定）
```

In [61]:
ser.diff()

a     NaN
b   -20.0
c    10.0
Name: series_abc, dtype: float64

In [62]:
df.diff()

Unnamed: 0,A,B
0,,
1,-20.0,11.0
2,10.0,11.0


In [63]:
df.diff(periods=2)

Unnamed: 0,A,B
0,,
1,,
2,-10.0,22.0


```
.dot(other)
・・・・other にて指定したオブジェクトとのドット積を返す
```

In [64]:
ser.dot(ser)

200

In [65]:
df.shape

(3, 2)

In [66]:
df.dot(df.T)

Unnamed: 0,0,1,2
0,221,142,363
1,142,584,726
2,363,726,1089


In [67]:
df.T.dot(df)

Unnamed: 0,A,B
A,200,-110
B,-110,1694


```
.drop(labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors="raise")
・・・・指定した行・列を削除したオブジェクトを返す
```

In [68]:
ser.drop(labels=["a", "c"])

b   -10
Name: series_abc, dtype: int64

In [69]:
ser.drop(index=["a", "c"])

b   -10
Name: series_abc, dtype: int64

存在しない index を指定するとエラーが出ますが，errors に "ignore" をしていすると，指定した index が存在しなくてもエラーが出ず，元のオブジェクトが返されます．

In [70]:
# ser.drop(index=["d"])

# ---------------------------------------------------------------------------
# KeyError                                  Traceback (most recent call last)
# ~\AppData\Local\Temp\ipykernel_14676\1810636668.py in <module>
# ----> 1 ser.drop(index=["d"])

# ~\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\util\_decorators.py in wrapper(*args, **kwargs)
#     309                     stacklevel=stacklevel,
#     310                 )
# --> 311             return func(*args, **kwargs)
#     312 
#     313         return wrapper

# ~\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\series.py in drop(self, labels, axis, index, columns, level, inplace, errors)
#    4769         dtype: float64
#    4770         """
# -> 4771         return super().drop(
#    4772             labels=labels,
#    4773             axis=axis,

# ~\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\generic.py in drop(self, labels, axis, index, columns, level, inplace, errors)
#    4277         for axis, labels in axes.items():
#    4278             if labels is not None:
# -> 4279                 obj = obj._drop_axis(labels, axis, level=level, errors=errors)
#    4280 
#    4281         if inplace:

# ~\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\generic.py in _drop_axis(self, labels, axis, level, errors, consolidate, only_slice)
#    4321                 new_axis = axis.drop(labels, level=level, errors=errors)
#    4322             else:
# -> 4323                 new_axis = axis.drop(labels, errors=errors)
#    4324             indexer = axis.get_indexer(new_axis)
#    4325 

# ~\AppData\Local\Programs\Python\Python39\lib\site-packages\pandas\core\indexes\base.py in drop(self, labels, errors)
#    6642         if mask.any():
#    6643             if errors != "ignore":
# -> 6644                 raise KeyError(f"{list(labels[mask])} not found in axis")
#    6645             indexer = indexer[~mask]
#    6646         return self.delete(indexer)

# KeyError: "['d'] not found in axis"

In [71]:
ser.drop(index=["d"], errors="ignore")

a    10
b   -10
c     0
Name: series_abc, dtype: int64

In [72]:
df.drop(index=[0, 2], columns=["A"])

Unnamed: 0,B
1,22


```
.drop_duplicates(keep='first', inplace=False)
・・・・重複を削除した Series を返す
```

In [73]:
ser_tmp = pd.Series(data=["a", "b", "a", "a", "b", "c", "a", "b"])
ser_tmp

0    a
1    b
2    a
3    a
4    b
5    c
6    a
7    b
dtype: object

In [74]:
ser_tmp.drop_duplicates()

0    a
1    b
5    c
dtype: object

In [75]:
ser_tmp.drop_duplicates(keep="last")

5    c
6    a
7    b
dtype: object

In [76]:
df_tmp = pd.DataFrame(data={"A": [1,0,0], "B": [0,1,0], "C": [0,0,1]})
df_tmp

Unnamed: 0,A,B,C
0,1,0,0
1,0,1,0
2,0,0,1


In [77]:
df_tmp.drop_duplicates(subset=["C"])

Unnamed: 0,A,B,C
0,1,0,0
2,0,0,1


In [78]:
df_tmp.drop_duplicates(subset=["C"], ignore_index=True)

Unnamed: 0,A,B,C
0,1,0,0
1,0,0,1


```
.dropna(axis=0, inplace=False, how=None)
・・・・None や NaN を削除したオブジェクトを返す
```

In [79]:
import math
import numpy as np

In [80]:
ser_nan = pd.Series(data=[None, 1, pd.NA, math.nan, np.nan, math.nan, np.NaN, np.NAN])
ser_nan

0    None
1       1
2    <NA>
3     NaN
4     NaN
5     NaN
6     NaN
7     NaN
dtype: object

In [81]:
ser_nan.dropna()

1    1
dtype: object

In [82]:
df_nan = pd.DataFrame(
    data={
        "A": [1, math.nan, 0],
        "B": [math.nan, math.nan, math.nan],
        "C": [0, math.nan, math.nan],
    },
)
df_nan

Unnamed: 0,A,B,C
0,1.0,,0.0
1,,,
2,0.0,,


In [83]:
df_nan.dropna()

Unnamed: 0,A,B,C


In [84]:
df_nan.dropna(how="all")

Unnamed: 0,A,B,C
0,1.0,,0.0
2,0.0,,


In [85]:
df_nan.dropna(how="all", axis=1)

Unnamed: 0,A,C
0,1.0,0.0
1,,
2,0.0,


In [86]:
df_nan.dropna(subset=["C"])

Unnamed: 0,A,B,C
0,1.0,,0.0


```
.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
・・・・NaN を value で指定した値に置換
```

In [87]:
ser_nan.fillna(value=100)

0    100
1      1
2    100
3    100
4    100
5    100
6    100
7    100
dtype: int64

In [88]:
df_nan.fillna(value=100)

Unnamed: 0,A,B,C
0,1.0,100.0,0.0
1,100.0,100.0,100.0
2,0.0,100.0,100.0


```
.head(n=5)
・・・・上位 n 行目までのオブジェクトを返す
```

In [89]:
ser.head()

a    10
b   -10
c     0
Name: series_abc, dtype: int64

In [90]:
df.head(2)

Unnamed: 0,A,B
0,10,11
1,-10,22


```
.idxmax(axis=0, skipna=True)
・・・・最大となる index を返す
```

In [91]:
ser.idxmax()

'a'

In [92]:
df

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


In [93]:
df.idxmax()

A    0
B    2
dtype: int64

In [94]:
df.idxmax(axis=1)

0    B
1    B
2    B
dtype: object

```
.idxmin(axis=0, skipna=True)
・・・・最小となる index を返す
```

In [95]:
ser.idxmin()

'b'

In [96]:
df.idxmin()

A    1
B    0
dtype: int64

```
.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=True)
・・・・オブジェクトの情報を表示する
```

In [97]:
ser.info()

<class 'pandas.core.series.Series'>
Index: 3 entries, a to c
Series name: series_abc
Non-Null Count  Dtype
--------------  -----
3 non-null      int64
dtypes: int64(1)
memory usage: 156.0+ bytes


In [98]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      int64
dtypes: int64(2)
memory usage: 176.0 bytes


```
.interpolate(method='linear', axis=0, limit=None, inplace=False, limit_direction=None, limit_area=None, downcast=None)
・・・・NaN を補間
```

In [99]:
ser_tmp = pd.Series([0, 1, math.nan, 2, 3, math.nan])
ser_tmp.interpolate()

0    0.0
1    1.0
2    1.5
3    2.0
4    3.0
5    3.0
dtype: float64

In [100]:
df_nan.interpolate()

Unnamed: 0,A,B,C
0,1.0,,0.0
1,0.5,,0.0
2,0.0,,0.0


```
.isin(values)
・・・・values で指定した値がオブジェクトに入っていれば True, そうでなければ False を返す（values は set, list, tuple などを受け付け，単一の値は不可）
```

In [101]:
ser.isin(values=[0])

a    False
b    False
c     True
Name: series_abc, dtype: bool

In [102]:
df.isin(values=(0, 10))

Unnamed: 0,A,B
0,True,False
1,False,False
2,True,False


```
.isna()
・・・・要素が NaN であれば True, そうでなければ False としたオブジェクトを返す
```

In [103]:
ser_nan.isna()

0     True
1    False
2     True
3     True
4     True
5     True
6     True
7     True
dtype: bool

In [104]:
df_nan.isna()

Unnamed: 0,A,B,C
0,False,True,False
1,True,True,True
2,False,True,True


```
Series.items()
・・・・dict.items() のように index と要素のタプルを返す
DataFrame.items()
・・・・カラム名と pd.Series のタプルを返す
```

In [105]:
for k,v in ser.items():
    print(k, v)

a 10
b -10
c 0


In [106]:
for k,v in df.items():
    print(k)
    print(v)

A
0    10
1   -10
2     0
Name: A, dtype: int64
B
0    11
1    22
2    33
Name: B, dtype: int64


```
.mask(cond, other=nan, inplace=False, axis=None, level=None, errors=NoDefault.no_default, try_cast=NoDefault.no_default)
・・・・cond にて指定する条件に一致する要素を other にて指定する値に置換したオブジェクトを返す
```

In [107]:
ser.mask(cond=0 <= ser, other=1)

a     1
b   -10
c     1
Name: series_abc, dtype: int64

In [108]:
df.mask(cond=0 <= df, other=1)

Unnamed: 0,A,B
0,1,1
1,-10,1
2,1,1


```
.max(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None)
・・・・axis で指定した軸の最大値を返す
```

In [109]:
ser.max()

10

In [110]:
df.max()

A    10
B    33
dtype: int64

In [111]:
df.max(axis=1)

0    11
1    22
2    33
dtype: int64

```
.mean(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None)
・・・・axis で指定した軸の平均値を返す
```

In [112]:
ser.mean()

0.0

In [113]:
df.mean()

A     0.0
B    22.0
dtype: float64

In [114]:
df.mean(axis=1)

0    10.5
1     6.0
2    16.5
dtype: float64

```
.median(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None)
・・・・axis で指定した軸の中央値を返す
```

In [115]:
ser.median()

0.0

In [116]:
df.median()

A     0.0
B    22.0
dtype: float64

In [117]:
df.median(axis=1)

0    10.5
1     6.0
2    16.5
dtype: float64

```
.min(axis=NoDefault.no_default, skipna=True, level=None, numeric_only=None)
・・・・axis で指定した軸の最小値を返す
```

In [118]:
ser.min()

-10

In [119]:
df.min()

A   -10
B    11
dtype: int64

In [120]:
df.min(axis=1)

0    10
1   -10
2     0
dtype: int64

```
.notna()
・・・・NaN でない要素を True, NaN の要素を False として返す
```

In [121]:
ser_nan.notna()

0    False
1     True
2    False
3    False
4    False
5    False
6    False
7    False
dtype: bool

In [122]:
df_nan.notna()

Unnamed: 0,A,B,C
0,True,False,True
1,False,False,False
2,True,False,False


```
Series.nunique(dropna=True)
・・・・重複のない要素の数を返す
DataFrame.nunique(axis=0, dropna=True)
・・・・指定した軸の重複のない要素の数を返す
```

In [123]:
ser.nunique()

3

In [124]:
df.nunique()

A    3
B    3
dtype: int64

In [125]:
df.nunique(axis=1)

0    2
1    2
2    2
dtype: int64

```
.rank(axis=0, method='average', numeric_only=NoDefault.no_default, na_option='keep', ascending=True, pct=False)
・・・・指定した軸の要素の順序を返す
```

In [126]:
ser.rank()

a    3.0
b    1.0
c    2.0
Name: series_abc, dtype: float64

In [127]:
df.rank()

Unnamed: 0,A,B
0,3.0,1.0
1,1.0,2.0
2,2.0,3.0


In [128]:
df.rank(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,1.0,2.0
2,1.0,2.0


```
.repeat(repeats, axis=None)
・・・・元オブジェクトを repeats に指定した回数分繰り返したオブジェクトを返す
```

In [129]:
ser.repeat(repeats=2)

a    10
a    10
b   -10
b   -10
c     0
c     0
Name: series_abc, dtype: int64

```
.replace(to_replace=None, value=NoDefault.no_default, inplace=False, limit=None, regex=False, method=NoDefault.no_default)
・・・・to_replace で指定した値を value で指定した値に置換したオブジェクトを返す
```

In [130]:
ser.replace(to_replace=10, value=2222)

a    2222
b     -10
c       0
Name: series_abc, dtype: int64

In [131]:
df.replace(to_replace=10, value=222)

Unnamed: 0,A,B
0,222,11
1,-10,22
2,0,33


```
.reset_index(level=None, drop=False, name=NoDefault.no_default, inplace=False)
・・・・index を振り直したオブジェクトを返す
```

In [132]:
ser.reset_index()

Unnamed: 0,index,series_abc
0,a,10
1,b,-10
2,c,0


In [133]:
df.reset_index()

Unnamed: 0,index,A,B
0,0,10,11
1,1,-10,22
2,2,0,33


```
.round(decimals=0)
・・・・decimals で指定した桁で要素を丸めたオブジェクトを返す
```

In [134]:
ser.round(decimals=0)

a    10
b   -10
c     0
Name: series_abc, dtype: int64

In [135]:
df.round(decimals=0)

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None, ignore_index=False)
・・・・指定した axis から n 個のサンプルを取得する
```

In [136]:
ser.sample(n=2, random_state=0)

c     0
b   -10
Name: series_abc, dtype: int64

In [137]:
df.sample(n=2, random_state=0)

Unnamed: 0,A,B
2,0,33
1,-10,22


In [138]:
df.sample(n=1, random_state=0, axis=1)

Unnamed: 0,B
0,11
1,22
2,33


```
.sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quicksort', na_position='last', sort_remaining=True, ignore_index=False, key=None)
・・・・index をソートしたオブジェクトを返す
```

In [139]:
ser.sort_index()

a    10
b   -10
c     0
Name: series_abc, dtype: int64

In [140]:
df.sort_index()

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
・・・・指定した index / column でソートしたオブジェクトを返す
```

In [141]:
ser.sort_values()

b   -10
c     0
a    10
Name: series_abc, dtype: int64

In [142]:
df.sort_values(by="A")

Unnamed: 0,A,B
1,-10,22
2,0,33
0,10,11


In [143]:
df.sort_values(by=0, axis=1, ascending=False)

Unnamed: 0,B,A
0,11,10
1,22,-10
2,33,0


```
.sum(axis=None, skipna=True, level=None, numeric_only=None, min_count=0)
・・・・axis で指定した軸の総和を返す
```

In [144]:
ser.sum()

0

In [145]:
df.sum()

A     0
B    66
dtype: int64

In [146]:
df.sum(axis=1)

0    21
1    12
2    33
dtype: int64

```
.tail(n=5)
・・・・下位 n 行目までのオブジェクトを返す
```

In [147]:
ser.tail()

a    10
b   -10
c     0
Name: series_abc, dtype: int64

In [148]:
df.tail(2)

Unnamed: 0,A,B
1,-10,22
2,0,33


```
.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict', storage_options=None)
・・・・path_or_buf で指定したファイルに CSV 形式で出力する
```

In [149]:
ser.to_csv("series_0.csv")

In [150]:
ser.to_csv("series_1.csv", index=False)

In [151]:
df.to_csv("dataframe_0.csv")

In [152]:
df.to_csv("dataframe_1.csv", index=False)

```
.to_dict(into=<class 'dict'>)
・・・・オブジェクトの辞書型を返す
```

In [153]:
ser.to_dict()

{'a': 10, 'b': -10, 'c': 0}

In [154]:
df.to_dict()

{'A': {0: 10, 1: -10, 2: 0}, 'B': {0: 11, 1: 22, 2: 33}}

```
.to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None, storage_options=None)
・・・・path_or_buf で指定した名称の excel ファイルを出力する
```

In [155]:
ser.to_excel("series.xlsx")

In [156]:
df.to_excel("dataframe.xlsx")

```
.to_json(path_or_buf=None, orient=None, date_format=None, double_precision=10, force_ascii=True, date_unit='ms', default_handler=None, lines=False, compression='infer', index=True, indent=None, storage_options=None)
・・・・path_or_buf で指定した名称の json ファイルを出力する
```

In [157]:
ser.to_json("series.json")

In [158]:
df.to_json("dataframe.json", indent=2)

```
.to_list()
・・・・Series をリストに変換して返す
```

In [159]:
ser.to_list()

[10, -10, 0]

```
.to_numpy(dtype=None, copy=False, na_value=NoDefault.no_default)
・・・・Series を numpy.ndarray に変換して返す
```

In [160]:
ser.to_numpy()

array([ 10, -10,   0], dtype=int64)

```
.to_pickle(path, compression='infer', protocol=5, storage_options=None)
・・・・.pickle 形式で出力する（compression にてファイル圧縮も可）
```

In [161]:
ser.to_pickle("series.pickle")

In [162]:
df.to_pickle("dataframe.pickle")

In [163]:
df.to_pickle("dataframe.pickle.zip", compression="zip")

```
.unique()
・・・・重複のない要素の numpy.ndarray を返す
```

In [164]:
ser_nan.unique()

array([None, 1, <NA>, nan], dtype=object)

```
.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)
・・・・行の数をカウントした結果を返す
```

In [165]:
ser.value_counts()

 10    1
-10    1
 0     1
Name: series_abc, dtype: int64

In [166]:
df.value_counts()

A    B 
-10  22    1
 0   33    1
 10  11    1
dtype: int64

```
.where(cond, other=NoDefault.no_default, inplace=False, axis=None, level=None, errors=NoDefault.no_default, try_cast=NoDefault.no_default)
・・・・cond の条件式に合わない要素以外を NaN としたオブジェクトを返す
```

In [167]:
ser.where(cond=ser>0)

a    10.0
b     NaN
c     NaN
Name: series_abc, dtype: float64

In [168]:
df.where(cond=df>0)

Unnamed: 0,A,B
0,10.0,11
1,,22
2,,33


## pandas の関数

例えば，ライブラリを用いずにファイルを読み書きする場合を考えると，いちいちファイル open / close，または with ブロック内で処理を書く必要がありますが，pandas の関数を用いると，少し複雑な処理を加えて読み込んだりする場合もほぼ 1 ラインでコーディングが可能です．  
Series / DataFrame のメソッドとかぶるものも多く，以下では，メソッドにない関数で普段遣いのもののみをまとめていきます．  
pandas の関数の一部の一覧は以下で，モノによっては引数の種類が膨大なものもありますが，いつも使う引数は限られているので，普段使う実装を記載します．

| 関数 | 説明 |
| - | - |
| pd.read_pickle(filepath_or_buffer, compression='infer', storage_options=None) | .pickle ファイルを読み込む |
| pd.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None) | .csv ファイルを読み込む |
| pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=None, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, decimal='.', comment=None, skipfooter=0, convert_float=None, mangle_dupe_cols=True, storage_options=None) | excel ファイルを読み込む |
| pd.read_json(path_or_buf=None, orient=None, typ='frame', dtype=None, convert_axes=None, convert_dates=True, keep_default_dates=True, numpy=False, precise_float=False, date_unit=None, encoding=None, encoding_errors='strict', lines=False, chunksize=None, compression='infer', nrows=None, storage_options=None) | .json ファイルを読み込む |
| pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True) | objs にて指定する二つの DataFrame を axis 方向に結合する |

```
pd.read_pickle(filepath_or_buffer, compression='infer', storage_options=None)
・・・・.pickle ファイルを読み込む
```

In [169]:
pd.read_pickle("dataframe.pickle.zip")

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
pd.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)
・・・・.csv ファイルを読み込む
```

名前のないカラムは "Unnamed: ?" （? は自動的に 0 から順番に割り当てられる数字）として付与されます．

In [170]:
pd.read_csv("dataframe_0.csv")

Unnamed: 0.1,Unnamed: 0,A,B
0,0,10,11
1,1,-10,22
2,2,0,33


テーブルデータのヘッダとなるカラム名が無い場合は header=None とします．  
また，カラム名としたい行が n 行目にある場合（例えば，.csv ファイルの先頭の数行が設定値の説明が記載されていて飛ばして読み込みたい場合）は header=n-1 とします．

In [171]:
pd.read_csv("dataframe_0.csv", header=None)

Unnamed: 0,0,1,2
0,,A,B
1,0.0,10,11
2,1.0,-10,22
3,2.0,0,33


In [172]:
pd.read_csv("dataframe_0.csv", header=1)

Unnamed: 0,0,10,11
0,1,-10,22
1,2,0,33


読み込んだ後，列名を変更したい場合は，names にリストやタプルでつけたい名称を渡します．

In [173]:
pd.read_csv("dataframe_0.csv", names=("col0", "col1", "col2"))

Unnamed: 0,col0,col1,col2
0,,A,B
1,0.0,10,11
2,1.0,-10,22
3,2.0,0,33


読み込んだ後，行名をどこかの列のデータとしたい場合は，index_col に列名を文字型で与えます．

In [174]:
pd.read_csv("dataframe_0.csv", index_col="A")

Unnamed: 0_level_0,Unnamed: 0,B
A,Unnamed: 1_level_1,Unnamed: 2_level_1
10,0,11
-10,1,22
0,2,33


読み込むファイルでいらないカラムがある場合は，読み込みたいカラム名だけを usecols にタプルやリストで渡すと，不要な列が読み込まれません．

In [175]:
pd.read_csv("dataframe_0.csv", usecols=["A", "B"])

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=None, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, parse_dates=False, date_parser=None, thousands=None, decimal='.', comment=None, skipfooter=0, convert_float=None, mangle_dupe_cols=True, storage_options=None)
・・・・excel ファイルを読み込む
```

sheet_name にシート名を指定することができ，整数型だとシートの何枚目か，文字型だとシート名を与えることで，読み込むシートを指定できます．  
後の引数の扱い方は read_csv とほとんど同じです．

In [176]:
pd.read_excel("dataframe.xlsx", sheet_name=0, index_col=0)

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
pd.read_json(path_or_buf=None, orient=None, typ='frame', dtype=None, convert_axes=None, convert_dates=True, keep_default_dates=True, numpy=False, precise_float=False, date_unit=None, encoding=None, encoding_errors='strict', lines=False, chunksize=None, compression='infer', nrows=None, storage_options=None)
・・・・.json ファイルを読み込む
```

In [177]:
pd.read_json("./dataframe.json")

Unnamed: 0,A,B
0,10,11
1,-10,22
2,0,33


```
pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)
・・・・objs にて指定する二つの DataFrame を axis 方向に結合する
```

In [178]:
pd.concat(objs=[df, df_nan], axis=0)

Unnamed: 0,A,B,C
0,10.0,11.0,
1,-10.0,22.0,
2,0.0,33.0,
0,1.0,,0.0
1,,,
2,0.0,,


In [179]:
pd.concat(objs=[df, df_nan], axis=1)

Unnamed: 0,A,B,A.1,B.1,C
0,10,11,1.0,,0.0
1,-10,22,,,
2,0,33,0.0,,


## 演習問題

- Q.1: フリーの花のアヤメの分類データセットを一つの pandas.DataFrame として定義し，表示させましょう．（https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv にアクセスいただき，web ページ上で右クリックし，メニューから 名前をつけて保存 でローカルに .csv ファイルとして保存できます．scikit-learn がインストール済みであれば datasets.load_iris() でも読み込み可能ですが，その場合は，目的変数のカラム名を "species" とし，目的変数の要素をアヤメの品種も文字列に置き換えてください．）

- Q.2: 説明変数の sepal は花のがく片，petal は花の花弁を表します．上記で生成した DataFrame に，例えば次の特徴量を追加してみましょう．
    - がく片を長方形と近似し，"sepal length (cm)" と "sepal width (cm)" を用いて "sepal area (cm^2)" という特徴量を追加しましょう．
    - 花弁を長方形と近似し，"petal length (cm)" と "petal width (cm)" を用いて "petal area (cm^2)" という特徴量を追加しましょう．

- Q.3: 上記で生成した DataFrame について，説明変数の各カラムの主要統計量を一行で出してみましょう．

- Q.4: 説明変数の各カラムの主要統計量について，品種別 ("species" ごと) で見てみましょう．ここで，DataFrame の df における "species" カラムの値が "setosa" である部分を抜き取るためには，`df[df["species"]=="setosa"]` とすることで，条件にマッチした DataFrame が返されます．品種の種類は `set(df(["species"]))` にて確認できます．

- Q.5: 説明変数の相関係数行列を一行で出してみましょう．

- Q.6: 追加した特徴量の "sepal area (cm^2)" はあまり意味がなさそうなので，このカラムを削除しましょう．

- Q.7: 上記まで作成していた DataFrame を別名でコピーしてください．

- Q.8: コピーした DataFrame について，目的変数の "species" 以外のカラムについて 0 ～ 1 へ正規化してください．ここで正規化とは，各カラムの値が最小値 0，最大値 1 へリスケーリングさせることを言い，数列 $X$ に対し $i$ 番目の要素 $x_i$ とすると，要素の最大値 $x_{max}$ と最小値 $x_{min}$ を用いて，正規化後の $i$ 番目の要素の値 $x_i^+$ は，次で示すことができます．

$$
x_i^+ = \frac{x_i - x_{min}}{x_{max} - x_{min}}
$$

- Q.9: 正規化後の DataFrame について，データの 75 % の行をランダムに抜き取った DataFrame を新たな変数 train に格納し，残りの 25 % の行の DataFrame を新たな変数 test に格納しましょう．

- Q.10: Q.9 にて作成した train, test を pickle 形式かつ圧縮して保存しましょう．