#  Pandasの基礎

- **[1.1 Pandasの概観](#1.1-Pandasの概観)**
    - **[1.1.1 Pandasとは](#1.1.1-Pandasとは)**
    - **[1.2.2 SeriesとDataFrameのデータの確認](#1.1.2-SeriesとDataFrameのデータの確認)**
<br><br>
- **[1.2 Series](#1.2-Series)**
    - **[1.2.1 Seriesを生成する](#1.2.1-Seriesを生成する)**
    - **[1.2.2 参照](#1.2.2-参照)**
    - **[1.2.3 データ、インデックスを取り出す](#1.2.3-データ、インデックスを取り出す)**
    - **[1.2.4 要素を追加する](#1.2.4-要素を追加する)**
    - **[1.2.5 要素を削除する](#1.2.5-要素を削除する)**
    - **[1.2.6 フィルタリング](#1.2.6-フィルタリング)**
    - **[1.2.7 ソート](#1.2.7-ソート)**
<br><br>
- **[1.3 DataFrame](#1.3-DataFrame)**
    - **[1.3.1 DataFrameの生成](#1.3.1-DataFrameの生成)**
    - **[1.3.2 インデックスとカラムを設定する](#1.3.2-インデックスとカラムを設定する)**
    - **[1.3.3 行を追加する](#1.3.3-行を追加する)**
    - **[1.3.4 列を追加する](#1.3.4-列を追加する)**
    - **[1.3.5 データの参照](#1.3.5-データの参照)**
    - **[1.3.6 名前による参照](#1.3.6-名前による参照)**
    - **[1.3.7 番号による参照](#1.3.7-番号による参照)**
    - **[1.3.8 行または列の削除](#1.3.8-行または列の削除)**
    - **[1.3.9 ソート](#1.3.9-ソート)**
    - **[1.3.10 フィルタリング](#1.3.10-フィルタリング)**
<br><br>
- **[1.4 添削問題](#1.4-添削問題)**

***

## 1.1 Pandasの概観

### 1.1.1 Pandasとは

**<font color=##AA0000>Pandas</font>** もNumpyのようにデータの集合を扱うためのライブラリです。Numpyはデータを数学的な行列として扱うことができ、科学計算に特化しています。一方、Pandasでは **一般的なデータベースにて行われる操作が実行でき、数値以外にも氏名や住所といった文字列データも簡単に扱うことができます。** データ分析においてNumpyとPandasを使い分けることで効率的にデータ分析を行うことができます。

Pandasには **Series** と **DataFrame** という二種類のデータ構造が存在します。主に使われるデータ構造は以下の二次元のテーブルで表される **DataFrame** です。横方向のデータを行、縦方向のデータを列と呼びます。各行、各列に対してそれぞれラベルが付与されており、行ラベルは **インデックス** 、列ラベルは **カラム** と言います。 **Series** は1次元の配列で、**DataFrame**の行、もしくは列として捉えることができます。こちらも各要素にラベルが付与されています。

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/dataframe_q.png", style="width: 300px;">

**DataFrameのラベル情報**
```
インデックス：[0, 1, 2, 3, 4]
カラム：["Prefecture", "Area", "Population", "Region"]
```

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/series_q.png">

**Seriesのラベル情報**
```
インデックス:[0, 1, 2, 3, 4]
```



#### 問題

- 次のDataFrameのカラムは次の選択肢のうちのどれでしょうか
<br><br>
<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/dataframe_q.png" style="width: 300px;">

- `"Prefecture", "Area", "Population", "Region"`
- 0, 1, 2, 3, 4

#### ヒント

- カラムは列のラベル、つまり縦方向のデータにそれぞれつけられているラベルのことです。

#### 解答例

- `"Prefecture", "Area", "Population", "Region"`

***

### 1.1.2 SeriesとDataFrameのデータの確認

Pandasには **Series** と **DataFrame** という二種類のデータ構造が存在することを先ほど述べました。実際にどのようなデータとなっているのか確認してみましょう。  
**Series** では辞書型を渡すことで辞書のキーで昇順にソートされます。  
**DataFrame**も同様に、columnsを指定しないと、昇順にソートされます。  
指定する場合は以下のように第二引数にcolumns=[リスト型]のようにする必要があります。  
pd.DataFrame(data, columns=["year", "pref", "count"])

<br>
**Seriesのデータ**
```python
fruits = {"orange": 2, "banana": 3}
print(pd.Series(fruits))
# 出力結果
banana    3
orange    2
dtype: int64

```
<br>

**DataFrameのデータ**
```python
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)
print(df)
# 出力結果
       fruits  time  year
0       apple     1  2001
1      orange     4  2002
2      banana     5  2001
3  strawberry     6  2008
4   kiwifruit     3  2006
```        


#### 問題

- 右記のコードを実行して、SeriesとDataFrameがどのようなデータなのか確認してください。
- Series、DataFrameのデータの作り方は後の節で扱いますので、Seriesはラベルのついた1次元のデータで、
<br>DataFrameはSeriesを束ねたような2次元のデータ構造をしていることが確認できればOKです。

In [None]:
# pandasをpdとしてimport
import pandas as pd

# Series用のラベル作成（インデックス）
index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# Series用のデータ値の代入
data = [10, 5, 8, 12, 3]

# Series作成
series = pd.Series(data, index=index)


# 辞書型を用いてDataFrame用のデータの作成
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}

# DataFrame作成
df = pd.DataFrame(data)

print("Seriesデータ")
print(series)
print("\n")
print("DataFrameデータ")
print(df)

#### ヒント

- 右記のコードでは、Seriesではインデックスを指定して作成しています。指定しない場合は0から昇順に番号が振られます。
- DataFrameの行のインデックスには、0から昇順に番号が振られています。

#### 解答例

In [None]:
# pandasをpdとしてimport
import pandas as pd

# Series用のラベル作成（インデックス）
index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# Series用のデータ値の代入
data = [10, 5, 8, 12, 3]

# Series作成
series = pd.Series(data, index=index)


# 辞書型を用いてDataFrame用のデータの作成
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}

# DataFrame作成
df = pd.DataFrame(data)

print("Seriesデータ")
print(series)
print("\n")
print("DataFrameデータ")
print(df)

***

## 1.2 Series

### 1.2.1 Seriesを生成する

Pandasのデータ構造のうちの1つである Series は1次元の配列のように扱うことができます。pandasをimportし、pandas.Series(辞書型のリスト)のように辞書型のリストを渡すことでSeriesを生成できます。なお、import pandas as pdと書くと、pandas.Seriesをpd.Seriesと省略できます。(以下より、pandasはpdと表記します。)また、データとそれに関連付けたインデックスを指定することでもSeriesを生成できます。pd.Series(データ配列, index=インデックス配列)と指定することでSeriesを生成できます。インデックスを指定しない場合は0から順の整数がインデックスとして付きます。

また、Seriesを出力した際に「`dtype: int64`」と出力されるのですが、 **Seriesに格納されている値が ”int64” という型であること** を示しています。`dtype` とは “Data type” のことで、データの型を指します。(データが整数であれば“int”、小数点を持つものであれば“float” など)`int64` とは64bitのサイズを持つ整数のことで、$-2^{63}$ ~ $2^{63}-1$ までの整数を扱うことができます。`dtype` には他にも `int32` など同じ整数でもサイズの異なるものや、0か1のみを値に持つ `bool` という型などがあります。

```python
fruits = {"banana": 3, "orange": 2}
print(pd.Series(fruits))
# 出力結果
banana    3
orange    2
dtype: int64

```

#### 問題

- `pandas`を`import`してください。
- データに`data`、インデックスに`index`を指定したSeriesを作成し`series`に代入してください。
- 大文字で始まるSeriesはデータ型の名前、小文字で始まるseriesは変数名です。

In [None]:
# pandasをpdとしてimport


index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]

# indexとdataを含むSeriesを作成しseriesに代入してください


print(series)

#### ヒント

- `pandas`を`import`することで、Seriesを用いることができます。
- `pd.Series(データ配列, index=インデックス配列)`と指定することでSeriesを生成できます。

#### 解答例

In [None]:
# pandasをpdとしてimport
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]

# indexとdataを含むSeriesを作成しseriesに代入してください
series = pd.Series(data, index=index)

print(series)

***

### 1.2.2 参照

Seriesの要素を参照するとき、リストのように番号を指定する方法とインデックス値を指定する方法が使えます。番号を指定する場合は、リストのスライス機能のように`series[:3]`と指定することで、任意の範囲を取り出すことができます。インデックス値を指定する場合は、欲しい要素のインデックス値を一つのリストにまとめてから参照することができます。リストではなく1つの整数値を指定した場合は、その位置に該当するデータのみを取り出すことができます。

```python
fruits = {"banana": 3, "orange": 4, "grape": 1, "peach": 5}
series = pd.Series(fruits)
print(series[0:2])
# 出力結果
banana    3
orange    4
```

```python
print(series[["orange", "peach"]])
# 出力結果
orange    4
peach     5
```

#### 問題

- インデックス参照を用いて`series`の2つ目から4つ目までの3つの要素を取り出して`items1`に代入して下さい。
- インデックス値を指定する方法を用いて`"apple", "banana", "kiwifruit"`のインデックスと持つ要素を取り出して`items2`に代入してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# インデックス参照を用いてseriesの2つ目から4つ目までの3つの要素を取り出してitems1に代入して下さい


# インデックス値を指定する方法を用いて"apple", "banana", "kiwifruit"のインデックスと持つ要素を取り出してitems2に代入してください


print(items1)
print()
print(items2)

#### ヒント

- インデックス値を指定する場合は、リストのスライス機能のように`series[:3]`と指定することで、任意の範囲を取り出すことができます。
- インデックス値を指定する場合は、欲しい要素のインデックス値を一つのリストにまとめてから参照することができます。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# インデックス参照を用いてseriesの2つ目から4つ目までの3つの要素を取り出してitems1に代入して下さい
items1 = series[1:4]

# インデックス値を指定する方法を用いて"apple", "banana", "kiwifruit"のインデックスと持つ要素を取り出してitems2に代入してください
items2 = series[["apple", "banana", "kiwifruit"]]

print(items1)
print()
print(items2)

***

### 1.2.3 データ、インデックスを取り出す

作成したSeriesのデータの値のみ、またはインデックスのみを取り出す方法が用意されています。Series型において`series.values`とするとデータの値、`series.index`とするとインデックスを参照することができます。

#### 問題

- 変数`series_values`に`series`のデータを代入してください
- 変数`series_index`に`series`のインデックスを代入してください

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# series_valuesにseriesのデータを代入してください


# series_indexにseriesのインデックスを代入してください


print(series_values)
print(series_index)

#### ヒント

- Series型のデータ`series`において`series.values`とするとデータの値、`series.index`とするとインデックスを参照することができます。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# series_valuesにseriesのデータを代入してください
series_values = series.values

# series_indexにseriesのインデックスを代入してください
series_index = series.index

print(series_values)
print(series_index)

***

### 1.2.4 要素を追加する

**Seriesに要素を追加する場合、追加する要素もまたSeries型である必要があります。** 追加したい要素をあらかじめSeries型に変換した後、追加先のSeries型の`append()`に渡すことで要素を追加することができます。


```python
fruits = {"banana": 3, "orange": 2}
series = pd.Series(fruits)
series = series.append(pd.Series([3], index=["grape"]))
```

#### 問題

- `series`に、インデックスが`"pineapple"`、データが12の要素を追加してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# seriesに、インデックスが"pineapple"、データが12の要素を追加してください。



print(series)

#### ヒント

- 追加したい要素をあらかじめSeries型に変換した後、追加先のSeries型の`append()`に渡すことで要素を追加することができます。

#### 解答例

In [1]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# seriesに、インデックスが"pineapple"、データが12の要素を追加してください。
pineapple = pd.Series([12], index=["pineapple"])
series = series.append(pineapple)
#series = series.append(pd.Series({"pineapple":12}))でもOK

print(series)

apple         10
orange         5
banana         8
strawberry    12
kiwifruit      3
pineapple     12
dtype: int64


***

### 1.2.5 要素を削除する

Seriesのインデックス参照を用いて、要素を削除することができます。Series型の変数`series`において、`series.drop("インデックス")`とすることで指定されたインデックスを持つ要素を削除することができます。

#### 問題

- `series`のインデックスがstrawberryの要素を削除したSeriesをseriesに代入してください

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]

# indexとdataを含むSeriesを作成しseriesに代入
series = pd.Series(data, index=index)

# インデックスがstrawberryの要素を削除してseriesに代入してください


print(series)

#### ヒント

- Series型の変数`series`において、`series.drop("インデックス")`とすることで指定されたインデックスを持つ要素を削除することができます。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]

# indexとdataを含むSeriesを作成しseriesに代入
series = pd.Series(data, index=index)

# インデックスがstrawberryの要素を削除してseriesに代入してください
series = series.drop("strawberry")

print(series)

***

### 1.2.6 フィルタリング

Series型のデータにおいて条件に一致する要素を取り出したい場合があります。Pandasでは`bool` **型のシーケンスを指定すると、** `True` **となるものだけを抽出することができます。** シーケンスとは、「連続」「順序」のことを言います。

```python
index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

conditions = [True, True, False, False, False]
print(series[conditions])
# 出力結果
apple     10
orange     5
dtype: int64  
```

ここでは`bool`型のシーケンスを作成しましたが、Pandasでは **Series（やDataFrame）を使って条件式を作成すると`bool`型のシーケンスを取得** することができます。これを用いることで、例えばSeries型の変数`series`に対して、`series[series >= 5]`とすると値が5以上の要素のみを含むSeriesを得ることができます。また、`series[ ][ ]`のように`[ ]`を複数個後ろに付け加えることで複数の条件を付け加えることができます。

```python
print(series[series >= 5])
# 出力結果
apple         10
orange         5
banana         8
strawberry    12
dtype: int64

```

#### 問題

- `series`内の要素のうち、値が5以上10未満の要素を含むSeriesを作り、`series`に再代入してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# series内の要素のうち、値が5以上10未満の要素を含むSeriesを作り、seriesに再代入してください


print(series)

#### ヒント

- Series型の変数`series`に対して、`series[series >= 5]`とすると値が5以上の要素のみを含むSeriesを得ることができます。
- 条件を複数個つけたい場合は`series[][]`のようにさらに後ろに付け加えれば良いです。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# series内の要素のうち、値が5以上10未満の要素を含むSeriesを作り、seriesに再代入してください
series = series[series >= 5][series < 10]

print(series)

***

### 1.2.7 ソート

Seriesでは、インデックスについてのソートとデータについてソートする二つの方法が用意されています。Series型の変数`series`に対して、インデックスについてのソートは`series.sort_index()`、データについてのソートは`series.sort_values()`で行うことができます。 **特に指定をしない限りは昇順にソートされます** が、引数に`ascending=False`を渡すことで降順にソートされます。

#### 問題

- `series`をインデックスについてアルファベット順にソートしたSeriesを`items1`に代入にしてください。
- `series`をデータについて値の大きさを昇順にソートしたSeriesを`items2`に代入してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# seriesをインデックスについてアルファベット順にソートしたSeriesをitems1に代入にしてください。


# seriesをデータについて値の大きさを昇順にソートしたSeriesをitems2に代入してください。


print(items1)
print()
print(items2)

#### ヒント

- Series型の変数`series`に対してインデックスについてのソートは`series.sort_index()`、データについてのソートは`series.sort_values()`で行うことができます。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data = [10, 5, 8, 12, 3]
series = pd.Series(data, index=index)

# seriesをインデックスについてアルファベット順にソートしたSeriesをitems1に代入にしてください。
items1 = series.sort_index()

# seriesをデータについて値の大きさを昇順にソートしたSeriesをitems2に代入してください。
items2 = series.sort_values()

print(items1)
print()
print(items2)

***

## 1.3 DataFrame

### 1.3.1 DataFrameの生成

**<font color=#AA0000>DataFrame</font>** は、Seriesを複数束ねたような2次元のデータ構造をしています。`pd.DataFrame()`に  **Series** を渡すことでDataFrameを生成することができます。行には0から昇順に番号がつきます。

```python
pd.DataFrame([Series, Series, ...])
```

また、バリューにリスト型を持った辞書型を用いても作成することができます。注意点としては、リスト型の長さは等しくなくてはいけません。

**コード**
```python
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)
print(df)
```
**出力結果**
```python
       fruits  time  year
0       apple     1  2001
1      orange     4  2002
2      banana     5  2001
3  strawberry     6  2008
4   kiwifruit     3  2006
```

#### 問題

- `series1`, `series2`からDataFrameを生成して`df`に代入してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

# series1, series2からDataFrameを生成してdfに代入してください


# 出力
print(df)

#### ヒント

- `pd.DataFrame([Series, Series, ...])`

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

# series1, series2からDataFrameを生成してdfに代入してください
df = pd.DataFrame([series1, series2])

# 出力
print(df)

***

### 1.3.2 インデックスとカラムを設定する

DataFrameでは、行の名前をインデックス、列の名前をカラムと呼びます。特に指定をしないでDataFrame作成した場合、インデックスは0から昇順に数字が割り当てられます。また、カラムは元データであるSeriesのindexや辞書型のキーになります。DataFrame型の変数dfのインデックスはdf.indexに行数と同じ長さのリストを代入することで設定できます。dfのカラムはdf.columnsに列数と同じ長さのリストを代入することで設定することができます。
```python
df.index = ["name1", "name2"]
```

#### 問題

- DataFrame型の変数`df`のインデックスを`[0, 1]`から`[1, 2]`に設定してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)
df = pd.DataFrame([series1, series2])

# dfのインデックスが1から始まるように設定してください

# 出力
print(df)

#### ヒント

- DataFrame型の変数`df`のインデックスは`df.index`に行数と同じ長さのリストを代入することで設定できます。
- `df`のカラムは`df.columns`に列数と同じ長さの配列を代入することで設定することができます。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)
df = pd.DataFrame([series1, series2])

# dfのインデックスが1から始まるように設定してください
df.index = [1, 2]

# 出力
print(df)

***

### 1.3.3 行を追加する

新しい観測データや取引情報を得たとき、それらを既存のDataFrameに追加したい場合があります。`DataFrame`型の変数`df`に対して`df.append("Series型のデータ", ignore_index=True)`を実行すると、渡したSeries型のデータのインデックスが`df`のカラムに対応した上で新しい行が追加されたDataFrameが生成されます。ただし、`df`のカラムと`df`に追加するSeries型のデータのインデックスが一致しない場合は、`df`にて新しいカラムが追加され値が存在しない要素は`NaN`で埋められます。

**コード**
```python
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)
series = pd.Series(["mango", 2008, 7], index=["fruits", "year", "time"])

df = df.append(series, ignore_index=True)
print(df)
```
**出力結果**
```python
       fruits  time  year
0       apple     1  2001
1      orange     4  2002
2      banana     5  2001
3  strawberry     6  2008
4   kiwifruit     3  2006
5       mango     7  2008
```

#### 問題

- DataFrame型の変数`df`に新しい行として`series3`を追加してください。
- DataFrameのカラムと追加するSeriesのインデックスが一致しないときの挙動を確認してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
data3 = [30, 12, 10, 8, 25, 3]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)
# dfにseries3を追加し、dfに再代入してください
index.append("pineapple")
series3 = pd.Series(data3, index=index)
df = pd.DataFrame([series1, series2])
#dfに再代入してください


# 出力
# dfと追加するSeriesのインデックスが一致しない時の挙動を確認しましょう
print(df)

#### ヒント

- `DataFrame`型の変数`df`に対して`df.append("Series型のデータ", ignore_index=True)`を実行すると、渡したSeries型のデータのインデックスが`df`のカラムに対応した上で新しい行が追加されたDataFrameが生成されます。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
data3 = [30, 12, 10, 8, 25, 3]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)
# dfにseries3を追加し、dfに再代入してください
index.append("pineapple")
series3 = pd.Series(data3, index=index)
df = pd.DataFrame([series1, series2])
#dfに再代入してください
df = df.append(series3, ignore_index=True)

# 出力
# dfと追加するSeriesのインデックスが一致しない時の挙動を確認しましょう
print(df)

***

### 1.3.4 列を追加する

観測データや取引情報に新しい属性を追加するとき、それらを既存のDataFrameに追加したい場合があります。DataFrame型の変数`df`に対して`df["新しいカラム"]`にSeriesもしくはリストを代入することで新しい列を追加できます。リストを代入した場合は最初行から最初の要素が割り当てられ、Seriesを代入した場合はSeriesのインデックスが`df`のインデックスに対応します。

**コード**
```python
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)

df["price"] = [150, 120, 100, 300, 150]
print(df)
```
**出力結果**
```python
       fruits  time  year  price
0       apple     1  2001    150
1      orange     4  2002    120
2      banana     5  2001    100
3  strawberry     6  2008    300
4   kiwifruit     3  2006    150
```

#### 問題

- `df`の`"mango"`という名の新しい列に`new_column`のデータを追加してください。

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

new_column = pd.Series([15, 7], index=[0, 1])

# series1, seires2からDataFrameを生成
df = pd.DataFrame([series1, series2])

# dfの新しい列"mango"にnew_columnのデータを追加してください


# 出力
print(df)

#### ヒント

- DataFrame型の変数`df`に対して`df["新しいカラム"]`にSeriesもしくはリストを代入することで新しい列を追加できます。
- リストを代入した場合は最初行から最初の要素が割り当てられ、Seriesを代入した場合はSeriesのインデックスが`df`のインデックスに対応します。

#### 解答例

In [None]:
import pandas as pd

index = ["apple", "orange", "banana", "strawberry", "kiwifruit"]
data1 = [10, 5, 8, 12, 3]
data2 = [30, 25, 12, 10, 8]
series1 = pd.Series(data1, index=index)
series2 = pd.Series(data2, index=index)

new_column = pd.Series([15, 7], index=[0, 1])

# series1, seires2からDataFrameを生成
df = pd.DataFrame([series1, series2])

# dfの新しい列"mango"にnew_columnのデータを追加してください
df["mango"] = new_column

# 出力
print(df)

***

### 1.3.5 データの参照

DataFrameのデータは行と列を指定することで参照ができます。行、列の指定の仕方により参照の仕方が以下の図のように変わります。参照の方法はいくつかありますが、この教材では`loc`, `iloc`を扱います。`loc`は **名前による参照** を行い、`iloc`は **番号による参照** を行います。
<br><br>

<img src="https://aidemyexcontentspic.blob.core.windows.net/contents-pic/4010_pandas/reference.png" style="width: 600px;">

#### 問題

- DataFrameのデータに対し、名前による参照を行うのは次の選択肢のうちどちらでしょうか。

- loc
- iloc

#### ヒント

- locは名前による参照を行い、ilocは番号による参照を行います。 

#### 解答例

- loc

***

### 1.3.6 名前による参照

DataFrame型のデータの名前、つまりインデックス、カラム名を使って参照する場合はlocを使用します。DataFrame型の変数`df`に対して`df.loc["インデックスのリスト", "カラムのリスト"]`と指定することで該当する範囲のDataFrameを得ることができます。

```python
print(df)
# 出力結果
       fruits  time  year
0       apple     1  2001
1      orange     4  2002
2      banana     5  2001
3  strawberry     6  2008
4   kiwifruit     3  2006
```
のとき
```python
df = df.loc[[1,2],["time","year"]]
print(df)
# 出力結果
       time    year
1      4      2002
2      5      2001
```

#### 問題

- `loc[]`を使って`df`の2行目から5行目までの4行と、`"banana"`, `"kiwifruit"`の2列を含むDataFrameを`df`に代入してください
- インデックスは先頭の行が1、以降は整数値が昇順に付けられています。

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# loc[]を使ってdfの2行目から5行目までの4行と、"banana", "kiwifruit"の2列を含むDataFrameをdfに代入してください
# インデックスは先頭の行が1、以降は整数値が昇順に付けられています


print(df)

#### ヒント

- DataFrame型の変数`df`に対して`df.loc["インデックスのリスト", "カラムのリスト"]`と指定することで該当する範囲のDataFrameを得ることができます。

#### 解答例

In [8]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
    # range(開始行数, 終了行数-1)です
df.index = range(1, 11)

# loc[]を使ってdfの2行目から5行目までの4行と、"banana", "kiwifruit"の2列を含むDataFrameをdfに代入してください
# インデックスは先頭の行が1、以降は整数値が昇順に付けられています
df = df.loc[range(2,6),["banana","kiwifruit"]]

print(df)

   banana  kiwifruit
2      10         10
3       9          1
4      10          5
5       5          8


***

### 1.3.7 番号による参照

インデックス、カラムの番号でDataFrame型のデータを参照する場合はilocを使用します。DataFrame型の変数`df`に対して`df.iloc["行番号のリスト","列番号のリスト"]`と指定することで該当する範囲のDataFrameを得ることができます。行、列ともに番号は0から始まります。リストを渡す他にスライス機能を使うこともできます。

```python
print(df)
# 出力結果
       fruits  time  year
0       apple     1  2001
1      orange     4  2002
2      banana     5  2001
3  strawberry     6  2008
4   kiwifruit     3  2006
```
のとき
```python
df = df.iloc[[1, 3], [0, 2]]
print(df)
# 出力結果
       fruits  year
1      orange  2002
3  strawberry  2008
```

#### 問題

- `iloc[]`を使って`df`の2行目から5行目までの4行と、`"banana"`,` "kiwifruit"`の2列を含むDataFrameを`df`に代入してください

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# iloc[]を使ってdfの2行目から5行目までの4行と、"banana", "kiwifruit"の2列を含むDataFrameをdfに代入してください


print(df)

#### ヒント

- DataFrame型の変数`df`に対して`df.iloc["行番号のリスト","列番号のリスト"]`と指定することで該当する範囲のDataFrameを得ることができます。
- 行、列ともに番号は0から始まります。
- リストを渡す他にスライス機能を使うこともできます。

#### 解答例

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# iloc[]を使ってdfの2行目から5行目までの4行と、"banana", "kiwifruit"の2列を含むDataFrameをdfに代入してください
df = df.iloc[range(1,5), [2, 4]] # スライスを用いて df = df.iloc[1:5, [2, 4]] でも可能です

print(df)

***

### 1.3.8 行または列の削除

DataFrame型の変数`df`に対して`df.drop()`にインデックスまたはカラムを指定することで該当する行または列が削除されたDataFrameを生成します。インデックスまたはカラムをリストで渡すことでまとめて削除することもできます。ただし、行と列を同時に削除することはできない上に、列を削除する場合は第2引数に`axis=1`を指定して渡す必要があります。

**コード**
```python
import pandas as pd
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "time": [1, 4, 5, 6, 3],
        "year": [2001, 2002, 2001, 2008, 2006]}
df = pd.DataFrame(data)

# drop()を用いてdfの0,1行目を削除
df_1 = df.drop(range(0, 2))

# drop()を用いてdfの列"year"を削除
df_2 = df.drop("year", axis=1)

print(df_1)
print()
print(df_2)
```
**出力結果**
```python
       fruits  time  year
2      banana     5  2001
3  strawberry     6  2008
4   kiwifruit     3  2006

       fruits  time
0       apple     1
1      orange     4
2      banana     5
3  strawberry     6
4   kiwifruit     3
```

#### 問題

- `drop()`を用いて`df`の奇数の名前がついている行のみを残して`df`に代入してください。
- `drop()`を用いて`df`の列`"strawberry"`を削除して`df`に代入してください。

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# drop()を用いてdfの奇数のインデックスがついている行のみを残してdfに代入してください


# drop()を用いてdfの列"strawberry"を削除してdfに代入してください


print(df)

#### ヒント

- DataFrame型の変数`df`に対して`df.drop()`にインデックスまたはカラムを指定することで該当する行または列が削除されたDataFrameを生成します。
- 行と列を同時に削除することはできない上に、列を削除する場合は第2引数に`axis=1`を指定して渡す必要があります。
- 偶数の数列は`numpy`を`import`し`np.arange`を使用することで作ることが可能です。

#### 解答例

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# drop()を用いてdfの奇数のインデックスがついている行のみを残してdfに代入してください
df = df.drop(np.arange(2, 11, 2))
#np.arange(2, 11, 2)は2から10までの数列を差が２になるように抜き出したものです。
#ここでは2,4,6,8,10が出力となります。
#np.arange(2,11,3)とすると2から10までの数列を差が3になるように抜き出したものになります。

# drop()を用いてdfの列"strawberry"を削除してdfに代入してください
df = df.drop("strawberry", axis=1)

print(df)

***

### 1.3.9 ソート

　DataFrame型の変数dfに対して、  
　df.sort_values(by="カラムもしくはカラムのリスト", ascending=True)とすると、列の値が昇順（小さい順）に、  
　df.sort_values(by="カラムもしくはカラムのリスト", ascending=False)とすると、列の値が降順（大きい順）にソートされたDataFrameを生成できます。
　指定をしない場合はascending=Trueとして処理されます。カラムのリストの順番が早いカラムが優先的にソートされます。  

```python
import pandas as pd
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "time": [1, 4, 5, 6, 3],
        "year": [2001, 2002, 2001, 2008, 2006]}
df = pd.DataFrame(data)
print(df)
#データを昇順にソートする(引数にカラムを指定)
df = df.sort_values(by="year", ascending = True)
print(df)

#データを昇順にソートする(引数にカラムのリストを指定)
df = df.sort_values(by=["time", "year"] , ascending = True)
print(df)
```
**出力結果**
```python
       fruits  time     year
0       apple     1    2001
1      orange    4    2002
2      banana    5    2001 
3  strawberry   6     2008
4   kiwifruit      3    2006

         fruits  time  year
0       apple     1  2001
2      banana     5  2001
1      orange     4  2002
4   kiwifruit     3  2006
3  strawberry     6  2008

       fruits  time  year
0       apple     1  2001
4   kiwifruit     3  2006
1      orange     4  2002
2      banana     5  2001
3  strawberry     6  2008
```

#### 問題

- `df`を`"apple", "orange", "banana", "strawberry", "kiwifruit"`の優先度で昇順にソートしてください。
- ソートした結果生成されたDataFrameを`df`に代入してください。

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfを"apple", "orange", "banana", "strawberry", "kiwifruit"の優先度で昇順にソートしてください
# ソートした結果生成されたDataFrameをdfに代入してください


print(df)

#### ヒント

- DataFrame型の変数`df`に対して、`df.sort_values(by="カラムのリスト", ascending=True)`とすると列の値について昇順にソートされたDataFrameを生成できます。
- リストの順番が早い列が優先的にソートされます。

#### 解答例

In [7]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# dfを"apple", "orange", "banana", "strawberry", "kiwifruit"の優先度の順に昇順にソートしてください
# ソートした結果生成されたDataFrameをdfに代入してください。第一引数であればbyは省略することも可能です。
df = df.sort_values(by=columns)

print(df)

    apple  orange  banana  strawberry  kiwifruit
2       1       7      10           4         10
9       3       9       6           1          3
7       4       8       1           4          3
3       4       9       9           9          1
4       4       9      10           2          5
10      5       2       1           2          1
8       6       8       4           8          8
1       6       8       6           3         10
5       8       2       5           4          8
6      10       7       4           4          4


***

### 1.3.10 フィルタリング

DataFrameの場合もSeriesの時と同じように、`bool`型のシーケンスを指定することで`True`のものだけを取り出すフィルタリングを実行することができます。またSeriesの場合と同様に、DataFrameを用いた条件式から`bool`型のシーケンスを取得することができます。この条件式を用いることでフィルタリングを実行できます。例えば、以下のコードでは、偶数行のデータだけを抽出しています。

**コード**
```python
data = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "time": [1, 4, 5, 6, 3]}
df = pd.DataFrame(data)
print(df.index % 2 == 0)
print()
print(df[df.index % 2 == 0])
```
**出力結果**
```python
[ True False  True False  True]

      fruits  time  year
0      apple     1  2001
2     banana     5  2001
4  kiwifruit     3  2006
```

例えば、DataFrame型の変数`df`に対して`df.loc[df["カラム"]を含む条件式]`とすることで、条件に一致する要素を含む行を持つDataFrameが生成されます。

#### 問題

- フィルタリングを用いて、`df`の`"apple"`列が5以上かつ`"kiwifruit"`列が5以上の値をもつ行を含むDataFrameを`df`に代入してください。

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# フィルタリングを用いて、dfの"apple"列が5以上かつ"kiwifruit"列が5以上の値をもつ行を含むDataFrameをdfに代入してください



print(df)

#### ヒント

- DataFrame型の変数`df`に対して`df.loc[df["カラム"]を含む条件式]`とすることで条件に一致する要素を含む行を持つDataFrameが生成されます。

#### 解答例

In [None]:
import numpy as np
import pandas as pd
np.random.seed(0)
columns = ["apple", "orange", "banana", "strawberry", "kiwifruit"]

# DataFrameを生成し、列を追加
df = pd.DataFrame()
for column in columns:
    df[column] = np.random.choice(range(1, 11), 10)
df.index = range(1, 11)

# フィルタリングを用いて、dfの"apple"列が5以上かつ"kiwifruit"列が5以上の値をもつ行を含むDataFrameをdfに代入してください
df = df.loc[df["apple"] >= 5]
df = df.loc[df["kiwifruit"] >= 5]
#df = df[(df['apple'] >= 5) & (df['kiwifruit']>= 5)] でもOK

print(df)

***