<a href="https://colab.research.google.com/github/YokoyamaLab/PythonBasics/blob/main/day07_02Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Day07 資料02 Pandas　16本ノック

In [None]:
# まず、これを実行してください。（ノート途中からやる時も必ず！）
import pandas as pd
import numpy as np # ノート中NumPyも使うので読みこんでおく
from matplotlib import pyplot as plt # Plotも使うので読み込んでおく

## 🌀データを作る【基本】

Pandasはよくデータの前処理に使うと説明されるライブラリです。Pandasの機能はデータベース(関係データベース)とNumPyの中間のような役割を持っています。つまりデータベースで使うようなテーブル操作と、NumPyでやるような行列操作の両方の機能を持っています。またCSVファイル等の静的なデータを読みこむ機能もあるため、機械学習など大量のデータ処理を伴うプロジェクトで、関係データベースやNumPy等とともに、データ管理に使われています。

Pandasは非常に大きなライブラリですので、全ての機能を学ぶには時間が足りませんが、後々興味を持った時に自学自習がやりやすいように、ここでは大切なエッセンスのみ学びます。



### 💮[1本目] データ型『シリーズ』

Pandasでのデータ表現は、リストやNumPyのndarrayと異なり、皆さんがエクセルで作る表のようなものだと捉えてください。表は基本的には行方向に延びていき、また行や列には名前があったりします。

Pandasで元も単純なデータモデルはシリーズです。

In [None]:
# Pythonのリスト
k1_height_list = [180,171,175,164,155,173,168]
# Pandasのシリーズ
k1_height_series = pd.Series(k1_height_list)
print(k1_height_list)
print("====")
print(k1_height_series)

PandasはNumPyとの親和性が高くNumPyのndarrayからシリーズを作り出す事が出来ます。

In [None]:
# Pythonのリスト
k1_height_ndarray = np.array([180,171,175,164,155,173,168])
# Pandasのシリーズ
k1_height_series = pd.Series(k1_height_ndarray)
print(k1_height_ndarray)
print("====")
print(k1_height_series)

デフォルトではインデクス(左の列に振られている通番)は0から増加する整数が割り当てられていますが、これを任意のラベルに変更する事も可能です。またデータそのものにタイトルを付ける事もできます。

In [None]:
k1_labels = ['aさん','bさん','cさん','dさん','eさん','fさん','gさん']
k1_height_labeled_series = pd.Series(k1_height_ndarray, index=k1_labels, name="身長一覧")
print(k1_height_labeled_series)

ただ、あまりインデクスを別のリストとして作る事は、プログラムのデータ取り扱いとして、手間です。大抵のケースで辞書型のデータから作り出す事で、これを達成するのが容易です。

In [None]:
k1_height_dict = {
    'aさん':180,
    'bさん':171,
    'cさん':175,
    'dさん':164,
    'eさん':155,
    'fさん':173,
    'gさん':168
}

ではこの**k1_height_dict**からシリーズを作り、きちんと格納されたか確認してください。

In [None]:
# 1 # k1_height_dictからシリーズを作る


#### 💯解答例[1本目]

In [None]:
k1_height_series = pd.Series(k1_height_dict)
print( k1_height_series )

##### 🐍補足

NumPyのndarrayでは四則演算がそのまま各要素の演算として展開されました。ではSeriesではどうでしょうか。センチをインチに変換する0.3937を作っ多シリーズに掛けてみましょう。

In [None]:
k1_height_series * 0.3937

全ての要素がインチになりました。PandasのデータもNumPyのような演算処理が可能になっています。

### 💮[2本目] データ型『データフレーム』

シリーズは文字通りデータ列を表していますが、実際のエクセル等でデータを表現する時は、表形式だと思います。この表形式を表現するのがデータフレームです。Pandasを使うという事は、すなわちこのデータフレームを使うという事と同義だと思って構いません。それほど重要かつ中心の機能です。

簡単なテスト用データを作ってみましょう。個々では以下の表を作る事を想定します。

| laebl | did | price |
|:-------- |:-:| ----:|
| シャブリ | A | 2400 |
| ジュヴレシャンベルタン | A | 3000 |
| サンテミリオン | B| 5800 |
| オーメドック | B | 2200 | 
| サンセール | C | 2800 |
| シャンパン | D | 4000 |

In [None]:
labels = ['シャブリ','ジュヴレシャンベルタン','サンテミリオン','オーメドック','サンセール','シャンパン']
dids = ['A','A','B','B','C','D']
prices = [2400,3000,5800,2200,2800,4000]
k2_wines = pd.DataFrame({
    'label':labels,
    'did':dids,
    'price':prices
})
print(k2_wines)

あるいはレコード(横方向の組)で入れたい場合は[**Pandas.DataFrame.from_records関数**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.from_records.html)が使えます。

それでは、リファレンスを見ながら以下の**k2_records**からデータフレームを作ってみましょう。columsの指定も忘れずに行って下さい。

In [None]:
k2_records = [
    ['シャブリ','A',2400],
    ['ジュヴレシャンベルタン','A',3000],
    ['サンテミリオン','B',5800],
    ['オーメドック','B',2200],
    ['サンセール','C',2800],
    ['シャンパン','D',4000]
]

#### 💯解答例[2本目]

In [None]:

k2_wines_records = pd.DataFrame.from_records(k2_records,columns=['label','did','price'])
k2_wines_records

### 💮[3本目] インデクス

データフレームをprintした時に表れる、一番左の列の事をインデクスと呼びます。インデクスは```pandas.DataFrame.index```で取得できます。

また取得したインデクスに何等かの処理をして、再付与する事も可能です。では、**k2_wines**テーブルからインデクスを取り出し、シャッフルし、再付与してみましょう。また、シャッフルしたインデクス順にデータをソートして表示してみましょう。

インデクスの再付与は
```
k2_wines.index = 新しいインデクス(リスト型)
```
で行えます。また```k2_wine.sort_index()```でインデクスでソートされたデータフレームを取得できます。途中までコードが書いてありますので、完成させま私用。

In [None]:
import random
# k2_winesのインデクスを取り出してリストにする
k2_wines_index = k2_wines.index.tolist()
# シャッフルする
random.shuffle(k2_wines_index)
# シャッフルされたか確認
print(k2_wines_index)

# 2 # シャッフルしたk2_wines_indexをk2_wineに再インデクス付与しインデクスでソート


#### 💯解答例[3本目]

In [None]:
k2_wines.index = k2_wines_index
print(k2_wines)
print("=== インデクスでソートして表示 ===")
print(k2_wines.sort_index())

## 🌀データを見る【基本】

### 💮実サンプルデータに触ってみよう

折角なので、実際の統計情報を扱ってみましょう。ここではカリフォルニア大学アーバイン校(UCI)が公開しているAdult Data Setを読みます。このデータは1994年の国勢調査データの一部です。年齢や学歴、職業、性別、収入等が含まれています。

関数等の使い方はこの後に説明するので、まずは、どんな事ができるのかの概要をつかみましょう。

In [None]:
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
df_adult = pd.read_csv(url,header=None,skipinitialspace=True)
df_adult.columns = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country','income']


これで読み込めました。カラム名はデータに含まれていないので別途付与しています。

さて、まず、データの先頭と末尾を見てみましょう。**head関数**と**tail関数**で行います。

In [None]:
df_adult.head()

In [None]:
df_adult.tail()

データの統計情報も簡単に出せます。例えばageの統計情報を見てみましょう。[**Pandas.DataFrame.decscibe関数**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)で行います。

In [None]:
df_adult['age'].describe()

女性のみの統計量も簡単に取得できます。

In [None]:
df_adult[df_adult['sex'] == 'Female']['age'].describe()

文字列を含むカラムの場合は、異なる統計量が出て来ます。

In [None]:
df_adult[['education','workclass']].describe()

次は、データを年齢と修学年数でソートして表示します。（元のデータがソートされるのでなく、ソートされたデータを得る操作になります。）

In [None]:
df_adult.sort_values(by=['age','education-num']).head()

このように、従来はエクセルや統計用のソフトを使ってやっていたことが、Pythonのプログラムとして簡単に行えることが分かります。

では、次にここでやった操作も含めてデータフレームの使い方を学びましょう。

## 🌀データ参照【基本】

### 💮[4本目] データ参照方法

データフレームは配列のようにアクセス可能です。例えばインデクスが2のデータを得る場合は次のようにします。

In [None]:
df_adult.loc[2]

**loc**と似たような機能で**iloc**というのがあります。

In [None]:
df_adult.iloc[2]

２つとも同じ行が表示されました。でも、この２者には明確な違いがあります。

では**k2_wines**データフレームで考えましょう。

In [None]:
k2_wines

このテーブルに対してloc[1]とiloc[1]を試して、何が違うのか考察してみましょう。

In [None]:
# 4 # locとilocの違い


#### 💯解答例[4本目]

In [None]:
print("loc[1]")
print( k2_wines.loc[1] )
print("iloc[1]")
print( k2_wines.iloc[1] )

違うものが出て来ました。

元々のテーブルと見比べてみてください。**loc**はインデクスが1の所が出力されています。一方で**iloc**の方が(0スタートで)1行目が表示されている事が分かります。

つまり**loc**はインデクスに基づく参照、**iloc**は位置に基づく参照であると分かります。

### 💮[5本目] スライス

リストやndarrayと同じようにデータフレームも豊富なスライシングを行えます。

* ```DataFrame[label]```
  * データフレームの列ラベルを指定して列を選択
* ```DataFrame[[label1,label2]]```
  * データフレームの複数の列ラベルを指定して列を選択
* ```DataFrame[iloc1:iloc2]```
  * データフレームの行位置インデクスを指定して行の範囲を選択
* ```DataFrame.loc[label]```
  * データフレームの行ラベルを指定して行を選択
* ```DataFrame.loc[:,label]```
  * データフレームの列ラベルを指定して全行を選択
* ```DataFrame.iloc[iloc]```
  * データフレームの行の位置インデクスをしていして行を選択
* ```DataFrame.iloc[[iloc1,iloc2]]```
  * データフレームの複数の行の位置インデクスを指定して複数行を選択
* ```DataFrame.iloc[iloc1,iloc2]```
  * データフレームの行インデクスiloc1と列インデクスiloc2を指定して要素を選択


それでは、k2_wineに対して様々なスライシングをしてみましょう。

In [None]:
# 5 # k2_wineのスライシング（一個一個コードボックスを作ると見やすいです）


#### 💯解答例[5本目]

In [None]:
k2_wines['label']

In [None]:
k2_wines[['label','price']]

In [None]:
k2_wines[1:3]

In [None]:
k2_wines.loc[2]

In [None]:
k2_wines.loc[:,'label']

In [None]:
k2_wines.iloc[2]

In [None]:
k2_wines.iloc[[2,3]]

In [None]:
k2_wines.iloc[3,0]

### 💮[6本目] プロパティー参照

データフレームの列は配列添え字として参照する方法の他、プロパティのように参照する事も可能です。たとえば以下の二者は全く同じです。

In [None]:
print( k2_wines['price'] )
print( k2_wines.price )

ただしプロパティとしてアクセスする場合はラベルに使える文字に制約があります。変数名として使える文字の並びでなければなりません。例えば**df_adult**の**sex**はプロパティとして参照できますが、**education-num**は「**-**」が入っているので、プロパティとして参照できません。プロパティとして参照したい場合はデータフレームの列名を気を付けましょう。

In [None]:
print(df_adult.sex)
# print(df_adult.education-num) # こちらはエラーが出ます

それでは、df_winesのlabelをプロパティとして参照してみましょう。

In [None]:
# 6 # k2_winesのlabel列をプロパティとして参照する


#### 💯解答例[6本目]

In [None]:
k2_wines.label

### 💮[7本目] 条件式による参照

巨大なデータフレームから目的のデータを検索する時、indexや列名を指定してそこにたどり着くのは容易ではありません。なので、条件を指定し、その条件に合致する行と列を取り出す方法を学びましょう。

まずはもう一度k2_wineテーブルを確認しましょう。

In [None]:
k2_wines

3000円以上のワインを調べます。調べ方はお馴染み比較演算子を使います。データフレームの列に対して比較演算子で3000円以上としてみましょう。

In [None]:
k2_wines['price']>=3000

そうすると、TrueとFalseの配列が出て来ます。k2_winesと見比べてください。3000円以上の列がTrue、それ以外がFalseになっている事が分かります。

このTrueとFalseのシリーズを、データフレームの添え字とすると、Trueの行のみ、すなわち、3000円以上のワインのみが選択されます。

In [None]:
k2_wines[k2_wines['price']>=3000]

条件は複数指定する事も出来ます。3000円以上かつdidがD以外のものを選択してみましょう。

In [None]:
k2_wines[(k2_wines['price']>=3000) & (k2_wines['did']!='D')]

では、priceが2500円未満もしくは5000円以上のワインを選択してください。

In [None]:
# 6 # priceが2500円未満もしくは5000円以上のワイン


#### 💯解答例[7本目]

In [None]:
k2_wines[(k2_wines['price']<2500) | (k2_wines['price']>=5000)]

## 🌀ファイルからの読み込み【発展】

### 💮[8本目] CSVファイル

GitHub上にWinesテーブルが[CSVで置いてあります](https://github.com/YokoyamaLab/PythonBasics/blob/main/dataset/wines.csv)。それを**[Pandas.read_csv関数](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)**を使って読み込んでみましょう。このCSVはk2_winesと同様のシャッフルしたindexもデータ(0列目)に含んでいるので**index_col=0**と引数に指定します。**read_csv**はこの他にも沢山のオプションがあるので、様々なデータを読み込むことができます。

In [None]:
url = "https://raw.githubusercontent.com/YokoyamaLab/PythonBasics/main/dataset/wines.csv"
k8_wines = pd.read_csv(url,index_col=0)
k8_wines

ではもう一つ別のテーブルが**https://raw.githubusercontent.com/YokoyamaLab/PythonBasics/main/dataset/vineyard.csv**にあるので、それを読み込んでみましょう。なお、indexはデータに含まれていません。

In [None]:
# 8 # CSVの読み込み


#### 💯解答例[8本目]

In [None]:
url = "https://raw.githubusercontent.com/YokoyamaLab/PythonBasics/main/dataset/vineyard.csv"
k8_vineyard = pd.read_csv(url)
k8_vineyard

### 💮[9本目] Excelファイル

エクセルファイルも同様に読み込めます。シートの名前を入れれば、そのシートのデータを読み込みます。

In [None]:
url = "https://github.com/YokoyamaLab/PythonBasics/raw/main/dataset/wine.xlsx"
k9_wine = pd.read_excel(url, index_col=0, sheet_name='SheetWine')
k9_wine

では、SheetVineyardシートをk9_vinyardに読み込んでみましょう。indexが無いので注意してください。

In [None]:
# 9 # ExcelからVineyardテーブルの読み込み


#### 💯解答例[9本目]

In [None]:
url = "https://github.com/YokoyamaLab/PythonBasics/raw/main/dataset/wine.xlsx"
k9_vineyard = pd.read_excel(url, sheet_name='SheetVineyard')
k9_vineyard

## 🌀データ変形【発展】

### 💮[10本目] 列の追加

ではk2_wineに**color**というコラムを追加してみましょう。追加の方法はいくつかありますが、ここでは、スライスの所で出てきた指定方法を使って追加する例を紹介します。

In [None]:
k2_wines.loc[:,'color'] = ['白','赤','赤','赤','白','白']
k2_wines

それではk8_vinyardに国名を追加しましょう。チリはチリ、それ以外はフランスです。

In [None]:
# 10 # k8_vineyardへ国名の追加


#### 💯解答例[10本目]

In [None]:
k8_vineyard.loc[:,'country'] = ['フランス','フランス','フランス','フランス','チリ']
k8_vineyard

### 💮[11本目] 行の追加(concat)

行の追加は、追加したい行からなるデータフレームを作成し、[**Pandas.concat関数**](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)で連結させます。その際、デフォルトでは両方のindexをキープしてしまい重複が発生してしまいます。それを避けたい時は```ignore_index=True```としてインデクスを振り直します。(ただし、シャッフルしたインデクスも解除されてしまいます。)

それでは、**k8_vineyard**に新たなワイン産地```[["J","山梨県","日本"]]```を追加しましょう。

In [None]:
k11_new_vineyard = pd.DataFrame.from_records(
    [["J","山梨県","日本"]],
    columns=["did","district","country"])
k11_vineyard = pd.concat([k8_vineyard, k11_new_vineyard], ignore_index=True)
k11_vineyard

同様にk2_winesに以下の２つのワインを加えてみましょう。
```
[
  ["プイィ・フュメ","C",3800,"白"],
  ["甲州 鳥居平畑","J",4000,"白"]
]
```

#### 💯解答例[11本目]

In [None]:
k11_new_wine = pd.DataFrame.from_records(
    [
        ["プイィ・フュメ","C",3800,"白"],
        ["甲州 鳥居平畑","J",4000,"白"]
     ],
    columns=['label','did','price','color'])
k11_wines = pd.concat([k2_wines, k11_new_wine], ignore_index=True)
k11_wines

### 💮[12本目] データ連結(merge)

ここでデータの**did**を考えます。ここにはアルファベットが１文字入っていますが、**k11_wines**に**もk11_vineyard**にも出現します。これは関係データベースでいうところの外部キーの役割を持っており、ワインの産地を示すためのキーになります。つまり**k11_wines**の**甲州 鳥居平畑**には**J**が割り振ってありますが、**k11_vineyard**を見ると**J**は**日本**の**山梨**であると定義されています。

毎回２つのデータフレームに分かれていると何かと不便ですので、この２つのデータフレームを**did**が同じ値を取る行でくっつけてしまいましょう。それには[**Pandas.merge関数**](https://pandas.pydata.org/docs/reference/api/pandas.merge.html)を使います。

```
pd.merge(dataframe1,dataframe2,on="キー列名")
```

この例を参考にdidをキーとしてk11_winesとk11_vineyardsをマージしてみましょう。

#### 💯解答例[12本目]

In [None]:
k12_wines = pd.merge(k11_wines,k11_vineyard,on="did")
k12_wines

### 💮[13本目] Group Byによる集計

データフレームにはも**mean関数**等の強力な統計系の関数が多数ありますが、リストとの比較においてデータフレームの利点は、指定したグループ毎の統計情報が簡単に取れる事です。

例えば、k12_winesには白ワインと赤ワインが格納されていますが、色別の平均価格を出してみましょう。

まずは色別にグループ可します。グループの**indices**プロパティを表示すると、色毎に位置インデクスが配列になっている事が分かります。

In [None]:
k13_grouped = k12_wines.groupby("color")
k13_grouped.indices

**k13_grouped**には色毎にグループ可されたワインリストが入っています。これに対して値段の平均を得るには次のようにします。

In [None]:
k13_grouped["price"].mean()

これは、１行で書く事も可能です。

In [None]:
k12_wines.groupby("color")["price"].mean()

さて、では組み合わせの問題です。k11_winesとk11_vineyardをマージしたものに対して、国別の最も安いワインを出してください。できればワンライナー(１行のプログラム)で。

#### 💯解答例[13本目]

In [None]:
pd.merge(k11_wines,k11_vineyard,on="did").groupby('country')["price"].min()

## 🌀データ可視化【基本】

### 💮[14本目] 散布図

In [None]:
df_adult.plot(kind='scatter', s=2, alpha=0.2, x='age',y='hours-per-week')

ちなみに、男女別で色分けをしたい場合は、最初のプロットの返り値を保存しておき、重ねたいグラフのplot関数の引数axに指定します。また色(**color**)や透明度(**alpha**)やマーカー(**marker**)を設定しておくと、見やすいグラフになります。

```
ax = df.plot(～省略～,color='b',alpha=0.4)
df2.plot(～省略～,ax=ax,color='r',alpha=0.4,marker="^")
```

In [None]:
ax = df_adult[df_adult['sex']=='Male'].plot(kind='scatter', color="b", s=2, x='age',y='hours-per-week',alpha=0.4)
df_adult[df_adult['sex']=='Female'].plot(kind='scatter', color="r", s=2, marker="^", x='age',y='hours-per-week',alpha=0.4,ax=ax)

散布図を重ねるのは注意が必要です。どちらを前にするか(あとで描画するか)で印象ががらりと変わります。この特性を留意した上で、どのように描画するかを決める必要があります。

In [None]:
# MaleとFemaleを逆に描画する
ax = df_adult[df_adult['sex']=='Female'].plot(kind='scatter', color="r", s=2, x='age',y='hours-per-week',alpha=0.4)
df_adult[df_adult['sex']=='Male'].plot(kind='scatter', color="b", s=2, x='age',y='hours-per-week',alpha=0.4,ax=ax)

それでは、男女別の年齢×労働時間散布図を応用して、収入別の年齢×労働時間散布図を描いてみましょう。収入は**df_adult['income']**に**<=50K**か**>50K**と2分類されています。前者を赤、後者を青のマーカーとして散布図を作りましょう。

In [None]:
#  14  # 収入別の年齢×労働時間散布図


#### 💯解答例[14本目]

In [None]:
ax = df_adult[df_adult['income']=='<=50K'].plot(kind='scatter', color="r", s=2, x='age',y='hours-per-week',alpha=0.4)
df_adult[df_adult['income']=='>50K'].plot(kind='scatter', color="b", s=2, x='age',y='hours-per-week',alpha=0.4,ax=ax)

### 💮[15本目] ヒストグラム

散布図とは違ったタイプのグラフという事でヒストグラムも描いてみましょう。ヒストグラムはデータ系列を与えると同時にbinの数を指定します。


In [None]:
df_adult['age'].plot(kind='hist',bins=10)

では、ageの最大値と最小値を取得し、一歳がbinとなるように設定したヒストグラムを描いてください。

#### 💯解答例[15本目]

In [None]:
bins=df_adult["age"].max()-df_adult["age"].min()+1
df_adult['age'].plot(kind='hist',bins=bins)

### 💮[16本目] 円グラフ

さて、最後に定番の円グラフを描いてみましょう。**df_adult**には性別と学歴の列があります。まず男性の学歴を円グラフで見てみましょう。

In [None]:
df_adult[df_adult['sex']=="Male"]['education'].value_counts().plot(kind='pie')

では次に、男性の円グラフと女性の円グラフを並べて描画してみましょう。グラフを並べて表示する時は**matplotlib**の[**subplots関数**](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplots.html)を使います。

では、1行2列の描画領域を作成し、そこに２つグラフを並べてみましょう。

In [None]:
fig, axes = plt.subplots(1,2)

df_adult[df_adult['sex']=="Male"]['education'].value_counts().plot(kind='pie',ax=axes[0])
df_adult[df_adult['sex']=="Female"]['education'].value_counts().plot(kind='pie',ax=axes[1])
plt.show()

男女のグラフが並びました。「綺麗さ」を求めるにはオプションで細かくレイアウトを定める必要がありますが、時間の関係でここでは説明しません。

さて、最後に少し複雑なコーディングを伴うグラフ表示に挑戦しましょう。

まず**df_adult['workclass']**には職種が入っているのですが、そのデータの種類を見てみましょう。[**Pandas.DataFrame.drop_duplicates関数**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)はデータから重複を除去します。ある列に対してこの関数を適用する事で、その列に含まれる値の**種類**を出す事が出来ます。

In [None]:
for i in df_adult['workclass'].drop_duplicates():
  print(i)

DataFrameはFor文で全行走査する事ができるので、各値に対して何か処理を行う事が出来ます。

もう一つ**値の種類**を出す方法は**groupby**を使う方法です。この方法は**count()**と併用する事で。値の首位と共に**それが何行あるのか**も調べる事ができます。

In [None]:
df_adult.groupby('income').count()

ではここで最後のノックです。

workclass毎にincomeを円グラフで表示してみましょう。円グラフは3列、3行に並べてください。

尚、先ほどのsubplotの例は2列1行でしたが、複数行になる場合はaxesは二次元配列になるので注意してください。ちなみに、ここまで説明した方法では、円グラフの彩色は値の多い順に割り振られてしまい、固定ではありません。もし余力があれば、色を固定する方法を検索して実装してください。(分からなくても構いません。方法は解答で示しています。)
```
fig, axes = plt.subplots(2,2)
df_adult[df_adult['sex']=="Male"]['education'].value_counts().plot(kind='pie',ax=axes[0,0])
df_adult[df_adult['sex']=="Female"]['education'].value_counts().plot(kind='pie',ax=axes[0,1])
plt.show()
```

In [None]:
fig, axes = plt.subplots(3,3)

# 16 # 3×3の円グラフを描く

plt.show()

#### 💯解答例[16本目]

In [None]:
colours = {'<=50K': 'C0',
           '>50K': 'C1'}
fig, axes = plt.subplots(3,3)
n = 0
for workclass in df_adult['workclass'].drop_duplicates():
  df = df_adult[df_adult['workclass']==workclass]['income'].value_counts()
  df.plot(
      kind='pie',
      title=workclass,
      ax=axes[n//3,n%3],
      colors=df.keys().map(lambda x: colours[x])
  )
  n+=1

色を固定する手法を解説します。

値と色の配列**colours**を作っておきます。**C0**、**C1**とはplotによる自動彩色の１番目の色、２番目の色という意味です。

円グラフの彩色は**colors**オプションで設定します。ここにリストで色を指定します。ここでの問題は**df**において、**<=50K**と**>50K**がどちらが先にデータが入っているか分からないという事です。そこでdfのキーリスト(```["<=50K",">50K"]```もしくは[">50K","<=50K"])を得て、map関数とラムダ式を用いてそれを色のリスト(```["C0","C1"]```もしくは```["C1","C0"]```)に変換する事で色を固定しています。