<a href="https://colab.research.google.com/github/SotaYoshida/Lecture_DataScience/blob/2021/notebooks/Python_misc_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandasの使い方 (基礎)

```Pandas```は、データ分析のためのライブラリで  
統計量を計算・表示したり、それらをグラフとして可視化出来たり  
データサイエンスや機械学習などで必要な作業を簡単に行うことができます。

Numpyや機械学習ライブラリなどに入れるデータの前処理などにもよく用いられます。

まずはインポートしましょう。```pd```という名前で使うのが慣例です。

In [None]:
import pandas as pd 

## DataFrame型

DataFrameは二次元のデータを表現するのに利用され  
各種データ分析などで非常に役にたちます。

In [None]:
from pandas import DataFrame

以下の辞書型をDataFrame型のオブジェクトに変換してみましょう。

In [None]:
data = { '名前': ["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"],
        '出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df = DataFrame(data)
print("dataの型", type(data))
print("dfの型",type(df))

dataの型 <class 'dict'>
dfの型 <class 'pandas.core.frame.DataFrame'>


jupyter環境でDataFrameを読むと、"いい感じ"に表示してくれる

In [None]:
df

Unnamed: 0,名前,出身都道府県,生年,身長
0,Aさん,Tokyo,1998,172
1,Bさん,Tochigi,1993,156
2,Cさん,Hokkaido,2000,162
3,Dさん,Kyoto,1989,180
4,Eさん,Tochigi,2002,158


printだとちょっと無機質な感じに。

In [None]:
print(df)

    名前    出身都道府県    生年   身長
0  Aさん     Tokyo  1998  172
1  Bさん   Tochigi  1993  156
2  Cさん  Hokkaido  2000  162
3  Dさん     Kyoto  1989  180
4  Eさん   Tochigi  2002  158


```info()```関数を作用させると、詳細な情報が得られる。  
列ごとにどんな種類のデータが格納されているのかや、
メモリ使用量など表示することができる。

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   名前      5 non-null      object
 1   出身都道府県  5 non-null      object
 2   生年      5 non-null      int64 
 3   身長      5 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 288.0+ bytes


## DataFrameの要素を確認・指定する方法

index: 行方向のデータ項目(おもに整数値(行番号),ID,名前など)  
columns: 列方向のデータの項目(おもにデータの種類)  
をそれぞれ表示してみよう。

In [None]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [None]:
df.columns

Index(['名前', '出身都道府県', '生年', '身長'], dtype='object')

行方向を、整数値(行数)ではなく名前にしたければ

In [None]:
data1 = {'出身都道府県':['Tokyo', 'Tochigi', 'Hokkaido','Kyoto','Tochigi'],
        '生年': [ 1998, 1993,2000,1989,2002],
        '身長': [172, 156, 162, 180,158]}
df1 = DataFrame(data1)
df1.index =["Aさん", "Bさん", "Cさん", "Dさん", "Eさん"]
df1

Unnamed: 0,出身都道府県,生年,身長
Aさん,Tokyo,1998,172
Bさん,Tochigi,1993,156
Cさん,Hokkaido,2000,162
Dさん,Kyoto,1989,180
Eさん,Tochigi,2002,158


などとしてもよい。

### 特定の列を取得したい場合

In [None]:
df["身長"]

0    172
1    156
2    162
3    180
4    158
Name: 身長, dtype: int64

とする。  
以下の方法は非推奨とする。


In [None]:
df.身長

0    172
1    156
2    162
3    180
4    158
Name: 身長, dtype: int64

値のリスト(正確にはnumpy.ndarray型)として取得したければ

In [None]:
df["身長"].values

array([172, 156, 162, 180, 158])

In [None]:
df["出身都道府県"].values

array(['Tokyo', 'Tochigi', 'Hokkaido', 'Kyoto', 'Tochigi'], dtype=object)

などとすればよい。

慣れ親しんだ形に変換したければ、リストに変換すればよい


In [None]:
list(df["出身都道府県"].values)

['Tokyo', 'Tochigi', 'Hokkaido', 'Kyoto', 'Tochigi']

ある列が特定のものに一致するもののみを抽出するのも簡単にできる

In [None]:
df[df["出身都道府県"]=="Tochigi"]

Unnamed: 0,名前,出身都道府県,生年,身長
1,Bさん,Tochigi,1993,156
4,Eさん,Tochigi,2002,158


これは

In [None]:
df["出身都道府県"]=="Tochigi"

0    False
1     True
2    False
3    False
4     True
Name: 出身都道府県, dtype: bool

が条件に合致するかどうかTrue/Falseの配列になっていて、  
df[ [True/Falseの配列] ]とすると、Trueに対応する要素のみを返す  
フィルターのような役割になっている。

### 特定の行を取得したい場合

たとえば、行番号がわかっているなら、```iloc```関数を使えば良い

In [None]:
df.iloc[3]

名前          Dさん
出身都道府県    Kyoto
生年         1989
身長          180
Name: 3, dtype: object

値のみ取得したければ先程と同様

In [None]:
df.iloc[3].values

array(['Dさん', 'Kyoto', 1989, 180], dtype=object)

また、以下のような使い方もできるが

In [None]:
df[1:4] #1から3行目まで

Unnamed: 0,名前,出身都道府県,生年,身長
1,Bさん,Tochigi,1993,156
2,Cさん,Hokkaido,2000,162
3,Dさん,Kyoto,1989,180


```df[1]```といった使い方は出来ない。  

### より複雑な行・列の抽出

上にならって、2000年より前に生まれた人だけを抽出し

In [None]:
df[ df["生年"] < 2000 ]

Unnamed: 0,名前,出身都道府県,生年,身長
0,Aさん,Tokyo,1998,172
1,Bさん,Tochigi,1993,156
3,Dさん,Kyoto,1989,180


さらにこのうち身長が170cm以上の人だけがほしければ

In [None]:
df[(df["生年"] < 2000) & (df["身長"]>170)]

Unnamed: 0,名前,出身都道府県,生年,身長
0,Aさん,Tokyo,1998,172
3,Dさん,Kyoto,1989,180


などとすればよい。  

他にも、

```iloc```,```loc```
などを用いれば、特定の行・列を抽出することができる

ちなみに、```iloc```は番号の指定のみに対応，```loc```は名前のみ。

**欲しい要素の数値もしくは項目名のリスト**を、行、列２ついれてやればよい。

In [None]:
df.iloc[[0], [0]] #0行目,0列目

Unnamed: 0,名前
0,Aさん


In [None]:
#スライスで指定することもできる
df.iloc[1:4, :3] #1-3行目かつ0-2列目 (スライスの終点は含まれないことに注意)

#スライスの場合は、 1:4が[1,2,3]と同じ働きをするので、括弧[]はいらない

Unnamed: 0,名前,出身都道府県,生年
1,Bさん,Tochigi,1993
2,Cさん,Hokkaido,2000
3,Dさん,Kyoto,1989


```loc```を使う場合は、indexの代わりに項目名で指定する。

In [None]:
df.loc[1:4,["名前","身長"]] 

Unnamed: 0,名前,身長
1,Bさん,156
2,Cさん,162
3,Dさん,180
4,Eさん,158


In [None]:
df.loc[[1,2,3,4],"名前":"生年"]

Unnamed: 0,名前,出身都道府県,生年
1,Bさん,Tochigi,1993
2,Cさん,Hokkaido,2000
3,Dさん,Kyoto,1989
4,Eさん,Tochigi,2002


といった具合。

```loc```を使う場合、1:4や[1,2,3,4]は  
indexのスライスではなく、項目名を意味し  
Eさんのデータも含まれている。

## Webページにある表をDataFrameとして取得する

```pandas```内の```read_html```関数を用いれば、  
Webページの中にある表をDataFrame形式で取得することもできます。

以下では例としてWikipediaの[ノーベル物理学賞](https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e)のページにある、受賞者一覧を取得してみましょう

In [None]:
url = "https://ja.wikipedia.org/wiki/%e3%83%8e%e3%83%bc%e3%83%99%e3%83%ab%e7%89%a9%e7%90%86%e5%ad%a6%e8%b3%9e"
tables = pd.read_html(url)

In [None]:
print(len(tables))

21


ページ内に、21個もの表があることがわかります。  
(ほとんどはwikipediaのテンプレート等)

たとえば、2010年代の受賞者のみに興味がある場合は

In [None]:
df = tables[12]
df

Unnamed: 0,年度,受賞者名,受賞者名.1,国籍,受賞理由[2]・原著ないし関連論文
0,2010年,,アンドレ・ガイムAndre Geim,オランダ（ ロシア出身）,二次元物質グラフェンに関する革新的実験[注 69]
1,2010年,,コンスタンチン・ノボセロフKonstantin Novoselov,ロシア イギリス,二次元物質グラフェンに関する革新的実験[注 69]
2,2011年,,ソール・パールマッターSaul Perlmutter,アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見Astrophys. J.: 517 (199...
3,2011年,,ブライアン・P・シュミットBrian Schmidt,オーストラリア アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見Astrophys. J.: 517 (199...
4,2011年,,アダム・リースAdam Riess,アメリカ合衆国,遠方の超新星の観測を通した宇宙の加速膨張の発見Astrophys. J.: 517 (199...
5,2012年,,セルジュ・アロシュSerge Haroche,フランス（ モロッコ出身）,個別の量子系に対する計測および制御[注 70]を可能にする画期的な実験的手法に関する業績[3...
6,2012年,,デービッド・ワインランドDavid J. Wineland,アメリカ合衆国,個別の量子系に対する計測および制御[注 70]を可能にする画期的な実験的手法に関する業績[3...
7,2013年,,フランソワ・アングレールFrançois Englert,ベルギー,欧州原子核研究機構 (CERN) によって存在が確認された素粒子（ヒッグス粒子）に基づく、質...
8,2013年,,ピーター・ヒッグスPeter Higgs,イギリス,欧州原子核研究機構 (CERN) によって存在が確認された素粒子（ヒッグス粒子）に基づく、質...
9,2014年,,赤崎勇Isamu Akasaki,日本,高輝度で省電力の白色光源を実現可能にした青色発光ダイオードの発明[8]


## DataFrameのcsv/Excelファイルへの書き出し

DataFrameオブジェクトは、```pandas```内の関数を用いれば、  
簡単にcsvやExcelファイルとして書き出すことができます。

先程の、２０１０年代のノーベル物理学賞受賞者のデータを、  
Google Driveにファイルとして書き出してみましょう。

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


**csvとして書き出す場合**

適当にパスを指定して、DataFrameオブジェクトに  
```to_csv```関数を作用させます。

In [None]:
df.to_csv("/content/drive/My Drive/AdDS2021/pd_write_test.csv")

**Excelファイルとして書き出す場合**

この場合も同様で、```to_excel```関数を用います。

In [None]:
df.to_excel("/content/drive/My Drive/AdDS2021/pd_write_test.xlsx")

上記の関数内で文字コードを指定することもできます。  
例: ```encoding="utf-8_sig"```, ```encoding="shift_jis"```

## Pandasで複雑なエクセルファイルを操作する

Pandasにはread_excel()という関数が用意されていて、  
多数のシートを含むようなエクセルファイルを開くことも出来る。

まずは必要なモジュールをインポートしよう。

In [None]:
!pip install xlrd #xlrdモジュールのインストール
import xlrd
import pandas as pd
from pandas import DataFrame
import urllib.request



今まではGoogle Driveにいれたファイルを読み出していたが、  
Webから直接xlsxファイルを読み込んでみよう。

In [None]:
url = "https://www.mext.go.jp/content/20201225-mxt_kagsei-mext_01110_012.xlsx"
f = urllib.request.urlopen(url) 
#ワークブック(作業するエクセルファイル)をwbという変数名で開く. 文字コードはutf-8と仮定した(shift-jisのものがたまにあるので注意)
wb = xlrd.open_workbook(file_contents=f.read(),encoding_override="utf-8") 
f.close()

ブック内のシートの一覧は以下のように取得できる。

In [None]:
print("シート名の一覧", wb.sheet_names())

シート名の一覧 ['1 穀類', '２ いも及びでん粉類', '３ 砂糖及び甘味類', '４ 豆類', '5 種実類', '6 野菜類', '7 果実類', '8 きのこ類', '9 藻類', '10 魚介類', '11 肉類', '12 卵類', '13 乳類', '14 油脂類', '15 菓子類', '16 し好飲料類', '17 調味料及び香辛料類', '18\u3000調理済み流通食品類']


シートを指定するのは、インデックスかシート名の文字列で行う。

"1 穀類"を使うことにして、  
pandasにあるread_excel関数を使ってみよう。
(他にもxlrdの関数を使って読む方法などもある)

In [None]:
df = pd.read_excel(wb,sheet_name=0) #excelの指定したシートを読んで、DataFrameとして変数dfに格納
print(df)

     Unnamed: 0  食　品　番　号  ...  Unnamed: 60                                   備　　考
0           NaN      NaN  ...        食塩相当量                                    NaN
1           NaN      NaN  ...          NaN                                    NaN
2           NaN      NaN  ...          NaN                                    NaN
3           NaN      NaN  ...          NaN                                    NaN
4           NaN      NaN  ...          NaN                                    NaN
..          ...      ...  ...          ...                                    ...
210         1.0   1139.0  ...           Tr                           歩留り： 55～60 %
211         1.0   1140.0  ...            0                別名： こうりゃん、ソルガム、たかきび、マイロ
212         1.0   1141.0  ...            0  別名： こうりゃん、ソルガム、たかきび、マイロ\n歩留り： 70～80 %
213         1.0   1142.0  ...            0                            別名：黒麦（くろむぎ）
214         1.0   1143.0  ...            0              別名:黒麦（くろむぎ）\n歩留り： 65～75 %

[215 rows x 62 

In [None]:
ndf = pd.read_excel(wb,sheet_name="1 穀類")
print(ndf)

     Unnamed: 0  食　品　番　号  ...  Unnamed: 60                                   備　　考
0           NaN      NaN  ...        食塩相当量                                    NaN
1           NaN      NaN  ...          NaN                                    NaN
2           NaN      NaN  ...          NaN                                    NaN
3           NaN      NaN  ...          NaN                                    NaN
4           NaN      NaN  ...          NaN                                    NaN
..          ...      ...  ...          ...                                    ...
210         1.0   1139.0  ...           Tr                           歩留り： 55～60 %
211         1.0   1140.0  ...            0                別名： こうりゃん、ソルガム、たかきび、マイロ
212         1.0   1141.0  ...            0  別名： こうりゃん、ソルガム、たかきび、マイロ\n歩留り： 70～80 %
213         1.0   1142.0  ...            0                            別名：黒麦（くろむぎ）
214         1.0   1143.0  ...            0              別名:黒麦（くろむぎ）\n歩留り： 65～75 %

[215 rows x 62 

同じものが得られている。


### データの整形

次に、今取得したデータフレームのままでは少々扱い辛いので"整形"を考える。  
というのも前から4行ほど表示してみると...

In [None]:
df[0:4] 

Unnamed: 0.1,Unnamed: 0,食　品　番　号,索　引　番　号,可 食 部 100 g 当 た り,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17,Unnamed: 18,Unnamed: 19,Unnamed: 20,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30,Unnamed: 31,Unnamed: 32,可 食 部 100 g 当 た り.1,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41,Unnamed: 42,Unnamed: 43,Unnamed: 44,Unnamed: 45,Unnamed: 46,Unnamed: 47,Unnamed: 48,Unnamed: 49,Unnamed: 50,Unnamed: 51,Unnamed: 52,Unnamed: 53,Unnamed: 54,Unnamed: 55,Unnamed: 56,Unnamed: 57,Unnamed: 58,Unnamed: 59,Unnamed: 60,備 考
0,,,,食　品　名,廃　棄　率,エネルギー,,水　分,たんぱく質,,脂質,,,炭水化物,,,,,,,,有機酸,灰\n\n分,無 機 質,,,,,,,,,,無機質,,,,ビ タ ミ ン,,,,,,,,,,,,,,,,,,,,,,アルコール,食塩相当量,
1,,,,,,,,,アミノ酸組成による\nたんぱく質,たんぱく質,脂肪酸の\nトリアシルグリセロール当量,コレステロール,脂質,利用可能炭水化物,,,,,食物繊維総量,糖アルコール,炭水化物,,,ナ ト リ ウ ム,カ　リ　ウ　ム,カ ル シ ウ ム,マ グ ネ シ ウ ム,リ　ン,鉄,亜　鉛,銅,マ　ン　ガ　ン,,ヨ　ウ　素,セ　レ　ン,ク　ロ　ム,モリブデン,ビタミンA,,,,,,ビタミンD,ビタミンE,,,,ビタミンK,ビ\nタ\nミ\nン\nＢ１,ビ\nタ\nミ\nン\nB２,ナイアシン,ナイアシン当量,ビ\nタ\nミ\nン\nＢ６,ビ\nタ\nミ\nン\nＢ１２,葉　酸,パントテン酸,ビ オ チ ン,ビタミンC,,,
2,,,,,,,,,,,,,,利用可能炭水化物\n（単糖当量）,,利用可能炭水化物\n（質量計）,差引き法による\n利用可能炭水化物,,,,,,,,,,,,,,,,,,,,,,,,,,レチノール活性当量,,α|トコフェロール,β|トコフェロール,γ|トコフェロール,δ|トコフェロール,,,,,,,,,,,,,,
3,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,レチノール,,,,β|カロテン当量,,,,,,,,,,,,,,,,,,,,


最初の4行ほどに栄養素等の情報が入っているのだが、  
セルが結合されたりしているため、所々にNaNが入っていたりして見辛い。

(碁盤目の構造を破壊してしまうため「セルの結合」は機械的な処理と  
やや相性が悪く、プログラミングを用いたデータ分析では嫌われる)

各省庁の公開データのフォーマットの統一化は今後に期待することにして...  
まず以下の項目に該当する列だけを抽出する事を考える。



In [None]:
targets = ["食品名", "エネルギー","たんぱく質", "脂質", "炭水化物"]

該当するデータがどの行・列に格納されているかをコードで指定するのは、  
前述のファイル構造の事情からやや面倒くさい。  

以下では、その場しのぎ的ではあるが、  
興味のある量が何番目かを指定してまとめてみることにしよう。

そのために、1行目の要素を表示してみよう。

In [None]:
#1行目(エクセルだと2行目)の要素を表示してみる
print(list(df.iloc[0].values))

#半角空白, 全角空白(\u3000)や改行コード\nを取り除いたリストを作って表示してみる
tlist = list(map( lambda s: str(s).replace("\u3000","").replace("\n","").replace(" ",""),df.iloc[0].values))
print(tlist)


[nan, nan, nan, '食\u3000品\u3000名', '廃\u3000棄\u3000率', 'エネルギー', nan, '水\u3000分', 'たんぱく質', nan, '脂質', nan, nan, '炭水化物', nan, nan, nan, nan, nan, nan, nan, '有機酸', '灰\n\n分', '無 機 質', nan, nan, nan, nan, nan, nan, nan, nan, nan, '無機質', nan, nan, nan, 'ビ\u3000\u3000タ\u3000\u3000ミ\u3000\u3000ン\u3000\u3000', nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, 'アルコール', '食塩相当量', nan]
['nan', 'nan', 'nan', '食品名', '廃棄率', 'エネルギー', 'nan', '水分', 'たんぱく質', 'nan', '脂質', 'nan', 'nan', '炭水化物', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', '有機酸', '灰分', '無機質', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', '無機質', 'nan', 'nan', 'nan', 'ビタミン', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'nan', 'アルコール', '食塩相当量', 'nan']


セルの結合により、興味のあるデータがどの列に記述されているかは注意が必要。  

実際、[エネルギー]という文字列は1行目の6列目(それぞれインデックスでいうと0,5)で取得できるが、  
kJ単位になっていて、kcal単位でほしければ、7列目に格納された値が必要になる。  

また、エクセルファイルを見るとわかるように、たんぱく質・脂質・炭水化物はさらに細分化されており、  
O列R列など、細かい列の分割が挿入されている. ~~これは大変困る~~

単純にたんぱく質・脂質・炭水化物と表記されている列のインデックスはそれぞれ9,12,20となる。  
食品名が格納されている列(3)、エネルギー[kJ単位] (6)と合わせて確認してみよう。

In [None]:
df.iloc[:,[3,6,9,12,20]]

Unnamed: 0,可 食 部 100 g 当 た り,Unnamed: 6,Unnamed: 9,Unnamed: 12,Unnamed: 20
0,食　品　名,,,,
1,,,たんぱく質,脂質,炭水化物
2,,,,,
3,,,,,
4,,,,,
...,...,...,...,...,...
210,ひえ　精白粒,361,9.4,3.3,73.2
211,もろこし　玄穀,344,10.3,4.7,71.1
212,もろこし　精白粒,348,9.5,2.6,74.1
213,ライむぎ　全粒粉,317,12.7,2.7,70.7


もう少し整形したいので、新しいデータフレームのコラムを書き換える。

食品名等が記載されているのは10行目以降なので、それを使い  
columnを指定する。

さらに、食品名に含まれる余分な文字コードも削除しておこう。

In [None]:
ndf = df.iloc[:,[3,6,9,12,20]] 
ndf = ndf.iloc[10:,:]
ndf.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf["食品名"] = ndf["食品名"].str.replace("\u3000"," ") # 食品名の中にある余分な全角空白(\u3000)を半角スペースに置き換える
ndf

Unnamed: 0,食品名,エネルギー(kcal),たんぱく質(g),脂質(g),炭水化物(g)
10,アマランサス 玄穀,343,12.7,6.0,64.9
11,あわ 精白粒,346,11.2,4.4,69.7
12,あわ あわもち,210,5.1,1.3,45.3
13,えんばく オートミール,350,13.7,5.7,69.1
14,おおむぎ 七分つき押麦,343,10.9,2.1,72.1
...,...,...,...,...,...
210,ひえ 精白粒,361,9.4,3.3,73.2
211,もろこし 玄穀,344,10.3,4.7,71.1
212,もろこし 精白粒,348,9.5,2.6,74.1
213,ライむぎ 全粒粉,317,12.7,2.7,70.7


次に、食品名の一覧を取得した後、興味のあるもの(日常的に馴染みのあるもの)だけを  
ピックアップしてみよう。

In [None]:
print(list(ndf["食品名"]))

['アマランサス 玄穀', 'あわ 精白粒', 'あわ あわもち', 'えんばく オートミール', 'おおむぎ 七分つき押麦', 'おおむぎ 押麦 乾', 'おおむぎ 押麦 めし', 'おおむぎ 米粒麦', 'おおむぎ 大麦めん 乾', 'おおむぎ 大麦めん ゆで', 'おおむぎ 麦こがし', 'キヌア 玄穀', 'きび 精白粒', 'こむぎ ［玄穀］ 国産 普通', 'こむぎ ［玄穀］ 輸入 軟質', 'こむぎ ［玄穀］ 輸入 硬質', 'こむぎ ［小麦粉］ 薄力粉 1等', 'こむぎ ［小麦粉］ 薄力粉 2等', 'こむぎ ［小麦粉］ 中力粉 1等', 'こむぎ ［小麦粉］ 中力粉 2等', 'こむぎ ［小麦粉］ 強力粉 1等', 'こむぎ ［小麦粉］ 強力粉 2等', 'こむぎ ［小麦粉］ 強力粉 全粒粉', 'こむぎ ［小麦粉］ プレミックス粉 お好み焼き用', 'こむぎ ［小麦粉］ プレミックス粉 ホットケーキ用', 'こむぎ ［小麦粉］ プレミックス粉 から揚げ用', 'こむぎ ［小麦粉］ プレミックス粉 天ぷら用', 'こむぎ ［小麦粉］ プレミックス粉 天ぷら用 バッター', 'こむぎ ［小麦粉］ プレミックス粉 天ぷら用 バッター 揚げ', 'こむぎ ［パン類］ 角形食パン 食パン', 'こむぎ ［パン類］ 角形食パン 焼き', 'こむぎ ［パン類］ 角形食パン 耳を除いたもの', 'こむぎ ［パン類］ 角形食パン 耳', 'こむぎ ［パン類］ 食パン リーンタイプ', 'こむぎ ［パン類］ 食パン リッチタイプ', 'こむぎ ［パン類］ 山形食パン 食パン', 'こむぎ ［パン類］ コッペパン', 'こむぎ ［パン類］ 乾パン', 'こむぎ ［パン類］ フランスパン', 'こむぎ ［パン類］ ライ麦パン', 'こむぎ ［パン類］ 全粒粉パン', 'こむぎ ［パン類］ ぶどうパン', 'こむぎ ［パン類］ ロールパン', 'こむぎ ［パン類］ クロワッサン レギュラータイプ', 'こむぎ ［パン類］ クロワッサン リッチタイプ', 'こむぎ ［パン類］ くるみパン', 'こむぎ ［パン類］ イングリッシュマフィン', 'こむぎ ［パン類］ ナン', 'こむぎ ［パン類］ ベーグル', 'こむぎ ［うどん・そうめん類］ うどん 生', 'こむぎ ［う

この中から...
* こむぎ［パン類］食パンリッチタイプ
* こむぎ［パン類］フランスパン
* こめ［水稲軟めし］精白米
* そばそばゆで
* こむぎ［うどん・そうめん類］うどんゆで

のみに興味があれば

In [None]:
tshokuhin = ["こむぎ ［パン類］ 食パン リッチタイプ","こむぎ ［パン類］ フランスパン","こめ ［水稲軟めし］ 精白米", "そば そば ゆで", "こむぎ ［うどん・そうめん類］ うどん ゆで"]
ndf[ ndf["食品名"].isin(tshokuhin)]

Unnamed: 0,食品名,エネルギー(kcal),たんぱく質(g),脂質(g),炭水化物(g)
44,こむぎ ［パン類］ 食パン リッチタイプ,255,(8.0),(3.7),(47.5)
48,こむぎ ［パン類］ フランスパン,289,9.4,1.3,57.5
60,こむぎ ［うどん・そうめん類］ うどん ゆで,95,2.6,0.4,21.6
146,こめ ［水稲軟めし］ 精白米,113,(1.8),(0.3),(26.4)
194,そば そば ゆで,130,4.8,1.0,26.0


などとする。

'6 野菜類'でも同様に...

In [None]:
df6 = pd.read_excel(wb,sheet_name="6 野菜類")
df6.iloc[:,[3,6,9,12,20]]
ndf6 = df6.iloc[:,[3,6,9,12,20]] 
ndf6 = ndf6.iloc[10:,:]
ndf6.columns=["食品名","エネルギー(kcal)","たんぱく質(g)","脂質(g)","炭水化物(g)"]
ndf6["食品名"] = ndf6["食品名"].str.replace("\u3000"," ") 
ndf6

Unnamed: 0,食品名,エネルギー(kcal),たんぱく質(g),脂質(g),炭水化物(g)
10,アーティチョーク 花らい 生,39,2.3,0.2,11.3
11,アーティチョーク 花らい ゆで,35,2.1,0.1,10.8
12,あさつき 葉 生,34,4.2,0.3,5.6
13,あさつき 葉 ゆで,41,4.2,0.3,7.3
14,あしたば 茎葉 生,30,3.3,0.1,6.7
...,...,...,...,...,...
406,（その他） ミックスベジタブル 冷凍,91,3.0,0.7,15.1
407,（その他） ミックスベジタブル 冷凍 ゆで,91,3.1,0.8,14.6
408,（その他） ミックスベジタブル 冷凍 油いため,132,3.3,4.9,15.7
409,（その他） 野菜ミックスジュース 通常タイプ,21,0.8,0.1,4.7


特定のキーワードを含むものを全て取得して、  
食品名を細かく指定したり、対応する行番号のインデックスを取得できたりする

In [None]:
kyabetu = ndf6[ndf6["食品名"].str.contains('キャベツ')]
kyabetu

Unnamed: 0,食品名,エネルギー(kcal),たんぱく質(g),脂質(g),炭水化物(g)
80,（キャベツ類） キャベツ 結球葉 生,21,1.3,0.2,5.2
81,（キャベツ類） キャベツ 結球葉 ゆで,19,0.9,0.2,4.6
82,（キャベツ類） キャベツ 結球葉 油いため,78,1.6,6.0,5.9
83,（キャベツ類） グリーンボール 結球葉 生,20,1.4,0.1,4.3
84,（キャベツ類） レッドキャベツ 結球葉 生,30,2.0,0.1,6.7
357,めキャベツ 結球葉 生,52,5.7,0.1,9.9
358,めキャベツ 結球葉 ゆで,51,5.3,0.1,9.8


In [None]:
tomato = ndf6[ndf6["食品名"].str.contains('トマト')]
tomato

Unnamed: 0,食品名,エネルギー(kcal),たんぱく質(g),脂質(g),炭水化物(g)
220,（トマト類） 赤色トマト 果実 生,20,0.7,0.1,4.7
221,（トマト類） 赤色ミニトマト 果実 生,30,1.1,0.1,7.2
222,（トマト類） 黄色トマト 果実 生,18,1.1,0.4,3.2
223,（トマト類） ドライトマト,291,14.2,2.1,67.3
224,（トマト類） 加工品 ホール 食塩無添加,21,0.9,0.2,4.4
225,（トマト類） 加工品 トマトジュース 食塩添加,15,0.7,0.1,4.0
226,（トマト類） 加工品 トマトジュース 食塩無添加,18,0.7,0.1,4.0
227,（トマト類） 加工品 ミックスジュース 食塩添加,18,0.6,0.0,4.3
228,（トマト類） 加工品 ミックスジュース 食塩無添加,18,0.6,0.0,4.3


DataFrame同士を結合してまとめるなどして  
扱いやすいデータに整形していく.

縦方向の結合はpandasのconcat(concatenateの略)を使う。

In [None]:
tdf = pd.concat([kyabetu, tomato])
tdf

Unnamed: 0,食品名,エネルギー(kcal),たんぱく質(g),脂質(g),炭水化物(g)
80,（キャベツ類） キャベツ 結球葉 生,21,1.3,0.2,5.2
81,（キャベツ類） キャベツ 結球葉 ゆで,19,0.9,0.2,4.6
82,（キャベツ類） キャベツ 結球葉 油いため,78,1.6,6.0,5.9
83,（キャベツ類） グリーンボール 結球葉 生,20,1.4,0.1,4.3
84,（キャベツ類） レッドキャベツ 結球葉 生,30,2.0,0.1,6.7
357,めキャベツ 結球葉 生,52,5.7,0.1,9.9
358,めキャベツ 結球葉 ゆで,51,5.3,0.1,9.8
220,（トマト類） 赤色トマト 果実 生,20,0.7,0.1,4.7
221,（トマト類） 赤色ミニトマト 果実 生,30,1.1,0.1,7.2
222,（トマト類） 黄色トマト 果実 生,18,1.1,0.4,3.2


# LICENSE


Copyright (C) 2021 Sota Yoshida

[ライセンス:クリエイティブ・コモンズ 4.0 表示 (CC-BY 4.0)](https://creativecommons.org/licenses/by/4.0/deed.ja)