In [24]:
# 機械学習モデルを作る前にデータセットを前処理しましょう。
# この前処理は以下の2つです。

# 欠損値がある行を削除する
# ビールのスタイルを数値にコード化して、データフレームに挿入する

import pandas as pd

df = pd.read_csv('./dataset/beers.csv',
                 dtype={'style': 'category'}, index_col=0)

# dtype={'Style': 'category'},
# カテゴリー型は、値となる文字列を分類して、
# 同じ文字列に同じ整数の代表値を与えて分析しやすくするためのものです。

In [25]:
# データセットの先頭5行を確認
df.head(5)

Unnamed: 0,abv,ibu,id,name,style,brewery_id,ounces
0,0.05,,1436,Pub Beer,American Pale Lager,408,12.0
1,0.066,,2265,Devil's Cup,American Pale Ale (APA),177,12.0
2,0.071,,2264,Rise of the Phoenix,American IPA,177,12.0
3,0.09,,2263,Sinister,American Double / Imperial IPA,177,12.0
4,0.075,,2262,Sex and Candy,American IPA,177,12.0


In [26]:
# 基本統計量を確認
df.describe()

Unnamed: 0,abv,ibu,id,brewery_id,ounces
count,2348.0,1405.0,2410.0,2410.0,2410.0
mean,0.059773,42.713167,1431.113278,231.749793,13.592241
std,0.013542,25.954066,752.459975,157.685604,2.352204
min,0.001,4.0,1.0,0.0,8.4
25%,0.05,21.0,808.25,93.0,12.0
50%,0.056,35.0,1453.5,205.0,12.0
75%,0.067,64.0,2075.75,366.0,16.0
max,0.128,138.0,2692.0,557.0,32.0


In [27]:
# dropna　　で欠損値のある行を除去
df=df.dropna()

# reset_index　　でインデックス(左端の番号）を振り直す
# drop="True"をつけると古いインデックスを削除できます。
df=df.reset_index(drop="True")

In [28]:
# 欠損値を除去したデータフレームの先頭5行を確認
df.head()

Unnamed: 0,abv,ibu,id,name,style,brewery_id,ounces
0,0.061,60.0,1979,Bitter Bitch,American Pale Ale (APA),177,12.0
1,0.099,92.0,1036,Lower De Boom,American Barleywine,368,8.4
2,0.079,45.0,1024,Fireside Chat,Winter Warmer,368,12.0
3,0.044,42.0,876,Bitter American,American Pale Ale (APA),368,12.0
4,0.049,17.0,802,Hell or High Watermelon Wheat (2009),Fruit / Vegetable Beer,368,12.0


In [29]:
# styleカラムの値を数値にコード化したStyle_idをStyleカラムの後ろに挿入
# 第1引数は、挿入列の場所
# 第2引数は、挿入列の名前
# 第３引数は、category型を、code（代表値）に、アルファベット順に変換している


df.insert(loc=5,column="Style_id",value=df["style"].cat.codes)

In [30]:
# style_idを挿入したデータフレームを確認
df.head()

Unnamed: 0,abv,ibu,id,name,style,Style_id,brewery_id,ounces
0,0.061,60.0,1979,Bitter Bitch,American Pale Ale (APA),16,177,12.0
1,0.099,92.0,1036,Lower De Boom,American Barleywine,5,368,8.4
2,0.079,45.0,1024,Fireside Chat,Winter Warmer,97,368,12.0
3,0.044,42.0,876,Bitter American,American Pale Ale (APA),16,368,12.0
4,0.049,17.0,802,Hell or High Watermelon Wheat (2009),Fruit / Vegetable Beer,59,368,12.0


In [31]:
# style_idを挿入したデータフレームの基本統計量
df.describe()

Unnamed: 0,abv,ibu,id,Style_id,brewery_id,ounces
count,1403.0,1403.0,1403.0,1403.0,1403.0,1403.0
mean,0.059919,42.739843,1413.88881,30.175339,223.375624,13.510264
std,0.013585,25.962692,757.572191,28.3314,150.38751,2.254112
min,0.027,4.0,1.0,0.0,0.0,8.4
25%,0.05,21.0,771.0,13.0,95.5,12.0
50%,0.057,35.0,1435.0,16.0,198.0,12.0
75%,0.068,64.0,2068.5,50.5,350.0,16.0
max,0.125,138.0,2692.0,98.0,546.0,32.0


In [32]:
# データフレームのpickle化

# 平たく言うと、Pythonオブジェクトをファイルとして保存し、
# 呼び出せるようにすることができる形にするためのライブラリという事になります。

# Pythonオブジェクトを変換、保存することにより
# 別の場所、別のタイミングでそのオブジェクトを復元させることがpickleの使い道

df.to_pickle('df.pkl')