### Series
インデックスを持った同一のデータ型を持つ1次元のデータ
- loc()
- iloc()
- 真偽値
- 比較演算子を応用したデータの抽出

In [1]:
import pandas as pd
ser = pd.Series([1,2,3], index=['a','b','c']) #キーワード引数にindexを取らなければ、0,1,2...という感じでindexを付与する。
ser

a    1
b    2
c    3
dtype: int64

In [3]:
# locでデータの抽出ができる。Seriesの場合、ser['b']でも可能。
ser.loc['b']
# ser.loc['b':'c'] #スライスも使える。

2

In [7]:
# indexを複数指定する方法：リスト
l1 = ['a', 'c']
ser[l1]

a    1
c    3
dtype: int64

In [8]:
# ilocでデータの位置を整数値で指定できる。
ser.iloc[1]
# ser.iloc[1:3] #スライスの末尾は-1される。

2

In [9]:
# 真偽値でも抽出可能。
l2 = [True,False,True]
ser[l2]

a    1
c    3
dtype: int64

In [17]:
# 比較演算を用いることも可能。真偽値で結果を返してくれる。
# ser == 2
ser != 2

a     True
b    False
c     True
dtype: bool

In [16]:
# 重要
# 比較演算を用いたデータの抽出
ser[ser != 2]

a    1
c    3
dtype: int64

### DataFrame
行と列にラベルを持った2次元のデータ。列ごとに異なるデータ型を持てる。
- loc()
- iloc()
- 比較演算を応用したデータの抽出
- データの読み込み
- データの抽出
- データ型/書き換え
- 統計量
- クロス集計

In [3]:
df = pd.DataFrame(
    [[1,10,100],
    [2,20,200],
    [3,30,300]],
    index = ['r1','r2','r3'],
    columns = ['c1','c2','c3']
    )

df

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


In [22]:
# ラベルを指定してデータを抽出する。
df.loc['r2','c3']

200

In [37]:
# すべての行(列）を指定してデータを抽出する。この時、Seriesを返す。
df.loc['r2', :] #行を抽出
# df.loc[:, 'c2'] #列を抽出。ただし、この書き方はあまり意味がない。なぜなら、df['c2']ともっと簡単に書く方法があるからだ。
# df['c2']

c1      2
c2     20
c3    200
Name: r2, dtype: int64

In [33]:
# スライスにリストを渡せる。
l3 = ['r1', 'r3']

df.loc[l3, 'c2':'c3']

Unnamed: 0,c2,c3
r1,10,100
r3,30,300


In [34]:
# ilocでデータの位置を整数値で指定できる。
df.iloc[1:3, [0,2]] #スライスを使う場合、末尾-1である。一方、リストを使う場合は、そのままの値を参照する。スライスとリストの違いに注意。

Unnamed: 0,c1,c3
r2,2,200
r3,3,300


In [5]:
# ピンポイントで抽出する場合
# .at()もある。目盛の消費量を抑えられるらしい。
print(df.ix[1,2])  # id=1, col=2を指定

200


In [38]:
# 比較演算を用いることも可能。真偽値で結果を返してくれる。
df > 10

Unnamed: 0,c1,c2,c3
r1,False,False,True
r2,False,True,True
r3,False,True,True


In [4]:
# 重要
# 比較演算を用いたデータの抽出。
# この時、Falseな値はNaNとして返される。

df[df > 10]

Unnamed: 0,c1,c2,c3
r1,,,100
r2,,20.0,200
r3,,30.0,300


In [55]:
# 重要
# 比較演算を用いた列毎のデータの抽出。loc()を使って特定する。
# この時、行は全部出力する。
df.loc[df['c2'] > 10]

# 行ごとの抽出は別の書き方でないとできない。df[]で抽出するのは列だからである。下記コメントアウトを外して試してみよう。
# df.loc[df['r2'] > 10]

Unnamed: 0,c1,c2,c3
r2,2,20,200
r3,3,30,300


In [13]:
# 重要
# 複数の比較演算を用いた列毎のデータの抽出。loc()を使って特定する。
# 比較演算の条件式は（）で括ること。
# この時、行は全部出力する。

df.loc[(df['c1'] > 1) & (df['c3'] < 300)] # orは「|」。

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


In [3]:
# 重要
# 欲しいデータのインデックスをリスト化する
# df[カラム名] == 1で、1のデータを持つかどうか真偽値のndarrayを返す。
list(df[df['c1'] == 1].index)

['r1']

In [12]:
# データの読み込み
# read_csv()

import os 
base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_csv = os.path.join(base_url, 'anime.csv')

df = pd.read_csv(anime_csv)
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [61]:
# インデックス列を指定
df = pd.read_csv(anime_csv, index_col=0)
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [62]:
# インデックスにする列を列名で指定
df = pd.read_csv(anime_csv, index_col='anime_id')
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [63]:
# 指定した列を指定した型で読込む
df = pd.read_csv(anime_csv, dtype={'members': float})
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630.0
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665.0
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262.0
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572.0
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266.0


dtype一覧

|dtype|型コード|説明|
|:-:|:-:|:-:|
|int8|i1|符号あり8ビット整数型|
|int16|i2|符号あり16ビット整数型|
|int32|i4|符号あり32ビット整数型|
|int64|i8|符号あり64ビット整数型|
|unit8|u1|符号なし8ビット整数型|
|unit16|u2|符号なし16ビット整数型|
|unit32|u4|符号なし32ビット整数型|
|unit64|u8|符号なし64ビット整数型|
|float16|f2|半精度浮動小数点型(符号部1ビット、指数部5ビット、仮数部10ビット)|
|float32|f4|単精度浮動小数点型(符号部1ビット、指数部8ビット、仮数部23ビット)|
|float64|f8|倍精度浮動小数点型(符号部1ビット、指数部11ビット、仮数部52ビット)|
|float128|f16|四倍精度浮動小数点型(符号部1ビット、指数部15ビット、仮数部112ビット)|
|complex64|c8|複素数(実部虚部がそれぞれfloat32)|
|complex128|c16|複素数(実部虚部がそれぞれfloat64)|
|complex256|c32|複素数(実部虚部がそれぞれfloat128)|
|bool|?|ブール型|
|object|o|python型オブジェクト型|

In [64]:
# datetime型が含まれている場合、parse_datesに列名を指定することで読み込み時に型を変換できる。
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
df = pd.read_csv(anime_stock_price_csv, parse_dates=['Date'])
df.dtypes

Date              datetime64[ns]
TOEI ANIMATION           float64
IG Port                  float64
dtype: object

In [65]:
# 読み込み時の区切り文字を指定するキーワード引数:sep
anime_tsv = os.path.join(base_url, 'anime.tsv')
df = pd.read_csv(anime_csv, sep='\t')

In [45]:
# xlsxの読み込み
# 読込むシートを指定する場合は、コメントアウト文参考。
anime_xlsx = os.path.join(base_url, 'anime.xlsx')

df = pd.read_excel(anime_xlsx)
# df = pd.read_excel(anime_xlsx, sheetname='Movie')
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,15335,Gintama Movie: Kanketsu-hen - Yorozuya yo Eien...,"Action, Comedy, Historical, Parody, Samurai, S...",Movie,1,9.1,72534
2,28851,Koe no Katachi,"Drama, School, Shounen",Movie,1,9.05,102733
3,199,Sen to Chihiro no Kamikakushi,"Adventure, Drama, Supernatural",Movie,1,8.93,466254
4,12355,Ookami Kodomo no Ame to Yuki,"Fantasy, Slice of Life",Movie,1,8.84,226193


In [46]:
# データフレーム中に見つけたいデータが存在するかどうかチェックする。
# df.isin(リストor辞書) 
#データフレーム中に、引数のリストまたは辞書（なお、辞書のキーは、dfのヘッダとマッチしなければならない）の値が含まれている場合Trueを、含まれていない場合Falseを返す。
df.isin(['Movie']).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,False,False,False,True,False,False,False
1,False,False,False,True,False,False,False
2,False,False,False,True,False,False,False
3,False,False,False,True,False,False,False
4,False,False,False,True,False,False,False


In [47]:
# 複数の値を検索する時は、リストの要素を増やせばいい。
df.isin([10, 9.37, 'Movie']).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,False,False,False,True,False,True,False
1,False,False,False,True,False,False,False
2,False,False,False,True,False,False,False
3,False,False,False,True,False,False,False
4,False,False,False,True,False,False,False


In [29]:
# .valuesでndarrayに変換して値を抽出する。
df['rating'].values

array([9.37, 9.26, 9.25, ...,  nan,  nan,  nan])

In [14]:
# 真偽値でデータを抽出する。

df = pd.read_csv(anime_csv)
df.loc[df['episodes'] == 'Unknown'].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,Unknown,8.58,504862
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,Unknown,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,Unknown,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,Unknown,7.72,5400
1226,21639,Yu☆Gi☆Oh! Arc-V,"Action, Fantasy, Game, Shounen",TV,Unknown,7.61,17571


In [15]:
# whereメソッドでデータを抽出する。
# whereメソッドは該当しないデータをNaNで埋めたDataFrameを返す。

df.where(df['rating'] < 9.2).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,,,,,,,
1,,,,,,,
2,,,,,,,
3,9253.0,Steins;Gate,"Sci-Fi, Thriller",TV,24.0,9.17,673572.0
4,9969.0,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51.0,9.16,151266.0


In [19]:
# 特定のデータを持つカラムのインデックスを表示する。
# ↓の処理説明。
# np.where()で、ndarrayにおいてTrueとなるindexを格納する。
# .isnull()でNaNに関する真偽値のデータフレームを返す。
# .valuesでndarrayに直す。
# [https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.values.html]。 
import numpy as np
np.where(df[df['rating'] < 9.2].isnull().values) #カラムでNaNの値を持つインデックスを表示する。

(array([ 2683,  3315,  5575,  6126,  6475,  6643,  6774,  6788,  6862,
         6928,  7017,  7068,  7108,  7131,  7138,  7160,  7180,  7239,
         7290,  7313,  7391,  7640,  7684,  7709,  7963,  8111,  8161,
         8292,  8295,  8333,  8350,  8496,  8528,  8533,  8562,  8655,
         8803,  8944,  9284,  9359,  9533,  9621,  9801,  9948, 10092,
        10179, 10235], dtype=int64),
 array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
        2, 2, 2], dtype=int64))

In [3]:
# 値を変更する
# DataFrameのラベルを指定し、値を代入することで指定された範囲の値が書き換わる。
# ラベルが存在しない場合、追記という形で代入できる。
import numpy as np

df.loc[74, 'episodes'] = np.nan
df.loc[74, 'episodes']

nan

In [27]:
# 複数の値を変更する
df.loc[df['episodes'] == 'Unknown', 'episodes'] = np.nan
df.tail(10) #末尾10行を表示する。

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
10476,34522,"Wake Up, Girls! Shin Shou","Drama, Music",TV,,,381
10477,34022,Whistle! (ONA),"School, Shounen, Sports",ONA,,,381
10478,34467,Yami Shibai 4th Season,"Dementia, Horror, Supernatural",TV,,,1838
10479,32615,Youjo Senki,"Magic, Military",TV,,,6652
10480,32222,Youkai Watch Movie 3: Soratobu Kujira to Doubl...,"Comedy, Kids, Supernatural",Movie,1.0,,237
10481,34471,Youkai Watch Movie 4,"Comedy, Kids, Supernatural",Movie,1.0,,169
10482,34284,Yuuki Yuuna wa Yuusha de Aru: Washio Sumi no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6.0,,2593
10483,34445,Yuuki Yuuna wa Yuusha de Aru: Yuusha no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6.0,,4439
10484,33035,Yuyushiki Special,,Special,1.0,,2294
10485,33390,Zunda Horizon,,Movie,1.0,,160


In [28]:
# 欠損値の抽出：isnull()
#NaNの値をTrue, それ以外の値をFalseとして返す。
df.loc[df['episodes'].isnull()].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,,8.58,504862
74,801,Ghost in the Shell: Stand Alone Complex 2nd GIG,"Action, Mecha, Military, Mystery, Police, Sci-...",TV,,8.57,113993
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,,7.72,5400


In [29]:
# 欠損値の除外: dropna()
# df.dropna(axis=0or1, how='all', inplace=True, subset=['columns'])
# axis引数が0なら行単位（1なら列単位）でNaNを探して、該当行（該当列）を消す。また、how引数を'any'にすると、NaNがある行を削除する。
# dropna()は非破壊的な操作（元のオブジェクトを維持し、新しいオブジェクトを生成する操作）である。
# DataFrameの内容を破壊的に書き換える場合、dropna(inplace=True)と指定する。
# 特定の行またはラベルを対象に欠損値を削除したい場合、subset引数が使える。カラム名はリストで渡すことに注意。

# 欠損値の除外後、インデックス70から先頭5行を表示する。NaNが入っていたインデックス73、74がないことに注目。
df.dropna().loc[70:].head()
# df.dropna(subset=['name'])

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25,8.58,28653
75,31933,JoJo no Kimyou na Bouken: Diamond wa Kudakenai,"Action, Adventure, Comedy, Drama, Shounen, Sup...",TV,39,8.57,74074
76,5205,Kara no Kyoukai 7: Satsujin Kousatsu (Kou),"Action, Mystery, Romance, Supernatural, Thriller",Movie,1,8.57,95658


### ↑その他のNaN関連の便利な関数
- np.notnull() #NaNの値以外をTrue, NaNの値をFalseとして扱う。
- fillna(value)　#fillnaはN/Aの値をvalueに置き換える関数。[https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html]

In [8]:
# 列のデータ型を確認する方法:dtype
df['anime_id'].dtype
# dfのデータ型を一気に確認する方法
#df.dtypes

dtype('int64')

In [12]:
# データ型の変換方法：astype()
pd.options.display.max_rows = 10 
df['members'].astype(np.int64) 

# astype()は非破壊的な変更である。DataFrameを書き換える場合は、列を指定して代入する。
# df['members'] = df['members'].astype(np.float64)

0        200630
1        793665
2        114262
3        673572
4        151266
          ...  
10481       169
10482      2593
10483      4439
10484      2294
10485       160
Name: members, Length: 10486, dtype: int64

In [22]:
# 複数列の型を変更する場合、辞書を引数に指定する。
df.astype({'members':np.int64, 'rating':np.float64})

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
...,...,...,...,...,...,...,...
10481,34471,Youkai Watch Movie 4,"Comedy, Kids, Supernatural",Movie,1,,169
10482,34284,Yuuki Yuuna wa Yuusha de Aru: Washio Sumi no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6,,2593
10483,34445,Yuuki Yuuna wa Yuusha de Aru: Yuusha no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6,,4439
10484,33035,Yuyushiki Special,,Special,1,,2294


In [23]:
# ソートする。:sort_values()　デフォルトは昇順である。
df.sort_values('rating', ascending=False).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
9846,33662,Taka no Tsume 8: Yoshida-kun no X-Files,"Comedy, Parody",Movie,1,10.0,13
9785,30120,Spoon-hime no Swing Kitchen,"Adventure, Kids",TV,Unknown,9.6,47
8985,23005,Mogura no Motoro,Slice of Life,Movie,1,9.5,62
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
8474,33607,Kahei no Umi,Historical,Movie,1,9.33,44


In [48]:
# データフレームを作成する。
# 書き方1: pd.DataFrame([[行1],[行2],[行3]], columns=[1,2,3])
# 書き方2: pd.DataFrame({'key1':[value1-1,value1-2,value1-n], 'key2':[value2-1,value2-2,value2-n]})
import pandas as pd
import numpy as np

df = pd.DataFrame([[1, 1, 33], 
                  [2,2,66], 
                  [3,3,100],
                  [4, np.nan, '終わり']],
                  columns = ['閲覧数', '抽出数', '再現率'])

df

Unnamed: 0,閲覧数,抽出数,再現率
0,1,1.0,33
1,2,2.0,66
2,3,3.0,100
3,4,,終わり


In [49]:
# データフレームのカラムを変更する。
# df.columns = [新ヘッダ名1, 新ヘッダ名n]
cc = pd.DataFrame({'A': [1.0, 1.2, 3.4, 4.1, 8.2],
                   'B': [0.8, 1.4, 3.2, 4.3, 7.9],
                   'C': [1.3, 1.4, 2.9, 3.8, 9.4]})
cc.columns = ['閲覧数', '再現率','理想'] #もともとのccのヘッダ：A, B, C。 → 新しいヘッダ['閲覧数', '再現率','理想']
cc

Unnamed: 0,閲覧数,再現率,理想
0,1.0,0.8,1.3
1,1.2,1.4,1.4
2,3.4,3.2,2.9
3,4.1,4.3,3.8
4,8.2,7.9,9.4


In [50]:
# 変数の結合1: .concat([変数1, 変数2], axis=0or1)
# .concat()は、データの中身をある方向にそのまま繋げる。axis引数が0なら行で、1なら列で引数を結合する。
#一方、pd.merge(変数1, 変数2, on='ID')は、データの中身を何かのキーの値（docIDなど）で紐付けて繋げる。
from IPython.display import display

df2 = pd.DataFrame([[5,4,100],
                  [6,5,100],
                  [7,np.nan,100]],
                  columns = ['閲覧数', '抽出数', '再現率'])

display(df)
display(df2)

df3 = pd.concat([df, df2], axis=0) 
display(df3)

Unnamed: 0,閲覧数,抽出数,再現率
0,1,1.0,33
1,2,2.0,66
2,3,3.0,100
3,4,,終わり


Unnamed: 0,閲覧数,抽出数,再現率
0,5,4.0,100
1,6,5.0,100
2,7,,100


Unnamed: 0,閲覧数,抽出数,再現率
0,1,1.0,33
1,2,2.0,66
2,3,3.0,100
3,4,,終わり
0,5,4.0,100
1,6,5.0,100
2,7,,100


In [51]:
# 変数の結合2
#pd.merge(変数1, 変数2, on='ID')は、データの中身を何かのキーの値（docIDなど）で紐付けて繋げる。
# excelにおけるvlookupに相当する。
#on引数でkeyを指定する。left_onやright_on引数を指定することで、keyの名前が一致していなくても、同じkeyとして扱える。
#how引数で外部結合outer、内部結合innerなど指定できる。
# 参考URL：[http://sinhrks.hatenablog.com/entry/2015/01/28/073327]
df2 = pd.DataFrame([[4,4,100],
                  [6,5,100],
                  [7,6,100]],
                  columns = ['閲覧数', '抽出数', '再現率'])

display(df)
display(df2)

df3 = pd.merge(df, df2, on='閲覧数') # merge()で結合する際、キーが一致しないデータは除外対象となる。
display(df3)

Unnamed: 0,閲覧数,抽出数,再現率
0,1,1.0,33
1,2,2.0,66
2,3,3.0,100
3,4,,終わり


Unnamed: 0,閲覧数,抽出数,再現率
0,4,4,100
1,6,5,100
2,7,6,100


Unnamed: 0,閲覧数,抽出数_x,再現率_x,抽出数_y,再現率_y
0,4,,終わり,4,100


### 関数を適用する。

|メソッド|適用対象|戻り値|
|:-:|:-:|:-:|
|map|Series(値ごと)|Series|
|apply|DataFrame(列または行ごと)|Series|
|applymap|DataFrame(値ごと)|DataFrame|

In [24]:
# mapメソッド
import html

# 下記違いに注目。銀魂が処理されていることに注目。
print(df['name'].head())
print(df['name'].map(html.unescape).head())

0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                       Gintama&#039;
Name: name, dtype: object
0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                            Gintama'
Name: name, dtype: object


In [27]:
# applyメソッド
df.apply(len)

# 行毎に関数を適用する場合、apply()の引数にaxis=1を入れる。
# df.apply(len, axis=1).head()

anime_id    10486
name        10486
genre       10486
type        10486
episodes    10486
rating      10486
members     10486
dtype: int64

In [41]:
# 高度な書き方
df.apply(lambda x: len(x['name']) + len(x['genre']), axis=1).head()

0    50
1    91
2    68
3    27
4    68
dtype: int64

In [42]:
# applymapメソッド


df[['name', 'genre']].applymap(len).head()

Unnamed: 0,name,genre
0,14,36
1,32,59
2,8,60
3,11,16
4,8,60


In [32]:
# 統計量の算出
anime_master_csv = os.path.join(base_url, 'anime_master.csv')
df = pd.read_csv(anime_master_csv)

df.mean() #列事の平均値を算出する。

anime_id    14055.982035
episodes       13.939156
rating          6.507956
members     18924.950769
dtype: float64

In [33]:
# 合計値の算出
df['members'].sum()

190668879

### 統計メソッドの一例
詳しくはpandas documentation API Reference参照：[https://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats]

|メソッド|説明|
|:-:|:-:|
|count|欠損値を除外したデータ数|
|sum|合計値|
|mean|平均値|
|median|中央値|
|min|最小値|
|max|最大値|
|std|標準偏差|
|var|分散|
|skew|歪度（3次のモーメント）|
|kurt|尖度（4次のモーメント）|
|quantile|分位数|
|cov|共分散|
|corr|相関|

In [35]:
# 超重要
# 基本統計量の算出：describe()メソッド
df.describe().round(1) #小数第2位を四捨五入

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
25%,3431.0,1.0,5.9,177.0
50%,10526.0,1.0,6.6,1227.0
75%,24438.0,13.0,7.3,10254.0
max,34519.0,1818.0,10.0,1013917.0


In [36]:
# 基本統計量の算出（パーセンタイル値の変更）
df.describe(percentiles=[0.1, 0.9]).round(1) #3つ以上指定することも可能

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
10%,1259.4,1.0,5.1,74.0
50%,10526.0,1.0,6.6,1227.0
90%,31190.0,37.0,7.8,47587.6
max,34519.0,1818.0,10.0,1013917.0


In [40]:
# 基本統計量の算出（非数値の列）
df[['genre', 'type']].describe()

Unnamed: 0,genre,type
count,10075,10075
unique,2735,6
top,Comedy,TV
freq,500,3330


In [9]:
# クロス集計: groupby()

anime_master_csv = os.path.join(base_url, 'anime_master.csv')
df = pd.read_csv(anime_master_csv)

grouped = df.groupby('type') #type列で集約。

print(type(grouped))
grouped.mean().round(1)

<class 'pandas.core.groupby.DataFrameGroupBy'>


Unnamed: 0_level_0,anime_id,episodes,rating,members
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Movie,14322.5,1.1,6.3,10654.0
Music,22495.1,1.1,5.6,1273.0
ONA,22738.0,6.8,5.6,4401.8
OVA,12207.7,2.5,6.5,6849.5
Special,16802.3,2.5,6.5,7424.6
TV,10929.6,37.5,6.9,41832.3


In [11]:
# 便利な集約方法①
# describe()が使える。
grouped.describe().round(1)

Unnamed: 0_level_0,anime_id,anime_id,anime_id,anime_id,anime_id,anime_id,anime_id,anime_id,episodes,episodes,...,members,members,rating,rating,rating,rating,rating,rating,rating,rating
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Movie,2220.0,14322.5,10925.7,5.0,4396.8,10677.5,24071.5,34201.0,2220.0,1.1,...,4239.0,466254.0,2220.0,6.3,1.2,2.5,5.4,6.5,7.3,10.0
Music,485.0,22495.1,10175.0,731.0,12101.0,24903.0,31925.0,34412.0,485.0,1.1,...,797.0,71136.0,485.0,5.6,1.0,3.3,5.0,5.6,6.2,8.4
ONA,591.0,22738.0,10346.0,574.0,13467.0,25241.0,32287.5,34514.0,591.0,6.8,...,1890.5,144898.0,591.0,5.6,1.1,2.7,4.9,5.7,6.4,8.3
OVA,1932.0,12207.7,10718.7,44.0,2297.2,8965.5,22459.5,34349.0,1932.0,2.5,...,5706.0,305165.0,1932.0,6.5,0.9,2.0,5.9,6.5,7.1,9.2
Special,1517.0,16802.3,10838.8,191.0,6877.0,15815.0,27821.0,34519.0,1517.0,2.5,...,6978.0,160423.0,1517.0,6.5,0.9,1.7,6.1,6.6,7.1,8.7
TV,3330.0,10929.6,10645.4,1.0,2112.2,6511.5,18938.5,34503.0,3330.0,37.5,...,41568.2,1013917.0,3330.0,6.9,0.8,3.0,6.5,7.0,7.5,9.3


In [13]:
# 便利な集約方法②
# 複数の要素で集約する方法
df.groupby(['type', 'episodes']).mean().round(1).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,anime_id,rating,members
type,episodes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Movie,1,14320.0,6.3,10588.6
Movie,2,13802.0,6.9,6638.9
Movie,3,11339.3,6.7,53598.1
Movie,4,15723.5,7.3,3566.5
Movie,5,12558.3,6.1,3641.0


In [18]:
# pivot_table 
# 下記2つの書き方は前述のgroupbyと同じ結果を得る。
df.pivot_table(index='type', aggfunc=np.mean) #indexに集約対象の列名、aggfuncに集計する関数を指示する。
# df.pivot_table(index=['type', 'episodes'], aggfunc=np.mean)

Unnamed: 0_level_0,anime_id,episodes,members,rating
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Movie,14322.477928,1.100901,10654.022072,6.328599
Music,22495.11134,1.125773,1273.028866,5.583918
ONA,22738.0,6.778342,4401.822335,5.629628
OVA,12207.692547,2.549689,6849.526398,6.475217
Special,16802.341463,2.495715,7424.628873,6.525577
TV,10929.554655,37.456156,41832.314414,6.928961


In [45]:
# このやり方超重要（Part1）
# カンマ区切りのgenre列をユニークにして取り出す。

genres = df['genre'].map(lambda x: x.split(','))

# hstackはndarrayを横方向に結合する。引数が2つのときはconcatのaxis=1みたいに結合するし、引数がひとつのときは単純に要素を1次元に結合する。
ser = pd.Series(np.hstack(genres.values))

#空白文字を削除した後、ユニーク抽出
unique_genres = ser.str.strip().unique() 
unique_genres.sort()
unique_genres

array(['Action', 'Adventure', 'Cars', 'Comedy', 'Dementia', 'Demons',
       'Drama', 'Fantasy', 'Game', 'Harem', 'Historical', 'Horror',
       'Josei', 'Kids', 'Magic', 'Martial Arts', 'Mecha', 'Military',
       'Music', 'Mystery', 'Parody', 'Police', 'Psychological', 'Romance',
       'Samurai', 'School', 'Sci-Fi', 'Seinen', 'Shoujo', 'Shoujo Ai',
       'Shounen', 'Shounen Ai', 'Slice of Life', 'Space', 'Sports',
       'Super Power', 'Supernatural', 'Thriller', 'Vampire'], dtype=object)

DataFrameの文字列操作について、下記「文字列メソッド」が便利。[https://qiita.com/tanemaki/items/2ed05e258ef4c9e6caac]

↓例：
- df.str.lower()
- df.str.startswith()
- df.str.contains(正規表現)
- df.str.strip()

In [80]:
# このやり方超重要（Part2）
# 指定したジャンル名をデータフレームから抽出する関数を作成
def filter_df_by_genre(df, genre):
    genre_df = df.loc[df['genre'].map(lambda x: genre in x)].copy() #dfの各値にgenreが含まれているインデックスを真偽値で指定する。なお、copy()を入れる理由は不明。
    genre_df['genre'] = genre
    return genre_df

# すべてのジャンルに対して上記関数を実行し、出力結果のデータフレームのリストを作成
genre_df_list = [filter_df_by_genre(df, genre) for genre in unique_genres]

# 上記データを結合してソート
df2 = pd.concat(genre_df_list)
df2.sort_values('name', inplace=True)

# 欲しい情報を集計する。
top10 = df2.groupby('genre')['members'].sum().sort_values(ascending=False).head(10)
top10

genre
Comedy          86486166
Action          83397322
Drama           55293769
Romance         51561903
Supernatural    49644915
Fantasy         48443223
Shounen         47782772
School          42609436
Adventure       41554247
Sci-Fi          40584555
Name: members, dtype: int64

In [81]:
df2.loc[df2['name'] == 'Kimi no Na wa.']

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,Supernatural,Movie,1,9.37,200630
0,32281,Kimi no Na wa.,Drama,Movie,1,9.37,200630
0,32281,Kimi no Na wa.,Romance,Movie,1,9.37,200630
0,32281,Kimi no Na wa.,School,Movie,1,9.37,200630


In [82]:
df2.pivot_table(index='genre', columns='type', values=['members'], aggfunc=np.sum).head()

Unnamed: 0_level_0,members,members,members,members,members,members
type,Movie,Music,ONA,OVA,Special,TV
genre,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Action,10224960.0,77054.0,524907.0,5793680.0,3412689.0,63364032.0
Adventure,9485223.0,42829.0,70431.0,2373765.0,2052024.0,27529975.0
Cars,177012.0,59.0,6890.0,71585.0,7178.0,250749.0
Comedy,7293127.0,20860.0,1477266.0,5614758.0,6659293.0,65420862.0
Dementia,493490.0,19720.0,7782.0,402369.0,12725.0,787831.0


### 時系列データの処理
- 時系列データのインデックス
- 1週間/1ヶ月などの期間毎のデータ推移
- DatetimeIndex

In [4]:
# 時系列データをインデックスにする。
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
df = pd.read_csv(anime_stock_price_csv, index_col=0, parse_dates=['Date'])
df.head()

Unnamed: 0_level_0,TOEI ANIMATION,IG Port
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-01,3356.86,1201.51
2015-01-02,3356.86,1201.51
2015-01-05,3396.12,1218.44
2015-01-06,3361.77,1201.51
2015-01-07,3297.97,1202.51


In [8]:
# 暴落率の算出; 1つ前の値からの変化率を算出する。
pct_change = df['TOEI ANIMATION'].pct_change()
pct_change.head(10)

Date
2015-01-01         NaN
2015-01-02    0.000000
2015-01-05    0.011695
2015-01-06   -0.010114
2015-01-07   -0.018978
2015-01-08    0.035713
2015-01-09    0.028735
2015-01-12    0.000000
2015-01-13   -0.022346
2015-01-14    0.045715
Name: TOEI ANIMATION, dtype: float64

In [10]:
# 累積積の算出; 初日を起点に変化率の和を累積していく。
cumulative_returns = (pct_change +1).cumprod()
cumulative_returns[0] = 1
cumulative_returns.head(10)

Date
2015-01-01    1.000000
2015-01-02    1.000000
2015-01-05    1.011695
2015-01-06    1.001463
2015-01-07    0.982457
2015-01-08    1.017543
2015-01-09    1.046782
2015-01-12    1.046782
2015-01-13    1.023391
2015-01-14    1.070176
Name: TOEI ANIMATION, dtype: float64

In [12]:
# データの範囲を移動させながら関数を適用するメソッド：rolling()
# 以下、5日間の平均株価を算出する。
df['TOEI ANIMATION'].rolling(5).mean().head(10)

Date
2015-01-01         NaN
2015-01-02         NaN
2015-01-05         NaN
2015-01-06         NaN
2015-01-07    3353.916
2015-01-08    3365.694
2015-01-09    3397.102
2015-01-12    3420.658
2015-01-13    3435.380
2015-01-14    3494.272
Name: TOEI ANIMATION, dtype: float64

In [34]:
# 日次→月次など、頻度を変換: resample()
df['TOEI ANIMATION'].resample('M').mean().head()

Date
2015-01-31    3647.080000
2015-02-28    3612.302500
2015-03-31    3625.770455
2015-04-30    3477.555455
2015-05-31    3653.990476
Freq: M, Name: TOEI ANIMATION, dtype: float64

In [35]:
# 週次の4本足（週足）の算出
df['TOEI ANIMATION'].resample('W').ohlc().head()

Unnamed: 0_level_0,open,high,low,close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015-01-04,3356.86,3356.86,3356.86,3356.86
2015-01-11,3396.12,3513.9,3297.97,3513.9
2015-01-18,3513.9,3872.16,3435.38,3872.16
2015-01-25,3877.07,3877.07,3739.66,3739.66
2015-02-01,3774.01,3965.41,3774.01,3965.41


In [14]:
# DatetimeIndex
ix = pd.date_range(start='2017-01', end='2017-02', freq='1H')
ix

DatetimeIndex(['2017-01-01 00:00:00', '2017-01-01 01:00:00',
               '2017-01-01 02:00:00', '2017-01-01 03:00:00',
               '2017-01-01 04:00:00', '2017-01-01 05:00:00',
               '2017-01-01 06:00:00', '2017-01-01 07:00:00',
               '2017-01-01 08:00:00', '2017-01-01 09:00:00',
               ...
               '2017-01-31 15:00:00', '2017-01-31 16:00:00',
               '2017-01-31 17:00:00', '2017-01-31 18:00:00',
               '2017-01-31 19:00:00', '2017-01-31 20:00:00',
               '2017-01-31 21:00:00', '2017-01-31 22:00:00',
               '2017-01-31 23:00:00', '2017-02-01 00:00:00'],
              dtype='datetime64[ns]', length=745, freq='H')

In [17]:
# DatetimeIndexをもったSeriesの作成
time_series = pd.Series(np.arange(len(ix)), index=ix)
time_series.head()

2017-01-01 00:00:00    0
2017-01-01 01:00:00    1
2017-01-01 02:00:00    2
2017-01-01 03:00:00    3
2017-01-01 04:00:00    4
Freq: H, dtype: int32

In [29]:
# datetime型および文字列型を使ってインデックス指定による抽出ができる。
from datetime import datetime
df.loc[datetime(2016,1,4)]
# df.loc['2016-01-04']
# df.loc['Jan-04-2016']
# print(df.loc['2015'].head()) #1年分の抽出はこんな感じで可能。
# print(df.loc['2015-05'].head()) #1月分の抽出はこんな感じで可能。
# print(df.loc['2015-12':'2016-01']) #スライスによる範囲指定もこんな感じ。

TOEI ANIMATION    5699.74
IG Port            822.66
Name: 2016-01-04 00:00:00, dtype: float64

In [33]:
# 特定時刻の抽出
from datetime import time
time_series.loc[time(9,0)].head()
# time_series.between_time(time(9,0), time(12,0)) 

2017-01-01 09:00:00      9
2017-01-02 09:00:00     33
2017-01-03 09:00:00     57
2017-01-04 09:00:00     81
2017-01-05 09:00:00    105
Freq: 24H, dtype: int32