### Series
インデックスを持った同一のデータ型を持つ1次元のデータ
- loc()
- iloc()
- 真偽値
- 比較演算子を応用したデータの抽出

In [1]:
import pandas as pd
ser = pd.Series([1,2,3], index=['a','b','c']) #キーワード引数にindexを取らなければ、0,1,2...という感じでindexを付与する。
ser

a    1
b    2
c    3
dtype: int64

In [3]:
# locでデータの抽出ができる。Seriesの場合、ser['b']でも可能。
ser.loc['b']
# ser.loc['b':'c'] #スライスも使える。

2

In [7]:
# indexを複数指定する方法：リスト
l1 = ['a', 'c']
ser[l1]

a    1
c    3
dtype: int64

In [8]:
# ilocでデータの位置を整数値で指定できる。
ser.iloc[1]
# ser.iloc[1:3] #スライスの末尾は-1される。

2

In [9]:
# 真偽値でも抽出可能。
l2 = [True,False,True]
ser[l2]

a    1
c    3
dtype: int64

In [17]:
# 比較演算を用いることも可能。真偽値で結果を返してくれる。
# ser == 2
ser != 2

a     True
b    False
c     True
dtype: bool

In [16]:
# 重要
# 比較演算を用いたデータの抽出
ser[ser != 2]

a    1
c    3
dtype: int64

### DataFrame
行と列にラベルを持った2次元のデータ。列ごとに異なるデータ型を持てる。
- loc()
- iloc()
- 比較演算を応用したデータの抽出
- データの読み込み
- データの抽出
- データ型/書き換え
- 統計量
- クロス集計

In [4]:
df = pd.DataFrame(
    [[1,10,100],
    [2,20,200],
    [3,30,300]],
    index = ['r1','r2','r3'],
    columns = ['c1','c2','c3']
    )

df

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


In [22]:
# ラベルを指定してデータを抽出する。
df.loc['r2','c3']

200

In [37]:
# すべての行(列）を指定してデータを抽出する。この時、Seriesを返す。
df.loc['r2', :] #行を抽出
# df.loc[:, 'c2'] #列を抽出。ただし、この書き方はあまり意味がない。なぜなら、df['c2']ともっと簡単に書く方法があるからだ。
# df['c2']

c1      2
c2     20
c3    200
Name: r2, dtype: int64

In [33]:
# スライスにリストを渡せる。
l3 = ['r1', 'r3']

df.loc[l3, 'c2':'c3']

Unnamed: 0,c2,c3
r1,10,100
r3,30,300


In [34]:
# ilocでデータの位置を整数値で指定できる。
df.iloc[1:3, [0,2]] #スライスを使う場合、末尾-1である。一方、リストを使う場合は、そのままの値を参照する。スライスとリストの違いに注意。

Unnamed: 0,c1,c3
r2,2,200
r3,3,300


In [38]:
# 比較演算を用いることも可能。真偽値で結果を返してくれる。
df > 10

Unnamed: 0,c1,c2,c3
r1,False,False,True
r2,False,True,True
r3,False,True,True


In [42]:
# 重要
# 比較演算を用いたデータの抽出。
# この時、Falseな値はNaNとして返される。

df[df > 10]

Unnamed: 0,c1,c2,c3
r1,,,100
r2,,20.0,200
r3,,30.0,300


In [55]:
# 重要
# 比較演算を用いた列毎のデータの抽出。loc()を使って特定する。
# この時、行は全部出力する。
df.loc[df['c2'] > 10]

# 行ごとの抽出は別の書き方でないとできない。df[]で抽出するのは列だからである。下記コメントアウトを外して試してみよう。
# df.loc[df['r2'] > 10]

Unnamed: 0,c1,c2,c3
r2,2,20,200
r3,3,30,300


In [13]:
# 重要
# 複数の比較演算を用いた列毎のデータの抽出。loc()を使って特定する。
# 比較演算の条件式は（）で括ること。
# この時、行は全部出力する。

df.loc[(df['c1'] > 1) & (df['c3'] < 300)] # orは「|」。

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


In [17]:
# データの読み込み
# read_csv()

import os 
base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_csv = os.path.join(base_url, 'anime.csv')

df = pd.read_csv(anime_csv)
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [61]:
# インデックス列を指定
df = pd.read_csv(anime_csv, index_col=0)
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [62]:
# インデックスにする列を列名で指定
df = pd.read_csv(anime_csv, index_col='anime_id')
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [63]:
# 指定した列を指定した型で読込む
df = pd.read_csv(anime_csv, dtype={'members': float})
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630.0
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665.0
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262.0
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572.0
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266.0


In [64]:
# datetime型が含まれている場合、parse_datesに列名を指定することで読み込み時に型を変換できる。
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
df = pd.read_csv(anime_stock_price_csv, parse_dates=['Date'])
df.dtypes

Date              datetime64[ns]
TOEI ANIMATION           float64
IG Port                  float64
dtype: object

In [65]:
# 読み込み時の区切り文字を指定するキーワード引数:sep
anime_tsv = os.path.join(base_url, 'anime.tsv')
df = pd.read_csv(anime_csv, sep='\t')

In [3]:
# xlsxの読み込み
# 読込むシートを指定する場合は、コメントアウト文参考。
anime_xlsx = os.path.join(base_url, 'anime.xlsx')

df = pd.read_excel(anime_xlsx)
# df = pd.read_excel(anime_xlsx, sheetname='Movie')
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,15335,Gintama Movie: Kanketsu-hen - Yorozuya yo Eien...,"Action, Comedy, Historical, Parody, Samurai, S...",Movie,1,9.1,72534
2,28851,Koe no Katachi,"Drama, School, Shounen",Movie,1,9.05,102733
3,199,Sen to Chihiro no Kamikakushi,"Adventure, Drama, Supernatural",Movie,1,8.93,466254
4,12355,Ookami Kodomo no Ame to Yuki,"Fantasy, Slice of Life",Movie,1,8.84,226193


In [17]:
# 真偽値でデータを抽出する。

df = pd.read_csv(anime_csv)
df.loc[df['episodes'] == 'Unknown'].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,Unknown,8.58,504862
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,Unknown,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,Unknown,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,Unknown,7.72,5400
1226,21639,Yu☆Gi☆Oh! Arc-V,"Action, Fantasy, Game, Shounen",TV,Unknown,7.61,17571


In [18]:
# whereメソッドでデータを抽出する。
# whereメソッドは該当しないデータをNaNで埋めたDataFrameを返す。

df.where(df['rating'] < 9.2).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,,,,,,,
1,,,,,,,
2,,,,,,,
3,9253.0,Steins;Gate,"Sci-Fi, Thriller",TV,24.0,9.17,673572.0
4,9969.0,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51.0,9.16,151266.0


In [6]:
# 値を変更する
# DataFrameのラベルを指定し、値を代入することで指定された範囲の値が書き換わる。
# ラベルが存在しない場合、追記という形で代入できる。
import numpy as np

df.loc[74, 'episodes'] = np.nan
df.loc[74, 'episodes']

nan

In [27]:
# 複数の値を変更する
df.loc[df['episodes'] == 'Unknown', 'episodes'] = np.nan
df.tail(10) #末尾10行を表示する。

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
10476,34522,"Wake Up, Girls! Shin Shou","Drama, Music",TV,,,381
10477,34022,Whistle! (ONA),"School, Shounen, Sports",ONA,,,381
10478,34467,Yami Shibai 4th Season,"Dementia, Horror, Supernatural",TV,,,1838
10479,32615,Youjo Senki,"Magic, Military",TV,,,6652
10480,32222,Youkai Watch Movie 3: Soratobu Kujira to Doubl...,"Comedy, Kids, Supernatural",Movie,1.0,,237
10481,34471,Youkai Watch Movie 4,"Comedy, Kids, Supernatural",Movie,1.0,,169
10482,34284,Yuuki Yuuna wa Yuusha de Aru: Washio Sumi no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6.0,,2593
10483,34445,Yuuki Yuuna wa Yuusha de Aru: Yuusha no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6.0,,4439
10484,33035,Yuyushiki Special,,Special,1.0,,2294
10485,33390,Zunda Horizon,,Movie,1.0,,160


In [28]:
# 欠損値の抽出：isnull()

df.loc[df['episodes'].isnull()].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
73,21,One Piece,"Action, Adventure, Comedy, Drama, Fantasy, Sho...",TV,,8.58,504862
74,801,Ghost in the Shell: Stand Alone Complex 2nd GIG,"Action, Mecha, Military, Mystery, Police, Sci-...",TV,,8.57,113993
248,235,Detective Conan,"Adventure, Comedy, Mystery, Police, Shounen",TV,,8.25,114702
607,1735,Naruto: Shippuuden,"Action, Comedy, Martial Arts, Shounen, Super P...",TV,,7.94,533578
993,33157,Tanaka-kun wa Itsumo Kedaruge Specials,"Comedy, School, Slice of Life",Special,,7.72,5400


In [29]:
# 欠損値の除外: dropna()
# 欠損値の除外後、インデックス70から先頭5行を表示する。NaNが入っていたインデックス73、74がないことに注目。
# dropna()は非破壊的な操作（元のオブジェクトを維持し、新しいオブジェクトを生成する操作）である。
# DataFrameの内容を破壊的に書き換える場合、dropna(inplace=True)と指定する。

df.dropna().loc[70:].head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
70,578,Hotaru no Haka,"Drama, Historical",Movie,1,8.58,174878
71,16894,Kuroko no Basket 2nd Season,"Comedy, School, Shounen, Sports",TV,25,8.58,243325
72,5028,Major S5,"Comedy, Drama, Romance, Sports",TV,25,8.58,28653
75,31933,JoJo no Kimyou na Bouken: Diamond wa Kudakenai,"Action, Adventure, Comedy, Drama, Shounen, Sup...",TV,39,8.57,74074
76,5205,Kara no Kyoukai 7: Satsujin Kousatsu (Kou),"Action, Mystery, Romance, Supernatural, Thriller",Movie,1,8.57,95658


In [8]:
# 列のデータ型を確認する方法:dtype
df['anime_id'].dtype
# dfのデータ型を一気に確認する方法
#df.dtypes

dtype('int64')

In [12]:
# データ型の変換方法：astype()
pd.options.display.max_rows = 10 
df['members'].astype(np.int64) 

# astype()は非破壊的な変更である。DataFrameを書き換える場合は、列を指定して代入する。
# df['members'] = df['members'].astype(np.float64)

0        200630
1        793665
2        114262
3        673572
4        151266
          ...  
10481       169
10482      2593
10483      4439
10484      2294
10485       160
Name: members, Length: 10486, dtype: int64

In [22]:
# 複数列の型を変更する場合、辞書を引数に指定する。
df.astype({'members':np.int64, 'rating':np.float64})

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266
...,...,...,...,...,...,...,...
10481,34471,Youkai Watch Movie 4,"Comedy, Kids, Supernatural",Movie,1,,169
10482,34284,Yuuki Yuuna wa Yuusha de Aru: Washio Sumi no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6,,2593
10483,34445,Yuuki Yuuna wa Yuusha de Aru: Yuusha no Shou,"Drama, Fantasy, Magic, Slice of Life",TV,6,,4439
10484,33035,Yuyushiki Special,,Special,1,,2294


In [23]:
# ソートする。:sort_values()　デフォルトは昇順である。
df.sort_values('rating', ascending=False).head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
9846,33662,Taka no Tsume 8: Yoshida-kun no X-Files,"Comedy, Parody",Movie,1,10.0,13
9785,30120,Spoon-hime no Swing Kitchen,"Adventure, Kids",TV,Unknown,9.6,47
8985,23005,Mogura no Motoro,Slice of Life,Movie,1,9.5,62
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
8474,33607,Kahei no Umi,Historical,Movie,1,9.33,44


### 関数を適用する。

|メソッド|適用対象|戻り値|
|:-:|:-:|:-:|
|map|Series(値ごと)|Series|
|apply|DataFrame(列または行ごと)|Series|
|applymap|DataFrame(値ごと)|DataFrame|

In [24]:
# mapメソッド
import html

# 下記違いに注目。銀魂が処理されていることに注目。
print(df['name'].head())
print(df['name'].map(html.unescape).head())

0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                       Gintama&#039;
Name: name, dtype: object
0                      Kimi no Na wa.
1    Fullmetal Alchemist: Brotherhood
2                            Gintama°
3                         Steins;Gate
4                            Gintama'
Name: name, dtype: object


In [27]:
# applyメソッド
df.apply(len)

# 行毎に関数を適用する場合、apply()の引数にaxis=1を入れる。
# df.apply(len, axis=1).head()

anime_id    10486
name        10486
genre       10486
type        10486
episodes    10486
rating      10486
members     10486
dtype: int64

In [41]:
# 高度な書き方
df.apply(lambda x: len(x['name']) + len(x['genre']), axis=1).head()

0    50
1    91
2    68
3    27
4    68
dtype: int64

In [42]:
# applymapメソッド


df[['name', 'genre']].applymap(len).head()

Unnamed: 0,name,genre
0,14,36
1,32,59
2,8,60
3,11,16
4,8,60


In [32]:
# 統計量の算出
anime_master_csv = os.path.join(base_url, 'anime_master.csv')
df = pd.read_csv(anime_master_csv)

df.mean() #列事の平均値を算出する。

anime_id    14055.982035
episodes       13.939156
rating          6.507956
members     18924.950769
dtype: float64

In [33]:
# 合計値の算出
df['members'].sum()

190668879

### 統計メソッドの一例
詳しくはpandas documentation API Reference参照：[https://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats]

|メソッド|説明|
|:-:|:-:|
|count|欠損値を除外したデータ数|
|sum|合計値|
|mean|平均値|
|median|中央値|
|min|最小値|
|max|最大値|
|std|標準偏差|
|var|分散|
|skew|歪度（3次のモーメント）|
|kurt|尖度（4次のモーメント）|
|quantile|分位数|
|cov|共分散|
|corr|相関|

In [35]:
# 超重要
# 基本統計量の算出：describe()メソッド
df.describe().round(1) #小数第2位を四捨五入

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
25%,3431.0,1.0,5.9,177.0
50%,10526.0,1.0,6.6,1227.0
75%,24438.0,13.0,7.3,10254.0
max,34519.0,1818.0,10.0,1013917.0


In [36]:
# 基本統計量の算出（パーセンタイル値の変更）
df.describe(percentiles=[0.1, 0.9]).round(1) #3つ以上指定することも可能

Unnamed: 0,anime_id,episodes,rating,members
count,10075.0,10075.0,10075.0,10075.0
mean,14056.0,13.9,6.5,18925.0
std,11294.9,50.8,1.1,57117.5
min,1.0,1.0,1.7,12.0
10%,1259.4,1.0,5.1,74.0
50%,10526.0,1.0,6.6,1227.0
90%,31190.0,37.0,7.8,47587.6
max,34519.0,1818.0,10.0,1013917.0


In [40]:
# 基本統計量の算出（非数値の列）
df[['genre', 'type']].describe()

Unnamed: 0,genre,type
count,10075,10075
unique,2735,6
top,Comedy,TV
freq,500,3330
