### Series
インデックスを持った同一のデータ型を持つ1次元のデータ
- loc()
- iloc()
- 真偽値
- 比較演算子を応用したデータの抽出

In [13]:
import pandas as pd
ser = pd.Series([1,2,3], index=['a','b','c']) #キーワード引数にindexを取らなければ、0,1,2...という感じでindexを付与する。
ser

a    1
b    2
c    3
dtype: int64

In [3]:
# locでデータの抽出ができる。Seriesの場合、ser['b']でも可能。
ser.loc['b']
# ser.loc['b':'c'] #スライスも使える。

2

In [7]:
# indexを複数指定する方法：リスト
l1 = ['a', 'c']
ser[l1]

a    1
c    3
dtype: int64

In [8]:
# ilocでデータの位置を整数値で指定できる。
ser.iloc[1]
# ser.iloc[1:3] #スライスの末尾は-1される。

2

In [9]:
# 真偽値でも抽出可能。
l2 = [True,False,True]
ser[l2]

a    1
c    3
dtype: int64

In [17]:
# 比較演算を用いることも可能。真偽値で結果を返してくれる。
# ser == 2
ser != 2

a     True
b    False
c     True
dtype: bool

In [16]:
# 重要
# 比較演算を用いたデータの抽出
ser[ser != 2]

a    1
c    3
dtype: int64

### DataFrame
行と列にラベルを持った2次元のデータ。列ごとに異なるデータ型を持てる。
- loc()
- iloc()
- 比較演算を応用したデータの抽出
- データの読み込み

In [20]:
df = pd.DataFrame(
    [[1,10,100],
    [2,20,200],
    [3,30,300]],
    index = ['r1','r2','r3'],
    columns = ['c1','c2','c3']
    )

df

Unnamed: 0,c1,c2,c3
r1,1,10,100
r2,2,20,200
r3,3,30,300


In [22]:
# ラベルを指定してデータを抽出する。
df.loc['r2','c3']

200

In [37]:
# すべての行(列）を指定してデータを抽出する。この時、Seriesを返す。
df.loc['r2', :] #行を抽出
# df.loc[:, 'c2'] #列を抽出。ただし、この書き方はあまり意味がない。なぜなら、df['c2']ともっと簡単に書く方法があるからだ。
# df['c2']

c1      2
c2     20
c3    200
Name: r2, dtype: int64

In [33]:
# スライスにリストを渡せる。
l3 = ['r1', 'r3']

df.loc[l3, 'c2':'c3']

Unnamed: 0,c2,c3
r1,10,100
r3,30,300


In [34]:
# ilocでデータの位置を整数値で指定できる。
df.iloc[1:3, [0,2]] #スライスを使う場合、末尾-1である。一方、リストを使う場合は、そのままの値を参照する。スライスとリストの違いに注意。

Unnamed: 0,c1,c3
r2,2,200
r3,3,300


In [38]:
# 比較演算を用いることも可能。真偽値で結果を返してくれる。
df > 10

Unnamed: 0,c1,c2,c3
r1,False,False,True
r2,False,True,True
r3,False,True,True


In [42]:
# 重要
# 比較演算を用いたデータの抽出。
# この時、Falseな値はNaNとして返される。

df[df > 10]

Unnamed: 0,c1,c2,c3
r1,,,100
r2,,20.0,200
r3,,30.0,300


In [55]:
# 重要
# 比較演算を用いた列毎のデータの抽出。loc()を使って特定する。
# この時、行は全部出力する。
df.loc[df['c2'] > 10]

# 行ごとの抽出は別の書き方でないとできない。df[]で抽出するのは列だからである。下記コメントアウトを外して試してみよう。
# df.loc[df['r2'] > 10]

Unnamed: 0,c1,c2,c3
r2,2,20,200
r3,3,30,300


In [56]:
# 重要
# 複数の比較演算を用いた列毎のデータの抽出。loc()を使って特定する。
# この時、行は全部出力する。

df.loc[(df['c1'] > 1) & (df['c3'] < 300)]

Unnamed: 0,c1,c2,c3
r2,2,20,200


In [59]:
# データの読み込み
# read_csv()

import os 
base_url = 'https://raw.githubusercontent.com/practical-jupyter/sample-data/master/anime/'
anime_csv = os.path.join(base_url, 'anime.csv')

df = pd.read_csv(anime_csv)
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [61]:
# インデックス列を指定
df = pd.read_csv(anime_csv, index_col=0)
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [62]:
# インデックスにする列を列名で指定
df = pd.read_csv(anime_csv, index_col='anime_id')
df.head()

Unnamed: 0_level_0,name,genre,type,episodes,rating,members
anime_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630
5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665
28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262
9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572
9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266


In [63]:
# 指定した列を指定した型で読込む
df = pd.read_csv(anime_csv, dtype={'members': float})
df.head()

Unnamed: 0,anime_id,name,genre,type,episodes,rating,members
0,32281,Kimi no Na wa.,"Drama, Romance, School, Supernatural",Movie,1,9.37,200630.0
1,5114,Fullmetal Alchemist: Brotherhood,"Action, Adventure, Drama, Fantasy, Magic, Mili...",TV,64,9.26,793665.0
2,28977,Gintama°,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.25,114262.0
3,9253,Steins;Gate,"Sci-Fi, Thriller",TV,24,9.17,673572.0
4,9969,Gintama&#039;,"Action, Comedy, Historical, Parody, Samurai, S...",TV,51,9.16,151266.0


In [64]:
# datetime型が含まれている場合、parse_datesに列名を指定することで読み込み時に型を変換できる。
anime_stock_price_csv = os.path.join(base_url, 'anime_stock_price.csv')
df = pd.read_csv(anime_stock_price_csv, parse_dates=['Date'])
df.dtypes

Date              datetime64[ns]
TOEI ANIMATION           float64
IG Port                  float64
dtype: object

In [65]:
# 読み込み時の区切り文字を指定するキーワード引数:sep
anime_tsv = os.path.join(base_url, 'anime.tsv')
df = pd.read_csv(anime_csv, sep='\t')