pandasはpdという名前でインポートされることがほとんどです

In [1]:
import pandas as pd

本書第1章で使うデータを読み込みましょう  
read_csv関数を使うことでcsvをpandasのDataFrameという形式で読み込むことができます

In [2]:
df = pd.read_csv('../data/ch1_sport_test.csv')
df

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位
0,1,1,40.2,34,15,4
1,2,1,34.2,14,7,10
2,3,1,28.8,27,11,7
3,4,2,39.0,27,14,5
4,5,2,50.9,32,17,2
5,6,2,36.5,20,9,9
6,7,3,36.6,31,13,6
7,8,3,49.2,37,18,1
8,9,3,26.0,28,10,8
9,10,3,47.4,32,16,3


# 抽出

今回はDataFrameが10行と比較的小規模ですが、数百行・数千行のDataFrameを扱うことも珍しくありません  
そのようなDataFrameの概観を知るためにDataFrameのheadメソッドがよく使われます  
headメソッドはDataFrameの先頭の数行を抽出するメソッドです  
ここでは3行抽出してみましょう

In [3]:
df.head(3)

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位
0,1,1,40.2,34,15,4
1,2,1,34.2,14,7,10
2,3,1,28.8,27,11,7


何も指定しないと5行抽出されます

In [4]:
df.head()

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位
0,1,1,40.2,34,15,4
1,2,1,34.2,14,7,10
2,3,1,28.8,27,11,7
3,4,2,39.0,27,14,5
4,5,2,50.9,32,17,2


同様にtailメソッドはDataFrameの末尾を抽出します

In [5]:
df.tail()

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位
5,6,2,36.5,20,9,9
6,7,3,36.6,31,13,6
7,8,3,49.2,37,18,1
8,9,3,26.0,28,10,8
9,10,3,47.4,32,16,3


スライスで抽出することもできます

In [6]:
df[2:5]

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位
2,3,1,28.8,27,11,7
3,4,2,39.0,27,14,5
4,5,2,50.9,32,17,2


列は列名によって抽出できます  

In [7]:
df['握力']

0    40.2
1    34.2
2    28.8
3    39.0
4    50.9
5    36.5
6    36.6
7    49.2
8    26.0
9    47.4
Name: 握力, dtype: float64

複数列を同時に指定することもできます

In [8]:
df[['学年', '点数']]

Unnamed: 0,学年,点数
0,1,15
1,1,7
2,1,11
3,2,14
4,2,17
5,2,9
6,3,13
7,3,18
8,3,10
9,3,16


行と列を同時に指定して抽出したいときはlocメソッドが便利です  
たとえば1行目の学年は次のように抽出できます

In [9]:
df.loc[1, '学年']

1

スライスによる指定も可能です

In [10]:
df.loc[1:3, '握力']

1    34.2
2    28.8
3    39.0
Name: 握力, dtype: float64

条件に合致する行を抽出したい場合は次のように書きます  
ここでは握力が30より下の行を抽出しています

In [11]:
df[df['握力'] < 30]

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位
2,3,1,28.8,27,11,7
8,9,3,26.0,28,10,8


# データの概要

データの大きさはshapeでわかります

In [12]:
df.shape

(10, 6)

列名はcolumnsです

In [13]:
df.columns

Index(['生徒番号', '学年', '握力', '上体起こし', '点数', '順位'], dtype='object')

In [14]:
df.index

RangeIndex(start=0, stop=10, step=1)

In [15]:
df.describe()

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位
count,10.0,10.0,10.0,10.0,10.0,10.0
mean,5.5,2.1,38.88,28.2,13.0,5.5
std,3.02765,0.875595,8.337306,6.828047,3.651484,3.02765
min,1.0,1.0,26.0,14.0,7.0,1.0
25%,3.25,1.25,34.775,27.0,10.25,3.25
50%,5.5,2.0,37.8,29.5,13.5,5.5
75%,7.75,3.0,45.6,32.0,15.75,7.75
max,10.0,3.0,50.9,37.0,18.0,10.0


# データの追加

dfにデータを追加してみましょう  
まずは列の追加です

In [16]:
df['腕立て伏せ'] = [15, 12, 10, 4, 20,
                  24, 9, 11, 11, 17]
df

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位,腕立て伏せ
0,1,1,40.2,34,15,4,15
1,2,1,34.2,14,7,10,12
2,3,1,28.8,27,11,7,10
3,4,2,39.0,27,14,5,4
4,5,2,50.9,32,17,2,20
5,6,2,36.5,20,9,9,24
6,7,3,36.6,31,13,6,9
7,8,3,49.2,37,18,1,11
8,9,3,26.0,28,10,8,11
9,10,3,47.4,32,16,3,17


次は行を追加してみます

In [17]:
new_row = pd.Series([11, 3, 42.4, 30, 15, 11, 12], index=df.columns, name=10)
new_row

生徒番号     11.0
学年        3.0
握力       42.4
上体起こし    30.0
点数       15.0
順位       11.0
腕立て伏せ    12.0
Name: 10, dtype: float64

In [18]:
df.append(new_row)

Unnamed: 0,生徒番号,学年,握力,上体起こし,点数,順位,腕立て伏せ
0,1.0,1.0,40.2,34.0,15.0,4.0,15.0
1,2.0,1.0,34.2,14.0,7.0,10.0,12.0
2,3.0,1.0,28.8,27.0,11.0,7.0,10.0
3,4.0,2.0,39.0,27.0,14.0,5.0,4.0
4,5.0,2.0,50.9,32.0,17.0,2.0,20.0
5,6.0,2.0,36.5,20.0,9.0,9.0,24.0
6,7.0,3.0,36.6,31.0,13.0,6.0,9.0
7,8.0,3.0,49.2,37.0,18.0,1.0,11.0
8,9.0,3.0,26.0,28.0,10.0,8.0,11.0
9,10.0,3.0,47.4,32.0,16.0,3.0,17.0
