In [7]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%matplotlib inline

In [9]:
df = pd.read_csv('sample06_3_1.csv')

In [19]:
df

Unnamed: 0,name,height,weight,sex
0,Alice,150,42,F
1,Bob,170,70,M
2,Charlie,163,55,M
3,David,180,75,M
4,Ellie,146,40,F
5,Fred,172,68,M
6,Helen,160,48,F
7,Ian,190,80,M
8,Jenny,153,45,F
9,Kate,154,62,F


In [15]:
df.columns
# 読み込んだデータにどのような列があるのかを確認する場合、colimns属性を参照する〜

Index(['name', 'height', 'weight', 'sex'], dtype='object')

In [16]:
df.index
#　各行を示すインデックス情報を確認する　場合は、index属性を参照する

RangeIndex(start=0, stop=10, step=1)

In [18]:
#上記のRangeindexは、組み込みのrangeと同様のインデックス。つまり0から始まり、１づつ増え、１０の手前（９まで）とインデックス付けされる

### 第２項　データの抽出と操作

#### 列の抽出

In [21]:
# pandasでは、１列をSeries　という型で管理する。Series を取り出すにはDataFrame　オブジェクトに対して列名を辞書形式または、属性形式で指定します。

In [24]:
df['height']
df.height
# 各人の身長が表示されます

0    150
1    170
2    163
3    180
4    146
5    172
6    160
7    190
8    153
9    154
Name: height, dtype: int64

In [29]:
# 複数の列名を指定してデータフレームの部分列を抽出することもできる
#  ２つの列の場合は、[[]]のように２つで囲む

In [30]:
df[['name','height']]

Unnamed: 0,name,height
0,Alice,150
1,Bob,170
2,Charlie,163
3,David,180
4,Ellie,146
5,Fred,172
6,Helen,160
7,Ian,190
8,Jenny,153
9,Kate,154


#### 条件を満たす行の抽出

In [32]:
df[df.height>= 160]

Unnamed: 0,name,height,weight,sex
1,Bob,170,70,M
2,Charlie,163,55,M
3,David,180,75,M
5,Fred,172,68,M
6,Helen,160,48,F
7,Ian,190,80,M


#### 複数の条件を指定したい場合は、「＆」で囲む。また、優先順位をつける各条件式は、（）で囲む必要がある

In [40]:
df[(df.height >=160) & (df.sex == 'F')]

Unnamed: 0,name,height,weight,sex
6,Helen,160,48,F


演算子<br>
「かつ」df[(df.height >=160) & (df.sex == 'F')]<br>
「または」df[(df.height >=160) | (df.sex == 'F')]<br>
「〜以外」df[~(df.height >=160) & (df.sex == 'F')]

### Numpy 配列への変換

In [42]:
df[['height','weight']].values

array([[150,  42],
       [170,  70],
       [163,  55],
       [180,  75],
       [146,  40],
       [172,  68],
       [160,  48],
       [190,  80],
       [153,  45],
       [154,  62]])

## 第３項　統計データの表示

In [44]:
df.describe()

Unnamed: 0,height,weight
count,10.0,10.0
mean,163.8,58.5
std,14.101221,14.485625
min,146.0,40.0
25%,153.25,45.75
50%,161.5,58.5
75%,171.5,69.5
max,190.0,80.0


In [45]:
# 返されるのは、DataFrame型。以下のように身長を表すSeriesを取り出すことができる

In [48]:
desc = df.describe()
# 統計値をdescに入れる
desc_h = desc['height']
# 身長の統計値をdesc_hに入れる

In [51]:
desc_h.index
#何を抽出できるか確認したい場合は、indexで表示されられる

Index(['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max'], dtype='object')

In [52]:
desc_h['mean']

163.80000000000001

### ヒストグラムの計算

In [56]:
df.weight.value_counts(bins=4,sort=False)

39.96    4
50.00    1
60.00    3
70.00    2
Name: weight, dtype: int64

binによりデータ範囲を何個にするかを指定する。binを指定しないと同じ値が何個あるかが数えられることになります。<br>
value_countsメソッドは、範囲内の数が多い順に表示を行う。<br>
Falseを指定することで範囲の小さい順から表示される。

### データの並び替え

In [58]:
df.sort_values(by="height")

# DataFrameオブジェクトに対してsort_valuesメソッドを指定することで指定した列でDataFrameを並び替えることができる
# 小さい順に並び替えられる

Unnamed: 0,name,height,weight,sex
4,Ellie,146,40,F
0,Alice,150,42,F
8,Jenny,153,45,F
9,Kate,154,62,F
6,Helen,160,48,F
2,Charlie,163,55,M
1,Bob,170,70,M
5,Fred,172,68,M
3,David,180,75,M
7,Ian,190,80,M


In [59]:
# 降順にしたい場合は、ascending　引数をFalseにします。　　ascendingは、降順という意味。

In [60]:
df.sort_values(by='weight',ascending=False)

Unnamed: 0,name,height,weight,sex
7,Ian,190,80,M
3,David,180,75,M
1,Bob,170,70,M
5,Fred,172,68,M
9,Kate,154,62,F
2,Charlie,163,55,M
6,Helen,160,48,F
8,Jenny,153,45,F
0,Alice,150,42,F
4,Ellie,146,40,F
