# 2-4. NumpyとPandasの基本

## Numpy
- 科学計算でよく用いられるライブラリ
- 多次元配列を高速に処理できる

In [1]:
# ライブラリの読み込み
import numpy as np

In [2]:
# ベクトル（1次元配列）の作成
data = np.array([1, 2, 3, 4, 5])
data

array([1, 2, 3, 4, 5])

In [3]:
# データ型の確認
data.dtype

dtype('int64')

In [4]:
# 次元数の確認
data.ndim

1

In [5]:
# 要素数の確認
data.size

5

In [6]:
# 最大・最小・合計などを求めることができる
data.max(), data.min(), data.sum()

(5, 1, 15)

In [7]:
# 内積の計算
np.dot(data, data)

55

In [8]:
# 行列（2次元配列）の作成
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9])
matrix = data.reshape(3, 3)
matrix

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [9]:
# 次元数の確認
matrix.ndim

2

In [10]:
# 行列の積を求める
np.dot(matrix, matrix)

array([[ 30,  36,  42],
       [ 66,  81,  96],
       [102, 126, 150]])

## Pandas
- 表データを扱うライブラリ
- 分析や機械学習の前処理などが簡単にできる

In [11]:
# ライブラリの読み込み
import pandas as pd

### Seriesオブジェクト
- インデックスに名前のあるnumpyのarrayのようなデータ構造

In [12]:
# Seriesオブジェクトの生成
data = pd.Series([1, 2, 3, 4, 5])
data

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [13]:
# Series with index
data = pd.Series(
    [1, 2, 3, 4, 5],
    index=["a", "b", "c", "d", "e"]
)
data

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [14]:
# 要素にアクセス
data["c"]

3

In [15]:
# 要素の確認
data.values

array([1, 2, 3, 4, 5])

In [16]:
# インデックスの確認
data.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

### DataFrame
- 表データのオブジェクト
- 列がSeriesオブジェクトとなっている
- 非常に多くのメソッドが用意されているので少しずつ覚えていくのが良い

In [17]:
# データフレームの初期化
sample_df = pd.DataFrame(
    {
        'id':[10, 20, 30, 40, 50],
        'name': ['Saito', 'Kato', 'Suzuki', 'Tanaka', 'Ito'],
        'age': [22, 30, 25, 22, 30],
        'address': ['tokyo', 'tokyo', 'kanagawa', 'tokyo', 'kanagawa']
    }
)
sample_df

Unnamed: 0,id,name,age,address
0,10,Saito,22,tokyo
1,20,Kato,30,tokyo
2,30,Suzuki,25,kanagawa
3,40,Tanaka,22,tokyo
4,50,Ito,30,kanagawa


In [18]:
# 特定の列を参照する
sample_df.age

0    22
1    30
2    25
3    22
4    30
Name: age, dtype: int64

In [19]:
# 型の確認
type(sample_df.age)

pandas.core.series.Series

In [20]:
# 複数の列を参照する
sample_df[['name', 'age']]

Unnamed: 0,name,age
0,Saito,22
1,Kato,30
2,Suzuki,25
3,Tanaka,22
4,Ito,30


### データの全体像を把握する
実際に扱うデータは数万〜数百万行やそれ以上になるので全てに目を通すことはできないため意外と役立つ

In [21]:
# 表サイズの確認
sample_df.shape

(5, 4)

In [22]:
# 頭n行を表示
sample_df.head(3)

Unnamed: 0,id,name,age,address
0,10,Saito,22,tokyo
1,20,Kato,30,tokyo
2,30,Suzuki,25,kanagawa


In [23]:
# 列のデータタイプを確認
sample_df.dtypes

id          int64
name       object
age         int64
address    object
dtype: object

### データの抽出・並び替え
Pandasでは比較演算子などを用いて特定の条件を満たす行を抽出したり、特定の列に関して並び替えたりできる

In [24]:
# 25才以上を抽出する(ageが25以上の行を取得)
# 演算を使うとTrueとFalseを取得できる
sample_df.age >= 25

0    False
1     True
2     True
3    False
4     True
Name: age, dtype: bool

In [25]:
# Trueと行のみ取得する
sample_df[sample_df.age >= 25]

Unnamed: 0,id,name,age,address
1,20,Kato,30,tokyo
2,30,Suzuki,25,kanagawa
4,50,Ito,30,kanagawa


In [26]:
# 名前が"Kato"を抽出
sample_df[sample_df.name == "Kato"]

Unnamed: 0,id,name,age,address
1,20,Kato,30,tokyo


In [27]:
# 年齢で並び替え
sample_df.sort_values(by='age')

Unnamed: 0,id,name,age,address
0,10,Saito,22,tokyo
3,40,Tanaka,22,tokyo
2,30,Suzuki,25,kanagawa
1,20,Kato,30,tokyo
4,50,Ito,30,kanagawa


In [28]:
# 年齢で並び替え（逆順）
sample_df.sort_values(by='age', ascending=False)

Unnamed: 0,id,name,age,address
1,20,Kato,30,tokyo
4,50,Ito,30,kanagawa
2,30,Suzuki,25,kanagawa
0,10,Saito,22,tokyo
3,40,Tanaka,22,tokyo


### 集計・集約など

In [29]:
# 要素の数を集計
sample_df.age.value_counts()

22    2
30    2
25    1
Name: age, dtype: int64

In [30]:
# 各種の統計量
# 平均
sample_df.age.mean()

25.8

In [31]:
# 合計
sample_df.age.sum()

129

In [32]:
# 最大・最小
sample_df.age.max(), sample_df.age.min()

(30, 22)

In [33]:
# 集約
grouped = sample_df.groupby('address')

In [34]:
# 平均を求める
grouped[['age']].mean()

Unnamed: 0_level_0,age
address,Unnamed: 1_level_1
kanagawa,27.5
tokyo,24.666667


In [35]:
# 要素の数を求める
grouped[['name']].count()

Unnamed: 0_level_0,name
address,Unnamed: 1_level_1
kanagawa,2
tokyo,3


# Pandas情報の集め方
- 正確な情報源: [pandas documentation](https://pandas.pydata.org/pandas-docs/stable/index.html)
- おすすめ書籍：Wes McKinney (著), 瀬戸山 雅人  (翻訳), 小林 儀匡 (翻訳), 滝口 開資 (翻訳)『Pythonによるデータ分析入門 第2版 ―NumPy、pandasを使ったデータ処理』