# 第2部　PythonとJupyter Notebookの基本

## 4章　numpy・pandasの基本

### 分析のための追加機能のインポート

In [1]:
import numpy as np
import pandas as pd

### 実装：リスト

In [2]:
sample_list = [1,2,3,4,5]
sample_list

[1, 2, 3, 4, 5]

In [3]:
# これはエラー
sample_list + 1

TypeError: can only concatenate list (not "int") to list

### 実装：アレイ

In [4]:
sample_array = np.array([1, 2, 3, 4, 5])
sample_array

array([1, 2, 3, 4, 5])

In [5]:
# すべて文字列型になる
np.array([1 ,2, 'A'])

array(['1', '2', 'A'], dtype='<U11')

### 実装：アレイに対する演算

In [6]:
sample_array + 1

array([2, 3, 4, 5, 6])

In [7]:
sample_array * 2

array([ 2,  4,  6,  8, 10])

### 2次元のアレイ

In [8]:
# 行列
sample_array_2 = np.array(
    [[1, 2, 3, 4, 5],
     [6, 7, 8, 9, 10]])
sample_array_2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [9]:
# 行数・列数の確認
sample_array_2.shape

(2, 5)

### 実装：等差数列の作成

#### arrange関数の利用

In [10]:
# 1から5までの等差数列
np.arange(start=1, stop=6, step=1)

array([1, 2, 3, 4, 5])

In [11]:
np.arange(start=0.1, stop=0.8, step=0.2)

array([0.1, 0.3, 0.5, 0.7])

In [12]:
np.arange(0.1, 0.8, 0.2)

array([0.1, 0.3, 0.5, 0.7])

#### linespace関数の利用

In [13]:
# 1から5までの等差数列
np.linspace(start=1, stop=5, num=5)

array([1., 2., 3., 4., 5.])

In [14]:
np.linspace(start=1, stop=5, num=11)

array([1. , 1.4, 1.8, 2.2, 2.6, 3. , 3.4, 3.8, 4.2, 4.6, 5. ])

In [15]:
np.linspace(start=0.1, stop=0.7, num=4)

array([0.1, 0.3, 0.5, 0.7])

### 実装：様々なアレイの作成

In [16]:
# 同じ値の繰り返し
np.tile('A', 5)

array(['A', 'A', 'A', 'A', 'A'], dtype='<U1')

In [17]:
# 0を4回繰り返す
np.tile(0, 4)

array([0, 0, 0, 0])

In [18]:
# ゼロ埋めのアレイ
np.zeros(4)

array([0., 0., 0., 0.])

In [19]:
# 2次元配列
np.zeros([2,3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [20]:
# 1埋めのアレイ
np.ones(3)

array([1., 1., 1.])

### 実装：スライシング

#### 1次元のアレイの事例

In [21]:
# 1次元配列
d1_array = np.array([1, 2, 3, 4, 5])
d1_array

array([1, 2, 3, 4, 5])

In [22]:
# 最初の要素を取得
d1_array[0]

1

In [23]:
# 2~3番目の要素を取得
d1_array[[1, 2]]

array([2, 3])

In [24]:
# 2~3番目の要素を取得
d1_array[1:3]

array([2, 3])

#### 2次元のアレイの事例

In [25]:
# 2次元配列
d2_array = np.array(
    [[1, 2, 3, 4, 5],
     [6, 7, 8, 9, 10]])
d2_array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [26]:
d2_array[0, 3]

4

In [27]:
d2_array[1, 2:4]

array([8, 9])

### 実装：データフレーム

In [28]:
sample_df = pd.DataFrame({
    'col1' : sample_array, 
    'col2' : sample_array * 2,
    'col3' : ['A', 'B', 'C', 'D', 'E']
})
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [29]:
# print関数を使わないで表示
sample_df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


### 実装：ファイルデータの読み込み

In [30]:
file_data = pd.read_csv('2-4-1-sample_data.csv')
print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


### 実装：データフレームの結合

In [31]:
df_1 = pd.DataFrame({
    'col1' : np.array([1, 2, 3]),
    'col2' : np.array(['A', 'B', 'C'])
})
df_2 = pd.DataFrame({
    'col1' : np.array([4, 5, 6]),
    'col2' : np.array(['D', 'E', 'F'])
})

In [32]:
# 縦に結合
print(pd.concat([df_1, df_2]))

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [33]:
# 横に結合
print(pd.concat([df_1, df_2], axis=1))

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F


### 実装：特定の列の取得

In [34]:
# 対象データ
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [35]:
# 列名を指定して抽出
print(sample_df.col2)

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int32


In [36]:
print(sample_df['col2'])

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int32


In [37]:
print(sample_df[['col2', 'col3']])

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


In [38]:
# 列の削除
print(sample_df.drop('col1', axis=1))

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


### 実装：特定の行の取得

In [39]:
# 最初の3行だけを抽出
print(sample_df.head(n=3))

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C


In [40]:
# 最初の行を抽出
print(sample_df.query('index == 0'))

   col1  col2 col3
0     1     2    A


In [41]:
# さまざまな条件で抽出
print(sample_df.query('col3 == "A"'))

   col1  col2 col3
0     1     2    A


In [42]:
# OR条件で抽出
print(sample_df.query('col3 == "A" | col3 == "D"'))

   col1  col2 col3
0     1     2    A
3     4     8    D


In [43]:
# AND条件で抽出
print(sample_df.query('col3 == "A" & col1 == 3'))

Empty DataFrame
Columns: [col1, col2, col3]
Index: []


In [44]:
# 行も列も選択する
print(sample_df.query('col3 == "A"')[['col2', 'col3']])

   col2 col3
0     2    A


### 実装：シリーズ

In [45]:
type(sample_df)

pandas.core.frame.DataFrame

In [46]:
type(sample_df.col1)

pandas.core.series.Series

In [47]:
# アレイへの変換
type(np.array(sample_df.col1))

numpy.ndarray

In [48]:
# アレイへの変換
type(sample_df.col1.to_numpy())

numpy.ndarray

### 実装：関数のヘルプ

In [49]:
help(sample_df.query)

Help on method query in module pandas.core.frame:

query(expr: 'str', inplace: 'bool' = False, **kwargs) method of pandas.core.frame.DataFrame instance
    Query the columns of a DataFrame with a boolean expression.
    
    Parameters
    ----------
    expr : str
        The query string to evaluate.
    
        You can refer to variables
        in the environment by prefixing them with an '@' character like
        ``@a + b``.
    
        You can refer to column names that are not valid Python variable names
        by surrounding them in backticks. Thus, column names containing spaces
        or punctuations (besides underscores) or starting with digits must be
        surrounded by backticks. (For example, a column named "Area (cm^2)" would
        be referenced as ```Area (cm^2)```). Column names which are Python keywords
        (like "list", "for", "import", etc) cannot be used.
    
        For example, if one of your columns is called ``a a`` and you want
        to sum it