### 4-1 追加機能のインポート

In [1]:
import numpy as np
import pandas as pd

### 4-3 リスト

In [2]:
sample_list = [1, 2, 3, 4, 5]
sample_list

[1, 2, 3, 4, 5]

### 4-5 アレイ

In [3]:
sample_array = np.array([1, 2, 3, 4, 5])
sample_array

array([1, 2, 3, 4, 5])

In [4]:
np.array([1, 3, 'A']) # 同一のアレイには同一の型しか入らない．この例では，全て文字列型として扱われている

array(['1', '3', 'A'], dtype='<U21')

### 4-6 アレイに対する演算

In [5]:
sample_array + 1 # アレイに対する演算はアレイの中身のデータ全てに一律に適用される

array([2, 3, 4, 5, 6])

In [6]:
sample_array * 2

array([ 2,  4,  6,  8, 10])

### 4-7 2次元のアレイ

In [7]:
sample_array_2 = np.array(
    [[1, 2, 3, 4, 5], 
     [6, 7, 8, 9, 10]])
sample_array_2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [8]:
sample_array_2.shape # 行数，列数の取得

(2, 5)

### 4-8 等差数列の作成

In [9]:
np.arange(start = 1, stop = 6, step = 1) # start: 開始位置，stop: 終了位置，step: 差分

array([1, 2, 3, 4, 5])

In [10]:
np.arange(start = 0.1, stop = 0.8, step = 0.2)

array([0.1, 0.3, 0.5, 0.7])

In [11]:
np.linspace(start = 1, stop = 5, num =5) # num: 要素数

array([1., 2., 3., 4., 5.])

In [12]:
np.linspace(start = 1, stop = 5, num = 11) # 11等分

array([1. , 1.4, 1.8, 2.2, 2.6, 3. , 3.4, 3.8, 4.2, 4.6, 5. ])

### 4-9 様々なアレイの作成

In [13]:
np.tile('A', 5)

array(['A', 'A', 'A', 'A', 'A'], dtype='<U1')

In [14]:
np.tile(0, 4)

array([0, 0, 0, 0])

In [15]:
np.zeros(4) # 全てゼロであるアレイ

array([0., 0., 0., 0.])

In [16]:
np.zeros([2, 3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [17]:
np.ones(3) # 全ての要素が1のアレイ

array([1., 1., 1.])

### 4-10 スライシング

In [18]:
d1_array = np.array([1, 2, 3, 4, 5]) # 1次元アレイ
d1_array

array([1, 2, 3, 4, 5])

In [19]:
d1_array[0] # データ抽出には角カッコ [] を用いる

1

In [20]:
d1_array[[1, 2]]

array([2, 3])

In [21]:
d1_array[1:3] # 範囲指定にはコロン記号（:）を使う

array([2, 3])

In [22]:
d1_array[1:3]

array([2, 3])

In [23]:
d2_array = np.array(
    [[1, 2, 3, 4, 5],
     [6, 7, 8, 9, 10]])
d2_array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [24]:
d2_array[0, 3] # 行インデックス，列インデックスの番号を指定することで要素を抽出する

4

In [25]:
d2_array[1, 2:4] # 2行目の3, 4番目の要素を抽出する

array([8, 9])

### 4-11 データフレーム

In [26]:
sample_df = pd.DataFrame({
    'col1': sample_array, 
    'col2': sample_array * 2, 
    'col3': ['A', 'B', 'C', 'D', 'E']
})
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [27]:
file_data = pd.read_csv('2-4-1-sample_data.csv') # csvファイルの読み込み
print(file_data) # 読み込まれたデータはデータフレームとなっている

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


### 4-13 データフレームの結合

In [28]:
df_1 = pd.DataFrame({ # データフレームを縦方向に繋げる
    'col1': np.array([1, 2, 3]), 
    'col2': np.array(['A', 'B', 'C'])
})
df_2 = pd.DataFrame({
    'col1': np.array([4, 5, 6]), 
    'col2': np.array(['D', 'E', 'F'])
})

In [29]:
print(pd.concat([df_1, df_2]))

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [30]:
print(pd.concat([df_1, df_2], axis = 1))

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F


### 4-14 特定の列の取得

In [31]:
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [32]:
print(sample_df.col2) # 列名を指定して取得する場合はドット記号を使う

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int64


In [33]:
print(sample_df['col2']) # 角カッコ[]を使う方法もある

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int64


In [34]:
print(sample_df[['col2', 'col3']]) # 複数列の抽出，列名を指定する角カッコの中にリスト形式で列名を複数記載する

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


In [35]:
print(sample_df.drop('col1', axis=1)) # drop関数で特定行だけをなくすこともできる

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


### 4-15 特定の行の取得

In [36]:
print(sample_df.head(n=3)) # head関数で，最初の3行だけを取得する（引数nで取得する行数を指定）

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C


In [37]:
print(sample_df.query('index == 0')) # query関数

   col1  col2 col3
0     1     2    A


In [38]:
print(sample_df.query('col3 == "A"')) # ダブルクォーテーションとシングルクォーテーションの使い分けに注意

   col1  col2 col3
0     1     2    A


In [39]:
print(sample_df.query('col3 == "A" | col3 == "D"')) # OR条件

   col1  col2 col3
0     1     2    A
3     4     8    D


In [40]:
print(sample_df.query('col3 == "A" & col1 ==3')) # AND条件

Empty DataFrame
Columns: [col1, col2, col3]
Index: []


In [41]:
print(sample_df.query('col3 == "A"')[['col2', 'col3']])

   col2 col3
0     2    A


### 4-16 シリーズ

In [42]:
type(sample_df) # クラス名を確認

pandas.core.frame.DataFrame

In [43]:
type(sample_df.col1) # 1列だけを抽出した結果のクラス名を確認

pandas.core.series.Series

In [44]:
type(np.array(sample_df.col1)) # シリーズをアレイに変換する場合はnp,arrayの引数にシリーズを入れる

numpy.ndarray

In [45]:
type(sample_df.col1.to_numpy()) # シリーズにto_numpy()とつけるとアレイとして扱える

numpy.ndarray

### 4-17 関数のヘルプ

In [46]:
help(sample_df.query)

Help on method query in module pandas.core.frame:

query(expr: 'str', *, inplace: 'bool' = False, **kwargs) -> 'DataFrame | None' method of pandas.core.frame.DataFrame instance
    Query the columns of a DataFrame with a boolean expression.
    
    Parameters
    ----------
    expr : str
        The query string to evaluate.
    
        You can refer to variables
        in the environment by prefixing them with an '@' character like
        ``@a + b``.
    
        You can refer to column names that are not valid Python variable names
        by surrounding them in backticks. Thus, column names containing spaces
        or punctuations (besides underscores) or starting with digits must be
        surrounded by backticks. (For example, a column named "Area (cm^2)" would
        be referenced as ```Area (cm^2)```). Column names which are Python keywords
        (like "list", "for", "import", etc) cannot be used.
    
        For example, if one of your columns is called ``a a`` and y