## 　numpy・pandasの基本

### 分析のための追加機能のインポート

In [3]:
import numpy as np
import pandas as pd

### 実装：リスト

In [1]:
sample_list = [1,2,3,4,5]
sample_list

### 実装：アレイ

In [4]:
sample_array = np.array([1,2,3,4,5])
sample_array

#### アレイの各要素に2を加える

In [8]:
sample_array + 2

#### アレイの各要素を2倍する

In [9]:
sample_array * 2

#### アレイの要素の型

In [6]:
np.array([1 ,2, "A"])

array(['1', '2', 'A'],
      dtype='<U11')

In [20]:
# 行列=アレイのアレイ
sample_array_2 = np.array(
    [[1,2,3,4,5],
     [6,7,8,9,10]])
sample_array_2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [21]:
# 行数・列数の確認
sample_array_2.shape

(2, 5)

### 実装：等差数列の作成方法

In [8]:
np.arange(start = 1, stop = 6, step = 1)

array([1, 2, 3, 4, 5])

In [9]:
np.arange(start = 0.1, stop = 0.8, step = 0.2)

array([ 0.1,  0.3,  0.5,  0.7])

In [10]:
np.arange(0.1, 0.8, 0.2)

array([ 0.1,  0.3,  0.5,  0.7])

### 実装：様々なアレイの作成方法

In [10]:
# 同じ値の繰り返し
np.tile("A", 5)

array(['A', 'A', 'A', 'A', 'A'], dtype='<U1')

In [11]:
# 0を4回繰り返す
np.tile(0, 4)

array([0, 0, 0, 0])

In [12]:
# ゼロ埋めのアレイ
np.zeros(4)

array([0., 0., 0., 0.])

In [13]:
# 2次元配列
np.zeros([2,3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [14]:
# 1埋めのアレイ
np.ones(3)

array([1., 1., 1.])

### 実装：スライシング

In [19]:
# 1次元配列
d1_array = np.array([1,2,3,4,5])
d1_array

array([1, 2, 3, 4, 5])

In [17]:
# 最初の要素を取得
d1_array[0]

1

In [18]:
# 2~3番目の要素を取得
d1_array[1:3]

array([2, 3])

In [17]:
# 2次元配列
d2_array = np.array(
    [[1,2,3,4,5],
    [6,7,8,9,10]])
d2_array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [18]:
d2_array[0, 3]

4

In [19]:
d2_array[1, 2:4]

array([8, 9])

### 実装：データフレーム

In [20]:
sample_df = pd.DataFrame({
    'col1' : sample_array, 
    'col2' : sample_array * 2,
    'col3' : ["A", "B", "C", "D", "E"]
})
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [21]:
sample_df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


### 実装：ファイルデータの読み込み

In [22]:
file_data = pd.read_csv("titanic.csv")
print(file_data)

   col1 col2
0     1    A
1     2    A
2     3    B
3     4    B
4     5    C
5     6    C


In [23]:
type(file_data)

pandas.core.frame.DataFrame

### 実装：データフレームの結合

In [24]:
df_1 = pd.DataFrame({
    'col1' : np.array([1, 2, 3]),
    'col2' : np.array(["A", "B", "C"])
})
df_2 = pd.DataFrame({
    'col1' : np.array([4, 5, 6]),
    'col2' : np.array(["D", "E", "F"])
})

In [25]:
# 縦に結合
print(pd.concat([df_1, df_2]))

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [26]:
# 横に結合
print(pd.concat([df_1, df_2], axis = 1))

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F


### 実装：列に対するデータフレームの操作

In [27]:
# 対象データ
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [28]:
# 列名を指定して抽出
print(sample_df.col2)

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int32


In [29]:
print(sample_df["col2"])

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int32


In [30]:
print(sample_df[["col2", "col3"]])

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


In [31]:
# 列の削除
print(sample_df.drop("col1", axis = 1))

   col2 col3
0     2    A
1     4    B
2     6    C
3     8    D
4    10    E


### 実装：列に対するデータフレームの操作

In [32]:
# 最初の3行だけを抽出
print(sample_df.head(n = 3))

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C


In [33]:
# 最初の行を抽出
print(sample_df.query('index == 0'))

   col1  col2 col3
0     1     2    A


In [34]:
# 様々な条件で抽出
print(sample_df.query('col3 == "A"'))

   col1  col2 col3
0     1     2    A


In [35]:
# OR条件で抽出
print(sample_df.query('col3 == "A" | col3 == "D"'))

   col1  col2 col3
0     1     2    A
3     4     8    D


In [36]:
# AND条件で抽出
print(sample_df.query('col3 == "A" & col1 == 3'))

Empty DataFrame
Columns: [col1, col2, col3]
Index: []


In [37]:
# 行も列も選択する
print(sample_df.query('col3 == "A"')[["col2", "col3"]])

   col2 col3
0     2    A


### 補足：シリーズ

In [38]:
type(sample_df)

pandas.core.frame.DataFrame

In [39]:
type(sample_df.col1)

pandas.core.series.Series

In [40]:
# アレイへの変換
type(np.array(sample_df.col1))

numpy.ndarray

In [41]:
type(sample_df.col1.values)

numpy.ndarray

### 参考：関数のヘルプ

In [42]:
help(sample_df.query)

Help on method query in module pandas.core.frame:

query(expr, inplace=False, **kwargs) method of pandas.core.frame.DataFrame instance
    Query the columns of a frame with a boolean expression.
    
    .. versionadded:: 0.13
    
    Parameters
    ----------
    expr : string
        The query string to evaluate.  You can refer to variables
        in the environment by prefixing them with an '@' character like
        ``@a + b``.
    inplace : bool
        Whether the query should modify the data in place or return
        a modified copy
    
        .. versionadded:: 0.18.0
    
    kwargs : dict
        See the documentation for :func:`pandas.eval` for complete details
        on the keyword arguments accepted by :meth:`DataFrame.query`.
    
    Returns
    -------
    q : DataFrame
    
    Notes
    -----
    The result of the evaluation of this expression is first passed to
    :attr:`DataFrame.loc` and if that fails because of a
    multidimensional key (e.g., a DataFrame) 