In [5]:
import numpy as np

In [6]:
import pandas as pd

In [7]:
sample_list = [1,2,3,4,5]
sample_list

[1, 2, 3, 4, 5]

In [8]:
sample_array = np.array(sample_list)

In [10]:
sample_array

array([1, 2, 3, 4, 5])

In [11]:
sample_array + 2

array([3, 4, 5, 6, 7])

In [12]:
sample_array * 2

array([ 2,  4,  6,  8, 10])

In [14]:
np.array([1,2,"A"])

array(['1', '2', 'A'], dtype='<U21')

In [16]:
sample_array2 = np.array(
[[1,2,3,4,5],
[6,7,8,9,10]])
sample_array2

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [23]:
sample_array2.shape

(2, 5)

# 等差数列の作成方法

In [18]:
np.arange(start = 1, stop = 6, step = 1)

array([1, 2, 3, 4, 5])

In [19]:
np.arange(start = 0.1, stop = 0.8, step = 0.2)

array([0.1, 0.3, 0.5, 0.7])

# 様々なアレイの作成方法

In [20]:
np.tile("A", 5)

array(['A', 'A', 'A', 'A', 'A'], dtype='<U1')

In [21]:
np.tile(0,4)

array([0, 0, 0, 0])

In [22]:
np.zeros(4)

array([0., 0., 0., 0.])

In [24]:
np.zeros([2,3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [25]:
np.ones(3
       )

array([1., 1., 1.])

# スライシング

In [26]:
d1_array = np.array([1,2,3,4,5])
d1_array

array([1, 2, 3, 4, 5])

In [27]:
d1_array[0]

1

In [28]:
d1_array[1:3]

array([2, 3])

In [31]:
d2_array = np.array(
[[1,2,3,4,5],
 [6,7,8,9,10]])
d2_array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10]])

In [32]:
d2_array[0,3]

4

In [33]:
d2_array[1, 2:4]

array([8, 9])

# データフレーム

In [34]:
sample_df = pd.DataFrame({
    'col1': sample_array,
    'col2': sample_array * 2,
    'col3': ["A", "B", "C", "D", "E"]
})
print(sample_df)

   col1  col2 col3
0     1     2    A
1     2     4    B
2     3     6    C
3     4     8    D
4     5    10    E


In [35]:
sample_df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


# ファイルデータの読み込み

pd.read_csv("ファイル名")でCSVファイルを読み込むことが可能

# データフレームの結合

In [36]:
df_1 = pd.DataFrame({
    'col1': np.array([1,2,3]),
    'col2': np.array(["A", "B", "C"])
})
df_2 = pd.DataFrame({
    'col1': np.array([4,5,6]),
    'col2': np.array(["D", "E", "F"])
})

In [40]:
# 縦に結合
print(pd.concat([df_1, df_2]))

   col1 col2
0     1    A
1     2    B
2     3    C
0     4    D
1     5    E
2     6    F


In [41]:
# 横に結合
print(pd.concat([df_1, df_2], axis = 1))

   col1 col2  col1 col2
0     1    A     4    D
1     2    B     5    E
2     3    C     6    F


# 列に対するデータフレームの操作

In [44]:
sample_df

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C
3,4,8,D
4,5,10,E


In [45]:
sample_df.col2

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int64

In [46]:
sample_df["col2"]

0     2
1     4
2     6
3     8
4    10
Name: col2, dtype: int64

In [51]:
sample_df[["col2", "col3"]]

Unnamed: 0,col2,col3
0,2,A
1,4,B
2,6,C
3,8,D
4,10,E


In [53]:
sample_df.drop("col1", axis = 1) # 特定行だけをなくす

Unnamed: 0,col2,col3
0,2,A
1,4,B
2,6,C
3,8,D
4,10,E


# 行に対するデータフレームの操作

In [55]:
sample_df.head(n = 3) # 頭3行だけを取得

Unnamed: 0,col1,col2,col3
0,1,2,A
1,2,4,B
2,3,6,C


In [56]:
sample_df.query('index == 0')

Unnamed: 0,col1,col2,col3
0,1,2,A


In [58]:
sample_df.query('col3 == "A"')

Unnamed: 0,col1,col2,col3
0,1,2,A


In [59]:
sample_df.query('col3 == "A" | col3 == "D"')

Unnamed: 0,col1,col2,col3
0,1,2,A
3,4,8,D


In [60]:
sample_df.query('col3 == "A" & col1 == "D"')

Unnamed: 0,col1,col2,col3


In [61]:
sample_df.query('col3 == "A"')[['col2', 'col3']]

Unnamed: 0,col2,col3
0,2,A


# シリーズ

pandasデータフレームにおいて、1列だけを抽出したものはシリーズと呼ばれる別のデータ型に変わる

In [62]:
type(sample_df)

pandas.core.frame.DataFrame

In [63]:
type(sample_df.col1)

pandas.core.series.Series

シリーズはnumpyアレイとほぼ同様に扱うことができる

ただ、アレイの方が使いやすいこともあるので、シリーズをアレイに変換することもしばしば

In [65]:
type(np.array(sample_df.col1))

numpy.ndarray

In [66]:
# こっちの方法でも結果は同じ
type(sample_df.col1.values)

numpy.ndarray

# 関数のヘルプ

In [67]:
help(sample_df.query)

Help on method query in module pandas.core.frame:

query(expr, inplace=False, **kwargs) method of pandas.core.frame.DataFrame instance
    Query the columns of a DataFrame with a boolean expression.
    
    Parameters
    ----------
    expr : string
        The query string to evaluate.  You can refer to variables
        in the environment by prefixing them with an '@' character like
        ``@a + b``.
    inplace : bool
        Whether the query should modify the data in place or return
        a modified copy
    
        .. versionadded:: 0.18.0
    
    kwargs : dict
        See the documentation for :func:`pandas.eval` for complete details
        on the keyword arguments accepted by :meth:`DataFrame.query`.
    
    Returns
    -------
    q : DataFrame
    
    See Also
    --------
    pandas.eval
    DataFrame.eval
    
    Notes
    -----
    The result of the evaluation of this expression is first passed to
    :attr:`DataFrame.loc` and if that fails because of a
    mul