In [1]:
import pandas as pd

# 20230227 Seriesの作成
## リストからSeriesを作成する

In [2]:
lst1 = [x for x in range(1,6)]
lst1

[1, 2, 3, 4, 5]

In [3]:
lst2 = [x**2 for x in lst1]
print(lst2)

[1, 4, 9, 16, 25]


In [4]:
sr = pd.Series(lst2, index=lst1)
sr

1     1
2     4
3     9
4    16
5    25
dtype: int64

In [5]:
sr0 = pd.Series(lst2)
sr0

0     1
1     4
2     9
3    16
4    25
dtype: int64

## インデックスを指定して要素にアクセスする

In [6]:
# indexを指定して抽出
sr.at[4]

16

In [7]:
# indexの範囲で抽出
sr.loc[2:4]

2     4
3     9
4    16
dtype: int64

In [8]:
# 中身を書き換え
sr.at[2] = 999
sr

1      1
2    999
3      9
4     16
5     25
dtype: int64

In [9]:
# 連続して書き換え
sr.loc[2:4] = [555, 666, 777]
sr

1      1
2    555
3    666
4    777
5     25
dtype: int64

## 数値以外の値をindexにする

In [10]:
words = pd.Series(['りんご', 'みかん', 'ぶどう'], index=['apple', 'orange', 'grape'])
words

apple     りんご
orange    みかん
grape     ぶどう
dtype: object

In [11]:
words.at['apple']

'りんご'

### ドットによるインデックスの指定(非数値のインデックス)

In [12]:
words.apple

'りんご'

In [13]:
words.at['watermelon'] = 'すいか'
words

apple         りんご
orange        みかん
grape         ぶどう
watermelon    すいか
dtype: object

In [14]:
# .を使ったindex指定からのデータ中身変更は可能。新規のものを作成は出来ない(エラーも出ない)
words.grape = '葡萄'
words

apple         りんご
orange        みかん
grape          葡萄
watermelon    すいか
dtype: object

## 格納順位を指定して要素にアクセスする

In [15]:
sr.iat[1]

555

In [16]:
sr.iloc[1:4]#listのsliceで指定するのと同じ法則を適用している

2    555
3    666
4    777
dtype: int64

# Series演習1

In [17]:
import sympy

In [18]:
p = list(sympy.primerange(1,100))
print(p)

[2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97]


In [19]:
# index_No = [x + 1 for x in range(len(p))]
index_No = list(range(1,len(p) + 1))

In [20]:
prime_sr = pd.Series(p, index=index_No)


In [21]:
print(prime_sr)

1      2
2      3
3      5
4      7
5     11
6     13
7     17
8     19
9     23
10    29
11    31
12    37
13    41
14    43
15    47
16    53
17    59
18    61
19    67
20    71
21    73
22    79
23    83
24    89
25    97
dtype: int64


In [22]:
prime_sr.iloc[2:8]

3     5
4     7
5    11
6    13
7    17
8    19
dtype: int64

# 20230301 sliceの記述によるSeriesオブジェクト要素へのアクセス

In [23]:
lst = ['a', 'b', 'c', 'd', 'e']

In [24]:
lst[2:]

['c', 'd', 'e']

In [25]:
sr01 = pd.Series([2,4,6,8,10], index=[0,1,2,3,4])
sr02 = pd.Series([2,4,6,8,10], index=[1,2,3,4,5])

In [26]:
sr01[0:3]

0    2
1    4
2    6
dtype: int64

# 条件指定による要素の抽出

In [27]:
sr

1      1
2    555
3    666
4    777
5     25
dtype: int64

## 真理値によるマスキング

In [28]:
# 抽出対象の要素を真理値で指定
msk = [True, True, False, False, True]

In [29]:
sr.iloc[msk]

1      1
2    555
5     25
dtype: int64

### Seriesに対する条件判定

In [30]:
sr < 100

1     True
2    False
3    False
4    False
5     True
dtype: bool

### スライスの中に条件式を記述することが出来る

In [31]:
sr[sr < 100]
# sr.iloc[sr < 100] -> これはエラーになる。iat、iloc中に条件式は入れられない

1     1
5    25
dtype: int64

In [32]:
# locにはいける
sr.loc[sr < 100]

1     1
5    25
dtype: int64

# 重複するindexを持つSeriesの扱い

In [33]:
lst2

[1, 4, 9, 16, 25]

In [34]:
# 重複する要素を持つリスト
ix2 = ['x', 'y', 'y', 'y', 'z']

In [35]:
sr2 = pd.Series(lst2, index=ix2)
sr2

x     1
y     4
y     9
y    16
z    25
dtype: int64

In [36]:
sr2.at['y']

y     4
y     9
y    16
dtype: int64

# Seriesの内部構造

In [37]:
sr2

x     1
y     4
y     9
y    16
z    25
dtype: int64

In [38]:
# 値の並びをNumPyの配列として取り出す
sr2.values

array([ 1,  4,  9, 16, 25], dtype=int64)

In [39]:
type(sr2.values)

numpy.ndarray

In [40]:
# Indexを配列として取り出す
ix = sr2.index
ix

Index(['x', 'y', 'y', 'y', 'z'], dtype='object')

In [41]:
type(ix)

pandas.core.indexes.base.Index

### Indexオブジェクトにはスライスが使える

In [42]:
ix[0:2]

Index(['x', 'y'], dtype='object')

In [43]:
# Indexの内容をNumPyの配列として取り出す
ix.values

array(['x', 'y', 'y', 'y', 'z'], dtype=object)

## Indexの検索

In [44]:
sr2.index.get_loc('z')

4

In [45]:
# 重複するIndex項目がある場合(1)
sr2.index.get_loc('y')

slice(1, 4, None)

In [46]:
# 重複するIndexがある場合(2)
sr22 = pd.Series(range(9), index=['x', 'y', 'x', 'x', 'y', 'y', 'z', 'y', 'z'])
sr22

x    0
y    1
x    2
x    3
y    4
y    5
z    6
y    7
z    8
dtype: int64

In [47]:
sr22.index.get_loc('y')

array([False,  True, False, False,  True,  True, False,  True, False])

# NumPyの一次元配列をSeriesに変換する

In [48]:
import numpy as np

In [49]:
ar = np.array([2, 4, 6, 8, 10], dtype='float64')
ar

array([ 2.,  4.,  6.,  8., 10.])

In [50]:
sr3 = pd.Series(ar)
sr3

0     2.0
1     4.0
2     6.0
3     8.0
4    10.0
dtype: float64

# 整列処理(ソート)

In [51]:
sr4 = pd.Series([25, 1, 16, 4, 9])

In [52]:
sr41 = sr4.sort_values()
sr41

1     1
3     4
4     9
2    16
0    25
dtype: int64

In [53]:
# 降順でソートしたい場合
sr42 = sr4.sort_values(ascending=False)
sr42

0    25
2    16
4     9
3     4
1     1
dtype: int64

## Indexの順に整列

In [54]:
sr43 = sr42.sort_index(ascending=True)
sr43

0    25
1     1
2    16
3     4
4     9
dtype: int64

In [55]:
sr44 = sr42.sort_index(ascending=False)
sr44

4     9
3     4
2    16
1     1
0    25
dtype: int64

# Seriesの要素の削除

In [56]:
sr5 = pd.Series([111, 222, 333], index=['d1', 'd2', 'd3'])
sr5

d1    111
d2    222
d3    333
dtype: int64

In [57]:
sr51 = sr5.drop('d2')
sr51

d1    111
d3    333
dtype: int64

In [58]:
sr5

d1    111
d2    222
d3    333
dtype: int64

In [59]:
sr52 = sr5.drop(['d1', 'd3'])
sr52

d2    222
dtype: int64

## 対象のSeriesの要素を直接的に削除する

In [60]:
del sr5['d2']
sr5

d1    111
d3    333
dtype: int64

## Seriesオブジェクトの連結

In [61]:
srA = pd.Series([11, 12, 13])
srB = pd.Series([21, 22, 23])

In [62]:
srAB = pd.concat([srA, srB])
srAB

0    11
1    12
2    13
0    21
1    22
2    23
dtype: int64

# Indexの再設定

## 最も単純な方法(整数インデックス)

In [63]:
srAB2 = srAB.reset_index(drop=True)
srAB2

0    11
1    12
2    13
3    21
4    22
5    23
dtype: int64

In [64]:
# drop=を省略した場合
df1 = srAB.reset_index()
df1

Unnamed: 0,index,0
0,0,11
1,1,12
2,2,13
3,0,21
4,1,22
5,2,23


## 与えた項目列でIndexを置き換える方法

In [65]:
srAB.index = ['a', 'b', 'c', 'd', 'e', 'f']
srAB

a    11
b    12
c    13
d    21
e    22
f    23
dtype: int64

# 開始部分/終了部分の取り出し

In [66]:
sr6 = pd.Series([x**2 for x in range(100)])
sr6

0        0
1        1
2        4
3        9
4       16
      ... 
95    9025
96    9216
97    9409
98    9604
99    9801
Length: 100, dtype: int64

In [67]:
sr6.head(10)

0     0
1     1
2     4
3     9
4    16
5    25
6    36
7    49
8    64
9    81
dtype: int64

In [68]:
sr6.tail(10)

90    8100
91    8281
92    8464
93    8649
94    8836
95    9025
96    9216
97    9409
98    9604
99    9801
dtype: int64

# マルチインデックス
## MultiIndexオブジェクトの作成

In [69]:
midx = pd.MultiIndex.from_tuples([
    ('A', 'a', 1),
    ('A', 'a', 2),
    ('A', 'b', 1),
    ('A', 'b', 2),
    ('B', 'a', 1),
    ('B', 'a', 2),
    ('B', 'b', 1),
    ('B', 'b', 2)
])

In [71]:
midx

MultiIndex([('A', 'a', 1),
            ('A', 'a', 2),
            ('A', 'b', 1),
            ('A', 'b', 2),
            ('B', 'a', 1),
            ('B', 'a', 2),
            ('B', 'b', 1),
            ('B', 'b', 2)],
           )

## マルチインデックスを持つSeriesを作成する

In [72]:
sr = pd.Series(range(8), index=midx)
sr

A  a  1    0
      2    1
   b  1    2
      2    3
B  a  1    4
      2    5
   b  1    6
      2    7
dtype: int64

## カテゴリ(Indexレベル)毎にデータを取り出す

In [74]:
sr.at[('A')]

a  1    0
   2    1
b  1    2
   2    3
dtype: int64

In [75]:
sr.at[('A', 'b')]

1    2
2    3
dtype: int64

In [76]:
sr.at[('A', 'b', 2)]

3

## Indexレベルを指定した整列

In [77]:
sr.sort_index(level=1)

A  a  1    0
      2    1
B  a  1    4
      2    5
A  b  1    2
      2    3
B  b  1    6
      2    7
dtype: int64

In [78]:
sr.sort_index(level=2)

A  a  1    0
   b  1    2
B  a  1    4
   b  1    6
A  a  2    1
   b  2    3
B  a  2    5
   b  2    7
dtype: int64

## 各Indexに名前を与える

In [79]:
midx2 = pd.MultiIndex.from_tuples([
    ('A', 'a', 1),
    ('A', 'a', 2),
    ('A', 'b', 1),
    ('A', 'b', 2),
    ('B', 'a', 1),
    ('B', 'a', 2),
    ('B', 'b', 1),
    ('B', 'b', 2)
], names=['1st', '2nd', '3rd'])

In [80]:
midx2

MultiIndex([('A', 'a', 1),
            ('A', 'a', 2),
            ('A', 'b', 1),
            ('A', 'b', 2),
            ('B', 'a', 1),
            ('B', 'a', 2),
            ('B', 'b', 1),
            ('B', 'b', 2)],
           names=['1st', '2nd', '3rd'])

In [81]:
sr = pd.Series(range(8), index=midx2)
sr

1st  2nd  3rd
A    a    1      0
          2      1
     b    1      2
          2      3
B    a    1      4
          2      5
     b    1      6
          2      7
dtype: int64

In [82]:
sr.sort_index(level='3rd')

1st  2nd  3rd
A    a    1      0
     b    1      2
B    a    1      4
     b    1      6
A    a    2      1
     b    2      3
B    a    2      5
     b    2      7
dtype: int64