pandasの基礎  
データ分析用のライブラリでcsvファイルの読み込みとかデータの加工をすることができる  
1次元データを扱うseries形と2次元データのdataframe型がある

In [19]:
import pandas as pd

from IPython.display import display

seriesとはインデックスが付けられた1次元のリストのこと

In [2]:
list_1 = [7, 8, 9]

series_1 = pd.Series(list_1)

In [4]:
#seriesの出力
series_1

0    7
1    8
2    9
dtype: int64

In [5]:
list_1 = [7, 8, 9]

#データ型を指定したバージョン
series_1 = pd.Series(list_1, dtype=float)

In [7]:
#seriesの出力
series_1

0    7.0
1    8.0
2    9.0
dtype: float64

In [8]:
list_2 = ['矢口', '小田部', 'ガンダム']

#データ型を指定したバージョン
series_2 = pd.Series(list_2 )

series_2

#インデックスは同じだが、文字列を扱うときのデータ型をobject型としている

0      矢口
1     小田部
2    ガンダム
dtype: object

In [14]:
#インデックスを文字列とした書き方
val = [7, 8, 9]
name = ['矢口', '小田部', 'ガンダム']
n_series = pd.Series(val, index=name)

print(n_series)

矢口      7
小田部     8
ガンダム    9
dtype: int64

### ディクショナリ型について

In [15]:
#ディクショナリの書き方
a_dict = {'矢口': 1, '小田部': 2, 'ガードマン': 3}

In [17]:
a_dict['矢口']

1

In [20]:
d_series = pd.Series(a_dict)
display(d_series)

矢口       1
小田部      2
ガードマン    3
dtype: int64

### 欠損値の操作について

In [21]:
a_dict2 = {'矢口': 1, '小田部': 2, 'ガードマン': 3}
name = ['矢口', '小田部', 'ガードマン', '山村']

d2_series = pd.Series(a_dict2, index=name)

print(d2_series)

#nanは欠損値

矢口       1.0
小田部      2.0
ガードマン    3.0
山村       NaN
dtype: float64


In [41]:
dict3 = {'yaguchi': 1, 'otabe': 2, 'yamamura': 3}

d3 = pd.Series(dict3)

print(d3)

yaguchi     1
otabe       2
yamamura    3
dtype: int64


In [42]:
d3['yamamura']

3

In [25]:
d3[2]

3

In [26]:
d3[1]

2

スライスについて

In [43]:
#矢口から小田部までの要素を取り出す
d3['yaguchi':'otabe']

yaguchi    1
otabe      2
dtype: int64

In [29]:
d3[0:2]

矢口     1
小田部    2
dtype: int64

seriesのインデックスと要素を別々に取得する方法

In [30]:
#ディクショナリの要素の取り出しから
d3.values

array([1, 2, 3], dtype=int64)

In [31]:
d3.value_counts

<bound method IndexOpsMixin.value_counts of 矢口     1
小田部    2
山村     3
dtype: int64>

In [56]:
#ディクショナリのインデックスの取り出しかた
d3.index

Index(['yaguchi', 'otabe', 'yamamura'], dtype='object')

In [60]:
list(d3.values)
#型変換しないとダメっぽい

TypeError: 'Index' object is not callable

In [58]:
d3[d3 >1]

otabe       2
yamamura    3
dtype: int64

In [61]:
d3 >1

yaguchi     False
otabe        True
yamamura     True
dtype: bool

#### 要素の変更について

In [63]:
dict4 = {'yaguchi': 10, 'otabe': 50, 'yamamura': 300}

d4 = pd.Series(dict4)

print(d4)

yaguchi      10
otabe        50
yamamura    300
dtype: int64


In [66]:
#要素の変更
d4['yaguchi'] = 1
print(d4)

yaguchi       1
otabe        50
yamamura    300
dtype: int64


In [68]:
#要素を一括変更
d4[1:3] = 100,10000
print(d4)

yaguchi         1
otabe         100
yamamura    10000
dtype: int64


In [69]:
a_list = [7, 8, 9]
b_list = [10, 11]

s7 = pd.Series(a_list)
s8 = pd.Series(b_list)

In [70]:
print(s7)

0    7
1    8
2    9
dtype: int64


In [71]:
print(s8)

0    10
1    11
dtype: int64


In [73]:
#要素の追加
s7.append(s8)

0     7
1     8
2     9
0    10
1    11
dtype: int64

In [74]:
#ignore_indexはインデックス番号を正しくしてくれるパラメータ
s7.append(s8, ignore_index=True)

0     7
1     8
2     9
3    10
4    11
dtype: int64

### 要素の削除

In [75]:
aa_dict = {'yaguchi': 10, 'yamaguchi': 7, 'miyamoto': 99}
s9 = pd.Series(aa_dict)
print(s9)

yaguchi      10
yamaguchi     7
miyamoto     99
dtype: int64


In [77]:
#要素の削除
s9.drop(index='yamaguchi')

yaguchi     10
miyamoto    99
dtype: int64

In [78]:
#上のやつは消えているようで消えていないので
#完全に消したい場合は変数を上書いてあげる
#かinplaceというパラメータを使ってあげる

s9.drop(index='yamaguchi', inplace=True)
print(s9)

yaguchi     10
miyamoto    99
dtype: int64
