# pandas document
pandasの関数の使い方について逐次追加していく. (2024/03/30)

In [1]:
# import module
import numpy as np
import pandas as pd

## SeriesとDataFrameについて

### Series
Seriesの定義方法について記載する.
Seriesはnumpyのデータ配列, ndarray, に軸ラベルを付けたobject.
定義の仕方は以下である,  

pandas.Series(data=None, index=None, dtype=None, name=None, copy=None, fastpath=_NoDefault.no_default)  

* data : 配列や辞書型、scalar量が入る.  
* index : 1次元の配列が入る(dataと同じ長さである必要あり)  
* dtype : str, numpy.dtypeなど  
* name : defaultではNone. 好きに命名できる.  
* copy : series作成の際にデータをコピーするか. Trueだと元のデータをコピー(独立なseriesに), Falseだと元データをコピーしない(元データに従属). データ不変性を優先するならばTrue, メモリ効率を優先するならばFalseがよい.  
* fastpath : 特定の内部処理やパフォーマンスの最適化のためのオプション. 通常使用しないので今回は扱わない.

### 引数copyについて
以下で見るように, 引数copyは元のデータがlistの場合は変わらない. np.arrayの場合copy=falseの時に同じメモリにあるnp.arrayを参照するため, serisの値を変えるとnp.arrayも変わる,

In [60]:
r_true = [1, 2] # original list
r_false = [1, 2] # original list
ser_true = pd.Series(r_true, copy=True, name="copyTrue")    #series定義
ser_false = pd.Series(r_false, copy=False, name="copyFalse")#series定義
ser_true.iloc[0] = 999  #ser_trueの1行目の値に999を代入
ser_false.iloc[0] = 999 #ser_falseの1行目の値に999を代入
print("r_true = ", r_true)  #変化なし
print(ser_true)
print("r_false = ", r_false)#変化なし
print(ser_false)

r_true =  [1, 2]
0    999
1      2
Name: copyTrue, dtype: int64
r_false =  [1, 2]
0    999
1      2
Name: copyFalse, dtype: int64


In [62]:
r_true = np.array([1, 2]) # original list
r_false = np.array([1, 2]) # original list
ser_true = pd.Series(r_true, copy=True, name="copyTrue")
ser_false = pd.Series(r_false, copy=False, name="copyFalse")
ser_true.iloc[0] = 999
ser_false.iloc[0] = 999
print("r_true = ", r_true)  #copyしているため変化なし
print(ser_true)
print("r_true = ", r_false) #copyしていないので変化する
print(ser_false)

r_true =  [1 2]
0    999
1      2
Name: copyTrue, dtype: int32
r_true =  [999   2]
0    999
1      2
Name: copyFalse, dtype: int32


## DataFrameについて
DataFrameの定義の仕方とmethods, attributesについて使ったものをメモしていく.

### DataFramの定義方法
以下で定義することができる,
```python
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=None)
```

In [7]:
dates = pd.date_range("20240330", periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list("ABCD"))
df

Unnamed: 0,A,B,C,D
2024-03-30,0.305133,-1.589677,-1.193714,0.853323
2024-03-31,-0.162546,0.785514,0.360761,0.771982
2024-04-01,0.959729,0.931967,-0.138276,-0.954579
2024-04-02,-0.497719,-0.993508,-0.485963,1.28519
2024-04-03,1.25696,1.105411,1.676687,-1.271439
2024-04-04,-0.818119,0.734709,-0.263249,-2.098466


## 複数のSeries から DataFrame を作成する方法
複数のSeries から DataFrameを作成するには, pd.DataFrame か pd.concatを使う. 例を示す,

In [8]:
#sample series
index_name = [i for i in range(10)]
list_A = np.array([0,3,3,5,5,5,5,7,7,10])
list_B = np.array([0,1,2,3,5,5,7,8,9,10])
list_C = np.array([3,4,4,5,5,5,5,6,6,7])
series_A = pd.Series(list_A, index=index_name, name="A", copy=True)
series_B = pd.Series(list_B, index=index_name, name="B", copy=True)
series_C = pd.Series(list_C, index=index_name, name="C", copy=True)

In [10]:
# pd.DataFrameを使った方法. 辞書形式
df1=pd.DataFrame({series_A.name:series_A,series_B.name:series_B,series_C.name:series_C})
df1.head(3)

Unnamed: 0,A,B,C
0,0,0,3
1,3,1,4
2,3,2,4


In [14]:
# pd.concatを使った方法. axis = 0 で行結合, 1 で列結合できる,
df2=pd.concat([series_A,series_B,series_C],axis=1)
df2.head(3)

Unnamed: 0,A,B,C
0,0,0,3
1,3,1,4
2,3,2,4


## DataFrameから特定の行を抽出する方法

In [2]:
#sampl DataFrame
import pandas as pd
import numpy as np

array = np.array([[32, 19, 10, 24, 15], [28, 13, 18, 29, 12]])
df = pd.DataFrame(array, columns = list("ABCDE"), index = ["本年", "10年前"])
df

Unnamed: 0,A,B,C,D,E
本年,32,19,10,24,15
10年前,28,13,18,29,12


In [5]:
# 列を抽出
df["A"]

本年      32
10年前    28
Name: A, dtype: int32

In [14]:
# 行列の指定
print("(本年, A)の要素 : ", df.loc["本年","A"])

(本年, A)の要素 :  32


In [20]:
# "列AとCの要素をと指定
df.loc[["本年", "10年前"], ["A", "C"]]

Unnamed: 0,A,C
本年,32,10
10年前,28,18


In [27]:
# 行の指定
df.loc[["本年"]]

Unnamed: 0,A,B,C,D,E
本年,32,19,10,24,15


In [41]:
# 行数で指定
df.iloc[[0]]

Unnamed: 0,A,B,C,D,E
本年,32,19,10,24,15


In [32]:
# 行の複数指定も可能(今回は2行しかないので変わらない)
df.loc[["本年", "10年前"]]

Unnamed: 0,A,B,C,D,E
本年,32,19,10,24,15
10年前,28,13,18,29,12
