In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import mglearn
from sklearn.model_selection import train_test_split

%matplotlib inline

# Pandas

# データを取り込む (CSV)

In [3]:
dt = pd.read_csv("./extra/speedtest.csv",
    names=["ServerID", "Sponsor", "ServerName", "Timestamp", "Distance", "Ping", "Download", "Upload"])
dt[0:3]

Unnamed: 0,ServerID,Sponsor,ServerName,Timestamp,Distance,Ping,Download,Upload
0,7510,ASEINet,Tokyo,2016-12-25T06:52:15.447935,26.44517,37.59,27681030.0,2527274.0
1,6492,denpa893,Sumida,2016-12-25T07:13:07.347532,32.165972,51.288,2088240.0,11130940.0
2,6492,denpa893,Sumida,2016-12-25T08:19:09.015875,32.165972,52.106,32534220.0,9692958.0


In [79]:
tmp = list(range(3))
sr = pd.Series(tmp, [f"row{i}" for i in tmp])
sr

row0    0
row1    1
row2    2
dtype: int64

# データを生成する
PandasはDataFrameを扱うためのライブラリになるが、DataFrame生成は幾つかの方法がある。また、PandasにはSeriesという配列の様なものがあり、辞書+値1つを1つにまとめた動きをする。2次元データのDataFrameに対し、1次元データをSeriesとなり、SeriesはDataFrameでデータを取り出した際にしばしば登場する。。

## Series (1次元データ)

* 方法3: 辞書 → index: value、値1個: columnName
* 方法4: 辞書 → columnName: value、値1個: index

In [208]:
sr = pd.Series(range(3, 6), index=[f"row{i}" for i in range(3)], name="col1")
sr

row0    3
row1    4
row2    5
Name: col1, dtype: int64

In [210]:
# 添字
print(repr(sr[1]), "\n")

# ラベル
print(repr(sr["row0":"row1"]), "\n")

# ラベル (範囲)
print(repr(sr[["row0", "row2"]]), "\n")

# 添字参照
print(repr(sr.index))

4 

row0    3
row1    4
Name: col1, dtype: int64 

row0    3
row2    5
Name: col1, dtype: int64 

Index(['row0', 'row1', 'row2'], dtype='object')


## DataFrame (2次元データ)
* 方法1: 列を束ねる方式 → dict
* 方法2: 行を束ねる方式 → list

In [51]:
# レコード生成 方法1
pd.DataFrame({
    "cola": np.arange(3),
    "colb": np.arange(3),
    "colc": np.arange(3),
    "cold": np.arange(3),
}, index=["row1", "row2", "row3"])

Unnamed: 0,cola,colb,colc,cold
row1,0,0,0,0
row2,1,1,1,1
row3,2,2,2,2


In [50]:
# レコード生成 方法2
pd.DataFrame(
    np.arange(8).reshape(2, 4),
    columns=["cola", "colb", "colc", "cold"]
)

Unnamed: 0,cola,colb,colc,cold
0,0,1,2,3
1,4,5,6,7


In [123]:
# レコード生成 方法3
pd.DataFrame([
    pd.Series(
        data=[f"dat{r}{c}" for r in range(3)],
        index=[f"col{r}" for r in range(3)],
        name=f"row{c}") for c in range(5)
])

Unnamed: 0,col0,col1,col2
row0,dat00,dat10,dat20
row1,dat01,dat11,dat21
row2,dat02,dat12,dat22
row3,dat03,dat13,dat23
row4,dat04,dat14,dat24


In [116]:
# レコード生成 方法4
pd.DataFrame([pd.Series([f"dat{r}{c}" for c in range(5)], name=f"row{r}") for r in range(3)])

Unnamed: 0,0,1,2,3,4
row0,dat00,dat01,dat02,dat03,dat04
row1,dat10,dat11,dat12,dat13,dat14
row2,dat20,dat21,dat22,dat23,dat24


# データを取得する

* loc: ラベル指定で取得
* iloc: 添字指定で取得

loc/ilocプロパティからスライス機能で取得する。第1添字で行、第2添字で列を指定する。listのスライスと同じ感覚で使用できる他、添字にlistを使うことで飛々なインデックスを指定できる。

In [195]:
sample_dt = pd.DataFrame([
    pd.Series([1, 2, 3], index=["col1", "col2", "col3"], name=5),
    pd.Series([1, 2, 3], index=["col1", "col2", "col3"], name=5),
    pd.Series([1, 2, 3], index=["col1", "col2", "col3"], name=7),
])

In [216]:
# 行ラベルで抽出
sample_dt.loc[5:7, ["col1", "col2"]]

Unnamed: 0,col1,col2
5,1,2
5,1,2
7,1,2


In [221]:
# 行番号で抽出
sample_dt.iloc[0:2, 1:3]

Unnamed: 0,col2,col3
5,2,3
5,2,3


In [229]:
# 行ラベル取得
print(repr(sample_dt.index))

# 列ラベル取得
print(repr(sample_dt.columns))

Int64Index([5, 5, 7], dtype='int64')
Index(['col1', 'col2', 'col3'], dtype='object')


# データを出力する

In [35]:
# レコード書き出し
dtA.to_csv("./extra/test.csv")

In [238]:
# レコードをndarrayで書き出し
sample_dt.values

array([[1, 2, 3],
       [1, 2, 3],
       [1, 2, 3]], dtype=int64)