# Pandasの使い方 

## Series・DataFrameの作成(1)

<ul>
<li>リストからSeriesの作成</li>
<ul>
<li>SeriesはPandasに存在する、集計のための機能を色々付加した高機能リストのようなもの。</li>
<li>通常のリストから変換することができる。</li>
</ul>
</ul>

In [0]:
# Pandasの読み込み
import pandas as pd
# Seriesの作成(リストから)
l = [1,2,3,4,5]
s = pd.Series(l)
s

0    1
1    2
2    3
3    4
4    5
dtype: int64

## Series・DataFrameの作成(2)

<ul>
<li>リスト・SeriesからDataFrameの作成。</li>
<ul>
<li>DataFrameはPandasに存在する、集計のための機能を色々付加したデーブル構造を扱うための道具</li>
</ul>
</ul>

In [0]:
# DataFrameの作成(2重のリストから)
m = [
    [1, "yamada", "taro", "man"],
    [2, "yamada", "hanako", "woman"],
    [3, "suzuki", "ichiro", "man"],
    [4, "suzuki", "jiro", "man"],
    [5, "suzuki", "saburo", "man"]
]
names = ["id", "family_name", "first_name", "gender"]
# columns引数でカラム名を指定できる
name_df = pd.DataFrame(m, columns=names)
name_df

Unnamed: 0,id,family_name,first_name,gender
0,1,yamada,taro,man
1,2,yamada,hanako,woman
2,3,suzuki,ichiro,man
3,4,suzuki,jiro,man
4,5,suzuki,saburo,man


## Series・DataFrameの作成(3)

In [0]:
# DataFrameの作成(ディクショナリから)
d = {
    "id": [1,2,3,4,5],
    "is_smoking": [True, False, True, False, True],
    "gender": ["m", "m", "m", "f", "f"]
}

names = ["id", "is_smoking", "gender"]
# columns引数で　カラムの順番を指定できる
#指定しないと順番は保証されない
smoking_df = pd.DataFrame(d, columns=names)
smoking_df

Unnamed: 0,id,is_smoking,gender
0,1,True,m
1,2,False,m
2,3,True,m
3,4,False,f
4,5,True,f


## データの入力

<ul>
<li>CSVファイルをSeries形式で読み込み(1カラムのみの場合)</li>
</ul>

In [0]:
# n行x1列のデータをSeries形式で読み込む
#headerがなければNoneを指定する
s = pd.read_csv("02_10000values.csv", header=None, squeeze=True)
s

0       2929.036961
1       1000.871725
2       2279.805621
3        869.819097
4        148.830232
5         68.313429
6       1118.762486
7       1219.280572
8        211.121933
9       1069.375380
10       459.170816
11       323.879142
12      3311.944922
13       720.787919
14      1439.858844
15        83.114391
16       572.792481
17      1006.287394
18       707.730338
19       174.403137
20      1165.939488
21       917.731148
22       250.099728
23      1581.703373
24       307.129097
25       538.717008
26      2766.207395
27       131.034383
28       530.603635
29      3012.730214
           ...     
9970     410.212486
9971     636.560701
9972    1333.039763
9973    1476.151165
9974    1555.641303
9975     617.976057
9976    2249.669087
9977     151.098883
9978    1322.266456
9979     581.035676
9980     551.117172
9981    2120.786599
9982     481.246709
9983    1349.508897
9984     126.350962
9985     737.781977
9986     770.196256
9987    2521.833165
9988    1126.628400


<ul>
<li>DataFrame形式で読み込み</li>
</ul>

In [0]:
# n行xm列のデータをDataFrame形式で読み込む
# sep:区切り文字の指定。デフォルトは","
df = pd.read_csv("03_iris.csv", sep=",")
df

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,2.9,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


### データの出力

In [0]:
df.to_csv(
    "df_updated.csv",
    sep=",",
    header=True,
    index=False,
    encoding="utf-8",
    line_terminator="\n"
)

## データの確認(1)

<ul>
<li>headメゾット</li>
</ul>

In [0]:
# head()で先頭5行表示
df.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [0]:
# head(n)で先頭n行表示
df.head(1)

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
0,5.1,3.5,1.4,0.2,Iris-setosa


<ul>
<li>tailメゾット</li>
</ul>

In [0]:
# tail()で末尾から表示もできる
df.tail(3)

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica
149,5.9,3.0,5.1,1.8,Iris-virginica


## データの確認(2)

<ul>
<li>カラムインデックスの情報の確認</li>
</ul>

In [0]:
#  カラム名を取得
df.columns

Index(['SepalLength', 'SepalWidth', 'PetalLength', 'PetalWidth', 'Name'], dtype='object')

In [0]:
# インデックス名を取得
# 行列のインデックすを指定する
df.index

RangeIndex(start=0, stop=150, step=1)

<ul>
<li>行数・列数の確認</li>
</ul>

## データの確認(3)

<ul>
<li>基礎統計量の確認</li>
</ul>

In [0]:
df.describe()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


##  Column・Indexの操作 

<ul>
<li>インデックスの書き換え</li>
</ul>

In [0]:
# インデックスを同じ長さの上書き
# (カラムも同様の方法で上書きできる)
df.index = range(101, 251)
df.index

RangeIndex(start=101, stop=251, step=1)

## データの抽出(1)

<ul>
<li>列名でSeriesとしてアクセス</li>
 </ul>

In [0]:
# 特定の1列をSeries型で取得
df["SepalLength"].head()

101    5.1
102    4.9
103    4.7
104    4.6
105    5.0
Name: SepalLength, dtype: float64

## データの抽出(2)

In [0]:
# 1 ~ n　列をDataFrame型で取得
df[["SepalLength", "SepalWidth"]].head()

Unnamed: 0,SepalLength,SepalWidth
101,5.1,3.5
102,4.9,3.0
103,4.7,3.2
104,4.6,3.1
105,5.0,3.6


## データの抽出(3)

<ul>
<li>iloc, locを使った列選択</li>
</ul>

In [0]:
# ilocを使えば行番号・列番号、locを使えば行名・列名で指定できる
df.iloc[110:115,:].loc[:, ["SepalLength", "PetalLength"]]

Unnamed: 0,SepalLength,PetalLength
211,6.5,5.1
212,6.4,5.3
213,6.8,5.5
214,5.7,5.0
215,5.8,5.1


## データの抽出(４)

In [0]:
# 条件文でデータのフィルタリング
# df[ブール値のリスト]という形で指定する
df[df.SepalLength > 7.5]

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
206,7.6,3.0,6.6,2.1,Iris-virginica
218,7.7,3.8,6.7,2.2,Iris-virginica
219,7.7,2.6,6.9,2.3,Iris-virginica
223,7.7,2.8,6.7,2.0,Iris-virginica
232,7.9,3.8,6.4,2.0,Iris-virginica
236,7.7,3.0,6.1,2.3,Iris-virginica


<ul>
<li>[ブール値]による抽出</li>
</ul>

## データの抽出(5)

<ul>
<li>queryメゾットによる抽出</li>
</ul>

In [0]:
# queryメゾットを使うと列名をそのまま文字列で書ける
df.query("Name == 'Iris-virginica'").head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
201,6.3,3.3,6.0,2.5,Iris-virginica
202,5.8,2.7,5.1,1.9,Iris-virginica
203,7.1,3.0,5.9,2.1,Iris-virginica
204,6.3,2.9,5.6,1.8,Iris-virginica
205,6.5,3.0,5.8,2.2,Iris-virginica


## データの抽出(6) 

<ul>
<li>queryメゾットでは変数を埋め込むことができる</li>
</ul>

In [0]:
# queryメゾットは@で変数を埋め込むこともできる
name = "Iris-versicolor"
df.query("Name == @name").head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
151,7.0,3.2,4.7,1.4,Iris-versicolor
152,6.4,3.2,4.5,1.5,Iris-versicolor
153,6.9,3.1,4.9,1.5,Iris-versicolor
154,5.5,2.3,4.0,1.3,Iris-versicolor
155,6.5,2.8,4.6,1.5,Iris-versicolor


## データの抽出(7)

<ul>
<li>queryメゾットではindexを指定することもできる</li>
</ul>

In [0]:
# Indexを指定することもできる
df.query("index in [130, 131, 132]")

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
130,4.7,3.2,1.6,0.2,Iris-setosa
131,4.8,3.1,1.6,0.2,Iris-setosa
132,5.4,3.4,1.5,0.4,Iris-setosa


## データのソート（1）

<ul>
<li>ある1つの列の値による並び替え</li>
</ul>

In [0]:
# sort_valuesでデータをソートできる
df.sort_values(by=["SepalLength"]).head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
114,4.3,3.0,1.1,0.1,Iris-setosa
143,4.4,3.2,1.3,0.2,Iris-setosa
139,4.4,3.0,1.3,0.2,Iris-setosa
109,4.4,2.9,1.4,0.2,Iris-setosa
142,4.5,2.3,1.3,0.3,Iris-setosa


## データのソート(2)

<ul>
<li>複数列の値による並べ替え</li>
</ul>

In [0]:
# 複数要素でソートできる
df.sort_values(by=["PetalLength", "PetalWidth"]).head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
123,4.6,3.6,1.0,0.2,Iris-setosa
114,4.3,3.0,1.1,0.1,Iris-setosa
115,5.8,4.0,1.2,0.2,Iris-setosa
136,5.0,3.2,1.2,0.2,Iris-setosa
103,4.7,3.2,1.3,0.2,Iris-setosa


## データのソート(3)

<ul>
<li>降順ソート</li>
</ul>

In [0]:
# 降順ソート
df.sort_values(by=["PetalLength", "PetalWidth"], ascending=False).head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name
219,7.7,2.6,6.9,2.3,Iris-virginica
218,7.7,3.8,6.7,2.2,Iris-virginica
223,7.7,2.8,6.7,2.0,Iris-virginica
206,7.6,3.0,6.6,2.1,Iris-virginica
232,7.9,3.8,6.4,2.0,Iris-virginica


 ## データの結合(1)

<ul>
<li>concatによる縦方向の単純結合</li>
</ul>

In [0]:
# 2つのDataFrameをconcatメゾットで縦方向に結合する
smoking1_df = pd.DataFrame(
    {"member": ["A", "B", "C", "D", "E"],
    "is_smoking": [1, 1, 0, 0, 0]},
    columns=["member", "is_smoking"]
)
smoking2_df = pd.DataFrame(
    {"member": ["F", "G", "H", "I", "J"],
    "is_smoking": [0, 1, 0, 0, 1]},
    columns=["member", "is_smoking"]
)

smoking_df = pd.concat([smoking1_df, smoking2_df])
smoking_df

Unnamed: 0,member,is_smoking
0,A,1
1,B,1
2,C,0
3,D,0
4,E,0
0,F,0
1,G,1
2,H,0
3,I,0
4,J,1


## データの結合(2)

<ul>
<li>concatによる横方向の単純結合</li>
</ul>

In [0]:
# 2つのDataFrameを横方向に結合する(axis=1を指定)
smoking3_df = pd.DataFrame(
    {"gender": ["male", "female", "male", "male", "female"],
    "age": [24, 55, 30, 42, 28]},
    columns=["gender", "age"]
)

smoking_df = pd.concat([smoking1_df, smoking3_df], axis=1)
smoking_df

Unnamed: 0,member,is_smoking,gender,age
0,A,1,male,24
1,B,1,female,55
2,C,0,male,30
3,D,0,male,42
4,E,0,female,28


##  データの結合(3)

<ul>
<li>mergeによる内部結合</li>
</ul>

In [0]:
df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"]
    },
    index=[0,1,2,3]
)

df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [0]:
df2 = pd.DataFrame(
    {
        "B": ["B2", "B3", "B6", "B7"],
        "F": ["F2", "F3", "F6", "F7"]
    },
    index=[2,3,6,7]
)
df2

Unnamed: 0,B,F
2,B2,F2
3,B3,F3
6,B6,F6
7,B7,F7


In [0]:
# B列をキーにしてINNER JOIN
inner_df = pd.merge(df1, df2, on=["B"], how="inner")
inner_df

Unnamed: 0,A,B,C,D,F
0,A2,B2,C2,D2,F2
1,A3,B3,C3,D3,F3


## データの結合(4)

<ul>
<li>mergeによる外部結合</li>
</ul>

In [0]:
# idをキーにして LEFT JOIN
# 値がないとことはNaNになる
left_df = pd.merge(df1, df2, on=["B"], how="left")
left_df

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,F2
3,A3,B3,C3,D3,F3


## データの集約処理(1)

<ul>
<li>基本的な集計</li>
</ul>

In [0]:
iris_df = pd.read_csv("03_iris.csv")
# 平均　.mean()
iris_df.mean()

SepalLength    5.843333
SepalWidth     3.054000
PetalLength    3.758667
PetalWidth     1.198667
dtype: float64

In [0]:
# 中央値 .median()
iris_df.median()

SepalLength    5.80
SepalWidth     3.00
PetalLength    4.35
PetalWidth     1.30
dtype: float64

In [0]:
# 分散　.var()
iris_df.var()

SepalLength    0.685694
SepalWidth     0.188004
PetalLength    3.113179
PetalWidth     0.582414
dtype: float64

In [0]:
# 標準偏差 .std()
iris_df.std()

SepalLength    0.828066
SepalWidth     0.433594
PetalLength    1.764420
PetalWidth     0.763161
dtype: float64

In [0]:
# 合計 .sum()
iris_df.sum()

SepalLength                                                876.5
SepalWidth                                                 458.1
PetalLength                                                563.8
PetalWidth                                                 179.8
Name           Iris-setosaIris-setosaIris-setosaIris-setosaIr...
dtype: object

In [0]:
# カウント .count()
iris_df.count()

SepalLength    150
SepalWidth     150
PetalLength    150
PetalWidth     150
Name           150
dtype: int64

 ## データの集約処理(2)

<ul>
<li>groupbyによる集計</li>
</ul>

In [0]:
# グループ別にカウント
iris_df.groupby("Name").count()

Unnamed: 0_level_0,SepalLength,SepalWidth,PetalLength,PetalWidth
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Iris-setosa,50,50,50,50
Iris-versicolor,50,50,50,50
Iris-virginica,50,50,50,50


## データの集約処理(3)

<ul>
<li>クロス集計(データの縦持ち・横持ち変換)</li>
</ul>

In [0]:
iris_df["idx"] = iris_df.index % 3
iris_df.head()

Unnamed: 0,SepalLength,SepalWidth,PetalLength,PetalWidth,Name,idx
0,5.1,3.5,1.4,0.2,Iris-setosa,0
1,4.9,3.0,1.4,0.2,Iris-setosa,1
2,4.7,3.2,1.3,0.2,Iris-setosa,2
3,4.6,3.1,1.5,0.2,Iris-setosa,0
4,5.0,3.6,1.4,0.2,Iris-setosa,1


## データの集約処理(4)

In [0]:
# クロス集計のためのデータ作成


In [0]:
iris_df.pivot_table(
    ["SepalLength", "SepalWidth"],
    aggfunc="mean",
    fill_value=0,
    index="idx",
    columns="Name"
)

Unnamed: 0_level_0,SepalLength,SepalLength,SepalLength,SepalWidth,SepalWidth,SepalWidth
Name,Iris-setosa,Iris-versicolor,Iris-virginica,Iris-setosa,Iris-versicolor,Iris-virginica
idx,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
0,5.052941,5.770588,6.75625,3.470588,2.676471,2.98125
1,5.011765,6.01875,6.447059,3.417647,2.90625,3.023529
2,4.95,6.023529,6.570588,3.3625,2.735294,2.917647


## その他よく使う操作

<ul>
<li>ユニーク化</li>
</ul>

In [0]:
#　ユニークにする
no_dup_df = iris_df.drop_duplicates()
print("そのまま", len(iris_df))
print("重複なし", len(no_dup_df))

そのまま 150
重複なし 149


<ul>
<li>NaNを補完</li>
</ul>

In [0]:
# NaNを補完
left_df.fillna("Fill")

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,Fill
1,A1,B1,C1,D1,Fill
2,A2,B2,C2,D2,F2
3,A3,B3,C3,D3,F3


<ul>
<li>NaNを削除</li>
</ul>

In [0]:
# Nanが含まれている行を削除
left_df.dropna()

Unnamed: 0,A,B,C,D,F
2,A2,B2,C2,D2,F2
3,A3,B3,C3,D3,F3
