# 第11章　Pandas：より詳細な説明

## はじめに

In [None]:
%pip install -q py4macro
import pandas as pd
import py4macro
import random

## データフレームとシリーズの構成要素

### データフレーム

コード11.2.1

In [None]:
random.seed(123)
n = 5
dic = {
    "C0":[random.randint(0,50)
          for _ in range(n)],
    "C1":[random.gauss()
          for _ in range(n)],
    "C2":["a", "b", "c", "d", "e"],
    "C3":["R"+str(i)
          for i in range(n)]
}
df0 = pd.DataFrame(dic)
df0

コード11.2.2

In [None]:
df0 = df0.set_index("C3")
df0

コード11.2.3

In [None]:
df0.info()

コード11.2.4

In [None]:
df0[["C0", "C1"]].describe()

コード11.2.5

In [None]:
df0.columns

コード11.2.6

In [None]:
df0.index

コード11.2.7

In [None]:
df0.to_numpy()

### シリーズ

コード11.2.8

In [None]:
s0 = df0["C0"]
s0

コード11.2.9

In [None]:
s0.index

コード11.2.10

In [None]:
s0.to_numpy()

## データの抽出

### データフレーム：一つの値を抽出する

コード11.3.1

In [None]:
df0.loc["R1", "C2"]

コード11.3.2

In [None]:
df0.iloc[1, 2]

コード11.3.3

In [None]:
random.seed(123)
n = 5
dic = {
    "C0":[random.randint(0,50) for _ in range(n)],
    "C1":[random.gauss() for _ in range(n)],
    "C2":["a", "b", "c", "d", "e"],
    "C3":["R"+str(i) for i in range(n)]
}
df0 = pd.DataFrame(dic)
print(df0)

df0.loc[1, "C2"]

### データフレーム：スライシング

コード11.3.4

In [None]:
df = py4macro.data("data4")
df

コード11.3.5

In [None]:
df.loc["Germany":"Italy", "con":"pop"]

コード11.3.6

In [None]:
df.iloc[2:5, 1:4]
# df.iloc[2:4+1, 1:3+1]

### データフレーム：リストを使う抽出方法

コード11.3.7

In [None]:
rows = ["UK", "Japan"]
cols = ["pop", "con"]
df.loc[rows,cols]

コード11.3.8

In [None]:
df.iloc[[-1,5], [3,1]]

### データフレーム：10.2.3項の方法

### データフレーム：3つの方法を駆使する

コード11.3.9

In [None]:
df.loc["Japan":"Taiwan", "gdp"]

コード11.3.10

In [None]:
df.loc["Japan":"Taiwan",["gdp"]]

コード11.3.11

In [None]:
df.iloc[5:-1, 0]

コード11.3.12

In [None]:
df.iloc[5:-1, [0]]

コード11.3.13

In [None]:
(
    df.loc["Japan":"Taiwan", "gdp"] /
    df.loc["Japan":"Taiwan", "pop"]
)

コード11.3.14

In [None]:
(
    df.loc["Japan":"Taiwan", ["gdp"]] /
    df.loc["Japan":"Taiwan", ["pop"]]
)

### シリーズ

コード11.3.15

In [None]:
s = df.loc[:,"gdp"]
s

コード11.3.16

In [None]:
print( s["Japan"] )

コード11.3.17

In [None]:
print( s.loc["Japan"] )

コード11.3.18

In [None]:
print( s.iloc[5] )

コード11.3.19

In [None]:
s.loc["Italy":"Korea"]
# s.iloc[4:-3]

### 条件に基づく行の抽出

#### 一つの条件の場合

コード11.3.20

In [None]:
df["continent"] == "Asia"

コード11.3.21

In [None]:
cond = ( df["continent"]=="Asia" )
df.loc[cond,:]

#### 複数条件の場合

コード11.3.22

In [None]:
cond1 = ( df["continent"] == "Asia" )
cond2 = ( df["gdp"] >= 4000 )
cond = cond1 & cond2
cond

コード11.3.23

In [None]:
df.loc[cond, ["gdp","con"]]

コード11.3.24

In [None]:
cond1 = ( df["continent"] == "Asia" )
cond2 = ( df["gdp"] >= 4000 )
cond = cond1 | cond2
cond

コード11.3.25

In [None]:
df.loc[cond, ["gdp","con"]]

## 欠損値の扱い

### 欠損値の確認

コード11.4.1

In [None]:
df.isna()

コード11.4.2

In [None]:
df.isna().sum()

コード11.4.3

In [None]:
df.isna().sum(axis="columns")

### 欠損値がある行・列の抽出

コード11.4.4

In [None]:
df.isna().any()

コード11.4.5

In [None]:
df.isna().any(axis="columns")

コード11.4.6

In [None]:
cond = df.isna().any(axis="columns")
df.loc[cond,:]

### 欠損値がある行の削除

コード11.4.7

In [None]:
df.dropna()

コード11.4.8

In [None]:
df.dropna(subset="con")