# データ操作とpandas

## pandasとテーブルデータ

[pandas](https://pandas.pydata.org/)

In [1]:
import pandas as pd
df = pd.DataFrame([
    ["C001", "製造業", 30],
    ["C002", "サービス業", 100],
    ["C003", "サービス業", None],
    ["C004", "小売業", 50],
    ["C005", "製造業", 20]
], columns=["会社コード", "業種", "従業員数"]
)
df

Unnamed: 0,会社コード,業種,従業員数
0,C001,製造業,30.0
1,C002,サービス業,100.0
2,C003,サービス業,
3,C004,小売業,50.0
4,C005,製造業,20.0


## データ型


In [7]:
type(df)

pandas.core.frame.DataFrame

In [8]:
df["会社コード"]

0    C001
1    C002
2    C003
3    C004
4    C005
Name: 会社コード, dtype: object

ドット記法

In [2]:
df.会社コード

0    C001
1    C002
2    C003
3    C004
4    C005
Name: 会社コード, dtype: object

In [3]:
from datetime import date
type(date(2020, 7, 1))

datetime.date

In [4]:
ts = pd.to_datetime(date(2020, 7, 1))
type(ts)

pandas._libs.tslibs.timestamps.Timestamp

## データの確認


In [5]:
df.shape

(5, 3)

In [6]:
df.index

RangeIndex(start=0, stop=5, step=1)

In [7]:
df.columns

Index(['会社コード', '業種', '従業員数'], dtype='object')

In [8]:
df.head(2)

Unnamed: 0,会社コード,業種,従業員数
0,C001,製造業,30.0
1,C002,サービス業,100.0


In [None]:
df.tail(1)

In [None]:
df.info()

Jupyter Notebookでpandasデータフレームを表示する際、浮動小数点数の桁数をset_optionsで設定できます。

In [None]:
pd.set_option("display.precision", 2)  # 小数第2桁まで表示

## データ抽出・置換・代入


In [None]:
df[["会社コード", "業種"]]

In [None]:
df.loc[:, ["会社コード", "業種"]]

In [None]:
df.loc[:, "会社コード":"業種"]

In [None]:
df.iloc[:, [0, 1]]

In [None]:
df_subset = df.iloc[:, 0:2]
df_subset

In [None]:
df.iloc[:, :-1]

In [None]:
df_dropped = df.drop("従業員数", axis=1)
df_dropped

In [None]:
df_filtered = df.filter(regex="会社|業種")
df_filtered

In [None]:
df.iloc[:2, :]

In [None]:
df.iloc[:2, :2]

In [None]:
df_manufacturing = df[(df["業種"]!="製造業")&(df["従業員数"]>=30)]
df_manufacturing

In [None]:
df.loc[(df["業種"]!="製造業")&(df["従業員数"]>=30)]

In [None]:
df.query("業種 != '製造業' and 従業員数 >= 30")

In [None]:
df.query("業種 != '製造業' and 従業員数 >= 30")[["会社コード", "業種"]]

In [None]:
df.loc[(df["業種"]!="製造業")&(df["従業員数"]>=30),  ["会社コード", "業種"]]

In [None]:
df.assign(フラグ=0)

In [None]:
df.assign(**{"フラグ": 0})

In [None]:
df_original = df.copy()  # 元のデータフレームのコピーを新しいオブジェクトとして保持
df["フラグ"] = 0
df

In [None]:
print("元の df_original の id:", id(df_original))
print("元の df_original:\n", df_original)
# (1) ブラケット記法でインプレイス更新する方法
df_inplace = df_original.copy()
print("\n(1)インプレイス更新前の df_inplace の id:", id(df_inplace))
df_inplace["フラグ"] = 0
print("(1)インプレイス更新後の df_inplace の id:", id(df_inplace))
print("(1)インプレイス更新後の df_inplace:\n", df_inplace)
# (2) assign で新しいオブジェクトを作成する方法
df_assign_before = df_original.copy()
print("\n(2)assign 前の df_assign_before の id:", id(df_assign_before))
df_assign_after = df_assign_before.assign(**{"フラグ": 0})
print("(2)assign の結果 df_assign_after の id:", id(df_assign_after))
print("(2)assign 後の df_assign_before (変更なし):\n", df_assign_before)
print("(2)assign の結果 df_assign_after:\n", df_assign_after)

In [None]:
# (3) 【補足】assign で同じ変数に再代入する場合
df_assign = df_original.copy()
print("\n(3)再代入前の df_assign の id:", id(df_assign))
df_assign = df_assign.assign(**{"フラグ": 0})
print("(3)再代入後の df_assign の id:", id(df_assign))
print("(3)再代入後の df_assign:\n", df_assign)

- [inplaceについて](https://pandas.pydata.org/pdeps/0008-inplace-methods-in-pandas.html)
- [チェーン代入について](https://pandas.pydata.org/docs/whatsnew/v2.2.0.html#chained-assignment)

In [None]:
df_masked = df["フラグ"].mask(df["従業員数"]>=30, 1)
df_masked

In [None]:
df.loc[df["従業員数"]>=30, "フラグ"] = 1
df

In [None]:
df["フラグ"].where(df["従業員数"]>=30, -1)

In [None]:
df_replaced = df.replace("サービス業", "情報通信業")
df_replaced

In [None]:
df_renamed = df.rename(columns={"フラグ": "従業員30人以上フラグ"})
df_renamed

In [None]:
df.set_axis(["会社コード", "業種", "従業員数", "従業員30人以上フラグ"], axis=1)

## 欠測値とNull

[NaNについて](https://numpy.org/doc/stable/user/misc.html)


In [None]:
df.isna()

In [None]:
df[df["従業員数"].notna()]

In [None]:
df_dropped_na = df.dropna(axis=0, how="any")
df_dropped_na

In [None]:
df = df.assign(**{"従業員数": df["従業員数"].fillna(100)})
df

## 重複とユニーク


In [None]:
df["業種"].unique()

In [None]:
df[["業種", "従業員数"]].duplicated(keep=False)

In [None]:
df_unique = df.drop_duplicates(subset=["業種", "従業員数"])
df_unique

## 分析しやすいデータ

### ワイドテーブルとロングテーブル

### 整然データ

[Tidy Data](chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://vita.had.co.nz/papers/tidy-data.pdf)

### 機械判読可能なデータ

- [統計表における機械判読可能なデータの表記方法の統一ルールの策定](https://www.soumu.go.jp/menu_news/s-news/01toukatsu01_02000186.html)
- [統計表における機械判読可能なデータ作成に関する表記方法](https://www.soumu.go.jp/main_content/000723626.pdf)

### (発展) メソッドチェーンでまとめる

ここまでのデータ加工（フィルタリング、列の追加、置換など）を、`assign` を使って一連の流れとして書くこともできます（メソッドチェーン）。
中間変数（`df_dropped` など）を作らずに済むため、処理の流れがスッキリします。

In [None]:
df_result = (
    df.copy()  # 元のデータを壊さないようにコピー
    .query("従業員数 >= 30")                    # 1. 従業員数でフィルタリング
    .assign(**{                             # 2. 新しい列を追加
        "フラグ": 1,
        "会社コード": lambda x: x["会社コード"].str.replace("C", "Company-") # 例: コードの加工
    })
    .replace("サービス業", "情報通信業")       # 3. 値の置換
    .drop("従業員数", axis=1)                # 4. 不要な列の削除
)
df_result

## データ整形


In [None]:
import numpy as np
df11 = pd.DataFrame([
    ["a", "x", 2],
    ["a", "y", 0],
    ["b", "x", np.nan],
    ["b", "y", -5]
], columns=["A", "X", "V"]
)

In [None]:
df11

In [None]:
df13 = df11.set_index(["A", "X"])
df13

In [None]:
df13.reset_index()

In [None]:
df12 = df11.set_index("A")
df12

In [None]:
df12.reset_index()

In [None]:
df12.set_index("X", append=True)

In [None]:
df13.reset_index(level=1)

In [None]:
df23 = df13.unstack()
df23

In [None]:
df23.stack(future_stack=True)

In [None]:
df22 = df23.set_axis(df23.columns.levels[1], axis=1)
df22

In [None]:
df31 = df22.transpose()
df31

In [None]:
df22.T

In [None]:
df21 = df22.reset_index()
df21

In [None]:
df11.pivot(columns="X", index="A", values="V")

In [None]:
pd.melt(df22, value_name="V", ignore_index=False)

In [None]:
pd.melt(df21, id_vars="A", value_vars=["x", "y"], value_name="V")

In [None]:
df11.sort_values("V", ascending=False, na_position="last")

In [None]:
df11.sort_index(ascending=False)

In [None]:
df11.nlargest(2, columns="V")

In [None]:
df11.nsmallest(2, columns="V")

## データの結合


In [None]:
df1 = pd.DataFrame([
    ["a", 2],
    ["a", 0],
    ["b", 3],
    ["c", 2],
], columns=["A", "X"], index=range(1, 5))

df2 = pd.DataFrame([
    ["a", 1],
    ["b", 3],
    ["d", 1]
], columns=["A", "Y"])

In [None]:
df1.merge(df2, how="cross", suffixes=("左", "右"))

In [None]:
df1.merge(df2, on="A", how="outer")

In [None]:
df1.merge(df2, on="A", how="left")

In [None]:
df1.merge(df2, on="A")

In [None]:
pd.merge(df1, df2, on="A")

In [None]:
df1.merge(df2, left_on="X", right_index=True)

In [None]:
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2], join="inner")

In [None]:
pd.concat([df1, df2], axis=1)

In [None]:
df1.merge(df2, left_index=True, right_index=True, how="outer")

In [None]:
pd.concat([df1, df2], axis=1, join="inner")

In [None]:
df1.merge(df2, left_index=True, right_index=True)

In [None]:
pd.concat([df1, df2], ignore_index=True)

## データの読み込み

## データの読み込み

### pandasでのデータの読み書き


In [None]:
from pathlib import Path
current_dir = Path.cwd()
data_path = (current_dir / "data" / "ch02").resolve()
csv_data = pd.read_csv(data_path / "法人データ.csv", encoding="utf-8")
csv_data.iloc[:5, 1:7]

#### Google Colabの場合、GitHubの"法人データ.csv"を直接読み込む
from urllib.parse import urljoin, quote
github_path = "https://raw.githubusercontent.com/python-opendata-analysis/python-opendata-analysis-book/main/code/data/ch02/"
csv_url = urljoin(github_path, quote("法人データ.csv"))
csv_data = pd.read_csv(csv_url, encoding="utf-8")
csv_data.iloc[:5, 1:7]

In [None]:
csv_data.iloc[:5, :5].to_csv(data_path / "サンプルデータ.csv")

### ファイル形式

[JSON](https://ecma-international.org/publications-and-standards/standards/ecma-404/)

### 文字コード

[Standard Encodings](https://docs.python.org/3/library/codecs.html#standard-encodings)