# 第5章 データを変形しよう

In [1]:
import pandas as pd
import numpy as np

---

## 5.1 異なる列名同士で連結するには

In [2]:
df1 = pd.DataFrame({"Product": ["A", "B"], "Prev": [100, 110]})
df1

Unnamed: 0,Product,Prev
0,A,100
1,B,110


In [3]:
df2 = pd.DataFrame({"Product": ["A", "B"], "Sales": [50, 120]})
df2

Unnamed: 0,Product,Sales
0,A,50
1,B,120


### やってみよう

In [4]:
_df1 = df1.rename(columns={"Prev":"Sales"})

display(pd.concat([_df1,df2],ignore_index=True))

Unnamed: 0,Product,Sales
0,A,100
1,B,110
2,A,50
3,B,120


In [15]:
df1.merge(df2)

Unnamed: 0,Product,Prev,Sales
0,A,100,50
1,B,110,120


---

## 5.2 別のDataFrameの列を結合するには

In [5]:
df = pd.DataFrame(
    [
        ["Alice", "国語", 87],
        ["Alice", "数学", 72],
        ["Bob", "国語", 65],
        ["Bob", "数学", 92],
    ],
    columns=["Name", "Subject", "Point"],
)
df

Unnamed: 0,Name,Subject,Point
0,Alice,国語,87
1,Alice,数学,72
2,Bob,国語,65
3,Bob,数学,92


In [6]:
df_class = pd.DataFrame(
    [["Alice", "1-A"], ["Bob", "1-B"], ["Carrol", "1-C"]],
    columns=["Name", "Class"],
)
df_class

Unnamed: 0,Name,Class
0,Alice,1-A
1,Bob,1-B
2,Carrol,1-C


### やってみよう

In [13]:
df_merge = pd.merge(df,df_class,on="Name",how="inner")
display(df_merge)

Unnamed: 0,Name,Subject,Point,Class
0,Alice,国語,87,1-A
1,Alice,数学,72,1-A
2,Bob,国語,65,1-B
3,Bob,数学,92,1-B


In [14]:
df.merge(df_class)

Unnamed: 0,Name,Subject,Point,Class
0,Alice,国語,87,1-A
1,Alice,数学,72,1-A
2,Bob,国語,65,1-B
3,Bob,数学,92,1-B


In [17]:
df_other = df_class.set_index("Name")
df.join(df_other,"Name")

Unnamed: 0,Name,Subject,Point,Class
0,Alice,国語,87,1-A
1,Alice,数学,72,1-A
2,Bob,国語,65,1-B
3,Bob,数学,92,1-B


---

## 5.3 ロング形式からワイド形式に変換するには

In [18]:
df = pd.DataFrame(
    [
        ["Alice", "国語", 87],
        ["Alice", "数学", 72],
        ["Bob", "国語", 65],
        ["Bob", "数学", 92],
    ],
    columns=["Name", "Subject", "Point"],
)
df

Unnamed: 0,Name,Subject,Point
0,Alice,国語,87
1,Alice,数学,72
2,Bob,国語,65
3,Bob,数学,92


### やってみよう

In [22]:
df.pivot(index="Name",columns="Subject",values="Point")

Subject,国語,数学
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,87,72
Bob,65,92


---

## 5.4 ワイド形式からロング形式に変換するには

In [23]:
index = pd.Index(["Alice", "Bob"], name="Name")
columns = pd.Index(["国語", "数学"], name="Subject")
data = [[87, 72], [65, 92]]
df = pd.DataFrame(data, index=index, columns=columns)
df

Subject,国語,数学
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,87,72
Bob,65,92


### やってみよう

In [32]:
dfm = df.melt(value_name="Point",ignore_index=False)
dfm.reset_index()

Unnamed: 0,Name,Subject,Point
0,Alice,国語,87
1,Bob,国語,65
2,Alice,数学,72
3,Bob,数学,92
4,Alice,Name,Alice
5,Bob,Name,Bob


In [33]:
dfm = df.stack().rename("Point").sort_index(level=1)
dfm.reset_index()

Unnamed: 0,Name,Subject,Point
0,Alice,Name,Alice
1,Bob,Name,Bob
2,Alice,国語,87
3,Bob,国語,65
4,Alice,数学,72
5,Bob,数学,92


---

## 5.5 クロス集計するには

In [34]:
rnd = np.random.default_rng(2)
data1 = rnd.choice(["1-A", "1-B"], 60)
data2 = rnd.choice(["Science", "Social", "Sport"], 60)
df = pd.DataFrame({"Class": data1, "Club": data2})
df

Unnamed: 0,Class,Club
0,1-B,Sport
1,1-A,Science
2,1-A,Social
3,1-A,Sport
4,1-A,Social
5,1-B,Sport
6,1-A,Social
7,1-A,Sport
8,1-A,Social
9,1-B,Social


### やってみよう

In [38]:
pd.crosstab(df["Class"],df["Club"])

Club,Science,Social,Sport
Class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1-A,6,16,7
1-B,7,13,11


---

## 5.6 区切り文字で列を複数列に分解するには

In [41]:
df = pd.DataFrame(
    {"国": ["日本", "フランス"], "都市": ["東京/大阪", "パリ"]}
)
df

Unnamed: 0,国,都市
0,日本,東京/大阪
1,フランス,パリ


### やってみよう

---

## 5.7 区切り文字で列を複数行に分解するには

In [40]:
df = pd.DataFrame(
    {"国": ["日本", "フランス"], "都市": ["東京/大阪", "パリ"]}
)
df

Unnamed: 0,国,都市
0,日本,東京/大阪
1,フランス,パリ


### やってみよう