# Ch.12 データ加工に挑戦する

## Knock111: "よくある"Excelデータに挑戦

- 「セル結合」されたデータ
- 入力データ: 12-1.xlsx
- 加工要件
  - 市町村区単位で1レコード化
  - 欠損値が存在いない状態
  - cvsファイルに出力
- 出力データ: 12-1_out.cvs

In [12]:
# Excelファイルの読み込み

import pandas as pd
from IPython.display import display

input_data = pd.read_excel("../support/12章/12-1.xlsx")
print(input_data.shape)
display(input_data)

(8, 3)


Unnamed: 0,都道府県,市区町村,人数（男性、女性）
0,東京都,新宿区,12
1,,,14
2,,豊島区,15
3,,,13
4,神奈川県,横浜市,8
5,,,9
6,,横須賀市,5
7,,,2


In [13]:
# 「人数」項目を男女に分ける
men = input_data['人数（男性、女性）'][0::2]
women = input_data['人数（男性、女性）'][1::2]

# indexのリセット（元のオブジェクトの変更、元のindexの削除）
men.reset_index(inplace=True, drop=True)
women.reset_index(inplace=True, drop=True)

display(men)
display(women)

0    12
1    15
2     8
3     5
Name: 人数（男性、女性）, dtype: int64

0    14
1    13
2     9
3     2
Name: 人数（男性、女性）, dtype: int64

In [14]:
# 元データのコピー
output_data = input_data[::2].copy()

# indexのリセット（元のオブジェクトの変更、元のindexの削除）
output_data.reset_index(inplace=True, drop=True)

display(output_data)

Unnamed: 0,都道府県,市区町村,人数（男性、女性）
0,東京都,新宿区,12
1,,豊島区,15
2,神奈川県,横浜市,8
3,,横須賀市,5


In [15]:
# 「男性」、「女性」項目の追加
output_data["男性"] = men
output_data["女性"] = women

# 不要になった「人数（男性、女性）」項目を削除
output_data.drop("人数（男性、女性）", axis=1, inplace=True)

display(output_data)

Unnamed: 0,都道府県,市区町村,男性,女性
0,東京都,新宿区,12,14
1,,豊島区,15,13
2,神奈川県,横浜市,8,9
3,,横須賀市,5,2


In [17]:
# 欠損している都道府県を埋める
output_data.iat[1, 0] = output_data.iat[0, 0]  # 東京都
output_data.iat[3, 0] = output_data.iat[2, 0]  # 神奈川県

display(output_data)

Unnamed: 0,都道府県,市区町村,男性,女性
0,東京都,新宿区,12,14
1,東京都,豊島区,15,13
2,神奈川県,横浜市,8,9
3,神奈川県,横須賀市,5,2


In [18]:
# csvファイルに出力
output_data.to_csv("12-1_out.csv", index=False)

## Knock112: Excelの社員マスタ加工に挑戦