In [1]:
import pandas as pd

# <u>第一部：データの確認<u>

## 1. CSVの読み込み

In [2]:
df_enq = pd.read_csv("1-2_enquete_sample.csv",index_col="回答者No.")

## 2. 一部の行/列の抽出

In [3]:
df_enq[5:10][["性別","年代","満足度","世帯人数"]]

Unnamed: 0_level_0,性別,年代,満足度,世帯人数
回答者No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
No.6,男性,50代,10,4
No.7,女性,50代,5,3
No.8,女性,50代,5,3
No.9,男性,20代,1,1
No.10,男性,,8,3


## 3. 条件による行の抽出（フィルター）

In [4]:
df_enq[(df_enq["年収"] >= 500) & (df_enq["年代"] == "50代")]

Unnamed: 0_level_0,性別,年代,世帯人数,年収,満足度
回答者No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
No.5,男性,50代,5,808.0,8
No.6,男性,50代,4,905.0,10
No.7,女性,50代,3,621.0,5
No.8,女性,50代,3,621.0,5
No.13,女性,50代,4,501.0,5
No.16,男性,50代,3,615.0,8
No.17,女性,50代,4,544.0,1
No.27,男性,50代,4,557.0,7
No.30,男性,50代,5,891.0,4
No.39,男性,50代,4,671.0,8


## 4. データの並び替え（ソート）

In [5]:
df_enq.sort_values(["年代","年収"],ascending=False)

Unnamed: 0_level_0,性別,年代,世帯人数,年収,満足度
回答者No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
No.43,女性,50代,5,1100.0,6
No.59,男性,50代,4,969.0,10
No.6,男性,50代,4,905.0,10
No.30,男性,50代,5,891.0,4
No.5,男性,50代,5,808.0,8
No.45,女性,50代,4,673.0,4
No.39,男性,50代,4,671.0,8
No.53,男性,50代,3,641.0,1
No.7,女性,50代,3,621.0,5
No.8,女性,50代,3,621.0,5


## 5. CSVへの書き出し

In [6]:
df_enq_tmp = df_enq[df_enq["年代"] == "40代"].sort_values("年収")

In [7]:
df_enq_tmp.to_csv("結果.csv")

# <u>第二部：データの集計<u>

## 1. データの集計

In [8]:
df_enq.median(numeric_only=True)

世帯人数      3.0
年収      560.0
満足度       6.0
dtype: float64

## 2. 条件ごとのデータの集計 

In [9]:
df_enq.groupby(["性別","年代"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,世帯人数,年収,満足度
性別,年代,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
女性,20代,3,779.0,17
女性,30代,16,2934.0,44
女性,40代,27,5057.0,47
女性,50代,26,4489.0,32
男性,20代,15,3045.0,48
男性,30代,13,2619.0,24
男性,40代,43,10401.0,56
男性,50代,32,6057.0,56


In [10]:
df_enq.groupby(["性別","年代"]).median()[["満足度"]]

Unnamed: 0_level_0,Unnamed: 1_level_0,満足度
性別,年代,Unnamed: 2_level_1
女性,20代,6.0
女性,30代,6.0
女性,40代,6.0
女性,50代,5.0
男性,20代,4.0
男性,30代,6.0
男性,40代,6.0
男性,50代,8.0


# <u>第三部：データの整形<u>

## 1.重複行処理

In [11]:
df_enq[df_enq.duplicated(keep=False)]

Unnamed: 0_level_0,性別,年代,世帯人数,年収,満足度
回答者No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
No.7,女性,50代,3,621.0,5
No.8,女性,50代,3,621.0,5
No.24,男性,40代,4,811.0,3
No.31,男性,40代,4,811.0,3


In [12]:
df_enq.drop_duplicates(subset=["性別","年代"])

Unnamed: 0_level_0,性別,年代,世帯人数,年収,満足度
回答者No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
No.1,男性,40代,4,852.0,7
No.2,男性,30代,2,529.0,6
No.3,男性,20代,1,341.0,3
No.4,女性,40代,2,380.0,5
No.5,男性,50代,5,808.0,8
No.7,女性,50代,3,621.0,5
No.10,男性,,3,517.0,8
No.14,女性,30代,1,391.0,5
No.22,女性,20代,1,286.0,9


## 2. 欠損値処理

In [13]:
df_enq.dropna(subset=["年代","年収"],how="all")

Unnamed: 0_level_0,性別,年代,世帯人数,年収,満足度
回答者No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
No.1,男性,40代,4,852.0,7
No.2,男性,30代,2,529.0,6
No.3,男性,20代,1,341.0,3
No.4,女性,40代,2,380.0,5
No.5,男性,50代,5,808.0,8
No.6,男性,50代,4,905.0,10
No.7,女性,50代,3,621.0,5
No.8,女性,50代,3,621.0,5
No.9,男性,20代,1,209.0,1
No.10,男性,,3,517.0,8


In [14]:
df_enq.fillna({"年代":"不明","年収":df_enq.median()["年収"]})

  df_enq.fillna({"年代":"不明","年収":df_enq.median()["年収"]})


Unnamed: 0_level_0,性別,年代,世帯人数,年収,満足度
回答者No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
No.1,男性,40代,4,852.0,7
No.2,男性,30代,2,529.0,6
No.3,男性,20代,1,341.0,3
No.4,女性,40代,2,380.0,5
No.5,男性,50代,5,808.0,8
No.6,男性,50代,4,905.0,10
No.7,女性,50代,3,621.0,5
No.8,女性,50代,3,621.0,5
No.9,男性,20代,1,209.0,1
No.10,男性,不明,3,517.0,8


## 3. 形状変換

In [15]:
df_enq.T

回答者No.,No.1,No.2,No.3,No.4,No.5,No.6,No.7,No.8,No.9,No.10,...,No.51,No.52,No.53,No.54,No.55,No.56,No.57,No.58,No.59,No.60
性別,男性,男性,男性,女性,男性,男性,女性,女性,男性,男性,...,女性,女性,男性,男性,女性,男性,男性,女性,男性,男性
年代,40代,30代,20代,40代,50代,50代,50代,50代,20代,,...,20代,40代,50代,40代,40代,20代,20代,30代,50代,20代
世帯人数,4,2,1,2,5,4,3,3,1,3,...,1,3,3,5,4,2,2,1,4,1
年収,852.0,529.0,341.0,380.0,808.0,905.0,621.0,621.0,209.0,517.0,...,312.0,582.0,641.0,947.0,805.0,,343.0,510.0,969.0,448.0
満足度,7,6,3,5,8,10,5,5,1,8,...,6,3,1,6,9,4,9,6,10,3


# <u>第四部：データの結合<u>

In [16]:
df_person1 = pd.read_csv("1-2_personNo_1.csv",index_col="社員番号")
df_person2 = pd.read_csv("1-2_personNo_2.csv",index_col="社員番号")

## 1. joinによる結合

In [17]:
df_person = df_person1.join(df_person2)

## 2. mergeによる結合

In [18]:
df_section = pd.read_csv("1-2_sectionNo.csv",index_col="組織番号")

In [19]:
pd.merge(df_person,df_section,on=["組織番号","組織名"])

Unnamed: 0,氏名,組織番号,組織名,責任者,人数
0,佐藤,2001.0,総務部,吉田,23
1,鈴木,2001.0,総務部,吉田,23
2,田中,2002.0,人事部,山田,34
3,伊藤,2002.0,人事部,山田,34
4,渡辺,2002.0,人事部,山田,34
5,山本,2003.0,法務部,佐々木,11
6,加藤,2005.0,システム部,山口,15


## 3. concatによる結合

In [20]:
df_person1B = pd.read_csv("1-2_personNo_1B.csv",index_col="社員番号")

In [21]:
pd.concat([df_person1,df_person1B])

Unnamed: 0_level_0,氏名,入社年度
社員番号,Unnamed: 1_level_1,Unnamed: 2_level_1
10001,佐藤,
10002,鈴木,
10003,高橋,
10004,田中,
10005,伊藤,
10006,渡辺,
10007,山本,
10008,中村,
10009,小林,
10010,加藤,
