## 3-1 戦時における民間人の被害を測定する

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
sns.set(style="white", color_codes=True)
import matplotlib.pyplot as plt
import matplotlib as mpl
font = {"family":"Ricty"}
mpl.rc('font', **font)

afghan = pd.read_csv("officialSource/qss-master/MEASUREMENT/afghan.csv")
afghan.shape

# 年齢について要約
afghan.age.describe()
sns.distplot(afghan.age)
plt.title("年齢分布")
plt.show()

# 教育を受けた年数
afghan["educ.years"].describe()
sns.distplot(afghan["educ.years"])
plt.title("教育を受けた年数の分布")
plt.show()

# 就業状況
afghan.employed.describe()
afghan.employed.value_counts()

# 月収状況
afghan.income.describe()
afghan.income.value_counts(dropna=False)
afghan.groupby("income").count()

# 攻撃を受けた状況を把握(ISAF, タリバン)
pd.crosstab(afghan["violent.exp.ISAF"], afghan["violent.exp.taliban"])
pd.crosstab(afghan["violent.exp.ISAF"], afghan["violent.exp.taliban"], normalize=True, margins=True)


## 3-2 欠損データを扱う

In [None]:
# 月収の欠損レコード数
afghan.income.isnull().sum()

# 欠損割合
afghan.income.isnull().mean()

# NAをどう扱うか？は意識できるようになった方がよい
pd.crosstab(afghan["violent.exp.ISAF"], afghan["violent.exp.taliban"], normalize=True, margins=True)
pd.crosstab(afghan["violent.exp.ISAF"].fillna("NA").astype("str"), afghan["violent.exp.taliban"].fillna("NA").astype("str"), normalize=True, margins=True)


- リストワイズ除去
	- 任意のレコードの中に、1カラムでもデータ欠損があった場合、当該レコード(1行)を除去してしまう手法。

In [None]:
# リストワイズ除去
afghan[~afghan.isnull().any(axis=1)].shape

# income 変数が欠損している場合にのみ除去
afghan[~afghan.income.isnull()].shape

### 3.3.1 棒グラフ

In [None]:
# ISAFの被害の割合の棒グラフ

# 割合に変換
temp = afghan["violent.exp.ISAF"].value_counts(dropna=False) / afghan["violent.exp.ISAF"].value_counts(dropna=False).sum()

sns.barplot(x=["被害なし", "被害あり", "NA"], y=temp, color="gray")
plt.title("ISFAによる民間人被害")
plt.ylabel("回答者の割合")
plt.ylim(0, 0.7)
plt.show()

In [None]:
# タリバンの被害の割合の棒グラフ

# 割合に変換
temp = afghan["violent.exp.taliban"].value_counts(dropna=False) / afghan["violent.exp.taliban"].value_counts(dropna=False).sum()
ax = sns.barplot(x=["被害なし", "被害あり", "NA"], y=temp, color="gray")
ax.title.set_text("タリバンによる民間人被害")

plt.ylim(0, 0.7)
plt.show()