In [None]:
import pandas as pd
import numpy as np

In [None]:
data_train = pd.read_csv('./data/train.csv')

data_train.info()
# 我们发现，有些列，比如Cabin，缺失值非常多
# 在此场景中有很大影响的Age列也有一些缺失值

data_train.describe()
# mean字段告诉我们，大概0.383838的人活了下来，乘客的平均年龄大约是29.7岁，2、3等舱的乘客数比1等舱要多。

In [None]:
data_train.mean()

In [None]:
# 每个乘客都有这么多属性，那我们怎么知道哪些属性有用，而又如何使用它们呢？
# 所以，对数据的认识很重要！
# 我们需要深入的看一下数据，看一下 每个/多个 属性和最后的Survived之间有着什么样的关系。
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['font.size'] = 12

figure = plt.figure(figsize=(20,10))

plt.subplot2grid((2,3), (0,0))
data_train.Survived.value_counts().plot(kind='bar')
plt.title('获救情况（1为获救）')
plt.ylabel('人数')

plt.subplot2grid((2,3), (0,1))
data_train.Pclass.value_counts().plot(kind='bar')
plt.title('乘客等级分布')
plt.ylabel('人数')

plt.subplot2grid((2,3), (0,2))
data_train.Embarked.value_counts().plot(kind='bar')
plt.title('各口岸登船人数')
plt.ylabel('人数')

plt.subplot2grid((2,3), (1,0))
plt.scatter(data_train.Survived,data_train.Age)
plt.grid(b=True, which='major', axis='y')
plt.title('按年龄看获救分布（1为获救）')
plt.ylabel('年龄')

plt.subplot2grid((2,3), (1,1), colspan=2)
data_train.Age[data_train.Pclass == 1].plot(kind='kde')   
data_train.Age[data_train.Pclass == 2].plot(kind='kde')
data_train.Age[data_train.Pclass == 3].plot(kind='kde')
plt.xlabel("年龄")
plt.xlim(-1, 100)
plt.ylabel("密度") 
plt.title("各等级乘客年龄分布")
plt.legend(('1等舱', '2等舱', '3等舱'), loc='best')

plt.show()

In [None]:
Survived_0 = data_train.Pclass[data_train.Survived == 0].value_counts()
Survived_1 = data_train.Pclass[data_train.Survived == 1].value_counts()
df = pd.DataFrame({'获救': Survived_1, '未获救': Survived_0})
df.plot(kind='bar')
# df.plot(kind='bar', stacked=True)
plt.xlabel('乘客等级')
plt.ylabel('人数')
plt.title('各等级乘客的获救情况')

plt.show()

In [None]:
Survived_0 = data_train.Sex[data_train.Survived == 0].value_counts()
Survived_1 = data_train.Sex[data_train.Survived == 1].value_counts()
df = pd.DataFrame({'获救': Survived_1, '未获救': Survived_0})
df.plot(kind='bar')
plt.xlabel('性别')
plt.ylabel('人数')
plt.title('按性别查看获救情况')

plt.show()

In [None]:
Survived_m = data_train.Survived[data_train.Sex == 'male'].value_counts()
Survived_f = data_train.Survived[data_train.Sex == 'female'].value_counts()
df=pd.DataFrame({'男性': Survived_m, '女性': Survived_f})
df.plot(kind='bar')
plt.xlabel("获救与否") 
plt.ylabel("人数")
plt.title("按性别查看获救情况")

plt.show()

In [None]:
s = data_train.pivot_table(index='Pclass', values='Fare')
s
# 每个舱位等级的船票的平均价格