
# <center>NumPy案例</center>

### 实践题目
#### 泰坦尼克乘客数据分析生还率

* 著名的数据分析竞赛网站Kaggle上，举行了很多数据分析比赛，其中比较著名的就有 泰坦尼克号乘客生还预测 。
* Kaggle提供的数据集中，共有1309名乘客数据，其中891是已知存活情况，剩下418则是需要进行分析预测的。

### 数据文件
* titanic-data.csv

### 本节任务
* 分析探索原始数据，查看数据空值等情况
* 构建特征工程，统计特征分布与生还关系

数据主要字段说明如下：
* PassengerId: 乘客编号
* Survived: Survived (1) or died (0)是否存活
* Pclass: 船舱
* Name: 姓名
* Sex: 性别
* Age: 年龄
* SibSp: 兄弟/姐妹/配偶的数量
* Parch: 父母/子女的数量
* Ticket: 票号
* Fare: 票价
* Cabin: 座号
* Embarked: 登船港口

引入文件操作所需的包


In [None]:
import os
import numpy as np

In [None]:
#在这里直接读取首行的时候会出现换行符 \n 所以利用切边给它过滤掉，通过字符串分割转换成列表
filename="titanic-data.csv"  #文件在代码的当前目录，如果不在需要给出全路径
with open(filename,encoding='utf-8') as f:
    head_index=np.array(f.readline()[:-1].split(','))  #第一行是列名,多个函数通过.连起来，顺序执行
head_index

In [None]:
data = np.loadtxt('titanic-data.csv', delimiter=',',dtype=np.str, skiprows=1) 
#从文件中加载数据直接生成array
data

In [None]:
# 查看首行数据
first_line = data[0]
first_line

In [None]:
# 有效字段索引
a = np.arange(12)
data_index = np.delete(a, 3)  # name字段的值对生还率预测没有意义，可以删除
data_index

In [None]:
# 去除name索引数据，通过整数数组来取ndarray的数据
head_index = head_index[data_index]
head_index

In [None]:
# 去除name那一列数据
corpus_data = data[:,data_index]  #数组切片，冒号表示所有行都取，data_index是取的列的编号列表
corpus_data

### 缺失值分析

Age和Cabin字段有较多缺失值，Embanked字段有2个缺失值

In [None]:
items_data = corpus_data.T  #矩阵转置， 旋转90度，原来每一列 成为 新矩阵的每一行
items_data.shape

In [None]:
null_data = []
for col in items_data:    #对于 items_data每一行 复制给变量col
    null_data.append(sum(col==''))   #计算这一行空值个数
null_data

for i in range(0,head_index.size):
    print('%s 空值个数： %s' % (head_index[i], null_data[i]))

处理缺失值

需要进行缺失值处理的有：Age、Cabin、Embarked



In [None]:
items_data.shape

In [None]:
# age属性中有缺失, 通过计算该属性的均值将缺失处填补,使得数据的数量一致
age_index = 4
print(head_index.shape)
print(age_index)

print("age_index:%d"%age_index) 
age_data = items_data[age_index]
print(age_data)
age_data_null = sum(age_data=='')
handle_data = np.where(age_data == '', 0, age_data) #dkdkfdkkaa
age_mean = sum(handle_data.astype(np.float))/(len(handle_data)-age_data_null) #非空的年龄的平均值
print(age_mean)

In [None]:
items_data[4] = np.where(items_data[4] == '', age_mean, items_data[4])  #数组赋值为数组

In [None]:
#embarked填充众数
embarked_index = 10
embarked_data = items_data[embarked_index ]
embarked_data

In [None]:
np.unique(embarked_data)

In [None]:
from collections import  Counter
Counter(embarked_data)  #统计不同舱位数量

解释：np.where(condition, x, y)
函数参数：满足条件(condition)，输出x，不满足输出y， 对array每个数据迭代处理，最后输出还是一个array

In [None]:
items_data[10] = np.where(items_data[10] == '', 'S', items_data[10])  #填充缺失值为 众数

In [None]:
head_index = np.delete(head_index,9)   #座号 Cablin 可以删掉这一行
items_data = np.delete(items_data,9, axis = 0)

### 数据离散化
```
# 获取sex的值, 并用0和1代表男性和女性
np.unique(items_data[3])
items_data[3] = np.where(items_data[3] == 'male', 0, items_data[3])
items_data[3] = np.where(items_data[3] == 'female', 1, items_data[3])

# 获取embarked的值, 用0,1,2分别表示S,C,Q
np.unique(items_data[9])
items_data[9] = np.where(items_data[9] == 'S', 0, items_data[9])
items_data[9] = np.where(items_data[9] == 'C', 1, items_data[9])
items_data[9] = np.where(items_data[9] == 'Q', 2, items_data[9])
```

In [None]:
np.unique(items_data[3])

In [None]:
items_data[3] = np.where(items_data[3] == 'male', 0, items_data[3])
items_data[3] = np.where(items_data[3] == 'female', 1, items_data[3])

In [None]:
np.unique(items_data[9])
items_data[9] = np.where(items_data[9] == 'S', 0, items_data[9])
items_data[9] = np.where(items_data[9] == 'C', 1, items_data[9])
items_data[9] = np.where(items_data[9] == 'Q', 2, items_data[9])

### 数据分析1
```
# 生还者总数
items_data[1].astype(np.int32).sum(axis=0)
# 平均生还率
items_data[1].astype(np.int32).mean(axis=0)
```
结论1：生还者总数为342人，平均生还率约为38%

In [None]:
head_index

In [None]:
items_data[1].astype(np.int32).sum()    #一维数组 axis只有0，可以不写

In [None]:
items_data[1].astype(np.int32).mean()  # 342/总人数

### 数据分析2
```
# 各等级船舱Pclass乘客总数量统计：
from collections import  Counter
data = np.array(items_data[2])
Counter(data)

# 各等级船舱生还数量统计：'Pclass', 'Survived'
pclass_survived = np.vstack((items_data[2],items_data[1]))
unique, counts = np.unique(pclass_survived, return_counts=True,axis=1)

# 各船舱等级对应的平均生还率
```

结论2：

头等舱总人数为216人，二等舱为184人，三等舱为491人。

头等舱生还人数为136人，二等舱为87人，三等舱为119人。

头等舱生还率为62.96%，二等舱为47.28%，三等舱为24.24%。

In [None]:
from collections import  Counter
data = np.array(items_data[2])
Counter(data)

In [None]:
pclass_survived = np.vstack((items_data[2],items_data[1]))  #两个数组 垂直方向连接， 本案例就是两行数据 并起来

In [None]:
pclass_survived

In [None]:
unique, counts = np.unique(pclass_survived, return_counts=True,axis=1) # 垂直方向的组合 统计不同组合个数

In [None]:
unique

In [None]:
counts

In [None]:
a = [216, 184, 491]
b = [136, 87, 119]
np.array(b)/np.array(a)  #不同舱位生还率

### 编程练习

模仿数据分析2， 计算不同性别平均生还率 ['Sex','Survived']



In [None]:
from collections import  Counter
data = np.array(items_data[2])
Counter(data)

