**复习：**在前面我们已经学习了Pandas基础，知道利用Pandas读取csv数据的增删查改，今天我们要学习的就是**探索性数据分析**，主要介绍如何利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。
# 具体请看《利用Python进行数据分析》第五章 排序和排名 部分

# 1 第一章：探索性数据分析

#### 开始之前，导入numpy、pandas包和数据

In [2]:
#加载所需的库
import numpy as np
import pandas as pd

In [5]:
#载入之前保存的train_chinese.csv数据，关于泰坦尼克号的任务，我们就使用这个数据
test = pd.read_csv('test.csv')

### 1.6 了解你的数据吗？
教材《Python for Data Analysis》第五章

#### 1.6.1 任务一：利用Pandas对示例数据进行排序，要求升序

In [21]:
d1 = pd.DataFrame(np.arange(8).reshape(2,4))

## M1:reindex
d2 = d1.reindex([1,0]) #也可以columns = 【3，2，1，0】


## M2:mirror
d3 = d1.iloc[:,::-1]

## M3: use new index when create
d4 = pd.DataFrame(np.arange(8).reshape(2,4),index=[1,0],columns=['d','a','b','c'])

da = pd.DataFrame({1:[2,3,4,5,6],2:[3,4,5,6,7]})

print(d2,
      '\n',
      d3,
     '\n',
     d4)

   0  1  2  3
1  4  5  6  7
0  0  1  2  3 
    3  2  1  0
0  3  2  1  0
1  7  6  5  4 
    d  a  b  c
1  0  1  2  3
0  4  5  6  7


In [22]:
df = pd.DataFrame(np.arange(8).reshape(2,4),
                  ndex=['2','1'],
                  columns=['d','a','b','c'])

【代码解析】

pd.DataFrame() ：创建一个DataFrame对象 

np.arange(8).reshape((2, 4)) : 生成一个二维数组（2*4）,第一列：0，1，2，3 第二列：4，5，6，7

index=['2, 1] ：DataFrame 对象的索引列

columns=['d', 'a', 'b', 'c'] ：DataFrame 对象的索引行

【问题】：大多数时候我们都是想根据列的值来排序,所以将你构建的DataFrame中的数据根据某一列，升序排列

In [24]:
#回答代码
df_sorted_b = df.sort_values(by='b',
                        ascending=True) # sort_values这个只能对某一 行 的数值进行排列
df_sorted_b

Unnamed: 0,d,a,b,c
2,0,1,2,3
1,4,5,6,7


【思考】通过书本你能说出Pandas对DataFrame数据的其他排序方式吗？

【总结】下面将不同的排序方式做一个总结

1.让行索引升序排序

In [27]:
#代码
df_sorted_idx = df.sort_index()
df_sorted_idx

Unnamed: 0,d,a,b,c
1,4,5,6,7
2,0,1,2,3


2.让列索引升序排序


In [37]:
## M1: rough sorted method
cols = df.columns
cols_sorted = sorted(cols)
cols_sorted
df_sorted_col_1 = df.loc[:,cols_sorted]
df_sorted_col_1

## M2: sort_index can be used for columns also, with axis = 1
df_sorted_col_2 = df.sort_index(axis=1)
df_sorted_col_2

print(
    df_sorted_col_1,
    '\n',
    df_sorted_col_2
)

   a  b  c  d
2  1  2  3  0
1  5  6  7  4 
    a  b  c  d
2  1  2  3  0
1  5  6  7  4


3.让列索引降序排序

In [39]:
#代码
df_sorted_cols_desc = df.sort_index(axis=1,
                                    ascending=False)
df_sorted_cols_desc

Unnamed: 0,d,c,b,a
2,0,3,2,1
1,4,7,6,5


4.让任选两列数据同时降序排序

In [40]:
#代码
df_sorted_by_ac = df.sort_values(by=['a','c'],
                                     ascending=False) # 将首先根据列a进行排序，然后在列a的值相同时，再根据列c进行排序。因此，列a具有更高的优先级。
df_sorted_by_ac

Unnamed: 0,d,a,b,c
1,4,5,6,7
2,0,1,2,3


#### 1.6.2 任务二：对泰坦尼克号数据（trian.csv）按票价和年龄两列进行综合排序（降序排列），从这个数据中你可以分析出什么？

In [59]:
train = pd.read_csv('train.csv')
train.head(20)


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [43]:

train.sort_values(by=['Fare','Age'],ascending=False).head(20)
## There are a lot of people survived for highest fare portion.

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
679,680,1,1,"Cardeza, Mr. Thomas Drake Martinez",male,36.0,0,1,PC 17755,512.3292,B51 B53 B55,C
258,259,1,1,"Ward, Miss. Anna",female,35.0,0,0,PC 17755,512.3292,,C
737,738,1,1,"Lesurer, Mr. Gustave J",male,35.0,0,0,PC 17755,512.3292,B101,C
438,439,0,1,"Fortune, Mr. Mark",male,64.0,1,4,19950,263.0,C23 C25 C27,S
341,342,1,1,"Fortune, Miss. Alice Elizabeth",female,24.0,3,2,19950,263.0,C23 C25 C27,S
88,89,1,1,"Fortune, Miss. Mabel Helen",female,23.0,3,2,19950,263.0,C23 C25 C27,S
27,28,0,1,"Fortune, Mr. Charles Alexander",male,19.0,3,2,19950,263.0,C23 C25 C27,S
742,743,1,1,"Ryerson, Miss. Susan Parker ""Suzette""",female,21.0,2,2,PC 17608,262.375,B57 B59 B63 B66,C
311,312,1,1,"Ryerson, Miss. Emily Borie",female,18.0,2,2,PC 17608,262.375,B57 B59 B63 B66,C
299,300,1,1,"Baxter, Mrs. James (Helene DeLaudeniere Chaput)",female,50.0,0,1,PC 17558,247.5208,B58 B60,C


【思考】排序后，如果我们仅仅关注年龄和票价两列。根据常识我知道发现票价越高的应该客舱越好，所以我们会明显看出，票价前20的乘客中存活的有14人，这是相当高的一个比例，那么我们后面是不是可以进一步分析一下票价和存活之间的关系，年龄和存活之间的关系呢？当你开始发现数据之间的关系了，数据分析就开始了。

当然，这只是我的想法，你还可以有更多想法，欢迎写在你的学习笔记中。

**多做几个数据的排序**

In [46]:
#代码
sex_counts = train['Sex'].value_counts()
sex_counts



In [60]:
train['Sex'].isna().any() # 查数据是否有na，防止后面出错


False

In [61]:
train['Sex'] = train['Sex'].map({'male':1,'female':0}) #转换成为dummy，针对1列可以用map


0    1
1    0
Name: Sex, dtype: int64

In [62]:
def generate_sex_survive(row):
    if row['Sex'] == 1. and row['Survived'] == 1.:
        return 'm1'
    elif row['Sex'] == 1. and row['Survived'] == 0.:
        return 'm0'
    elif row['Sex'] == 0. and row['Survived'] == 1.:
        return 'f1'
    else:
        return 'f0'
train['Sex & Survived'] = train.apply(generate_sex_survive, axis=1) #创造一个新列
train['Sex & Survived'].value_counts()

## We can observe that although there are fewer female on the Titanics, there are more female survived from the disaster.





Sex & Survived
m0    468
f1    233
m1    109
f0     81
Name: count, dtype: int64

#### 1.6.3 任务三：利用Pandas进行算术计算，计算两个DataFrame数据相加结果

In [67]:
# 具体请看《利用Python进行数据分析》第五章 算术运算与数据对齐 部分


frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
                     columns=['a', 'b', 'c'],
                     index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
                     columns=['a', 'e', 'c'],
                     index=['first', 'one', 'two', 'second'])
print(frame1_a,
      '\n',
      frame1_b)


         a    b    c
one    0.0  1.0  2.0
two    3.0  4.0  5.0
three  6.0  7.0  8.0 
           a     e     c
first   0.0   1.0   2.0
one     3.0   4.0   5.0
two     6.0   7.0   8.0
second  9.0  10.0  11.0


In [65]:
frame1_a + frame1_b


Unnamed: 0,a,b,c,e
first,,,,
one,3.0,,7.0,
second,,,,
three,,,,
two,9.0,,13.0,


将frame_a和frame_b进行相加


In [68]:
frame1_a.add(frame1_b,fill_value=0) # fill_value方法
##如果有一边有数据+另一边无数据，就把另一边无数据变成0加法
##两边都没数据，就是NaN


Unnamed: 0,a,b,c,e
first,0.0,,2.0,1.0
one,3.0,1.0,7.0,4.0
second,9.0,,11.0,10.0
three,6.0,7.0,8.0,
two,9.0,4.0,13.0,7.0


【提醒】两个DataFrame相加后，会返回一个新的DataFrame，对应的行和列的值会相加，没有对应的会变成空值NaN。<br>
当然，DataFrame还有很多算术运算，如减法，除法等，有兴趣的同学可以看《利用Python进行数据分析》第五章 算术运算与数据对齐 部分，多在网络上查找相关学习资料。

#### 1.6.4 任务四：通过泰坦尼克号数据如何计算出在船上最大的家族有多少人？

In [77]:
'''
还是用之前导入的chinese_train.csv如果我们想看看在船上，最大的家族有多少人（‘兄弟姐妹个数’+‘父母子女个数’），我们该怎么做呢？
'''
## M1:max直接用
max(train['SibSp']+train['Parch'])


10

In [76]:
## M2：Familysize开新航看max，还可以知道在第几行
train['FamilySize'] = train['SibSp'] + train['Parch']
a = train['FamilySize'].max()
print(a)
max_row = train[train['FamilySize']==a]
name = max_row['Name'].values
print(name)

10
['Sage, Master. Thomas Henry' 'Sage, Miss. Constance Gladys'
 'Sage, Mr. Frederick' 'Sage, Mr. George John Jr'
 'Sage, Miss. Stella Anna' 'Sage, Mr. Douglas Bullen'
 'Sage, Miss. Dorothy Edith "Dolly"']


【提醒】我们只需找出”兄弟姐妹个数“和”父母子女个数“之和最大的数，当然你还可以想出很多方法和思考角度，欢迎你来说出你的看法。

#### 1.6.5 任务五：学会使用Pandas describe()函数查看数据基本统计信息

In [78]:
#(1) 关键知识点示例做一遍（简单数据）
# 具体请看《利用Python进行数据分析》第五章 汇总和计算描述统计 部分
frame2 = pd.DataFrame([[1.4, np.nan], 
                       [7.1, -4.5],
                       [np.nan, np.nan], 
                       [0.75, -1.3]
                      ],
                      index=['a', 'b', 'c', 'd'], 
                      columns=['one', 'two'])#这里注意【【】，【】】，创建是要list中list，外面需要括一层list
frame2



Unnamed: 0,one,two
a,1.4,
b,7.1,-4.5
c,,
d,0.75,-1.3


调用 describe 函数，观察frame2的数据基本信息

In [81]:
#代码
frame2.describe()

Unnamed: 0,one,two
count,3.0,2.0
mean,3.083333,-2.9
std,3.493685,2.262742
min,0.75,-4.5
25%,1.075,-3.7
50%,1.4,-2.9
75%,4.25,-2.1
max,7.1,-1.3


#### 1.6.6 任务六：分别看看泰坦尼克号数据集中 票价、父母子女 这列数据的基本统计数据，你能发现什么？

In [82]:
'''
看看泰坦尼克号数据集中 票价 这列数据的基本统计数据
'''
train['Fare'].describe() #The mean price is relatively, with some people free on fare. The highest price is 512, which is much greater than mean prices.

count    891.000000
mean      32.204208
std       49.693429
min        0.000000
25%        7.910400
50%       14.454200
75%       31.000000
max      512.329200
Name: Fare, dtype: float64

【思考】从上面数据我们可以看出， 一共有891个票价数据， 平均值约为：32.20， 标准差约为49.69，说明票价波动特别大， 25%的人的票价是低于7.91的，50%的人的票价低于14.45，75%的人的票价低于31.00， 票价最大值约为512.33，最小值为0。



【总结】本节中我们通过Pandas的一些内置函数对数据进行了初步统计查看，这个过程最重要的不是大家得掌握这些函数，而是看懂从这些函数出来的数据，构建自己的数据分析思维，这也是第一章最重要的点，希望大家学完第一章能对数据有个基本认识，了解自己在做什么，为什么这么做，后面的章节我们将开始对数据进行清洗，进一步分析。