# 新的容器dict

上一次介绍过的list和tuple都是靠位置去定位，但有时候我们希望用不同的"标签"去定位相应的数据(key-value pair)，这时候我们可以用dict这个容器。

In [97]:
d = { # 大括号
    'a': 1,
    'b': 2,
    'c': 3,
}

d

{'a': 1, 'b': 2, 'c': 3}

In [99]:
d = {
    'John':32,
    'Lily':18,
    'Mary':33
}

d['Lily']

18

然后可以用相应的key去查找对应的value

注意key不能重复

In [101]:
d = {
    'a':1,
    'a':2
}

d

{'a': 2}

value可以重复

In [102]:
d = {
    'a':1,
    'b':1
}

d

{'a': 1, 'b': 1}

# 面向对象编程

假设我们有这样一个场景， 我们需要记录点的二维坐标，移动这个点，并且记录发打印这个点的移动轨迹。每个点有一个代表它的名字。


经过一番设计， 我们决定

* 可以用一个tuple去记录点的位置, tuple中的两个元素分别代表x, y坐标
* list去记录点的轨迹, list中每个元素是一个位置的tuple
* 设计两个函数去移动点和打印点的轨迹

In [103]:
def move_point(position, offset, trace):
    x, y = position
    
    x_offset, y_offset = offset
    
    x = x + x_offset
    y = y + y_offset
    
    trace.append((x, y))
    
    new_trace = trace.copy()
    
    return (x, y), trace


def print_trace(trace, name):
    print('trace of {}'.format(name))
    for x, y in trace:
        print(x, y) 

在上面函数的帮助下，完成这个任务

In [107]:
name_a = 'A'
current_position_a = [0, 0]
trace_a = []

current_position_a, trace_a = move_point(current_position_a, (1, 1),  trace_a)
current_position_a, trace_a = move_point(current_position_a, (1, 0),  trace_a)
current_position_a, trace_a = move_point(current_position_a, (-2, 4),  trace_a)
print_trace(trace_a, name_a)


name_b = 'B'
current_position_b = [0, 0]
trace_b = []

current_position_b, trace_b = move_point(current_position_b, (1, 3),  trace_b)
current_position_b, trace_b = move_point(current_position_b, (2, 0),  trace_b)
current_position_b, trace_b = move_point(current_position_b, (-5, -4),  trace_b)
print_trace(trace_b, name_b)

trace of A
1 1
2 1
0 5
trace of B
1 3
3 3
-2 -1


虽然在函数的帮助下，已经隐藏了一部分复杂的细节。但是上面的代码还是会给头脑带来不少负担。

一. 写上面代码的时候需要时刻记住一些比较底层的细节。
* 点的位置是tuple记录信息的，第一位是x, 第二位是y
* 轨迹trace是用list存储信息的，里面每一个元素是代表位置的tuple
* 点的名称使用name储存的
* move_point这个函数修改传入的current_position和trace, 并且返回复制后的值。


二. 代码中存在很多变量的传递和返回， 看上去很乱。


下面我们看看引入面向对象编程的类(Class)之后的代码

In [127]:
class Point: # 用class关键词开始Class的定义，注意结尾的:和之后的缩进
    def __init__(self, x, y, name): #每个class 都必须有 __init__，用于初始化数据。注意第一个参数必须是self
        self.x = x #定义了self.x以后，之后所有的方法都可以访问self.x的数值
        self.y = y
        self.name = name
        
        self.trace = [
            (x, y)
        ]
        
    def move(self, x_offset, y_offset): # class中的方法第一个参数必须是self
        self.x = self.x + x_offset
        self.y = self.y + y_offset
        
        self.trace.append([self.x, self.y])
        
    def print_trace(self):  
        print('trace of {}'.format(self.name))
        for x, y in self.trace:
            print(x, y)

In [122]:
class SimpleClass:
    def __init__(self, x):
        print('__init__ is called')
        self.x = x
        
    def test(self): #方法(method)
        print(self.x)
        
    def test_1(self):
        print(self.x)        
        
sc = SimpleClass(2)

__init__ is called


更具类的定义生成一个具体的对象

In [121]:
sc = SimpleClass(2)
sc.test()

sc_2 = SimpleClass(5)
sc.test()

__init__ is called
2
__init__ is called
2


面向对象版本的代码， 是不是简洁很多？

想一下我们的电视机，如果没有外壳，而是把里面的线路板和电线暴露出来，那么使用的时候会多困难。面向对象编程相当于电视机的外壳，把希望暴露给使用者的部分(电源按钮，换台按钮)和内部的细节隐藏了起来。

In [130]:
point_a = Point(0, 0, 'A')


point_a.move(1, 1)
point_a.move(1, 0)
point_a.move(-2, -4)
point_a.print_trace()


point_b = Point(0, 0, 'B')
point_b.move(1, 3)
point_b.move(2, 0)
point_b.move(-5, -4)
point_b.print_trace()

trace of A
0 0
1 1
2 1
0 -3
trace of B
0 0
1 3
3 3
-2 -1


注意, 使用面向对象定义的method的时候，用的是object.method_name()这样的语法。


同时，也可以用object.attribute访问object里面的属性。(通过self.xxx定义)

In [131]:
point_b.x

-2

可以看到面向对象版本的代码可以更有效的隐藏了底层复杂的细节，能让使用者更专注于高层的意图，降低思维负担。

大家目前可以先不用去用Class写自己的代码，但是至少以后遇到"object.xxx"这样的语法不要疑惑即可。

# 认识pandas
python之所以强大，很大程度上归功于python有大量成熟的开源第三方库可以使用，避免所有的代码都需要从头开始写，极大的节省了开发者的时间。

其中，pandas就是python下做数据分析和数据清洗非常优秀的一个库。

和tuple, list等python内置的函数不同，要使用pandas，需要先安装pandas(Anaconda已经帮忙装好)并且在代码中导入pandas。

In [2]:
import pandas as pd # 导入库，并且重新命名

## Series

下面演示一下pandas里面用于储存一位数据的class, Series

In [7]:
s = pd.Series([1, 2, 3, 4, 5, 5, 3], index=['a', 'b', 'c', 'd', 'e', 'f', 'g']) 
s

a    1
b    2
c    3
d    4
e    5
f    5
g    3
dtype: int64

Series中提供了大量的method，用于分析和统计数据

In [8]:
s.mean()

3.2857142857142856

In [9]:
s.value_counts()

5    2
3    2
4    1
2    1
1    1
dtype: int64

In [10]:
s.value_counts(normalize=True)

5    0.285714
3    0.285714
4    0.142857
2    0.142857
1    0.142857
dtype: float64

最大的值所在的index

In [11]:
s.argmax()

'e'

选出最大的三个数字

In [12]:
s.nlargest(3)

e    5
f    5
d    4
dtype: int64

积累求和

In [70]:
s.cumsum()

a     1
b     3
c     6
d    10
e    15
f    20
g    23
dtype: int64

逻辑运算

In [13]:
s > 1

a    False
b     True
c     True
d     True
e     True
f     True
g     True
dtype: bool

Series可以参与运算, Series对自动去对齐index

In [15]:
s_1 = pd.Series([1, 2, 3], index = ['a', 'b', 'c']) 
s_2 = pd.Series([2, 1, 4], index = ['b', 'a', 'd']) 

s_1

a    1
b    2
c    3
dtype: int64

In [16]:
s_2

b    2
a    1
d    4
dtype: int64

In [17]:
s_1 + s_2

a    2.0
b    4.0
c    NaN
d    NaN
dtype: float64

保留选出>3的数值，形成新的Series

In [19]:
s.loc[s > 3]

d    4
e    5
f    5
dtype: int64

In [20]:
s.loc[['a', 'c', 'd']]

a    1
c    3
d    4
dtype: int64

In [22]:
s.iloc[[0, 2]]

a    1
c    3
dtype: int64

In [30]:
ss = pd.Series(['a', 'b', 'c'], index = ['a', 0, 1])
ss

a    a
0    b
1    c
dtype: object

Series如果在代码中用的很多, 每次用pd.Series觉得麻烦，可以专门导入它a

In [38]:
from pandas import Series as AAA

In [37]:
Series(['A', 'B', 'C'])

0    A
1    B
2    C
dtype: object

In [47]:
class Child:
    def __init__(self, child_name):
        self.name = child_name

class Parent:
    def __init__(self, child_name):
        self.child = Child(child_name)
        
p = Parent('aa')    
child = p.child

child.name

'aa'

## DataFrame

DataFrame用于存储二维的数据表

In [50]:
from pandas import DataFrame

In [52]:
df = DataFrame({'A': [1,2,3,4], 'B': ['a','b','c','d']})
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,c
3,4,d


In [54]:
df['C'] = df['A'] * 2
df

Unnamed: 0,A,B,C
0,1,a,2
1,2,b,4
2,3,c,6
3,4,d,8


选出某列Series

In [55]:
df['A']

0    1
1    2
2    3
3    4
Name: A, dtype: int64

选出某几列组成的DataFrame

In [56]:
df[['A', 'C']]

Unnamed: 0,A,C
0,1,2
1,2,4
2,3,6
3,4,8


注意df[['A']]和df['A']结果是不一样的

In [57]:
df[['A']]

Unnamed: 0,A
0,1
1,2
2,3
3,4


# 泰坦尼克号数据的初步分析

In [62]:
pd.read_csv('test_full_data.csv').head()

Unnamed: 0,Age,Cabin,Embarked,Fare,Name,Parch,PassengerId,Pclass,Sex,SibSp,Survived,Ticket,dataset_name
0,22.0,,S,7.25,"Braund, Mr. Owen Harris",0,1,3,male,1,0.0,A/5 21171,train
1,38.0,C85,C,71.2833,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,2,1,female,1,1.0,PC 17599,train
2,26.0,,S,7.925,"Heikkinen, Miss. Laina",0,3,3,female,0,1.0,STON/O2. 3101282,train
3,35.0,C123,S,53.1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,4,1,female,1,1.0,113803,train
4,35.0,,S,8.05,"Allen, Mr. William Henry",0,5,3,male,0,0.0,373450,train
