## Python 的数据结构

不可变数据：Number（数字）、String（字符串）、Tuple（元组）。

可变数据：List（列表）、Dictionary（字典）、Set（集合）。

In [10]:
d = {} # 定义空字典
d = dict() # 定义空字典
d = {'a': 1, 'b': 2, 'c': 3}
d = {'a': 1, 'a': 1, 'a': 1} # {'a': 1} key不能重复，重复时取最后一个
d = {'a': 1, 'b': {'x': 3}} # 嵌套字典
d = {'a': [1,2,3], 'b': [4,5,6]} # 嵌套列表

# 以下均可定义如下结果
# {'name': 'Tom', 'age': 18, 'height': 180}|
d = dict(name='Tom', age=18, height=180)
d = dict([('name', 'Tom'), ('age', 18), ('height', 180)])
d = dict(zip(['name', 'age', 'height'], ['Tom', 18, 180]))
d

{'name': 'Tom', 'age': 18, 'height': 180}

In [11]:
d.pop('name') # 'Tom'（删除指定key）
d.popitem() # 随机删除某一项
d
# del d['name']  # 删除键值对
d.clear()  # 清空字典

# 按类型访问，可迭代
d.keys() # 列出所有键
d.values() # 列出所有值
d.items() # 列出所有键值对元组（k, v）

# 操作
d.setdefault('a', 3) # 插入一个键并给定默认值3，如不指定，则为None
d1 = {}
d1.update(d) # 将字典dict2的键值对添加到字典dict
# 如果键存在，则返回其对应值；如果键不在字典中，则返回默认值
d.get('math', 100) # 100
d2 = d.copy() # 深拷贝，d变化不影响d2

d = {'a': 1, 'b': 2, 'c': 3}
max(d) # 'c'（最大的键）
min(d) # 'a'（最小的键）
len(d) # 3（字典的长度）
str(d) # "{'a': 1, 'b': 2, 'c': 3}"（字符串形式）
any(d) # True（只要一个键为True）
all(d) # True（所有键都为True）
sorted(d) # ['a', 'b', 'c']（所有键的列表排序）

['a', 'b', 'c']

### 集合

In [12]:
s = {'a', 'b', 'c'}

# 判断是否有某个元素
'a' in s # True

# 添加元素
s.add(2) # {2, 'a', 'b', 'c'}
s.update([1,3,4]) # {1, 2, 3, 4, 'a', 'b', 'c'}

# 删除和清空元素
s.remove('a') # {'b', 'c'}（删除不存在的会报错）
s.discard('3') # 删除一个元素，无则忽略，不报错
s.clear() # set()（清空）

In [14]:
s1 = {1,2,3}
s2 = {2,3,4}

s1 & s2 # {2, 3}（交集）
s1.intersection(s2) # {2, 3}（交集）
print(s1)
s1.intersection_update(s2) # {2, 3}（交集，会覆盖s1）
print(s1)
s1 | s2  # {1, 2, 3, 4}（并集）
s = s1.union(s2) # {1, 2, 3, 4}（并集）
print(s1,s)
s1.difference(s2) # {1}（差集）
s1.difference_update(s2) # {1}（差集，会覆盖s1）

s1.symmetric_difference(s2) # {1, 4}（交集之外）

s1.isdisjoint(s2) # False（是否没有交集）
s1.issubset(s2) # False （s1是否是s2的子集）
s1.issuperset(s2) # False（s1是否是s2的超集，即s1是否包含s2中的所有元素）

{1, 2, 3}
{2, 3}
{2, 3} {2, 3, 4}


False

### Numpy

In [1]:
import numpy as np
np.arange(10) # 10个，不包括10，步长为1
np.arange(3, 10, 0.1) # 从3到9，步长为0.1
# 从2.0到3.0，生成均匀的5个值，不包括终值3.0
np.linspace(2.0, 3.0, num=5, endpoint=False)
 # 返回一个6×4的随机数组，浮点型
np.random.randn(6, 4)
# 指定范围、指定形状的数组，整型
np.random.randint(3, 7, size=(2, 4))
# 创建值为0的数组
np.zeros(6) # 6个浮点0.
a = np.zeros((5, 6), dtype=int) # 5×6整型0
b = np.ones(4) # 同上
c = np.empty(4) # 同上
 # 创建一份和目标结构相同的0值数组
x = np.zeros_like(np.arange(6))
y = np.ones_like(np.arange(6)) # 同上
z = np.empty_like(np.arange(6)) # 同上
print(a,b,c)
x,y,z

[[0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]] [1. 1. 1. 1.] [0. 0. 0. 0.]


(array([0, 0, 0, 0, 0, 0]),
 array([1, 1, 1, 1, 1, 1]),
 array([1, 0, 0, 0, 0, 0]))

In [8]:
import pandas as pd
a = np.zeros((5, 6), dtype=int) # 5×6整型0
b = pd.DataFrame(a,index=["a","b","v","e","x"],columns =["a","b","v","e","x","q"] )
b

Unnamed: 0,a,b,v,e,x,q
a,0,0,0,0,0,0
b,0,0,0,0,0,0
v,0,0,0,0,0,0
e,0,0,0,0,0,0
x,0,0,0,0,0,0


In [18]:
np.array([10, 20, 30, 40])[:3] # 支持类似列表的切片
a = np.array([10, 20, 30, 40])
b = np.array([1, 2, 3, 4])
a+b # array([11, 22, 33, 44])（矩阵相加）
a-1 # array([9, 19, 29, 39])
4*np.sin(a)

# 以下是一些数学函数的例子，还支持非常多的数学函数
a.max() # 40
a.min() # 10
a.sum() # 100
a.std() # 11.180339887498949
a.all() # True
a.cumsum() # array([10, 30, 60, 100])
c = np.array([[10, 20, 30, 40],[10, 20, 30, 40]])
d = c.sum(axis=1) # 多维可以指定方向
c,d

(array([[10, 20, 30, 40],
        [10, 20, 30, 40]]),
 array([100, 100]))

In [20]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'国家': ['中国', '美国', '日本'],
                   '地区': ['亚洲', '北美', '亚洲'],
                   '人口': [13.97, 3.28, 1.26],
                   'GDP': [14.34, 21.43, 5.08],
                  })
df

Unnamed: 0,国家,地区,人口,GDP
0,中国,亚洲,13.97,14.34
1,美国,北美,3.28,21.43
2,日本,亚洲,1.26,5.08


In [21]:
df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})
df2

Unnamed: 0,A,B,C,D,E,F
0,1.0,2013-01-02,1.0,3,test,foo
1,1.0,2013-01-02,1.0,3,train,foo
2,1.0,2013-01-02,1.0,3,test,foo
3,1.0,2013-01-02,1.0,3,train,foo


In [22]:
df["人口"]

0    13.97
1     3.28
2     1.26
Name: 人口, dtype: float64

In [23]:
s = pd.Series([14.34, 21.43, 5.08], name='gdp')
s

0    14.34
1    21.43
2     5.08
Name: gdp, dtype: float64

In [24]:
type(s),type(df)

(pandas.core.series.Series, pandas.core.frame.DataFrame)

### 生成 Series

In [25]:
# 使用元组
pd.Series(['a', 'b', 'c', 'd', 'e'])
pd.Series(('a', 'b', 'c', 'd', 'e'))

0    a
1    b
2    c
3    d
4    e
dtype: object

In [28]:
# 使用 ndarray
# 由索引分别为a、b、c、d、e的5个随机浮点数数组组成
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s.index,s # 查看索引,

(Index(['a', 'b', 'c', 'd', 'e'], dtype='object'),
 a    1.059102
 b   -0.025856
 c    0.454272
 d   -1.144590
 e   -1.286931
 dtype: float64)

In [30]:
s = pd.Series(np.random.randn(5)) # 未指定索引
s

0   -0.233951
1   -0.639189
2    1.018661
3    1.742110
4    0.615751
dtype: float64

In [31]:
d = {'b': 1, 'a': 0, 'c': 2}
s = pd.Series(d)
s
'''
b    1
a    0
c    2
dtype: int64
'''

# 如果指定索引，则会按索引顺序，如有无法与索引对应的值，会产生缺失值
pd.Series(d, index=['b', 'c', 'd', 'a'])
'''
b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64
'''

'\nb    1.0\nc    2.0\nd    NaN\na    0.0\ndtype: float64\n'

In [33]:
# 使用标量
pd.Series(5.)
'''
0    5.0
dtype: float64
'''

# 指定索引
pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

### 生成 dataframe

#### 基本格式 
df = pd.DataFrame(data=None, index=None, columns=None)

In [34]:
d = {'国家': ['中国', '美国', '日本'],
     '人口': [14.33, 3.29, 1.26]}
df = pd.DataFrame(d)
df

Unnamed: 0,国家,人口
0,中国,14.33
1,美国,3.29
2,日本,1.26


In [35]:
# series 组成的字典
d = {'x': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'y': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df

Unnamed: 0,x,y
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [37]:
# 定义一个字典列表
data = [{'x': 1, 'y': 2}, {'x': 3, 'y': 4, 'z': 5}]

# 生成DataFrame对象
pd.DataFrame(data)
'''
   x  y    z
0  1  2  NaN
1  3  4  5.0
'''

# 指定索引
d = pd.DataFrame(data, index=['a', 'b'])
d

Unnamed: 0,x,y,z
a,1,2,
b,3,4,5.0


In [38]:
s = pd.Series(['a', 'b', 'c', 'd', 'e'])
pd.DataFrame(s)

Unnamed: 0,0
0,a
1,b
2,c
3,d
4,e


In [42]:
# 从字典里生成
a = pd.DataFrame.from_dict({'国家': ['中国', '美国', '日本'],'人口': [13.97, 3.28, 1.26]})
# 从列表、元组、ndarray中生成
b = pd.DataFrame.from_records([('中国', '美国', '日本'), (13.97, 3.28, 1.26)])

print(a)
b

   国家     人口
0  中国  13.97
1  美国   3.28
2  日本   1.26


Unnamed: 0,0,1,2
0,中国,美国,日本
1,13.97,3.28,1.26
