In [15]:
# numpy的数据结构是n维的数组对象，叫做ndarray。Python的list虽然也能表示，但是不高效，随着列表数据的增加，效率会降低。
# 我们首先载入numpy包，因为它是第三方工具，所以每次使用前必须在代码中载入。as是命名为别名，方便调用，np是numpy约定俗成的简写。

import numpy as np

data1 = [1, 2, 3, 4, 5]
nparry1 = np.array(data1)
print(nparry1)

[1 2 3 4 5]


In [16]:
# 新建多维数组
data2 = [[1, 2, 3], [4, 5, 6]]
nparry2 = np.array(data2)
print(nparry2)

[[1 2 3]
 [4 5 6]]


In [18]:
# 常见的矩阵和数字运算
a = np.array([[1, 2, 3], [4, 5, 6]])
print(a + 1)

[[2 3 4]
 [5 6 7]]


In [19]:
a = np.array([[1, 2, 3], [4, 5, 6]])
b = np.array([[7, 8, 9], [10, 11, 12]])

In [20]:
print("a + b:", a + b)

a + b: [[ 8 10 12]
 [14 16 18]]


In [21]:
print("a - b:", a - b)

a - b: [[-6 -6 -6]
 [-6 -6 -6]]


In [22]:
print("a * b:", a * b)

a * b: [[ 7 16 27]
 [40 55 72]]


In [23]:
print("a / b:", a / b)

a / b: [[0.14285714 0.25       0.33333333]
 [0.4        0.45454545 0.5       ]]


In [27]:
# 索引访问数据
a = np.array([1, 2, 3, 4, 5])
print(a[0])

1


In [26]:
# 多维数组，索引访问
b = np.array([[1, 2, 3], [4, 5, 6]])
print(b[0])
print(b[0][0])

[1 2 3]
1


In [28]:
# numpy除了上述的基础操作之外，还有reshape、T转置、ufunc、sort等函数，功能强大，大家可以自行查阅文档学习，这里我不再花费时间讲解。
# 对于数据分析师，pandas是一个更常用的包，在抽象概念上它更接近我们熟悉的excel和sql，也是最主要的分析工具。

# pandas有两个主要的数据结构，Series和DataFrame，记住大小写区分，后续使用中不多提醒。Series类似于一维数组，和numpy的array接近，由一组数据和数据标签组成。数据标签有索引的作用。

import pandas as pd

# 加载pandas包，通过Series函数生成一个对象。我们很明显地看到，在jupyter上它的样式不同于array，
# 它是竖着的。右边是我们输入的一组数据，左边是数据的索引，即标签。数据标签是pandas区分于numpy的重要特征。
ser = pd.Series([1, 2, 3, 4, 5])
print(ser)

0    1
1    2
2    3
3    4
4    5
dtype: int64


In [29]:
# 自定义标签
ser = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
print(ser)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [41]:
# 索引的概念有点像SQL的主键，不过它的功能更强大，分析师能够很轻松的通过索引选取一个数据或者一组数据。
print(ser.index)
print(ser['a'])
print(ser[['a', 'b']])

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
1
a    1
b    2
dtype: int64


In [42]:
# 用字典初始化 pandas
dic = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
ser = pd.Series(dic)
print(ser)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [35]:
# Series是一维的数据结构，DataFrame是一个表格型的数据结构，它含有不同的列，每列都是不同的数据类型。
# 我们可以把DataFrame看作Series组成的字典，它既有行索引也有列索引。
# 想象得更明白一点，它类似一张excel表格或者SQL，只是功能更强大。

dict = {
    'name': ['Tom', 'Jack', 'Mary'],
    'age': [20, 21, 22],
    'score': [100, 90, 80]
}

df = pd.DataFrame(dict)
df

Unnamed: 0,name,age,score
0,Tom,20,100
1,Jack,21,90
2,Mary,22,80


In [34]:
# 列名后面是列的非空值统计量，以及数据类型，最后一行是DataFrame占用的内存大小，对于pandas来说，千万行几百兆的数据也是不再话下的。
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
 2   score   3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 200.0+ bytes


In [14]:
# DataFrame的索引方式和Series一样，它选取的是列。
df['age']

0    20
1    21
2    22
Name: age, dtype: int64

In [43]:
# 返回的是一组Series，索引和原DataFrame一致。除了方括号选取，DataFrame还有更简单的选取方法。
df.name

0     Tom
1    Jack
2    Mary
Name: name, dtype: object

In [45]:
# 行也可以通过通过位置获取，用索引字段ix的方式。
df[0:1]

Unnamed: 0,name,age,score
0,Tom,20,100


In [47]:
df.age = 22
df

Unnamed: 0,name,age,score
0,Tom,22,100
1,Jack,22,90
2,Mary,22,80


In [48]:
# 修改某列的内容
df.age = [18,19,20]
df 

Unnamed: 0,name,age,score
0,Tom,18,100
1,Jack,19,90
2,Mary,20,80


In [51]:
# 新增列
df['country'] = 'ch'
df

Unnamed: 0,name,age,score,country
0,Tom,18,100,ch
1,Jack,19,90,ch
2,Mary,20,80,ch


In [53]:
# 单独提取列
df[['age', 'score']]

Unnamed: 0,age,score
0,18,100
1,19,90
2,20,80


In [54]:
# 条件过滤，内部应该是矩阵运算
df[df.age > 19]

Unnamed: 0,name,age,score,country
2,Mary,20,80,ch
