## 一、Numpy basic

NumPy是Python的一个**高性能矩阵运算**的科学计算库

NumPy的ndarray提供了一维到三维的数据结构，图2-2所示为**同构数据多维容器**，所有元素必须是相同类型。我们经常用到的是一维和二维数组

> ndarray对数据向量化，利用隐式逐元素方式的广播机制进行算术运算、逻辑运算、位运算、函数调用等，可以快速、批量地处理数据

In [2]:
import numpy as np

In [5]:
### 数据类型

# np.int64      # 有符号64位整型
# np.float32    # 标准双精度浮点类型
# np.complex    # 由128位的浮点数组成的复数类型
# np.bool       # bool类型（True或False）
# np.object     # Python中的object类型
# np.unicode    # 固定长度的unicode类型
# np.NaN        # np.float的子类型
# np.nan

In [6]:
np.arange(1, 10)
np.random.randn(6, 4)  # 6*4 随机数组
np.random.randint(2, 10, size=(3, 3))   # 3 * 3, 从2-10随机数构成的数组

array([[3, 7, 7],
       [5, 9, 6],
       [2, 8, 3]])

## 二、Pandas 数据结构

- Series （序列、数列、系数）: 带标签的一维同构数组
- DataFrame: 带标签的大小可变的二维异构表格

![](https://github.com/limboinf/all-about-pandas/blob/master/resources/dataframe-struct.jpeg?raw=true)

轴（axis）：仅用在DataFrame结构中，代表数据的方向，如行和列，用0代表列（默认），1代表行。

### 2.1 Series

In [21]:
# 创建一个Series
s = pd.Series([100,200,300,400], dtype='int32', name='idx')

pd.Series(['java', 'python'])

pd.Series(['java', 'python', 'golang'], index=[100,200,300])    # 带索引，index数组大小必须和data数组大小一致

s = pd.Series(np.random.rand(5), index=['a', 'b', 'c', 'd', 'e'])   # 使用Numpy ndarray构造 Series
s.index

pd.Series({'a': 1, 'b': 2, 'c': 3})     # 使用字典构建，index为key, data就是values
pd.Series({'a': 1, 'b': 2, 'c': 3}, index=['b', 'a', 'cc'])     # 使用字典构建, data就是values, 可以更改index顺序，注意必须保持key一致

# 使用标量
# 对于一个具体的值，如果不指定索引，则其长度为1；如果指定索引，则其长度为索引的数量，每个索引的值都是它。
pd.Series('a')

pd.Series('a', index=range(1, 4))

1    a
2    a
3    a
dtype: object

### 2.2 DataFrame

In [6]:
# 创建 df
import pandas as pd

df = pd.DataFrame({'国家': ['中国', '美国', '日本'],
                   '地区': ['亚洲', '北美', '亚洲'],
                   '人口': [13.97, 3.28, 1.26],    
                   'GDP': [14.34, 21.43, 5.08]
                   })

df

Unnamed: 0,国家,地区,人口,GDP
0,中国,亚洲,13.97,14.34
1,美国,北美,3.28,21.43
2,日本,亚洲,1.26,5.08


In [7]:
# 其他更复杂的构造
df2 = pd.DataFrame({
    'A': 1,
    'B': pd.Timestamp('2022-05-18'),
    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
    'D': np.array([100] * 4, dtype='int32'),
    'E': pd.Categorical(['java', 'python', 'golang', 'c'])
})
df2

Unnamed: 0,A,B,C,D,E
0,1,2022-05-18,1.0,100,java
1,1,2022-05-18,1.0,100,python
2,1,2022-05-18,1.0,100,golang
3,1,2022-05-18,1.0,100,c


In [26]:
# 查看数据类型

df.dtypes       # all df
df.人口.dtype   # specifal column 人口

dtype('float64')

In [10]:
print(type(s), type(df))

<class 'pandas.core.series.Series'> <class 'pandas.core.frame.DataFrame'>
