# Pandas中的数据结构

## Series

`Series`是带标签的一维数组, 可存储整数, 浮点数, 字符串, Python对象等类型的数据. 轴标签统称为**索引**, `s = pd.Series(data, index = index)`

data支持, Python字典, 数组

### 多维数组

当data是多维数组, index的长度必须要与data长度一致. 如果没有指定index, 则自动创建数值型索引, 即`[0, ..., len(data) - 1]`

In [6]:
# 创建Series
import pandas as pd
import numpy as np
s = pd.Series(np.random.rand(5), index=["a", "b", "c", "d", "e"])
s

0    0.626212
1    0.184971
2    0.573706
3    0.426831
4    0.799759
dtype: float64

In [11]:
# Series也可以用字典实例化
# 如果data使用了字典, 但设置了index参数, 则会按索引标签提取data里对应的值
d = {"a": 1, "b": 2, "c": 3}
s = pd.Series(d, index=["b", "A", "c"])
s

b    2.0
A    NaN
c    3.0
dtype: float64

### Series类似多维数组

`Series`操作与`ndarray`类似, 支持大多数`numpy`函数, 也支持索引切片

In [20]:
s = pd.Series(np.random.rand(5))
print(s)
print("第一个元素是: ", s[0])
print("第一个元素到第三个元素是: ", s[:3])

0    0.387579
1    0.566895
2    0.814389
3    0.383302
4    0.146009
dtype: float64
第一个元素是:  0.38757888828877063
第一个元素到第三个元素是:  0    0.387579
1    0.566895
2    0.814389
dtype: float64
4    0.146009
3    0.383302
1    0.566895
dtype: float64


In [24]:
# Series转换成NumPy数组
array = s.to_numpy()
print(type(array))

<class 'numpy.ndarray'>


### Series类似字典

In [28]:
data = np.random.rand(5)
s = pd.Series(data, index = ["a", "b", "c", "d", "e"])
print(s)
print(s["a"])
print("c" in s)

a    0.195799
b    0.267871
c    0.084925
d    0.149434
e    0.593664
dtype: float64
0.19579899144535706
True


## DataFrame

DataFrame是由多种类型的列构成的二维标签数据结构, 类似于Excel, SQL表, 或者是Series对象构成的字典. 支持的多种类型的输入数据有:
1. 一维ndarray, 列表, 字典, Series字典
2. 二维numpy.ndarray
3. Series
4. DataFrame

除了数据, 还可以有选择地传递index(行标签)和columns(列标签)参数. 传递了索引或列, 就可以确保生成的DataFrame里包含索引或列

### 用Series字典或字典生成DataFrame

生成的索引是每个Series索引的并集, 先把嵌套字典转换为Series. 如果没有指定列, DataFrame列就是字典的键

In [32]:
d = {"one": pd.Series([1, 2, 3], index=["a", "b", "c"]), "two": pd.Series([1, 2, 3, 4], index=["a", "b", "c", "d"])}
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [33]:
# 指定行和列
pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"])

Unnamed: 0,two,three
d,4,
b,2,
a,1,
