In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

Series 是 pandas 库中的一种数据结构，用于表示一维的、带有标签（索引）的数据
你可以把 Series 看作是带有索引的数组或字典
它是一种灵活的数据类型，可以容纳多种数据类型，例如整数、浮点数、字符串、Python 对象等

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Series字符串交互的方式呈现，索引位于左边，值位于右边。
因为没有给数据指定索引，因此会自动创建一个0～N-1的整型索引
可以通过Series的array和index属性获取其数组值和索引对象

In [3]:
obj.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

.array属性结果是PandasArray对象，它通常封装了一个Numpy数组，但也可以包含特殊的扩展数组类型。

In [4]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
#经常需要创建带有索引的Series，用标签指明各个数据点：
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
#与Numpy相比，可以通过索引的标签选取Series中的单个或一组值：
obj2["a"]

-5

In [9]:
obj2["d"]

4

In [10]:
obj2["d"] = 6

In [11]:
obj2[["c", "a", "d"]]

c    3
a   -5
d    6
dtype: int64

["c", "a", "d"]是索引列表，它包含的是字符串而不是数字

In [12]:
#使用numpy函数进行运算时，比如bool数组过滤，标量乘法，应用函数等，都会保留索引值的链接
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [13]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [14]:
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

使用 NumPy 的 exp 函数来计算 obj2 中每个元素的指数（exponential）
即计算 e 的 x 次方（e^x），其中 e 是自然常数，约等于 2.71828
所以此函数是将obj2中的每个元素进行计算e的次方，比如d为6，则第一个对应的是e的d次方，就是e的6次方
e的6次方就是403.428793

In [16]:
#还可以将Series看作长度固定的有序字典，因为它是索引值对数据值的映射
#在使用字典的场景里也可以用Series:
"b" in obj2

True

In [17]:
"e" in obj2

False

In [18]:
#如果数据已经存放在一个py字典中，也可以通过传入这个字典创建Series：
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": "5000"}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: object

In [19]:
#通过to_dict方法可以将Series转换回字典：
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': '5000'}

In [20]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: object

In [21]:
states = ["California", "Ohio", "Oregon", "Texas"]
#它包含 sdata 中的数据，并使用 states 列表中的值作为索引
obj4 = pd.Series(sdata, index=states)
obj4

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: object

In [None]:
使用 pandas 库中的 Series 数据结构创建一个带有指定索引的 Series 对象 obj4
sdata 是要赋值给 Series 的数据，可以是列表、字典、NumPy 数组或者其他可迭代对象
index=states 表示为 Series 指定索引
这里 states 是一个包含索引标签的列表，["California", "Ohio", "Oregon", "Texas"]
它们将作为 Series 中数据的索引

如果只传入一个字典，则结果Series中的索引会遵循字典的顺序，键的顺序依据的是字典keys方法，keys方法又取决于键的插入顺序
可以将字典键按照想要的顺序传给构造函数，从而使生成的Series索引符合预期

In [None]:
在此例子中，stata中跟states索引相匹配的三个值放到了相应的位置上，
但由于"California"没有对应值，其结果为Nan（not a number）非数字
在pandas中，用于表示缺失值NA，因为Utah不在states中，所以他会从结果中除去

In [25]:
#后期会经常使用“缺失”，“NA”，“空值”等表示缺失数据
#pandas中的isnull和notnull函数可以检测缺失值
#判空
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [26]:
#非空
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [27]:
#Series也将其作为实例方法：
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
#Series最实用的是在算数运算中能自动对齐索引标签：
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: object

In [29]:
obj4

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: object

In [30]:
obj3 + obj4

California       NaN
Ohio           70000
Oregon         32000
Texas         142000
Utah             NaN
dtype: object

数据对齐功能类似于数据库中的join操作

In [31]:
#Series对象及其索引都有name属性，该属性与pandas其他功能的关系非常密切：
obj4.name = "population"
obj4.index.name = "state"
obj4

state
California      NaN
Ohio          35000
Oregon        16000
Texas         71000
Name: population, dtype: object

在 pandas 中，object 数据类型通常用于存储字符串或混合类型的数据。
dtype:
在 pandas 中，dtype 描述了 Series 或 DataFrame 中每一列的数据类型。
object:
object 是 pandas 中一种数据类型，通常用于存储字符串（文本）数据。
它也可以用于存储混合类型的数据，例如包含字符串、整数、浮点数、甚至 Python 对象的列。
由于 object 类型的灵活性，它在性能上比数值类型稍慢，但在处理非数值数据时是必须的。

dtype: object 表示数据存储为 Python 的 object 类型，通常用于存储字符串或混合类型的数据。
在 pandas 中，如果你看到 dtype: object，通常意味着这个 Series 或 DataFrame 中包含的不是纯粹的数值数据，而是文本或混合类型的数据。

In [33]:
#Series的索引可以通过赋值的方式就地修改：
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [34]:
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

In [None]:
这里索引里有字符串为什么不是object类型？
因为：
dtype 仅描述 Series 或 DataFrame 中数据的类型，不涉及索引。
索引的数据类型是独立的，可以通过 .index.dtype 查看。