# Series的属性

In [1]:
import pandas as pd
import numpy as np

## Series.T

转置Series对象，转置后还是它自己，这个属性没什么用

In [2]:
s1 = pd.Series(['a', 'b', 'c'])
s1

0    a
1    b
2    c
dtype: object

In [3]:
s1.T

0    a
1    b
2    c
dtype: object

## Series.array

返回的是ExtensionArray对象，ExtensionArray是Pandas库中的一种数据类型，用于存储特殊类型的数据，如日期、字符串等。它扩展了pandas的数据结构，并且提供了比其他数据类型更高的性能和效率。这里其实就是pandas的一种特有数据类型，如果想把series对象完全转化为numpy数组，得用Series.numpy()

In [4]:
# 这里显示的就是PandasArray对象
s1.array

<PandasArray>
['a', 'b', 'c']
Length: 3, dtype: object

## Series.at

用于单个值的获取或者替换时速度比用iloc快，它也就只有这一个用处了，用处不大，只能针对单个的值，而且它接受的是索引标签，而不是索引位置，区别与Series.iat接受的是整数索引位置，类似于loc和iloc的区别

In [5]:
s1.at[1]

'b'

## Series.attrs

返回的是一个字典对象，"Series.attrs"是pandas中的一个属性，它允许用户为pandas Series对象附加元数据（键/值对）。

In [6]:
# 使用"attrs"属性附加元数据：
s1.attrs["duke"] = "forstdu"
# 现在已经附加了键值对信息
s1.attrs['duke']

'forstdu'

In [7]:
# 这时候再来查看附加的属性，返回的是一个字典对象
s1.attrs

{'duke': 'forstdu'}

## Series.axes

返回行标签的列表,这个列表里只有一个元素，元素对象是RangeIndex,与Series.index的区别的就是index属性返回的直接就是RangeIndex对象，而不是一个列表

In [8]:
s1.axes

[RangeIndex(start=0, stop=3, step=1)]

## Series.dtype

Series.dtype"是pandas中的一个属性，用于表示pandas的"Series"数据结构中数据的数据类型（如int64, float64, object等），这是老版本的用法，新版本已经用Series.dtypes代替

In [9]:
# "dtype('O')"是pandas中的数据类型，表示Python的"object"类型，通常用于存储任意类型的数据（例如字符串、列表、字典等）
s1.dtype

dtype('O')

## Series.dtypes

同上，这是新版的用法

In [10]:
s1.dtypes

dtype('O')

## Series.flags

"Series.flags"是pandas中的一个属性，用于描述pandas的"Series"数据结构的内存状态，返回一个"PandasBlockManager's Flags"对象，该对象包含有关数据结构的内存状态的信息，如数据是否可以被写入或是否共享内存等。

In [11]:
# "allows_duplicate_labels=True"是pandas中的一个参数，用于在创建pandas数据结构时允许标签重复。当该参数设置为"True"时，可以使用重复的标签，而当该参数设置为"False"时，不允许使用重复的标签。默认情况下，该参数的值为"False"，即不允许使用重复的标签。
s1.flags

<Flags(allows_duplicate_labels=True)>

## Series.hasnans

检查是否有缺失值，如果有，就返回Ture

In [12]:
# 创建一个包含空值的Series对象
s2 = pd.Series(['a', 'b', None, 'c'])
s2

0       a
1       b
2    None
3       c
dtype: object

In [13]:
# 检查是否有缺失值
s2.hasnans

True

## Series.iat

跟Series.at差不多，区别就是iloc和loc类似

In [14]:
s2.iat[0]

'a'

## Series.iloc

传入单个的整数值，返回的是单个元素对象，传入位置列表，切片，布尔数组，元组返回的是一个新的series对象，还可以传入一个可调用函数,注意:这里的整数指的是标签的顺序位置，而不是标签名，比如行标签是[1,3,5],所对应的位置是[0,1,2]

### 传入单个整数

In [15]:
s3 = pd.Series([None, 'b', 'c', 'd', 'e'])
s3.iloc[2]

'c'

In [16]:
# 此时返回的是一个字符串
type(s3.iloc[2])

str

In [17]:
# 这里可以看出输入的整数参数指的是行标签的位置，而不是指的行标签的数字
pd.Series(['a', 'b', 'c'], index=[1, 3, 5]).iloc[1]

'b'

### 传入整数列表或数组

In [18]:
# 传入一个列表[0, 2]
s3.iloc[[0, 2]]

0    None
2       c
dtype: object

In [19]:
# 此时返回的是一个新的Series对象
type(s3.iloc[[0, 2]])

pandas.core.series.Series

### 传入一个切片

In [20]:
s3.iloc[1:3]

1    b
2    c
dtype: object

### 传入一个布尔数组，注意：布尔数组的长度必须和Series长度一样

In [21]:
# 只返回为True的地方
s3.iloc[[True, True, False, True, False]]

0    None
1       b
3       d
dtype: object

### 传入一个元组

这里Series只能用(1,)类型的元组，因为是一维的，元组参数更深入的用法看后面DataFrame里的用法

In [22]:
s3.iloc[(3,)]

'd'

### 传入一个可调用函数

可调用函数可以用于对数据进行动态索引，比如对于满足特定条件的数据进行索引,比如下面的代码用于选出索引位置大于2的数据，记住这个动态的好处，有时候很有用

In [23]:
pd.Series([10, 22, 13, 5, 2, 88]).iloc[lambda s: s.index > 2]

3     5
4     2
5    88
dtype: int64

### IndexError报错

如果传入的整数索引参数超过了Series的长度，就会报IndexError错误，切片例外，传入的切片范围是可以超过Series的长度的

## Series.index

返回行标签对象RangeIndex

In [24]:
s3.index

RangeIndex(start=0, stop=5, step=1)

In [25]:
# 将Rangeindex对象转换为列表
list(s3.index)

[0, 1, 2, 3, 4]

## Series.is_monotonic_decreasing

返回布尔值，判断Series的值是否是单调递减

In [26]:
s4 = pd.Series(['c', 'b', 'a'])

In [27]:
# 字母降序也能判断
s4.is_monotonic_decreasing

True

In [28]:
# 试一试有相同字母或者数字时会怎样,可以看到也是可以的
pd.Series(['c', 'b', 'b', 'a']).is_monotonic_decreasing

True

## Series.is_monotonic_increasing

同上，只是这是单调递增

## Series.is_unique

返回布尔值，判断Series的值是否都是唯一的

In [29]:
pd.Series(['a', 'b', 'b']).is_unique

False

In [30]:
# 缺失值重复也会判断为False
pd.Series([None, None, 'a']).is_unique

False

## Series.loc

与Series.iloc类似,但是有细微区别，loc接受的是行标签的名，iloc是行标签的位置，而且loc切片时是首尾包含的，iloc和python语法一样，切片是不包含尾的

### 传入一个行标签名

In [31]:
pd.Series([1, 2, 3], index=['a', 'b', 'c']).loc['a']

1

In [32]:
# 这里就可以看出指的是行标签名
pd.Series(['a', 'b', 'c'], index=[1, 2, 4]).loc[4]

'c'

### 传入一个行标签名的列表或者数组

In [33]:
pd.Series([1, 2, 3], index=['a', 'b', 'c']).loc[['a', 'c']]

a    1
c    3
dtype: int64

### 传入一个切片

In [34]:
# 注意看这里的切片是包含尾部的
pd.Series([1, 2, 3, 4], index=['a', 'b', 'c' ,'d']).loc['b':'d']

b    2
c    3
d    4
dtype: int64

### 传入一个布尔数组，数组长度必须和Series长度一样

In [35]:
pd.Series([1, 2, 3, 4], index=['a', 'b', 'c' ,'d']).loc[[True, False, True, False]]

a    1
c    3
dtype: int64

### 传入一个索引相同的布尔值Series对象

传入的Series对象值必须是布尔类型，且索引要和原Series索引一一对应，一摸一样，这样就会筛选出传入Series对象里位置为True的位置

In [36]:
# 两个index必须一样
pd.Series([1, 3, 5], index=['a', 'b', 'c']).loc[pd.Series([True, False, True], index=['a', 'b', 'c'])]

a    1
c    5
dtype: int64

### 传入一个索引对象

传入的索引对象要在原Series的索引里才行

In [37]:
pd.Series([1, 3, 5], index=['a', 'b', 'c']).loc[pd.Index(['a', 'c'], name='index_name')]

index_name
a    1
c    5
dtype: int64

### 传入一个可调用函数

类似于iloc一样的使用

In [38]:
pd.Series([1, 3, 5], index=['a', 'b', 'c']).loc[lambda x: x.index=='b']

b    3
dtype: int64

## Series.name

返回series对象的名字，如果是从DataFrame里取出来的Series，名字就是对应的该列列名

In [39]:
# 可以在创建是添加名字，打印展示的时候就会显示出Name属性
s5 = pd.Series(['a', 'b', 'c'], name='my_series')
s5

0    a
1    b
2    c
Name: my_series, dtype: object

In [40]:
# 访问Series的名字属性
s5.name

'my_series'

In [41]:
# 从DataFrame里获取的Series，列名就是该Series的名字
df1 = pd.DataFrame([[1, 2], [3, 4], [5, 6]],columns=["Odd Numbers", "Even Numbers"])
df1['Odd Numbers']

0    1
1    3
2    5
Name: Odd Numbers, dtype: int64

In [42]:
# 访问name属性
df1['Odd Numbers'].name

'Odd Numbers'

## Series.nbytes

pandas的Series的nbytes属性用于检查Series的底层数据的内存使用情况。它以字节为单位返回数据的大小。这包括存储值所使用的内存和与在Series对象中存储数据相关的任何开销。当处理大型数据集时，nbytes属性可以帮助了解pandas Series的内存使用情况，从而帮助内存优化。

In [43]:
s5.nbytes

24

## Series.ndim

返回数据的维度，显然Series维度始终为1

In [44]:
s5.ndim

1

## Series.shape

以元组的形式返回数据的维度形状

In [45]:
s5.shape

(3,)

## Series.size

返回Series对象元素的个数

In [46]:
s5.size

3

## Series.values

将Series对象以numpy数组返回，与Series.to_numpy不同的是series.values 返回组成 Series 的底层 numpy 数组，没有进行复制。这意味着对返回的 numpy 数组的更改也将更改原始 Series。

另一方面，series.to_numpy() 始终会返回数据的新副本。这可能更耗费计算资源，但它也可以确保如果修改返回的 numpy 数组则不会更改原始 Series。

通常，如果您只想访问 Series 的值，并且不关心修改它们，使用 series.values 更高效。如果您要在不影响原始 Series 的情况下修改返回的数组，请使用 series.to_numpy()

In [47]:
s6 = pd.Series(['a', 'b', 'c'])
s6

0    a
1    b
2    c
dtype: object

In [48]:
# 返回s6的numpy数组，此时将返回的数组进行修改后，看看原s6会不会变
s6_values_array = s6.values
s6_values_array

array(['a', 'b', 'c'], dtype=object)

In [50]:
# 修改b为e
s6_values_array[1] = 'e'
# 再看看s6是否有改变,可以看到s6变了，但是如果用to_numpy就不会变
s6

0    a
1    e
2    c
dtype: object