In [1]:
import pandas as pd
import random
import numpy as np

In [2]:
df = pd.Series(range(5, 11))
df

0     5
1     6
2     7
3     8
4     9
5    10
dtype: int64

In [3]:
df2 = pd.Series(range(2, 8, 2), index=[chr(i) for i in range(97, 102, 2)]) # 通过 index 参数为序列设置索引
df2

a    2
c    4
e    6
dtype: int64

In [4]:
df3 = pd.Series(range(2, 8, 2), index=[chr(i) for i in range(97, 102, 2)], name="示例") # 通过  name  参数为整个序列命名
df3

a    2
c    4
e    6
Name: 示例, dtype: int64

In [5]:
df4 = pd.Series({"A": 1,"B":2,"C":3,"D":4}, name="test1")
df4

A    1
B    2
C    3
D    4
Name: test1, dtype: int64

In [6]:
df5 = pd.Series(df4, index=["A", "B","C"])
df5

A    1
B    2
C    3
Name: test1, dtype: int64

## Series 的相关属性
| 属性         | 说明                     | 属性     | 说明                         |
|--------------|--------------------------|----------|------------------------------|
| index        | Series的索引对象         | loc[]    | 显式索引，按标签索引或切片   |
| values       | Series的值               | iloc[]   | 隐式索引，按位置索引或切片   |
| dtype/dtypes | Series的元素类型         | at[]     | 使用标签访问单个元素         |
| shape        | Series的形状             | iat[]    | 使用位置访问单个元素         |
| ndim         | Series的维度             |          |                              |
| size         | Series的元素个数         |          |                              |
| name         | Series的名称             |          |                              |

In [7]:
print(f"df4: \n{df4}")
print("-"*20)
print(f"df-index: {df4.index}")
print(f"df-values: {df4.values}")
print(f"df-dtype: {df4.dtype}")
print(f"df-shape: {df4.shape}")
print(f"df-ndim: {df4.ndim}")
print(f"df-name: {df4.name}")

df4: 
A    1
B    2
C    3
D    4
Name: test1, dtype: int64
--------------------
df-index: Index(['A', 'B', 'C', 'D'], dtype='object')
df-values: [1 2 3 4]
df-dtype: int64
df-shape: (4,)
df-ndim: 1
df-name: test1


In [8]:
print("df4.loc[\"A\"]: ", df4.loc["A"]) # 通过 loc 函数根据索引直接找到元素值
print("-"*20)
print("df4.loc[\"B\":\"C\"]:\n", df4.loc["B":"C"]) # 通过 loc 函数切片
print("-"*20)
print(f"df4.iloc[2]: {df4.iloc[2]}") # 通过 iloc 函数 隐式索引找到元素值
print("-"*20)
print(f"df4.iloc[1:3]: \n{df4.iloc[1:3]}") # 通过 iloc 函数进行切片

df4.loc["A"]:  1
--------------------
df4.loc["B":"C"]:
 B    2
C    3
Name: test1, dtype: int64
--------------------
df4.iloc[2]: 3
--------------------
df4.iloc[1:3]: 
B    2
C    3
Name: test1, dtype: int64


In [9]:
print("df4.at[\"A\"]: ", df4.at["A"]) # 通过  at  函数使用标签访问元素
print("df4.iat[0]: ", df4.iat[0]) # 通过  iat  函数隐式访问元素

df4.at["A"]:  1
df4.iat[0]:  1


In [10]:
df5 = pd.Series(range(1, 10), index=[chr(i) for i in range(97, 106)])
print("df5: \n", df5)
print("-"*20)
print("df5.head(): \n", df5.head())
print("-"*20)
print("df5.head(8): \n", df5.head(3))


df5: 
 a    1
b    2
c    3
d    4
e    5
f    6
g    7
h    8
i    9
dtype: int64
--------------------
df5.head(): 
 a    1
b    2
c    3
d    4
e    5
dtype: int64
--------------------
df5.head(8): 
 a    1
b    2
c    3
dtype: int64


In [11]:
print("df5.tail(): \n", df5.tail())
print("-"*20)
print("df5.tail(3): \n", df5.tail(3))

df5.tail(): 
 e    5
f    6
g    7
h    8
i    9
dtype: int64
--------------------
df5.tail(3): 
 g    7
h    8
i    9
dtype: int64


## Series的常用方法
| 方法        | 说明                                 | 方法          | 说明                                         |
|-------------|--------------------------------------|---------------|----------------------------------------------|
| head()      | 查看前 n 行数据，默认 5 行           | max()         | 最大值                                       |
| tail()      | 查看后 n 行数据，默认 5 行           | var()         | 方差                                         |
| isin()      | 判断元素是否包含在参数集合中          | std()         | 标准差                                       |
| isna()      | 判断是否为缺失值（如 NaN 或 None）    | median()      | 中位数                                       |
| sum()       | 求和，自动忽略缺失值                  | mode()        | 众数（可返回多个）                           |
| mean()      | 平均值                               | quantile(q)   | 分位数，q 取 0~1 之间                       |
| min()       | 最小值                               | describe()    | 常见统计信息（count、mean、std、min、25%、50%、75%、max） |
| value_counts()      | 每个唯一值的出现次数      | sort_values()   | 按值排序             |
| count()             | 非缺失值数量             | replace()       | 替换值               |
| nunique()           | 唯一值个数（去重）        | keys()          | 返回 Series 的索引对象 |
| unique()            | 获取去重后的值数组        | sort_index()        | 按索引排序               | 
| drop_duplicates()   | 去除重复项               | sample()            | 随机抽样                 |

In [12]:
print(df5.isin([6,4,2])) # isin函数  用于判断一个  序列  是否在目标Series中

a    False
b     True
c    False
d     True
e    False
f     True
g    False
h    False
i    False
dtype: bool


In [13]:
df6 = pd.Series(np.random.randint(1, 4, 6))
print("df6: \n", df6)
print("df6中的众数： ", df6.mode())

df6: 
 0    3
1    2
2    1
3    3
4    2
5    1
dtype: int32
df6中的众数：  0    1
1    2
2    3
dtype: int32


In [14]:
df6[6] = np.nan
df6[7] = np.nan

print(df6)

0    3.0
1    2.0
2    1.0
3    3.0
4    2.0
5    1.0
6    NaN
7    NaN
dtype: float64


In [15]:
print(df6.count()) # 计算非缺失值(nan)的数量

6


In [16]:
print(df6.value_counts()) # 每个值的出现次数，按出现次数从多到少排序

3.0    2
2.0    2
1.0    2
Name: count, dtype: int64


In [17]:
print(df6.sort_values()) # 根据值的大小排序

2    1.0
5    1.0
4    2.0
1    2.0
3    3.0
0    3.0
6    NaN
7    NaN
dtype: float64


In [18]:
print(df6.sort_values()) # 根据值的大小排序

2    1.0
5    1.0
4    2.0
1    2.0
3    3.0
0    3.0
6    NaN
7    NaN
dtype: float64


In [19]:
df6.describe() # 给出Series的相关描述信息，不统计缺失值(Nan)

count    6.000000
mean     2.000000
std      0.894427
min      1.000000
25%      1.250000
50%      2.000000
75%      2.750000
max      3.000000
dtype: float64

In [20]:
print(df6.nunique()) # 返回不重复值的个数
print(df6.unique()) # 返回不重复值的序列，从小到大排序

3
[ 3.  2.  1. nan]


In [21]:
print(df6.drop_duplicates()) # 去除重复值，但是保留数据原有的属性(Series)，与  unique  不同

0    3.0
1    2.0
2    1.0
6    NaN
dtype: float64


In [22]:
print(df6.keys()) # 通过 key() 方法获取索引
print(df6.index) # 通过 index 属性获取索引
print(df.keys())
print(df.index)

RangeIndex(start=0, stop=8, step=1)
RangeIndex(start=0, stop=8, step=1)
RangeIndex(start=0, stop=6, step=1)
RangeIndex(start=0, stop=6, step=1)


In [23]:
print(df6.isna()) # 通过  isna  函数找出序列中的缺失值

0    False
1    False
2    False
3    False
4    False
5    False
6     True
7     True
dtype: bool


In [24]:
print(df6.sample()) # 通过 sample  函数对序列进行随机抽样

1    2.0
dtype: float64
