In [2]:
# Pandas中的Series结构/序列，是Pandas常用的数据结构之一；是一种类似于一维数组的结构，由一组数据值和一组标签组成。（有对应关系）
# 标签不必唯一，但必须是可哈希类型；既支持基于整数的索引，也支持基于标签的索引，并提供了许多方法来执行涉及索引的操作；ndarray的统计方法已被覆盖，以自动排除缺失的数据
# 标签不一定连续，也不一定是整数，可以是字符串、日期等其他类型；Series的索引可以是任意类型的对象，甚至可以是多级索引（MultiIndex）。
# 可以保存任意数据类型（整数、浮点数、字符串、Python对象等），并且可以通过索引进行访问。（索引从0开始）
import pandas as pd
import numpy as np

In [22]:
# 1.pd.Series(data,index,dtype,name,copy)：数据结构Series的创建
# data：输入的数据（整数、浮点数、字符串、ndarray、Python对象等），如果是字典，则保持参数顺序
# index：索引值，必须是可散列的且与输入数据长度相同，默认从0开始；如果未提供则默认为RangeIndex(start=0, stop=n, step=1)
# dtype：输出的数据类型，默认为None，表示自动推断数据类型
# name：Series的名称，默认为None
# copy：如果为True，则强制复制数据，默认为False；仅影响Series和ndarray数组
# (1)列表/数组作为数据源创建Series
ar_list=[3,10,3,4,5]
print(ar_list,type(ar_list))
# 使用列表创建Series
s1=pd.Series(ar_list)
print(s1,type(s1))

# (2)numpy数组作为数据源创建Series
np_rand=np.arange(1,6)  # 生成一个包含1到5的numpy数组
print(np_rand,type(np_rand))
# 使用numpy数组创建Series
s2=pd.Series(np_rand)
print(s2,type(s2))

# (3)通过index和values属性取得对应的标签和值
print(s2.index,type(s2.index))
# 可以强制转化为列表输出
print(list(s2.index),type(list(s2.index)))
print(s2.values,type(s2.values))

# (4)通过标签取得对应的值，或者修改对应的值
print(s2[0],type(s2[0]))  # 通过标签取得对应的值
s2[0]=100  # 修改对应的值
print(s2[0],type(s2[0]))  # 再次通过标签取得对应的值
print(s2)  # 输出修改后的Series
s2[1:3]=[200,300]  # 修改多个值
print(s2)  # 输出修改后的Series

# (5)和列表索引的区别：默认的RangeIndex不能使用负值来表示从后往前找元素；
# 获取不存在的索引值对应数据时会报错，但是可以赋值，相当于新增数据
s2[7] = 400
print(s2)
s2[-1] = 500
print(s2[-1])
print(s2[7])

# (6)字典作为数据源创建Series
dic={'a': 1, 'b': 2, 'c': 3}
print(dic,type(dic))
# 使用字典创建Series
s3=pd.Series(dic)
print(s3,type(s3))
# Series的标签同样对应着Index[0,1,2]；如果标签非数值型，也可用标签的下标取值
print(s3[0],s3['a'])
s3["s"]=50
print(s3,type(s3))
print(s3[-1],type(s3[-1]))
dic1={'a': 1, 0: 2, 'c': 3}
s4=pd.Series(dic1)
print(s4)
print(s4[0])
# 标签中如果存在数值型的数据，就不能使用标签的下标获取值；只会使用的是标签索引
# print(s4[1])    # 报错
# print(s4[-1])     # 报错

[3, 10, 3, 4, 5] <class 'list'>
0     3
1    10
2     3
3     4
4     5
dtype: int64 <class 'pandas.core.series.Series'>
[1 2 3 4 5] <class 'numpy.ndarray'>
0    1
1    2
2    3
3    4
4    5
dtype: int64 <class 'pandas.core.series.Series'>
RangeIndex(start=0, stop=5, step=1) <class 'pandas.core.indexes.range.RangeIndex'>
[0, 1, 2, 3, 4] <class 'list'>
[1 2 3 4 5] <class 'numpy.ndarray'>
1 <class 'numpy.int64'>
100 <class 'numpy.int64'>
0    100
1      2
2      3
3      4
4      5
dtype: int64
0    100
1    200
2    300
3      4
4      5
dtype: int64
0    100
1    200
2    300
3      4
4      5
7    400
dtype: int64
500
400
{'a': 1, 'b': 2, 'c': 3} <class 'dict'>
a    1
b    2
c    3
dtype: int64 <class 'pandas.core.series.Series'>
1 1
a     1
b     2
c     3
s    50
dtype: int64 <class 'pandas.core.series.Series'>
50 <class 'numpy.int64'>
a    1
0    2
c    3
dtype: int64
2


In [23]:
# 2.index参数
# (1)使用显式索引来定义索引标签
data=np.array(['a','b','c','d'])
# 自定义索引标签（显式索引）
s=pd.Series(data,index=[100,101,102,103])
print(s)
print(s[100],type(s[100]))
# (2)从指定索引的字典构造序列
d1={'a':1,'b':2,'c':3}
ser1=pd.Series(d1)
print(ser1)
# (3)当传递的索引值未匹配对应的字典键，使用NaN（非数字）填充
d2={'a':1,'b':2,'c':3}
ser2=pd.Series(data=d2,index=['x','b','c'])
print(ser2)
print(ser2['x'],type(ser2['x']))
# (4)通过匹配的索引值，改变创建Series数据的顺序
d3={'a':1,'b':2,'c':3}
ser3=pd.Series(data=d3,index=['c','b','a'])
print(ser3)

100    a
101    b
102    c
103    d
dtype: object
a <class 'str'>
a    1
b    2
c    3
dtype: int64
x    NaN
b    2.0
c    3.0
dtype: float64
nan <class 'numpy.float64'>
c    3
b    2
a    1
dtype: int64


In [29]:
# 3.name参数
# (1)可以给一个Series对象命名，也可以给一个Series数组中的索引起一个名字，pandas为我们设计好了对象的属性，并在设置了name属性值用来进行名字的设定
dict_data1={
    "Beijing":2200,
    "Shanghai":2500,
    "Shenzhen":1700
}
data1=pd.Series(dict_data1)
data1.name="City_Data"          # 给Series对象命名
data1.index.name="City_Name"    # 给Series对象的索引列命名
print(data1)

# (2)如果用于形成数据帧，序列的名称将成为其索引或列名
df=pd.DataFrame(data1)
print(df,type(df))
print('='*20)
# 输出City_Data列的数据和类型
print(df['City_Data'],type(df['City_Data']))

City_Name
Beijing     2200
Shanghai    2500
Shenzhen    1700
Name: City_Data, dtype: int64
           City_Data
City_Name           
Beijing         2200
Shanghai        2500
Shenzhen        1700 <class 'pandas.core.frame.DataFrame'>
City_Name
Beijing     2200
Shanghai    2500
Shenzhen    1700
Name: City_Data, dtype: int64 <class 'pandas.core.series.Series'>


In [38]:
# 4.copy参数
# 表示对data进行拷贝，默认为False，仅影响Series和ndarray数组
# (1)数组作为数据源
np_rand=np.arange(1,6)
# 使用数组创建Series
ser1=pd.Series(np_rand)
print(ser1)
ser1[1]=50      # 改变Series标签为1的值
print("ser1:",'\n',ser1)
print("np_rand:",np_rand)   # 输出数组对象np_rand，改变ser1的同时也影响了np_rand

# (2)源数据非Series和ndarray类型
my_list=[1,2,3,4,5,6]   # 列表作为数据源
# 使用列表创建Series
ser2=pd.Series(my_list)
print(ser2)
ser2[1]=50
print("ser2:",'\n',ser2)
print("my_list:",my_list)   # 输出数组对象my_list，改变ser2的同时也影响了my_list

0    1
1    2
2    3
3    4
4    5
dtype: int64
ser1: 
 0     1
1    50
2     3
3     4
4     5
dtype: int64
np_rand: [ 1 50  3  4  5]
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
ser2: 
 0     1
1    50
2     3
3     4
4     5
5     6
dtype: int64
my_list: [1, 2, 3, 4, 5, 6]
