# DAY2（系列Series）

## 系列 `pd.Series`

`pd.Series( data, index, dtype, name, copy)`

Series 与 NumPy 数组非常相似（实际上构建在 NumPy 数组对象之上）。
NumPy 数组与 Series 的区别在于，Series 可以具有轴标签，这意味着它可以由标签索引，而不仅仅是数字位置。
它也不需要保存数字数据，它可以保存任意 Python 对象。

系列(Series)是能够保存任何类型的数据(整数，字符串，浮点数，Python对象等)的一维标记数组。轴标签统称为索引。

| 编号 | 参数    | 描述                                                         |
| ---- | ------- | ------------------------------------------------------------ |
| 1    | `data`  | 可用形式，如：`ndarray`，`list`，`constants`         |
| 2    | `index` | 索引值必须是唯一的和离散的，必须与数据的长度相同。 默认`np.arange(n)` |
| 3    | `dtype` | `dtype`用于数据类型。如果没有，将推断数据类型                |
| 4    | `copy`  | 复制数据，默认为`false`。                                    |

In [1]:
import pandas as pd
import numpy as np

## 创建系列

In [2]:

# 将list、numpy array 或 dict 转换为 Series


labels = ['a','b','c']        
my_list = [10,20,30]         # 列表
arr = np.array([10,20,30])   # 数组
d = {'a':10,'b':20,'c':30}   # 字典    Dictionary keys are used to construct index. 
n = 100                      # 常数

In [3]:
pd.Series(data=my_list,index=labels)  

a    10
b    20
c    30
dtype: int64

In [4]:
pd.Series(arr,labels)

a    10
b    20
c    30
dtype: int32

In [5]:
pd.Series([sum,print,len])  # 里面甚至可以用函数

0      <built-in function sum>
1    <built-in function print>
2      <built-in function len>
dtype: object

In [6]:
# 自己试试吧
s = pd.Series([1,2,3],index = ['A','B','C'],name = 'First_Series')
dates = pd.date_range("20220101", periods=6)

In [7]:
s

A    1
B    2
C    3
Name: First_Series, dtype: int64

In [8]:
dates

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06'],
              dtype='datetime64[ns]', freq='D')

In [9]:
pd.Series(d,index = ['d','c','b','a','A'])
# 索引顺序保持一致，缺失的元素用 NaN（非数字）填充。

d     NaN
c    30.0
b    20.0
a    10.0
A     NaN
dtype: float64

In [10]:
pd.Series(n,index = [x for x in range(5)])

0    100
1    100
2    100
3    100
4    100
dtype: int64

## 性质

In [11]:
s = pd.Series([1,2,3],index = ['A','B','C'],name = 'First_Series')

# 如何查看对象的性质呢？

# 1. 查看系列的值
print(s.values)
# array([1, 2, 3], dtype=int64)
# 返回数组

# 2. 查看系列的名称
print(s.name)
# 'First_Series'

# 3. 查看系列的索引
print(s.index)
# Index(['A', 'B', 'C'], dtype='object')

[1 2 3]
First_Series
Index(['A', 'B', 'C'], dtype='object')


## 计算

In [12]:
ser1 = pd.Series([1,2,3,4],index = ['北京', '上海','深圳', '广东'])  
ser2 = pd.Series([1,2,5,4],index = ['北京', '西藏','深圳', '新疆'])  

# 他们加起来会发生什么呢？
ser1 + ser2

上海    NaN
北京    2.0
广东    NaN
新疆    NaN
深圳    8.0
西藏    NaN
dtype: float64

## 索引

In [13]:
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])

In [14]:
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [15]:
s[0]

1

In [16]:
s[1]

2

In [17]:
s[:2]

a    1
b    2
dtype: int64

In [18]:
s[-3:]

c    3
d    4
e    5
dtype: int64

In [19]:
s[::-1]

e    5
d    4
c    3
b    2
a    1
dtype: int64

In [20]:
s['a']

1

In [21]:
s['a':'d']

a    1
b    2
c    3
d    4
dtype: int64

In [22]:
s[['a','c','e']]

a    1
c    3
e    5
dtype: int64

In [23]:
s['f']

KeyError: 'f'

## 习题

1. 从列表、字典、数组创建Series

In [24]:
l = [0, 1, 2, 3, 4]
d = {'a':1,'b':2,'c':3,'d':4,'e':5}
arr = np.array([1,2,3,4,5])

In [25]:
pd.Series(l)

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [26]:
pd.Series(d)

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [27]:
pd.Series(arr)

0    1
1    2
2    3
3    4
4    5
dtype: int32

2. 创建一个series，值为小于100的所有偶数，index是20220101开始的日期，后续为每个月初（如下面结果所示），序列名字设置为whale，数据类型为float64

In [28]:
s = pd.Series(
    data = [x for x in range(100) if x % 2== 0],
    index = pd.date_range(start = '20220101', periods = 50, freq = 'MS'),
    name = 'whale',
    dtype = np.float64
)
s

2022-01-01     0.0
2022-02-01     2.0
2022-03-01     4.0
2022-04-01     6.0
2022-05-01     8.0
2022-06-01    10.0
2022-07-01    12.0
2022-08-01    14.0
2022-09-01    16.0
2022-10-01    18.0
2022-11-01    20.0
2022-12-01    22.0
2023-01-01    24.0
2023-02-01    26.0
2023-03-01    28.0
2023-04-01    30.0
2023-05-01    32.0
2023-06-01    34.0
2023-07-01    36.0
2023-08-01    38.0
2023-09-01    40.0
2023-10-01    42.0
2023-11-01    44.0
2023-12-01    46.0
2024-01-01    48.0
2024-02-01    50.0
2024-03-01    52.0
2024-04-01    54.0
2024-05-01    56.0
2024-06-01    58.0
2024-07-01    60.0
2024-08-01    62.0
2024-09-01    64.0
2024-10-01    66.0
2024-11-01    68.0
2024-12-01    70.0
2025-01-01    72.0
2025-02-01    74.0
2025-03-01    76.0
2025-04-01    78.0
2025-05-01    80.0
2025-06-01    82.0
2025-07-01    84.0
2025-08-01    86.0
2025-09-01    88.0
2025-10-01    90.0
2025-11-01    92.0
2025-12-01    94.0
2026-01-01    96.0
2026-02-01    98.0
Freq: MS, Name: whale, dtype: float64

What is the difference between int, Int16, Int32 and Int64?

- Int16 值类型表示值介于 -32768 到 +32767 之间的有符号整数。
- Int32 值类型表示值介于 -2,147,483,648 到 +2,147,483,647 之间的有符号整数。
- Int64 值类型表示值介于 -9,223,372,036,854,775,808 到 +9,223,372,036,854,775,807 之间的整数。

3. 写出一个函数`series_info`
    - 入参：series
    - 出参：打印系列的名称、长度、数据类型、索引、值

f string

In [29]:
a = 100
b = 1000
print(f'c = {a}+{b}')

c = 100+1000


In [30]:
def series_info(series):
    s = series.copy()
    print(f'系列的名称：{s.name}')
    print(f'系列的长度：{s.size}')
    print(f'系列的数据类型：{s.dtype}')
    print(f'系列的索引：{s.index}')
    print(f'系列的值：{s.values}')
    
    return 

In [31]:
series_info(series = s)

系列的名称：whale
系列的长度：50
系列的数据类型：float64
系列的索引：DatetimeIndex(['2022-01-01', '2022-02-01', '2022-03-01', '2022-04-01',
               '2022-05-01', '2022-06-01', '2022-07-01', '2022-08-01',
               '2022-09-01', '2022-10-01', '2022-11-01', '2022-12-01',
               '2023-01-01', '2023-02-01', '2023-03-01', '2023-04-01',
               '2023-05-01', '2023-06-01', '2023-07-01', '2023-08-01',
               '2023-09-01', '2023-10-01', '2023-11-01', '2023-12-01',
               '2024-01-01', '2024-02-01', '2024-03-01', '2024-04-01',
               '2024-05-01', '2024-06-01', '2024-07-01', '2024-08-01',
               '2024-09-01', '2024-10-01', '2024-11-01', '2024-12-01',
               '2025-01-01', '2025-02-01', '2025-03-01', '2025-04-01',
               '2025-05-01', '2025-06-01', '2025-07-01', '2025-08-01',
               '2025-09-01', '2025-10-01', '2025-11-01', '2025-12-01',
               '2026-01-01', '2026-02-01'],
              dtype='datetime64[ns]', freq='MS')
系列的值：[ 0.  2