In [8]:
import pandas as pd
import numpy as np

NumPy 中，可以通过 np.array()函数，将 Python 列表转化为 NumPy 数组；
同样，Pandas 中，可以通过 pd.Series()函数，将 Python 字典转化为 Series 对象

In [4]:
 # 创建字典
dict_v = {'a': 0, 'b': 0.25, 'c': 0.5, 'd': 0.75, 'e': 1}
print(dict_v)
# 用字典创建对象
sr = pd.Series(dict_v)
sr

{'a': 0, 'b': 0.25, 'c': 0.5, 'd': 0.75, 'e': 1}


a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

最直接的创建方法即直接给 pd.Series()函数参数，其需要两个参数。第一个
参数是值 values（列表、数组、张量均可） ，第二个参数是键 index（索引）

In [7]:
# 先定义键与值
v = [0, 0.25, 0.5, 0.75, 1]
k = ['a', 'b', 'c', 'd', 'e']

# 用列表创建对象 其中，参数 index 可以省略，省略后索引即从 0 开始的顺序数字
sr = pd.Series(v, k)
sr

a    0.00
b    0.25
c    0.50
d    0.75
e    1.00
dtype: float64

In [9]:
# 用数组创建 sr
v = np.array([53, 64, 72, 82])
k = ['1 号'
    , '2 号'
    , '3 号'
    , '4 号']
sr = pd.Series(v, index=k)
sr

1 号    53
2 号    64
3 号    72
4 号    82
dtype: int64

In [11]:
# 查看 values 属性
print(sr.values)

# 查看 index 属性
sr.index

[53 64 72 82]


Index(['1 号', '2 号', '3 号', '4 号'], dtype='object')

In [12]:
import torch

事实上，无论是用列表、数组还是张量来创建对象，最终 values 均为数组

In [13]:
# 用张量创建 sr
v = torch.tensor([53, 64, 72, 82])
k = ['1 号'
    , '2 号'
    , '3 号'
    , '4 号']
sr = pd.Series(v, index=k)
sr

1 号    53
2 号    64
3 号    72
4 号    82
dtype: int64

In [14]:
# 查看 values 的属性
sr.values

array([53, 64, 72, 82])

In [15]:
# 创建 sr1：各个病人的年龄
v1 = [53, 64, 72, 82]
i = ['1 号'
    , '2 号'
    , '3 号'
    , '4 号']
sr1 = pd.Series(v1, index=i)
sr1

1 号    53
2 号    64
3 号    72
4 号    82
dtype: int64

用字典法创建二维对象时，必须基于多个 Series 对象，每一个 Series 就是一
列数据，相当于对一列一列的数据作拼接。
⚫ 创建 Series 对象时，字典的键是 index，其延展方向是竖直方向；
⚫ 创建 DataFrame 对象时，字典的键是 columns，其延展方向是水平方向

In [17]:
# 创建 sr2：各个病人的性别
# 创建 sr2：各个病人的性别
v2 = ['女'
    ,
      '男'
    ,
      '男'
    ,
      '女']
i = ['1 号'
    , '2 号'
    , '3 号'
    , '4 号']
sr2 = pd.Series(v2, index=i)
sr2

1 号    女
2 号    男
3 号    男
4 号    女
dtype: object

In [18]:
# 创建 df 对象
df = pd.DataFrame({'年龄': sr1, '性别': sr2})
df

Unnamed: 0,年龄,性别
1 号,53,女
2 号,64,男
3 号,72,男
4 号,82,女


最直接的创建方法即直接给 pd.DataFrame 函数参数，其需要三个参数。第
一个参数是值 values（数组），第二个参数是行标签 index，第三个参数是列标签
columns。 其中， index 和 columns 参数可以省略，省略后即从 0 开始的顺序数字

In [19]:
# 设定键值
v = np.array([[53,
               '女'], [64,
                       '男'], [72,
                               '男'], [82,
                                       '女']])
i = ['1 号'
    , '2 号'
    , '3 号'
    , '4 号']
c = ['年龄'
    ,
     '性别']
# 数组创建法
df = pd.DataFrame(v, index=i, columns=c)
df

Unnamed: 0,年龄,性别
1 号,53,女
2 号,64,男
3 号,72,男
4 号,82,女


In [22]:
# 查看 values 属性
df.values

array([['53', '女'],
       ['64', '男'],
       ['72', '男'],
       ['82', '女']], dtype=object)

In [23]:
# 查看 index 属性
df.index

Index(['1 号', '2 号', '3 号', '4 号'], dtype='object')

In [24]:
# 查看 columns 属性
df.columns

Index(['年龄', '性别'], dtype='object')

当想要 Pandas 退化为 NumPy 时，查看其 values 属性即可

In [34]:
# 提取完整的数组
arr = df.values
print(arr, arr.shape)

[['53' '女']
 ['64' '男']
 ['72' '男']
 ['82' '女']] (4, 2)


In [35]:
# 提取第[0]列，并转化为一个整数型数组
arr = arr[:, 0].astype(int)
print(arr, arr.shape)

[53 64 72 82] (4,)
