# 4. Pandas 对象的创建
<table>
    <tr>
        <td ><center><img src='images\ch04\pandas01.jpg' width=400> 图1  萌萌哒 </center></td>
        <td ><center><img src='images\ch04\pandas02.jpg' width=300> 图2 powerful</center></td>
    </tr>
</table>

- pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。  
- Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的工具。  
- pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

两种pandas的对象：
- Series 序列
- DataFrame 数据帧

pandas 做够胜任的一些事情:  
- 在浮点和非浮点数据中轻松处理`缺失数据`（表示为NaN）。
- 大小可变性：可以从DataFrame和更高维度的对象中`插入和删除`。
- 自动和显式`数据对齐`：对象可以明确地与一组标签对齐，或者用户可以简单地忽略标签，让Series，DataFrame等在计算中自动对齐数据
- 强大，灵活的`组（group by）`功能，可对数据集执行拆分应用组合操作，用于聚合和转换数据。
- `轻松`将其他Python和NumPy数据结构中的不规则，不同索引数据转换为DataFrame对象。
- 基于智能标签的`切片，花式索引`和`子集`大数据集。
- 直观`合并`和`加入`数据集。
- 灵活的`重塑`和数据集的旋转。
- `轴的分层`标记（每个刻度可能有多个标签）。
- 强大的IO工具，用于从`平面文件`（CSV和分隔）、Excel文件、数据库以及能从超快的`HDF5格式`<https://baike.baidu.com/item/HDF/1256312?fr=aladdin>中保存或加载数据。
- 特定`时间序列`功能：日期范围生成和频率转换、移动窗口统计、移动窗口线性回归、日期转换和滞后等。


- 数据结构  

| 维数 |	名称	|描述 |
-|-|-
|1|	Series	|可以看做有标签（默认是整数序列RangeIndex；可以重复）的一维数组（同类型）。<br>是scalars的集合，同时也是DataFrame的元素。|
|2|	DataFrame	|一般是二维标签，尺寸可变的表格结构，具有潜在的异质型列。|

#### 导入基本模块

In [2]:
import pandas as pd
import numpy as np

In [3]:
pd.show_versions()


INSTALLED VERSIONS
------------------
commit           : None
python           : 3.7.4.final.0
python-bits      : 64
OS               : Windows
OS-release       : 10
machine          : AMD64
processor        : Intel64 Family 6 Model 158 Stepping 13, GenuineIntel
byteorder        : little
LC_ALL           : None
LANG             : None
LOCALE           : None.None

pandas           : 0.25.1
numpy            : 1.16.6
pytz             : 2019.3
dateutil         : 2.8.0
pip              : 19.2.3
setuptools       : 41.4.0
Cython           : 0.29.13
pytest           : 5.2.1
hypothesis       : None
sphinx           : 2.2.0
blosc            : None
feather          : None
xlsxwriter       : 1.2.1
lxml.etree       : 4.4.1
html5lib         : 1.0.1
pymysql          : None
psycopg2         : None
jinja2           : 2.10.3
IPython          : 7.8.0
pandas_datareader: None
bs4              : 4.8.0
bottleneck       : 1.2.1
fastparquet      : None
gcsfs            : None
lxml.etree       : 4.4.1
matplot

## 4.1  Series 对象 —— 序列

- 初识 Series 对象 —— 序列
    - pandas 中基本对象
    - 一维数据结构
    - 由相同元素类型构成
    - 有列表、数组和字典的属性
<img src="images\ch04\series.jpg">

### 4.1.1 创建 Series 对象

- 基本语法

```python
>>> s = pd.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
```
    或
```python
>>> s = pd.Series(data)
```

- 参数说明
    - `data` 可为多种类型，如
        - Python 字典
        - ndarray
        - 标量值
        - 空列表
    - `index` 索引列表
        - 缺省时，index 为连续整数索引
    
    
    
- 关键属性
    - 索引 index
    - 名字 name
    - 值 values
    - 类型 dtype

### 例 1 由 Python 列表创建 Series 对象，缺省索引

In [4]:
# 缺省索引 —— 序号
s1 = pd.Series([3.14, 1.3, 5.2, -2.43])
s1

0    3.14
1    1.30
2    5.20
3   -2.43
dtype: float64

In [5]:
s = pd.Series([1, 3, 5, np.nan, 6, 8])  #注意np.nan
s

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

### 例 2 由 Python 列表创建 Series 对象，指定索引 index

In [6]:
# 指定索引
s2 = pd.Series([3.14, 1.3, 5.2, -2.43], index=["第1行", "第2行", "第3行", "第4行"], dtype='float64', name='small series')
s2

第1行    3.14
第2行    1.30
第3行    5.20
第4行   -2.43
Name: small series, dtype: float64

#### 查看关键属性

In [7]:
print('values is:', s2.values)
print(' index is:', s2.index)
print('  name is:', s2.name)
print(' dtype is:', s2.dtype)

values is: [ 3.14  1.3   5.2  -2.43]
 index is: Index(['第1行', '第2行', '第3行', '第4行'], dtype='object')
  name is: small series
 dtype is: float64


In [8]:
dir(s2)

['T',
 '_AXIS_ALIASES',
 '_AXIS_IALIASES',
 '_AXIS_LEN',
 '_AXIS_NAMES',
 '_AXIS_NUMBERS',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__div__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__p

### 例 3 由 numpy 数组创建 Series 对象

In [9]:
s3 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s3

a    1.637779
b    2.047815
c    0.312881
d   -0.605772
e    0.353446
dtype: float64

### 例4 由字典容器创建 Series 对象

- 注：可通过传入 index 方式控制排序

In [10]:
d = {'b' : 1, 'a' : 0, 'c' : 2, 'z' : 8, 'e' : 4}

s4 = pd.Series(d)
s4

b    1
a    0
c    2
z    8
e    4
dtype: int64

In [13]:
idx = list('abcde')
idx

['a', 'b', 'c', 'd', 'e']

In [14]:

d = {'b' : 1, 'a' : 0, 'c' : 2, 'z' : 8, 'e' : 4}

s4 = pd.Series(d, index=idx)
s4

a    0.0
b    1.0
c    2.0
d    NaN
e    4.0
dtype: float64

### 例5 由标量值创建 Series 对象

In [15]:
s5 = pd.Series(5., index=['a', 'b', 'c', 'd', 'e'])
s5

a    5.0
b    5.0
c    5.0
d    5.0
e    5.0
dtype: float64

### 4.1.2  Series 对象与 ndarray 比较

- 共性
    - Series 对象与 ndarray 在操作上非常相似
    - Series 对象可用做绝大多数 numpy 函数的参数
    

- 个性
    - Series 对象自带 index 索引
    - 切片操作既可针对序号数据，也可针对 index 索引

### 例6 Series 对象与 ndarray 的比较

In [26]:
# 创建 Series 序列
s6 = pd.Series(np.random.randn(6),index=list('abcdef'))
s6


a   -0.317289
b    0.229382
c    0.321773
d   -0.053413
e   -0.934783
f    1.636110
dtype: float64

In [27]:
# 访问 元素 —— 数组方式
s6[0]

-0.3172894054680122

In [28]:
# 统计运算
print("Mean:              ", s6.mean())
print("median:            ", s6.median())
print("Standard deviation:", s6.std())
print("Minimum:           ", s6.min())
print("Maximum:           ", s6.max())

Mean:               0.14696318386226706
median:             0.08798416783842586
Standard deviation: 0.8579937304692518
Minimum:            -0.9347829483106087
Maximum:            1.6361103066994953


In [29]:
# 布尔操作
s6[s6 > s6.median()]

b    0.229382
c    0.321773
f    1.636110
dtype: float64

In [30]:
# 向量化操作之 —— 通用函数 exp
np.exp(s6)

a    0.728120
b    1.257822
c    1.379571
d    0.947988
e    0.392671
f    5.135156
dtype: float64

In [31]:
# 运算符 * 绑定的通用函数
print(s6)
print('\n')
print(s6*2)

a   -0.317289
b    0.229382
c    0.321773
d   -0.053413
e   -0.934783
f    1.636110
dtype: float64


a   -0.634579
b    0.458763
c    0.643546
d   -0.106826
e   -1.869566
f    3.272221
dtype: float64


In [32]:
# 花式索引 —— 对数据和索引同时起作用
s6[[4, 3, 1]]

e   -0.934783
d   -0.053413
b    0.229382
dtype: float64

In [33]:
# 切片 —— 对数据和索引同时起作用
s6[1:4]

b    0.229382
c    0.321773
d   -0.053413
dtype: float64

In [34]:
s6['a':'c']

a   -0.317289
b    0.229382
c    0.321773
dtype: float64

In [35]:
# 查看数据
# 注意： s.data 已弃用
s6.values

array([-0.31728941,  0.22938155,  0.32177281, -0.05341321, -0.93478295,
        1.63611031])

In [36]:
# 查看索引
s6.index

Index(['a', 'b', 'c', 'd', 'e', 'f'], dtype='object')

### 4.1.3  Series 对象与 python 字典比较

- Series 对象不是字典
- Series 对象可采用字典方式访问元素

### 例7 访问 Series 对象 s6 的元素

In [None]:
# 看看 s6 长什么样？
s6

In [37]:
# 字典方式操作：通过索引访问元素
s6['b'], s6['d'], s6['c']

(0.22938154642969477, -0.05341321075284306, 0.32177281457587636)

In [38]:
# 数组方式操作：通过下标访问元素
s6[1], s6[3], s6[2]

(0.22938154642969477, -0.05341321075284306, 0.32177281457587636)

### 例8 字典方式验证 s6 的 index 是否包含特定值

In [39]:
'e' in s6

True

In [40]:
'g' in s6

False

## 4.2  DataFrame 对象 —— 数据帧


In [41]:
pd.DataFrame?

### 4.2.1 初识 DataFrame 对象


- 基本说明

    - DataFrame 是二维带标记数据结构
    - 有行和列标记，分别是 index 和 columns
    - 各列可以是不同类型的数据
<img src="images\ch04\dataframe.jpg" width=400>

- 相似东东

    - Excel 表格
    - SQL 表
    - 由列标记指向 Series 对象的字典


- 基本语法

```python
>>> df = pd.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
```


- 参数说明

    - `data` 可为多种类型 —— numpy 数组(良好结构且同质)、Python 字典、DataFrame 字典、python 列表、标量值
    - `index` 索引列表
        - 缺省时，index 为连续整数索引
    - `columns` 类似于索引的列标记
        - 缺省时，columns 为连续整数索引
        
        
- 关键属性
    - 索引 index
    - 列  columns
    - 值  values
    - 类型 dtypes

### 4.2.2 创建数据帧

### 例9 创建 无索引 无列标签 数据帧 DataFrame 对象

In [15]:
# 缺省索引标签和列标签时
df9 = pd.DataFrame(np.random.randn(8, 4))
df9

Unnamed: 0,0,1,2,3
0,-0.550882,0.404062,-0.258055,0.19207
1,0.703674,-0.02521,1.147824,0.047801
2,0.258339,-0.159295,0.467057,-0.101437
3,0.280169,-0.852809,-0.327196,1.418409
4,-0.925438,-0.150353,-0.640401,-1.097295
5,2.413792,-0.586046,1.511327,-0.91097
6,-1.386942,-0.004341,-1.344447,0.763583
7,-1.771464,-0.987391,-0.132676,0.35608


### 例10 创建 美国总统学习 成绩表 DataFrame 对象（虚构数据）

In [9]:
names = ['Carter', 'Reagan', 'Clinton', 'Bush', 'Obama', 'Trump']
math_scores      = [99, 87, 66, 43, 80, 94]
language_scores  = [85, 91, 75, 90, 63, 95]
economics_scores = [91, 88, 76, 30, 92, 79]
df10 = pd.DataFrame({"数学":math_scores, "语言":language_scores, "经济": economics_scores}, index = names)
df10

Unnamed: 0,数学,语言,经济
Carter,99,85,91
Reagan,87,91,88
Clinton,66,75,76
Bush,43,90,30
Obama,80,63,92
Trump,94,95,79


#### 查看关键属性

In [10]:
print('values is:\n',    df10.values)
print('\nindex is:\n',   df10.index)
print('\ncolumns is:\n', df10.columns)
print('\ndtypes is:\n',  df10.dtypes)

values is:
 [[99 85 91]
 [87 91 88]
 [66 75 76]
 [43 90 30]
 [80 63 92]
 [94 95 79]]

index is:
 Index(['Carter', 'Reagan', 'Clinton', 'Bush', 'Obama', 'Trump'], dtype='object')

columns is:
 Index(['数学', '语言', '经济'], dtype='object')

dtypes is:
 数学    int64
语言    int64
经济    int64
dtype: object


In [18]:
data=df10.values
df11 = pd.DataFrame(data,index=names)
df11

Unnamed: 0,0,1,2
Carter,99,85,91
Reagan,87,91,88
Clinton,66,75,76
Bush,43,90,30
Obama,80,63,92
Trump,94,95,79


### 例11 创建五省市近三年 GDP 数据帧对象（取自统计数据公开）

In [42]:
# 单位：亿元人民币
provinces = ["广东",    "江苏",    "山东",    "浙江",    "上海"]

gdp2018   = [ 97277.77,  92595.4,   76469.7,   56197,     32679.87]
gdp2017   = [ 89879.23,  85900.94,  72678.18,  51768.26,  30133.86]
gdp2016   = [ 79512.05,  76086.2,   67008.2,   46485,     27466.15]

df11 = pd.DataFrame({"2018":gdp2018, "2017":gdp2017, "2016":gdp2016}, index=provinces)
df11

Unnamed: 0,2018,2017,2016
广东,97277.77,89879.23,79512.05
江苏,92595.4,85900.94,76086.2
山东,76469.7,72678.18,67008.2
浙江,56197.0,51768.26,46485.0
上海,32679.87,30133.86,27466.15


### 例12 创建高校排名榜分数数据帧对象（数据取自网络）

In [43]:
unversities = ["清华大学", "北京大学", "浙江大学", "上海交大", "同济大学"]

student_qualification = [94,    81.2,   77.8,   77.5,   60.8]
culture_results       = [100,   96.1,   87.2,   89.4,   86.2]
research_scale        = [97.7,  97.61,  97.91,  98.62,  97.55]

university_df12 = pd.DataFrame({"生源质量": student_qualification, "培养效果": culture_results, "研究规模": research_scale}, index=unversities)
university_df12

Unnamed: 0,生源质量,培养效果,研究规模
清华大学,94.0,100.0,97.7
北京大学,81.2,96.1,97.61
浙江大学,77.8,87.2,97.91
上海交大,77.5,89.4,98.62
同济大学,60.8,86.2,97.55


### 例13 由 Series 序列字典 创建 数据帧 DataFrame 对象

#### 简单创建

In [44]:
d13 = {'one' : pd.Series([1., 2., 3.],     index=['a', 'b', 'c']),
       'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

df13 = pd.DataFrame(d13)
df13

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


#### 通过参数 传入 index 和 columns

In [46]:
d13 = {'one' : pd.Series([1., 2., 3.],     index=['a', 'b', 'c']),
       'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

index   = list('abdf')
columns = ['one', 'three', 'two']

df13 = pd.DataFrame(d13, index=index, columns=columns)
df13

Unnamed: 0,one,three,two
a,1.0,,1.0
b,2.0,,2.0
d,,,4.0
f,,,


In [47]:
df13.index 

Index(['a', 'b', 'd', 'f'], dtype='object')

In [48]:
df13.columns

Index(['one', 'three', 'two'], dtype='object')

### 例14 由 numpy 数组或 python 列表的 字典 创建 数据帧 DataFrame 对象

In [49]:
# 不传入 index

d = {'one' : [1., 2., 3., 4.],
     'two' : [4., 3., 2., 1.]}

df14=pd.DataFrame(d)
df14

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [53]:
# 传入指定的 index
df15 = pd.DataFrame(d, index=['a', 'b', 'c','e'])  # 假若传入的index不够长，或者超长
df15

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
e,4.0,1.0


### 例15 通过结构化数组创建

In [56]:
# 类型说明
data = np.zeros((2,), dtype=[('A', 'i4'),('B', 'f4'),('C', 'a10')])
data

array([(0, 0., b''), (0, 0., b'')],
      dtype=[('A', '<i4'), ('B', '<f4'), ('C', 'S10')])

In [57]:
# 结构化数组
data[:] = [(1,2.,'Hello'), (2,3.,"World")]

In [55]:
# 缺省索引
df16 = pd.DataFrame(data)
df16

Unnamed: 0,A,B,C
0,1,2.0,b'Hello'
1,2,3.0,b'World'


In [58]:
df16.dtypes

A      int32
B    float32
C     object
dtype: object

In [59]:
# 传入指定索引
df17 = pd.DataFrame(data, index=['first', 'second'])
df17

Unnamed: 0,A,B,C
first,1,2.0,b'Hello'
second,2,3.0,b'World'


In [60]:
# 传入 index 和 columns
df18 = pd.DataFrame(data, index=['first', 'second'], columns=['C', 'A', 'B'])
df18

Unnamed: 0,C,A,B
first,b'Hello',1,2.0
second,b'World',2,3.0


### 例16 水浒游戏人物创建

In [61]:
names = ["宋江","卢俊义","吴用","公孙胜","关胜","林冲","秦明","呼延灼"]
names

['宋江', '卢俊义', '吴用', '公孙胜', '关胜', '林冲', '秦明', '呼延灼']

In [62]:
features = ["勇敢","智慧","法术","忠诚","生命"]
features

['勇敢', '智慧', '法术', '忠诚', '生命']

In [63]:
heroes = pd.DataFrame(np.random.randint(60,100,(8,5)), index=names, columns=features)
heroes

Unnamed: 0,勇敢,智慧,法术,忠诚,生命
宋江,60,76,94,73,81
卢俊义,75,75,80,71,74
吴用,91,89,79,95,76
公孙胜,63,90,68,94,73
关胜,87,66,89,72,87
林冲,65,82,95,66,81
秦明,88,88,92,74,75
呼延灼,78,79,71,73,76


### 例17 其它创建方法

- 通过字典列表
- 通过元组字典
- 通过序列对象
- 通过文件创建 —— 后面专题介绍

In [64]:
pd.DataFrame.from_dict(dict([('A', [1, 2, 3]), ('B', [4, 5, 6])]))

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


In [65]:
pd.DataFrame.from_dict(dict([('A', [1, 2, 3]), ('B', [4, 5, 6])]), orient='index', columns=['one', 'two', 'three'])

Unnamed: 0,one,two,three
A,1,2,3
B,4,5,6


## 结束

In [79]:
# 同学们试着将自己的课程表用DataFrame建立一下：

## 字典

In [72]:
stu_info = {
    'username':'baibai',
    'password':'123456',
    'money':20,
    'addr':'北京'
}
stu_info 

{'username': 'baibai', 'password': '123456', 'money': 20, 'addr': '北京'}

In [87]:
#定义字典
d1 = {} #创建空字典
d2 = dict() #创建空字典

#增加元素
d1['name'] = '胖妞'
d1['age'] = 18
d1.setdefault('class','双子座')
print('之前的',d1)


之前的 {'name': '胖妞', 'age': 18, 'class': '双子座'}


In [76]:
d1.setdefault('age','38')
#如果使用setdefault，key已经存在了，就不会修改原来key的值
d1

{'name': '胖妞', 'age': 18, 'class': '双子座'}

In [77]:
#修改
d1['name'] = '胖妞2'
print('之后的',d1)

之后的 {'name': '胖妞2', 'age': 18, 'class': '双子座'}


In [78]:
#取值
print(d1['name'])
print(d1.get('name'))

胖妞2
胖妞2


In [80]:
print(d1['y'])#取一个不存在的key，报错keyError
print(d1.get('y'))#取一个不存在的key，返回none

KeyError: 'y'

In [81]:
print(d1.get('kk',0))#不存在的值 返回0，默认返回none

print(d1.keys()) #取到字典里面所有的key
print(d1.values()) #取到字典里面所有的value

0
dict_keys(['name', 'age', 'class'])
dict_values(['胖妞2', 18, '双子座'])


In [86]:
d1.pop('name')
print(d1)

{'age': 18, 'class': '双子座'}


In [88]:
del d1['name']
print(d1)

{'age': 18, 'class': '双子座'}


In [89]:
d1.clear()#清空
print(d1)

{}


In [90]:
d2 = {'abc':1234}
d1.update(d2) #把字典2加到字典1里边
print(d1)

{'abc': 1234}


## 字典循环

In [91]:
stus =[
    {'name':'bai','age':'17','addr':'北京'},
    {'name':'yaya','age':'23','addr':'上海'},
    {'name':'hu','age':'25','addr':'北京'},
    {'name':'wawa','age':'26','addr':'北京'},
       ]

for stu in stus:
    stu['phone']='110'
print(stus)

[{'name': 'bai', 'age': '17', 'addr': '北京', 'phone': '110'}, {'name': 'yaya', 'age': '23', 'addr': '上海', 'phone': '110'}, {'name': 'hu', 'age': '25', 'addr': '北京', 'phone': '110'}, {'name': 'wawa', 'age': '26', 'addr': '北京', 'phone': '110'}]


In [92]:
stus = {
    "白":
        {
            "house":['三环','四环','五环'],
            "car":{
                "日本":["雷克萨斯","英菲尼迪"],
                "中国":["五菱宏光","红旗","比亚迪","宝骏"],
                "美国":["福特","凯迪拉克"]
            },
            "化妆品":{
                "SK-2":1000,
                "YSL":2000
            }
        }
}
stus

{'白': {'house': ['三环', '四环', '五环'],
  'car': {'日本': ['雷克萨斯', '英菲尼迪'],
   '中国': ['五菱宏光', '红旗', '比亚迪', '宝骏'],
   '美国': ['福特', '凯迪拉克']},
  '化妆品': {'SK-2': 1000, 'YSL': 2000}}}

In [93]:
stus['白']

{'house': ['三环', '四环', '五环'],
 'car': {'日本': ['雷克萨斯', '英菲尼迪'],
  '中国': ['五菱宏光', '红旗', '比亚迪', '宝骏'],
  '美国': ['福特', '凯迪拉克']},
 '化妆品': {'SK-2': 1000, 'YSL': 2000}}

In [94]:
car = stus["白"]['car']

count_car = 0
for c in car.values():
    count_car = len(c)+ count_car
print(count_car)

8
