In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

### 创建一个dataframe

>通过python的字典来创建

In [2]:
df1 = DataFrame({"城市":["北京","上海","广州"],"人口":[1000,2000,1500]})

In [3]:
df1

Unnamed: 0,人口,城市
0,1000,北京
1,2000,上海
2,1500,广州


为这个dataframe增加一列gdp

对于dataframe来讲，它的一列是一个series。

#### 方式一: 我们创建一个gdp的series，然后添加进去

In [4]:
df1['GDP'] = Series([1000,2000,1500])

In [5]:
df1

Unnamed: 0,人口,城市,GDP
0,1000,北京,1000
1,2000,上海,2000
2,1500,广州,1500


In [6]:
df2 = DataFrame({"城市":["北京","上海","广州"],"人口":[1000,2000,1500]})

In [7]:
gdp_map = {"北京":666, "上海": 888, "广州":999}

#### 通过python的字典去给df2添加一个columns

In [8]:
df2['GDP'] = df2['城市'].map(gdp_map)

In [9]:
df2

Unnamed: 0,人口,城市,GDP
0,1000,北京,666
1,2000,上海,888
2,1500,广州,999


map的方式优点在于我们不需要关心index的位置。

因为它会根据城市名匹配填充值

而如果index的值不是默认的0，1，2而是自定义的index值。那么使用series填充法会错误。

#### 错误回放

In [10]:
df3 = DataFrame({"城市":["北京","上海","广州"],"人口":[1000,2000,1500]},index=['A','B','C'])

In [11]:
df3

Unnamed: 0,人口,城市
A,1000,北京
B,2000,上海
C,1500,广州


In [12]:
df3['GDP'] = Series([1000,2000,1500])

In [13]:
df3

Unnamed: 0,人口,城市,GDP
A,1000,北京,
B,2000,上海,
C,1500,广州,


我们创建的这个series的默认index是0 1 2

>我们要创建一个index与原dataframe一致的series

In [14]:
df3['GDP'] = Series([1000,2000,1500],index=['A','B','C'])

In [15]:
df3

Unnamed: 0,人口,城市,GDP
A,1000,北京,1000
B,2000,上海,2000
C,1500,广州,1500


### Replace in Series

In [16]:
s1  = Series(np.arange(10))

In [17]:
s1

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32

```python
Signature: s1.replace(to_replace=None, value=None, inplace=False, limit=None, regex=False, method='pad', axis=None)
```

- 参数to_replace

>会返回一个新的series，s1不会发生变化

In [18]:
s1.replace(1,np.nan)

0    0.0
1    NaN
2    2.0
3    3.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [19]:
s1.replace({1:np.nan,2:np.nan})

0    0.0
1    NaN
2    NaN
3    3.0
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [20]:
s1.replace([1,2,3],[10,20,30])

0     0
1    10
2    20
3    30
4     4
5     5
6     6
7     7
8     8
9     9
dtype: int64

#### 所以to_replace参数到底是匹配值，还是匹配index来replace呢

>其实很明显是replace值

In [21]:
s2 = Series(np.arange(3), index=['A','B','C'])

In [22]:
s2

A    0
B    1
C    2
dtype: int32

In [23]:
s2.replace([0,1],[4,5])

A    4
B    5
C    2
dtype: int64