# 43.【Python学习分享文章】_PandasLibrary_Pandas库

## 综述

### - 主要作用

1. 数据预处理
2. 数据清洗

### - 相比 nump 优势

1. 可自动对齐显示
2. 灵活处理缺失数据  
a. 填充指定数据  
b. 填充平均值  
3. 像 circle 语句进行连接操作

### - 两个主要数据类型

1. Series。一维数据形式。
2. DataFrame。二维或者多维数据形式。

数据类型还是基础的序列类数据，不过是进行了 class 化，因此具有一些数据类型本身定义的一些便捷操作，不用自己再去造轮子了。

### - 安装 install

同样，使用 pip 进行安装，语句 ```pip install pandas``` 即可。

## ```Series``` 数据类型

Series 的数据是【一维数据】。

### - 建立

如下：

In [1]:
from pandas import Series, DataFrame

In [2]:
object_1 = Series([7, 3, 47, -9])
print(object_1)

0     7
1     3
2    47
3    -9
dtype: int64


【优势】：  
相当于对 numpy 的 array 再一次进行封装，好处是自带索引序号，可以更方便访问数据。

有点像什么呢？就是把 list 数据转化成了 dict 数据。

### - 单独取得索引、数值

如下：

In [3]:
print(object_1.index)
print(object_1.values)

RangeIndex(start=0, stop=4, step=1)
[ 7  3 47 -9]


### - 和 dict 数据区别

Series 数据的索引是可以重复的，而 dict 是不可以。

因为 dict 的数据的 key 是通过哈希运算进行建立的，（什么是哈希运算方式 hash，见最下面的解释），重复的 key 是不被允许的，数据会进行覆盖。

也因此，列表（[]）、集合（就是字典，{}）不能作为 key 关键字。为什么呢？因为这些数据是可以改变的，改变后，hash 运算后 hash 字符就变了，与定义矛盾。错误报错如下：

In [4]:
demoDict = {['a', 'xuyao']:123, 'yuang':25}

TypeError: unhashable type: 'list'

【解释】：  
上面报错的“TypeError”的意思就是，列表 list 类型错误，即：不能作为 hash 的运算数据（unhashable）。

### - 基本操作＆方法

#### -- 手工建立索引的 Series

取代自动生成的索引数字，创建手工索引值。如下：

In [5]:
objectWithHandedIndex = Series([4, 10, 12, -86], index=['death', 'twohand', 'months', 'china'])
print(objectWithHandedIndex)

death       4
twohand    10
months     12
china     -86
dtype: int64


【解释】：  
现在，索引 key 就不是默认的“0，1，2，3”了，而是“death,twohand,months,china”了。

#### -- 调用、引用
那么调用的时候，引用的 key 就要是这些了。如下：

In [6]:
print(objectWithHandedIndex['china'])

-86


#### -- 重新赋值

同样，也是要使用改编后的 key 值。如下：

In [7]:
objectWithHandedIndex['twohand'] = 2
print(objectWithHandedIndex)

death       4
twohand     2
months     12
china     -86
dtype: int64


#### -- 将 Series 当作 dic 来使用

判断是否存在（in）相应的 key 值。如下：

In [8]:
print('year' in objectWithHandedIndex)
print('china' in objectWithHandedIndex)

False
True


### - dict 转化成 Series

#### -- 建立

直接放入即可，如下：

In [9]:
# 先定义一个字典
populationOfArea = {'beijing':11000, 'shanghai':9900, 'guangzhou':9966, 'shenzhen':10999}
# 直接放入 Series 里面即可
objectPopArea = Series(populationOfArea)
print(objectPopArea)

beijing      11000
guangzhou     9966
shanghai      9900
shenzhen     10999
dtype: int64


【解释】：  
dict 的 key 就转化成了 Series 的 索引index 值，dict 的 value 就转化成了 Series 的 value。

#### -- 修改 index（索引）

用到“方法”。如下：

In [10]:
objectPopArea.index = ['BJ', 'GZH', 'SHH', 'SHZH']

print(objectPopArea)

BJ      11000
GZH      9966
SHH      9900
SHZH    10999
dtype: int64


## ```DataFrame``` 数据类型

### - 认识
```DataFrame```是二维＆多维数据，可以想象成是一个电子表格。

### - 建立/生成

**等长的** list 的 dict 或者 NumPy 数组。

#### -- dict 生成の demo

建立一个“不同城市、不同年份的入学儿童人数”的数据，如下：

In [11]:
pop_EnrollChild = {'city':['GZH', 'GZH', 'BJ', 'BJ', 'BJ'],
                  "year":[ 2027, 2028, 2026, 2027, 2028],
                  'population':[ 6.9, 5.1, 7.8, 7.0, 6.2]}
frame_pop_EnrollChild = DataFrame(pop_EnrollChild)

print(frame_pop_EnrollChild)

  city  population  year
0  GZH         6.9  2027
1  GZH         5.1  2028
2   BJ         7.8  2026
3   BJ         7.0  2027
4   BJ         6.2  2028


【解读】：

index 值是自动生成的从 0 开始的数字，为“纵轴”；

dict 的 key 成为了“横轴”。

相当于一个二维的电子表格了。那么，电子表格想要有的处理，基本都有。下面开始介绍。

#### -- NumPy 生成の demo

暂无，略过。

### - 重新排序

按照想要的顺序，排列显示 key，如下：

In [12]:
frameTreated_pop_EnrollChild = DataFrame(pop_EnrollChild, columns=['city', 'year', 'population'])

print(frameTreated_pop_EnrollChild)

  city  year  population
0  GZH  2027         6.9
1  GZH  2028         5.1
2   BJ  2026         7.8
3   BJ  2027         7.0
4   BJ  2028         6.2


【记录】：

行数不会变动，有些讲解错了。因为我故意把靠后的字母的 G 写在前面，但是并没有发生改变。

### - 提取出一维数据

从 DataFrame 数据中提取出两个，变成一个一维数据——一个作为 index，一个作为 value。

两种方法，和 dict 字典的方法类似，分别是“中括号 key 值”和“```.``` 的使用”。（类似？）

#### -- 中括号方法

如下：

In [13]:
print(frameTreated_pop_EnrollChild['population'])

0    6.9
1    5.1
2    7.8
3    7.0
4    6.2
Name: population, dtype: float64


#### -- ```.``` 的方法

如下：

In [14]:
print(frameTreated_pop_EnrollChild.city)

0    GZH
1    GZH
2     BJ
3     BJ
4     BJ
Name: city, dtype: object


### - 增加新列、values

同 dict 方法相同。

#### -- 增加相同 values

如下：

In [15]:
# 增加相同值
frameTreated_pop_EnrollChild['newData'] = 100

print(frameTreated_pop_EnrollChild)

  city  year  population  newData
0  GZH  2027         6.9      100
1  GZH  2028         5.1      100
2   BJ  2026         7.8      100
3   BJ  2027         7.0      100
4   BJ  2028         6.2      100


#### -- 增加不同值

如下：

In [16]:
frameTreated_pop_EnrollChild['newData2'] = [70, 80, 76, 32, 47]

print(frameTreated_pop_EnrollChild)

  city  year  population  newData  newData2
0  GZH  2027         6.9      100        70
1  GZH  2028         5.1      100        80
2   BJ  2026         7.8      100        76
3   BJ  2027         7.0      100        32
4   BJ  2028         6.2      100        47


#### -- 增加条件判断 values

增加“判断是否是北京”的数据显示。如下：

In [17]:
frameTreated_pop_EnrollChild['isCap'] = frameTreated_pop_EnrollChild.city == 'BJ'

print(frameTreated_pop_EnrollChild)

  city  year  population  newData  newData2  isCap
0  GZH  2027         6.9      100        70  False
1  GZH  2028         5.1      100        80  False
2   BJ  2026         7.8      100        76   True
3   BJ  2027         7.0      100        32   True
4   BJ  2028         6.2      100        47   True


### - 建立/生成の方法2

dict in dict 的形式。如下：

In [18]:
pop = {'beijing':{2029:3.6, 2028:3.2, 2031:4.1 ,2030:3.7},
      'guanghzou':{2029:2.7, 2028:2.4, 2030:2.9, 2031:3.5}}
frameDictInDict = DataFrame(pop)

print(frameDictInDict)

      beijing  guanghzou
2028      3.2        2.4
2029      3.6        2.7
2030      3.7        2.9
2031      4.1        3.5


### - 转置

**转置**：“行数据”和“列数据”进行对调。很直接，直接使用数学符号的“T”作为方法，如下：

In [19]:
print(frameDictInDict.T)

           2028  2029  2030  2031
beijing     3.2   3.6   3.7   4.1
guanghzou   2.4   2.7   2.9   3.5


### - reindex 重建索引 index

```reindex``` 是一个方法，我自己认为更贴近的意思应该是“按新索引顺序重新排序”。如下：

- 建立一个混乱排序的 DataFrame。

In [20]:
pop_2 = {'beijing':{'b':3.6, 'a':3.2, 'd':4.1, 'c':3.7},
      'guanghzou':{'b':2.7, 'a':2.4, 'c':2.9, 'd':3.5}}
frameDictInDict_2 = DataFrame(pop_2)


print(frameDictInDict_2)

   beijing  guanghzou
a      3.2        2.4
b      3.6        2.7
c      3.7        2.9
d      4.1        3.5


- 按照新排序的索引进行排序。

In [21]:
print(frameDictInDict_2.reindex(['d', 'c', 'b', 'a']))

   beijing  guanghzou
d      4.1        3.5
c      3.7        2.9
b      3.6        2.7
a      3.2        2.4


### - 产生空值的处理方法

为什么要处理“空值”呢？因为这些数据是无法进行计算的，会对程序的运行产生影响。

就像数学里面，0 是不能作为被除数的道理是一样的。

#### -- 产生空值

In [22]:
frameDictInDict_3 = frameDictInDict_2.reindex(['e', 'd', 'c', 'b', 'a'])

print(frameDictInDict_3)

   beijing  guanghzou
e      NaN        NaN
d      4.1        3.5
c      3.7        2.9
b      3.6        2.7
a      3.2        2.4


【解释】：  
之前的数据是没有“e”这一个 index 标签的，因此，重新排列的 DataFrame 里面是没有数据进行处理的，所以产生了空值。

#### -- 处理方法1：填充数字0

reindex 的参数是：```fill_value```。如下：

In [23]:
frameDictInDict_3 = frameDictInDict_2.reindex(['e', 'd', 'c', 'b', 'a'], fill_value=10086)

print(frameDictInDict_3)

   beijing  guanghzou
e  10086.0    10086.0
d      4.1        3.5
c      3.7        2.9
b      3.6        2.7
a      3.2        2.4


【解释】：  
因为参数 ```fill_value``` 的数值设定成了“10086”，所以对于遇到的空值“NaN”会进行“10086”的赋值操作。

#### -- 处理方法2：填充前面/后面相同的数值

- 产生有空值的数据

同样的，先产生一个带有空值的数据，然后进行处理。如下：

In [28]:
animal = {'pig':{0:'white', 2:'red', 4:'black', 6:'whibla'},
      'cat':{0:'orange', 2:'black', 4:'cowwhite', 6:'yellow'}}
animalDataFrame = DataFrame(animal)

print(animalDataFrame)

        cat     pig
0    orange   white
2     black     red
4  cowwhite   black
6    yellow  whibla


In [33]:
reindex_animalDataFrame = animalDataFrame.reindex(range(8))

print(reindex_animalDataFrame)

        cat     pig
0    orange   white
1       NaN     NaN
2     black     red
3       NaN     NaN
4  cowwhite   black
5       NaN     NaN
6    yellow  whibla
7       NaN     NaN


- 使用前面的数据对空值部分进行填充

```ffill``` 应该就是 front fill 的简化书写。

In [34]:
reindexFfill_animalDataFrame = animalDataFrame.reindex(range(8), method='ffill')

print(reindexFfill_animalDataFrame)

        cat     pig
0    orange   white
1    orange   white
2     black     red
3     black     red
4  cowwhite   black
5  cowwhite   black
6    yellow  whibla
7    yellow  whibla


- 使用后面的数据对空值部分进行填充

```bfill``` 应该就是 back fill 的简化书写。

In [35]:
reindexBfill_animalDataFrame = animalDataFrame.reindex(range(8), method='bfill')

print(reindexBfill_animalDataFrame)

        cat     pig
0    orange   white
1     black     red
2     black     red
3  cowwhite   black
4  cowwhite   black
5    yellow  whibla
6    yellow  whibla
7       NaN     NaN


#### -- 处理方法3：删除

【对于 Series 数据】

方法就是 ```.dropna()```

In [36]:
# 制造一个带有空值的数据
# numpy 里面有下面的方法可以使用
from numpy import nan as NA

dataWithNan = Series([251, NA, 234, 'china'])

print(dataWithNan)

0      251
1      NaN
2      234
3    china
dtype: object


In [37]:
dataWithoutNan = dataWithNan.dropna()

print(dataWithoutNan)

0      251
2      234
3    china
dtype: object


【对于 DataFrame 数据】

相比较于 Series 数据，DataFrame 数据的删除操作就复杂一点。原因如下：

- 是一个多维数据
- 不一定是一行/一列都是空值
- 到底是出现空值就全部删除
- 还是全行/全列都是空值才删除。

如下：

In [51]:
dataWithNan_2 = DataFrame([[3.2, NA, NA, 43], [732, -51, NA, 25], [NA, NA, NA, NA]])
dataWithNan_3 = DataFrame([[3.2, NA, NA, 43], [732, -51, 42, 25], [NA, NA, NA, NA]])
# ATTENTION: 上面是[ ]里面是三个[ ]
print(dataWithNan_2)
print(dataWithNan_3)

       0     1   2     3
0    3.2   NaN NaN  43.0
1  732.0 -51.0 NaN  25.0
2    NaN   NaN NaN   NaN
       0     1     2     3
0    3.2   NaN   NaN  43.0
1  732.0 -51.0  42.0  25.0
2    NaN   NaN   NaN   NaN


##### --- 只要出现就删除行

In [44]:
dataWithoutNan_2 = dataWithNan_2.dropna()
dataWithoutNan_3 = dataWithNan_3.dropna()
print(dataWithoutNan_2)
print(dataWithoutNan_3)

Empty DataFrame
Columns: [0, 1, 2, 3]
Index: []
       0     1     2     3
1  732.0 -51.0  42.0  25.0


【解释】：  
```.dropna()```的方法是“只要有 NaN 数据，那么就删除掉这一行”。

##### --- 全行是 NaN 才删除行


In [45]:
dataWithoutNan_2_all = dataWithNan_2.dropna(how='all')
dataWithoutNan_3_all = dataWithNan_3.dropna(how='all')
print(dataWithoutNan_2_all)
print(dataWithoutNan_3_all)

       0     1   2     3
0    3.2   NaN NaN  43.0
1  732.0 -51.0 NaN  25.0
       0     1     2     3
0    3.2   NaN   NaN  43.0
1  732.0 -51.0  42.0  25.0


【解释】：  
只有 index 是2的一行才全是 NaN，所以只有这一行被删除。

##### --- 增加一列空值

*（这个没有细细弄明白，下面的方法是增加列，那增加行呢？再说吧）*

In [55]:
dataWithNan_3[4] = NA

print(dataWithNan_3)
print(dataWithNan_2)

       0     1     2     3   4
0    3.2   NaN   NaN  43.0 NaN
1  732.0 -51.0  42.0  25.0 NaN
2    NaN   NaN   NaN   NaN NaN
       0     1   2     3
0    3.2   NaN NaN  43.0
1  732.0 -51.0 NaN  25.0
2    NaN   NaN NaN   NaN


##### --- 全列都是 NaN 才删除

增加一个参数 ```axis=1``` 即可。

In [57]:
dataWithoutNan_3_allAxis = dataWithNan_3.dropna(axis=1, how="all")

print(dataWithoutNan_3_allAxis)
print(dataWithNan_2.dropna(axis=1, how='all'))

       0     1     2     3
0    3.2   NaN   NaN  43.0
1  732.0 -51.0  42.0  25.0
2    NaN   NaN   NaN   NaN
       0     1     3
0    3.2   NaN  43.0
1  732.0 -51.0  25.0
2    NaN   NaN   NaN


##### --- 用 0 填充 NaN

方法是 ```fillna(需要填充的内容，可以是公式/函数)```，如下：

In [59]:
# 将上面两个 DataFrame 数据的第一个进行处理
dataNanToZero_3 = dataWithoutNan_3_allAxis.fillna(0)

print(dataNanToZero_3)

       0     1     2     3
0    3.2   0.0   0.0  43.0
1  732.0 -51.0  42.0  25.0
2    0.0   0.0   0.0   0.0


【注意】：  
```fillna()``` 修改是是副本，不是原来的数据，可看下面的输出：

In [60]:
print(dataWithoutNan_3_allAxis)

       0     1     2     3
0    3.2   NaN   NaN  43.0
1  732.0 -51.0  42.0  25.0
2    NaN   NaN   NaN   NaN


如果要修改原来的 DataFrame 里面的数据，要增加一个参数：```inplace=True```，如下：

In [62]:
dataWithoutNan_3_allAxis.fillna(0, inplace=True)

print(dataWithoutNan_3_allAxis)

       0     1     2     3
0    3.2   0.0   0.0  43.0
1  732.0 -51.0  42.0  25.0
2    0.0   0.0   0.0   0.0


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  downcast=downcast, **kwargs)


## 补充

### - 哈希 hash 运算

比如，字母“a”经过 hash 运算（运算的算法都是一样么？不清楚，先不管他了。好像是可以建立不同的算法方式），会变成唯一特定的一串字符，假如就变成了“adad78ad8f7a908df”（瞎编的）。

不同的电脑，只要 hash 算法相同，结果都一样。

所以，dict 数据的 key 因为是 hash 运算、存储在内存里；得到相同的数据，就自然会覆盖原来的数据。

例子：

一个 dict 数据：

```
{'a':1, 'b':22, 'c':333}
```

在电脑里，key 值的“a”、“b”、“c”会被映射成为 hash 字符，假如是下面的映射情况。

```
a  ->  ad8kjqwe
b  ->  aadf8j2d
c  ->  8ahdfqfn
```

（为什么是使用映射的方式进行存储，我想不出来。）

如果加入了其他 key 值，会得到不同的 hash 值，会被增加；而举例，有加入了“c：44444”，那么会映射成“8ahdfqfn”，数据“333”会被覆盖成“4444”

---
注：  
个人微信公众号：codeAndWrite