# numpy
![](./picture/4-1.png)
以“1990年到2015年多个国家的年龄抚养比率”数据为课程实验数据。为了满足你们的好奇心，先跟大家科普一下何为年龄抚养比率？  
年龄抚养比是非劳动年龄人口（18岁以下至65岁及以上）与劳动年龄人口（18至64岁之间）的“比率”（百分比）。  
## 删除数据
数据的路径为./data/rate.xls，现在我们读取文件，了解一下数据的基本情况，运行下方代码查看结果：  

In [23]:
import pandas as pd

df = pd.read_excel('./data/rate.xls')
print(df.shape)
# print(df.head())
df.head()

(219, 16)


Unnamed: 0,CountryName,Country Code,1990,2000,2007,2008,2009,2010,2011,2012,2013,2014,2015,Change 1990-2015,Change 2007-2015,Unnamed: 15
0,Afghanistan,AFG,101.095,103.254,100.0,100.216,100.06,99.4598,97.6679,95.3127,92.6028,89.7738,86.9545,-14.1405,-13.0459,
1,Albania,ALB,61.8083,59.5859,50.863,49.6638,48.6371,,46.7203,45.8357,45.2475,44.9122,44.807,-17.0013,-6.05601,
2,Algeria,DZA,87.6757,62.8862,49.4879,48.91,48.645,48.6819,49.2336,49.8477,50.6007,51.5366,52.6176,-35.0581,3.12971,
3,American Samoa,ASM,,,,,,,,,,,,,,
4,Andorra,ADO,,,,,,,,,,,,,,


![](./picture/4-2.png)
在结果中我们发现有多个NaN，那NaN表示的是什么数据呢？  
如果文件的单元格中没有值时，在使用pandas读取后就会用NaN表示，也就是我们常说的空值。  
在NumPy模块中提供了nan的值，如果你想要创建一个空值，可以使用下方代码：  
代码片段
```
from numpy import nan as NaN
```
而且需要注意的是，NaN比较特殊点就是其本身是一种float类型数据。
代码片段
```
print(type(NaN))
```
但是，当NaN可以参与到数据计算中，最终的结果却永远都是NaN。
代码片段
```
print(NaN+1)
```
所以，当我们不知道的情况下会影响我们的计算结果。

In [4]:
from numpy import nan as NaN
print(type(NaN))
print(NaN+1)

<class 'float'>
nan


In [6]:
from numpy import nan as NaN
import pandas as pd

se=pd.Series([4,NaN,8,NaN,5])
# print(se.notnull())
print(se[se.notnull()])
# 在DataFrame类型数据中，一般我们会将存在NaN的数据使用dropna()方法全部删掉：
# dropna()是删除空值数据的方法，默认将只要含有NaN的整行数据删掉，如果想要删除整行都是空值的数据需要添加how='all'参数。
se.dropna(how="all")
print(se)

0    4.0
2    8.0
4    5.0
dtype: float64
0    4.0
1    NaN
2    8.0
3    NaN
4    5.0
dtype: float64


对于大批量的Series数据，使用肉眼很难判断空值的存在，这时我们可以先对空值进行过滤。  
请运行下方代码，查看过滤的方法：  

In [8]:
from numpy import nan as NaN
import pandas as pd
se=pd.Series([4,NaN,8,NaN,5])
print(se.notnull())
print(se[se.notnull()])

0     True
1    False
2     True
3    False
4     True
dtype: bool
0    4.0
2    8.0
4    5.0
dtype: float64


通过结果我们发现，结果中依然存在空值，并没有过滤掉空值。  
所以在DataFrame类型数据中，一般我们会将存在NaN的数据使用dropna()方法全部删掉：  
代码片段
```
df1 = df.dropna()
```
dropna()是删除空值数据的方法，默认将只要含有NaN的整行数据删掉，如果想要删除整行都是空值的数据需要添加how='all'参数。   
如果想要对列做删除操作，需要添加axis参数，axis=1表示列，axis=0表示行。   
我们也可以使用thresh参数筛选想要删除的数据，thresh=n保留至少有n个非NaN数据的行。  
接下来抄写代码到下面的代码框运行，测试两个参数。  

In [12]:
from numpy import nan as NaN
import pandas as pd

se=pd.Series([4,NaN,8,NaN,5])
# print(se.notnull())
# print(se[se.notnull()])
# 在DataFrame类型数据中，一般我们会将存在NaN的数据使用dropna()方法全部删掉：
# dropna()是删除空值数据的方法，默认将只要含有NaN的整行数据删掉，如果想要删除整行都是空值的数据需要添加how='all'参数。
se.dropna(how="all")
print(se)

0    4.0
1    NaN
2    8.0
3    NaN
4    5.0
dtype: float64


到这里有同学会问，如果我只是单纯的想删除两行数据该怎么做呢？  
如果只是单纯的想删除数据，我们可以使用df.drop()方法，一起来了解一下该函数。  
代码片段  
```
DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)
```
代码解释   
labels ：就是要删除的行列的名字，用列表给定。  
index： 直接指定要删除的行。  
columns： 直接指定要删除的列。  
inplace=False：默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe。  
inplace=True：则会直接在原数据上进行删除操作，删除后无法返回。  
所以，根据参数我们可以总结出，删除行列有两种方式：  
1.labels=None,axis=0 的组合  
2.index或columns直接指定要删除的行或列  
请在下面代码框中，尝试删除一行数据和一列数据：  

In [15]:
import pandas as pd
df = pd.read_excel('./data/rate.xls')
# 删除第0行和第1行
# df.drop(labels=[0,1],axis=0)

# 删除列名为1990的列
df.drop(axis=1,columns=1990)

Unnamed: 0,CountryName,Country Code,2000,2007,2008,2009,2010,2011,2012,2013,2014,2015,Change 1990-2015,Change 2007-2015,Unnamed: 15
0,Afghanistan,AFG,103.254,100,100.216,100.06,99.4598,97.6679,95.3127,92.6028,89.7738,86.9545,-14.1405,-13.0459,
1,Albania,ALB,59.5859,50.863,49.6638,48.6371,,46.7203,45.8357,45.2475,44.9122,44.807,-17.0013,-6.05601,
2,Algeria,DZA,62.8862,49.4879,48.91,48.645,48.6819,49.2336,49.8477,50.6007,51.5366,52.6176,-35.0581,3.12971,
3,American Samoa,ASM,,,,,,,,,,,,,
4,Andorra,ADO,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
214,Virgin Islands (U.S.),VIR,52.6472,49.9128,50.4594,51.2573,52.3825,53.9535,55.6877,57.5372,59.3992,61.1997,7.65275,11.2869,
215,West Bank and Gaza,WBG,100.41,88.3671,86.2049,84.1737,82.3338,80.8517,79.4268,78.1184,76.9755,76.0019,-26.7873,-12.3652,
216,Yemen,Rep.,118.78,105.736,88.4384,85.8996,83.5945,81.6139,80.1939,78.9026,77.7344,76.6443,75.5951,-43.1846,-12.843203
217,Zambia,ZMB,97.1248,98.2231,98.2773,98.2608,98.1483,97.8542,97.3858,96.7913,96.1222,95.4023,-5.08294,-2.82073,


## 空值的处理
对于空值我们可以将整条数据删除，也可以使用fillna()方法对空值进行填充  
```
df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)
```
注意：method参数不能与value参数同时出现。   

In [18]:
import pandas as pd
df = pd.read_excel('./data/rate.xls')
# 用常数填充fillna
# print(df.fillna(0))

# 用一列的平均值填充
# print(df.fillna(df.mean()))

# 用前面的值来填充ffill   
print(df.fillna(method='ffill',axis=0))
df.head()

               CountryName  Country Code     1990     2000     2007     2008  \
0              Afghanistan           AFG  101.095  103.254      100  100.216   
1                  Albania           ALB  61.8083  59.5859   50.863  49.6638   
2                  Algeria           DZA  87.6757  62.8862  49.4879    48.91   
3           American Samoa           ASM                                       
4                  Andorra           ADO                                       
..                     ...           ...      ...      ...      ...      ...   
214  Virgin Islands (U.S.)           VIR  53.5469  52.6472  49.9128  50.4594   
215     West Bank and Gaza           WBG  102.789   100.41  88.3671  86.2049   
216                  Yemen          Rep.      YEM   118.78  105.736  88.4384   
217                 Zambia           ZMB  100.485  97.1248  98.2231  98.2773   
218               Zimbabwe           ZWE  96.3652  84.8775  81.2722   81.024   

        2009     2010     2011     2012

Unnamed: 0,CountryName,Country Code,1990,2000,2007,2008,2009,2010,2011,2012,2013,2014,2015,Change 1990-2015,Change 2007-2015,Unnamed: 15
0,Afghanistan,AFG,101.095,103.254,100.0,100.216,100.06,99.4598,97.6679,95.3127,92.6028,89.7738,86.9545,-14.1405,-13.0459,
1,Albania,ALB,61.8083,59.5859,50.863,49.6638,48.6371,,46.7203,45.8357,45.2475,44.9122,44.807,-17.0013,-6.05601,
2,Algeria,DZA,87.6757,62.8862,49.4879,48.91,48.645,48.6819,49.2336,49.8477,50.6007,51.5366,52.6176,-35.0581,3.12971,
3,American Samoa,ASM,,,,,,,,,,,,,,
4,Andorra,ADO,,,,,,,,,,,,,,


## 重复数据的处理
重复数据的存在有时不仅会降低分析的准确度，也会降低分析的效率。所以我们在整理数据的时候应该将重复的数据删除掉。    
利用duplicated()函数可以返回每一行判断是否重复的结果（重复则为True)。    

In [20]:
import pandas as pd
df = pd.read_excel('./data/rate.xls')
# 返回重复的结果
print(df.duplicated())

0      False
1      False
2      False
3      False
4      False
       ...  
214    False
215    False
216    False
217    False
218    False
Length: 219, dtype: bool


通过结果我们发现，返回的是一个值为Bool类型的Series，如果当前行所有列的数据与前面的数据是重复的就返回True；反之，则返回False。    
可以使用drop_duplicates()将重复的数据行进行删除。 
```
df.drop_duplicates()
```
我们也可以只可以通过判断某一列的重复数据，然后进行删除。  
```
df.drop_duplicates(['CountryName'],inplace=False)    
```
其中['CountryName']表示对比CountryName例数据是否有重复，inplace用来控制是否直接对原始数据进行修改。    

In [22]:
import pandas as pd
df = pd.read_excel('./data/rate.xls')
# 返回重复的结果
df.drop_duplicates(['CountryName'],inplace=False)
# print(df)
df.head()

               CountryName  Country Code     1990     2000     2007     2008  \
0              Afghanistan           AFG  101.095  103.254      100  100.216   
1                  Albania           ALB  61.8083  59.5859   50.863  49.6638   
2                  Algeria           DZA  87.6757  62.8862  49.4879    48.91   
3           American Samoa           ASM                                       
4                  Andorra           ADO                                       
..                     ...           ...      ...      ...      ...      ...   
214  Virgin Islands (U.S.)           VIR  53.5469  52.6472  49.9128  50.4594   
215     West Bank and Gaza           WBG  102.789   100.41  88.3671  86.2049   
216                  Yemen          Rep.      YEM   118.78  105.736  88.4384   
217                 Zambia           ZMB  100.485  97.1248  98.2231  98.2773   
218               Zimbabwe           ZWE  96.3652  84.8775  81.2722   81.024   

        2009     2010     2011     2012

Unnamed: 0,CountryName,Country Code,1990,2000,2007,2008,2009,2010,2011,2012,2013,2014,2015,Change 1990-2015,Change 2007-2015,Unnamed: 15
0,Afghanistan,AFG,101.095,103.254,100.0,100.216,100.06,99.4598,97.6679,95.3127,92.6028,89.7738,86.9545,-14.1405,-13.0459,
1,Albania,ALB,61.8083,59.5859,50.863,49.6638,48.6371,,46.7203,45.8357,45.2475,44.9122,44.807,-17.0013,-6.05601,
2,Algeria,DZA,87.6757,62.8862,49.4879,48.91,48.645,48.6819,49.2336,49.8477,50.6007,51.5366,52.6176,-35.0581,3.12971,
3,American Samoa,ASM,,,,,,,,,,,,,,
4,Andorra,ADO,,,,,,,,,,,,,,


![](./picture/4-3.png)

### 题目要求
从自2009-2010赛季以来的英格兰当地足球比赛结果数据中，删除2009/2010赛季的所有数据以及county列。文件路径为./data/score_game.xlsx
### 题目讲解
名词解释  
game_date-比赛时间  
country-国家  
tournament-锦标赛  
season-赛季  
home_field-主场场地  
home_team-主场球队  
away_team-客场球队  
home_team_score-主场球队得分  
away_team_score-客场球队得分  
home_team_score_extra_time-主持球队加时赛  
away_team_score_extra_time-客场球队加时赛  
### 书写代码

In [31]:
import pandas as pd
df = pd.read_excel('./data/score_game.xlsx')
print(df.shape)

# 通过遍历获取2009/2010赛季的数据索引（下节课我们将学习其他获取方式）
index_list = []
for index,row_data in df.iterrows():
    if row_data['season']=='2009/2010':
        index_list.append(index)

# 删除2009/2010赛季的数据
df1 = df.drop(index_list,axis=0)
# print(df1)
df1.head()

# 删除country列
df2 = df1.drop('country',axis=1)
# print(df2)
df2.head()

(27490, 11)


Unnamed: 0,game_date,tournament,season,home_field,home_team,away_team,home_team_score,away_team_score,home_team_score_extra_time,away_team_score_extra_time
0,40032,Championship,2009/2010,1,Middlesbrough,Sheffield Utd,0,0,,
1,40033,Championship,2009/2010,1,Preston,Bristol City,2,2,,
2,40033,League One,2009/2010,1,Yeovil,Tranmere,2,0,,
3,40033,League One,2009/2010,1,Southampton,Millwall,1,1,,
4,40033,League One,2009/2010,1,Gillingham,Swindon,5,0,,


### 题目要求
观察文件（/data/04Books.xlsx）中的商品的单价（OnePrice）和购买数量（Count）  
### 题目讲解
计算出对应的总价（Price）。
### 书写代码

In [32]:
'''
第一步:明确目标
观察文件（/data/04Books.xlsx）中的商品的单价（OnePrice）和购买数量（Count）
第二步:分析过程
计算出对应的总价（Price）。
'''
import pandas as pd
books = pd.read_excel('./data/04Books.xlsx',index_col = 'ID')
print(books)

# 计算Price的值(这种方法是列与列之间对齐后进行计算)
# books["Price"] = books['OnePrice'] * books['Count']
# print(books)

# 如果只想算某一段就可以，使用循环迭代（是单元格与单元格之间的操作）
# for i in range(5,16):
#     books["Price"].iloc[i] = books["OnePrice"].iloc[i] * books["Count"].iloc[i]
# print(books)

            Name   OnePrice   Count  Price
ID                                        
1    Product_001       9.82       5       
2    Product_002      11.99       4       
3    Product_003       9.62       6       
4    Product_004      11.08       8       
5    Product_005       7.75       3       
6    Product_006       7.34       4       
7    Product_007      10.97       6       
8    Product_008      11.14       7       
9    Product_009       8.98       2       
10   Product_010       9.18       3       
11   Product_011       8.31       4       
12   Product_012       7.29       9       
13   Product_013       8.36       5       
14   Product_014       9.16       6       
15   Product_015      10.31       3       
16   Product_016      10.26       6       
17   Product_017      11.95       8       
18   Product_018      11.22       2       
19   Product_019      10.95       4       
20   Product_020       8.82       6       
