## pandas 基础：Series、DataFrame 的创建与数据的增、改、替
### 1. 结合 numpy 创建一个 (3, 10) 区间内的包含 5 个随机整数的一维数组 ndarray 为 data1，并以此 data 再创建索引为 a, b, c, d, e 的 Series 为 s1
任务提示：利用 np.random.randint() 创建随机矩阵

In [2]:
import numpy as np
import pandas as pd

data1 = np.random.randint(3,10,(5))
print(data1)
s1 = pd.Series(data1, index = ['a','b','c','d','e'])
print(s1)

[7 5 3 9 6]
a    7
b    5
c    3
d    9
e    6
dtype: int64


### 2. 请分别用位置索引和标签索引的方式提取是 s1 的后三个数

In [3]:
print(s1[-3:])            #位置索引
print(s1['c':'e'])        #标签索引

c    3
d    9
e    6
dtype: int64
c    3
d    9
e    6
dtype: int64


### 3. 请用字典的形式创建一个DataFrame，将下方表格数据存储进去
任务提示：创建 DataFrame 有多种方式，本题以字典形式创建。

In [15]:
#由于默认index即0，1，2，所以这里可以不指定index
dic = {'year':[2017,2018,2019],
       'price':[10,20,30]}
pd.DataFrame(dic)

Unnamed: 0,year,price
0,2017,10
1,2018,20
2,2019,30


In [13]:
#其它四种创建DataFrame的方式
#由数组列表组成的字典创建
datalist = {'year':range(2017,2020),'price':range(10,40,10)}
pd.DataFrame(datalist, index = list('012'))

#由Series组成的字典创建
dataSe = {'year':pd.Series(np.arange(2017,2020),index = list('012')),
         'price':pd.Series(np.arange(10,40,10),index = list('012'))}
pd.DataFrame(dataSe)

#通过二维数组直接创建
dataarray = np.array([2017,10,2018,20,2019,30]).reshape(3,2)
pd.DataFrame(dataarray,index = list('012'), columns = ['year','price'])

#由字典组成的列表创建
diclist = [{'year':2017,'price':10},
           {'year':2018,'price':20},
           {'year':2019,'price':30},]
pd.DataFrame(diclist)

Unnamed: 0,year,price
0,2017,10
1,2018,20
2,2019,30


### 4. 结合 numpy 创建一个 (5, 15) 区间内，形状为 5 行 3 列的随机整数数组为 data2，并以此为基础创建 index 为 ['a', 'c', 'e', 'f', 'h']，columns 为 ['one', 'two', 'three'] 的 DataFrame，并命名为 df_test

In [17]:
data2 = np.random.randint(5,15,(5,3))
df_test = pd.DataFrame(data2, index = list('acefh'), columns = ['one', 'two', 'three'])
df_test

Unnamed: 0,one,two,three
a,6,9,10
c,9,5,5
e,8,8,11
f,5,12,10
h,6,9,13


### 5. 运用 loc 索引以及替换的知识，按下列要求对 df_test 进行增、改、替操作。完成上述要求后，将该数据命名为 df_change

In [18]:
# (1) 将 a 行 one 列处替换成空值
df_test.loc['a','one'] = np.nan

# (2) 将 c 行 two 列处替换成 -99
df_test.loc['c','two'] = -99

# (3) 将 c 行 three 列处替换成 -99
df_test.loc['c','three'] = -99

# (4) 将 a 行 two 列处替换成 -100
df_test.loc['a','two'] = -100

# (5) 新增 four 列，值为 test
df_test['four'] = 'test'

# (6) 重置索引为 ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
df_change = df_test.reindex(list('abcdefgh'))

df_change

Unnamed: 0,one,two,three,four
a,,-100.0,10.0,test
b,,,,
c,9.0,-99.0,-99.0,test
d,,,,
e,8.0,8.0,11.0,test
f,5.0,12.0,10.0,test
g,,,,
h,6.0,9.0,13.0,test


### 6. 删除 df_change 中存在缺失值的所有行

In [19]:
df_change.dropna()

Unnamed: 0,one,two,three,four
c,9.0,-99.0,-99.0,test
e,8.0,8.0,11.0,test
f,5.0,12.0,10.0,test
h,6.0,9.0,13.0,test


### 7. 删除 df_change 中所有值都为 NaN 值的行

In [20]:
df_change.dropna(how = 'all')

Unnamed: 0,one,two,three,four
a,,-100.0,10.0,test
c,9.0,-99.0,-99.0,test
e,8.0,8.0,11.0,test
f,5.0,12.0,10.0,test
h,6.0,9.0,13.0,test


### 8. df_change 中的所有缺失值（即 NaN）以 0 填充

In [21]:
df_change.fillna(0)

Unnamed: 0,one,two,three,four
a,0.0,-100.0,10.0,test
b,0.0,0.0,0.0,0
c,9.0,-99.0,-99.0,test
d,0.0,0.0,0.0,0
e,8.0,8.0,11.0,test
f,5.0,12.0,10.0,test
g,0.0,0.0,0.0,0
h,6.0,9.0,13.0,test


### 9. 删除 df_change中的重复行

In [22]:
df_change.drop_duplicates()

Unnamed: 0,one,two,three,four
a,,-100.0,10.0,test
b,,,,
c,9.0,-99.0,-99.0,test
e,8.0,8.0,11.0,test
f,5.0,12.0,10.0,test
h,6.0,9.0,13.0,test
