In [1]:
import numpy as np
import pandas as pd


### 数据结构Series创建

***pd.Series(data=None,index=None,dtype=None,name=None,copy=False)***

- data 输入的数据，可以是列表、常量、ndarry数组等，如果是字典，则保持参数顺序

- index 索引值，必须是可散列的（不可变数据类型（str、bytes和数值类型）），并且与数据个数相同，如果未提供，将默认为RangeIndex(0,1,2,...n)

- dtype 输出系列数据的类型，如果未指定，将从数据中推断

- name 为Series定义一个名称

- copy 表示对data进行拷贝,默认为False,仅影响Series和ndarry数组

In [23]:
# 列表作为数据创建Series
ar_list = [3,10,3,4,5]
print(type(ar_list))
# 使用列表创建Series
s1 = pd.Series(ar_list)
print(s1)
print(type(s1))

<class 'list'>
0     3
1    10
2     3
3     4
4     5
dtype: int64
<class 'pandas.core.series.Series'>


In [24]:
# 数组作为数据源
np_rand = np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

0    1
1    2
2    3
3    4
4    5
dtype: int32

- #### **通过index和values属性取得对应的标签和值**

In [25]:
# 默认为RangeIndex(0,1,2,...,n)
s1.index

RangeIndex(start=0, stop=5, step=1)

In [26]:
# 可以强制转换为列表输出
list(s1.index)

[0, 1, 2, 3, 4]

In [27]:
# 返回Series的所有值,数据类型为ndarry
print(s1.values,type(s1.values))

[1 2 3 4 5] <class 'numpy.ndarray'>


- #### **通过标签取得对应的值，或者修改对应的值**

In [28]:
# 取得索引为1的数据
s1[1]

2

In [29]:
# 改变索引值为2的数值
s1[2] =50
s1

0     1
1     2
2    50
3     4
4     5
dtype: int32

- #### **2) 字典作为数据源创建Series**

In [30]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d)
ser

a    1
b    2
c    3
dtype: int64

- #### **通过index和values属性取得对应的标签和值**

In [31]:
# 标签索引
ser.index

Index(['a', 'b', 'c'], dtype='object')

In [32]:
# Series值
ser.values

array([1, 2, 3], dtype=int64)

- #### **通过标签取得对应的值或者修改对应的值**

In [33]:
ser['a']

1

In [34]:
ser['d'] = 4
ser

a    1
b    2
c    3
d    4
dtype: int64

In [35]:
ser['5'] = 5
ser

a    1
b    2
c    3
d    4
5    5
dtype: int64

### **其他参数介绍**

- #### **1) index参数**

索引值，必须是可散列的（不可变数据类型（str、bytes和数值类型）），并且与数据个数相同，如果未提供，将默认为RangeIndex(0,1,2,...n)

   - 使用“显式索引”的方法定义索引标签

In [36]:
data = np.array(['a','b','c','d'])
# 自定义标签索引(即显式索引)，需要和数据长度一致
s = pd.Series(data,index=[101,102,103,104])
s

101    a
102    b
103    c
104    d
dtype: object

  - #### **从指定索引的字典构造序列**

In [37]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['a','b','c'])
ser

a    1
b    2
c    3
dtype: int64

- #### **当传递的索引值未匹配对应的字典键时，使用NaN(非数字)进行填充**

In [38]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['x','b','z'])
ser

x    NaN
b    2.0
z    NaN
dtype: float64


输出: 

x    NaN

b    2.0

z    NaN 

**注意：索引首先使用字典中的键构建的，在此之后，用给定的索引值对序列重新编制索引，因此我们得到所有NaN**

- #### **通过匹配的索引值，改变创建Series数据的顺序**

In [39]:
d = {'a':1,'b':2,'c':3}
ser = pd.Series(d,index=['c','b','a'])
ser

c    3
b    2
a    1
dtype: int64

- #### **2) name参数**

我们可以给一个Series对象命名，也可以给一个Series数组中华的索引列起一个名字，pandas为我们设计好了对象的属性，并在设置了name属性值来进行名字的设定。

In [40]:
data1 = {
    "beijing" : 2000,
    "shanghai": 2400,
    "nanjing" : 2100,
}
dd =pd.Series(data1)
dd

beijing     2000
shanghai    2400
nanjing     2100
dtype: int64

In [41]:
dd = pd.Series(data1)
dd.name = "city_data"
print(dd)

beijing     2000
shanghai    2400
nanjing     2100
Name: city_data, dtype: int64


In [42]:
# 使用Series创建DataFrame类型
df = pd.DataFrame(dd)
print(df,type(df))
print("="*60)
# 输出city_data列的数据和类型 
print(df['city_data'],type(df['city_data']))

          city_data
beijing        2000
shanghai       2400
nanjing        2100 <class 'pandas.core.frame.DataFrame'>
beijing     2000
shanghai    2400
nanjing     2100
Name: city_data, dtype: int64 <class 'pandas.core.series.Series'>


- #### **3) copy参数**

copy表示对data进行拷贝，默认为false，仅影响Series和ndarry数组

In [43]:
# 数组作为源数据
np_rand =np.arange(1,6)
# 使用数组创建Series
s1 = pd.Series(np_rand)
s1

0    1
1    2
2    3
3    4
4    5
dtype: int32

In [44]:
# 改变Series标签为1的值
s1[1] = 50

# 输出series对象s1
print("s1:\n",s1)

# 输出数组对象np_rand 数组也被改变了
print("np_rand:",np_rand)

s1:
 0     1
1    50
2     3
3     4
4     5
dtype: int32
np_rand: [ 1 50  3  4  5]


In [45]:
# 当数据源非Series和ndarray时
# 数组作为数据源
my_list = [1,2,3,4,5,6]

# 使用数组创建Series
s2 = pd.Series(my_list)
s2

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [46]:
# 这个时候再改变s2[1]的值
s2[1] = 50
print("s2[1]:",s2[1])

# 输出s2
print("s2:",s2)

# 输出数组
print("mny_list:",my_list)

s2[1]: 50
s2: 0     1
1    50
2     3
3     4
4     5
5     6
dtype: int64
mny_list: [1, 2, 3, 4, 5, 6]


### **Series的索引/切片**

  ##### **1.下标索引**

类似于列表索引

In [47]:
s = pd.Series(np.random.rand(5))
print(s)
print(s[3],type(s[3]),s[3].dtype)

0    0.128863
1    0.357681
2    0.798062
3    0.380072
4    0.404843
dtype: float64
0.3800721877739305 <class 'numpy.float64'> float64


  ##### **1.标签索引**

  当索引为object类型时，既可以使用标签索引也可以使用位置索引
  
  Series类似于固定大小的dict,把index中的索引标签当做key，而把Series序列中的元素值当做value，然后通过index索引标签来访问或者修改元素值

- ##### 使用索标签访问单个元素值

In [48]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print(s['b'],type(s['b']),s['b'].dtype)

0.962849450173799 <class 'numpy.float64'> float64


- ##### 使用索引标签访问多个元素值


In [49]:
s = pd.Series([6,7,8,9,10],index=list("abcde"))
print(s)
print(s[['a','b','c']])

a     6
b     7
c     8
d     9
e    10
dtype: int64
a    6
b    7
c    8
dtype: int64


### 切片

- Series使用标签切片运算与普通的python切片运算不同：Series使用标签切片时，其末端是包含的

- Series使用python切片运算即使用位置数值切片，其末端是不包含的

In [50]:
s = pd.Series(np.random.rand(10))
s

0    0.493321
1    0.469693
2    0.360213
3    0.881755
4    0.511449
5    0.203382
6    0.362533
7    0.483436
8    0.679131
9    0.123984
dtype: float64

**位置索引和标签索引刚好一致，使用切片时如果是数值会认为是python的切片运算，不包含末端**

In [51]:
s[1:3]

1    0.469693
2    0.360213
dtype: float64

In [52]:
s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])
print(s)
print(s[1:4])

a    1
b    2
c    3
d    4
e    5
dtype: int64
b    2
c    3
d    4
dtype: int64


In [53]:
s["a":"d"]

a    1
b    2
c    3
d    4
dtype: int64

### **Series数据结构 基本技巧**

#### **1.查看前几条和后几条数据**

In [54]:
s = pd.Series(np.random.rand(15))
s

0     0.751949
1     0.569247
2     0.785266
3     0.113433
4     0.049781
5     0.716190
6     0.081336
7     0.498792
8     0.601436
9     0.857429
10    0.550282
11    0.598071
12    0.089436
13    0.220198
14    0.806909
dtype: float64

In [55]:
# 默认查看前5条数据
print(s.head())
# 默认查看前1条数据
print(s.head(1))

0    0.751949
1    0.569247
2    0.785266
3    0.113433
4    0.049781
dtype: float64
0    0.751949
dtype: float64


In [56]:
# 默认查看后5条数据
print(s.tail())

10    0.550282
11    0.598071
12    0.089436
13    0.220198
14    0.806909
dtype: float64


#### **2.重新索引:reindex**

使用可选逻辑,使Series符合新索引

将NaN放在上一个索引中没有值的位置。除非新索引等同于当前索引，并且生成新对象。

In [57]:
s = pd.Series(np.random.rand(5),index=list("abcde"))
print("---------s---------")
print(s)

# 新索引在上一个索引中不存在，生成新对象时，对应的值，设置为NaN
s1 = s.reindex(list("cde12"))
print("========s1=========")
print(s1)

---------s---------
a    0.612110
b    0.115940
c    0.580106
d    0.690259
e    0.363831
dtype: float64
c    0.580106
d    0.690259
e    0.363831
1         NaN
2         NaN
dtype: float64


In [58]:
# 设置填充值
s2 = s.reindex(list("cde34"),fill_value=0)
print("========s2=========")
print(s2)

c    0.580106
d    0.690259
e    0.363831
3    0.000000
4    0.000000
dtype: float64


#### **3.对齐运算**

是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN

In [59]:
s1 = pd.Series(np.random.rand(3),index=["Hud","Monica","QB"])

s2 = pd.Series(np.random.rand(3),index=["Monica","QB","QTY"])

print("----------s1----------")
print(s1)

print("==========s2==========")
print(s2)

print("#########s1+s2#########")
print(s1+s2)

----------s1----------
Hud       0.148470
Monica    0.804471
QB        0.188132
dtype: float64
Monica    0.786384
QB        0.483064
QTY       0.883519
dtype: float64
#########s1+s2#########
Hud            NaN
Monica    1.590855
QB        0.671196
QTY            NaN
dtype: float64


#### **4.删除和添加**

- **删除**

In [60]:
s = pd.Series(np.random.rand(5),index=list('abcde'))
print(s)
s1 = s.drop("b") # 返回删除后的值，原值不改变，默认inplace=False
print(s1)
print("==================")
print(s)

a    0.965258
b    0.247664
c    0.149399
d    0.406922
e    0.516405
dtype: float64
a    0.965258
c    0.149399
d    0.406922
e    0.516405
dtype: float64
a    0.965258
b    0.247664
c    0.149399
d    0.406922
e    0.516405
dtype: float64


In [61]:
# 如果希望原值发生变化
s = pd.Series(np.random.rand(5),index=list('abcde'))
s1 = s.drop("b",inplace=True) # 原值发生变化，返回None
print(s1)
print("================")
print(s)

None
a    0.096192
c    0.959991
d    0.605335
e    0.445987
dtype: float64


- **添加**

In [62]:
s = pd.Series(np.random.rand(5),index=list('abcde'))
print(s)

s["f"]=2.222222  # 有就添加 没有就修改
print("-=-=-=-=-=-=-=")
print(s)

a    0.205843
b    0.832822
c    0.735631
d    0.174597
e    0.499566
dtype: float64
-=-=-=-=-=-=-=
a    0.205843
b    0.832822
c    0.735631
d    0.174597
e    0.499566
f    2.222222
dtype: float64


#### **5.检测缺失值**

isnull()和notnull()用于检测Series中的缺失值，所谓缺失值，顾名思义就是值不存在、丢失、缺少

- isnull(): 如果为值不存在或者缺失，则返回True

- notnull(): 如果值不存在或者缺失，则返回False

In [63]:
s = pd.Series([1,2,3,None,5,6,None,8,9])
print(pd.isnull(s))
print(pd.notnull(s))

0    False
1    False
2    False
3     True
4    False
5    False
6     True
7    False
8    False
dtype: bool
0     True
1     True
2     True
3    False
4     True
5     True
6    False
7     True
8     True
dtype: bool


### **DataFrame数据类型**

DataFrame是Pandas的重要数据结构之一，也是在使用Pandas进行数据分析过程中最常用的结构之一，可以这么说，掌握了DataFrame的用法,你就拥有了学习数据分析的基本能力


#### **认识DataFrame结构**

DataFrame 一个表格型的数据结构，既有行标签(index),又有列标签(columns)，他也被称为异构数据表，所谓异构，指的是表格中的每列的数据类型可以不同，比如可以是字符串、浮点型、整型

- DataFrame数据结构的特点主要是:
  
  - DataFrame每一列标签值允许使用不同的数据类型 

  - DataFrame是表格型的数据结构，具有行和列

  - DataFrame中的每个数据值都可以被修改

  - DataFrame结构的行数和列数允许增加或者删除

  - DataFrame有两个方向的标签轴，分别是行标签和列标签

  - DataFrame可以对行和列执行算数运算



#### **创建DataFrame对象**

***pandas.DataFrame(data=None,index=None,columns=None,dtype=None,copy=None)***

- data：输入的数据，可以是ndarray，series，list，dict，标量以及一个DataFrame 

- index：行标签，如果没有传递index值，则默认行标签是Rangelndex（0，1，2..…，n），n代表data的元素个数。

- columns：列标签，如果没有传递columns值，则默认列标签是Rangelndex（0，1，2，…，n）

- dtype：要强制的数据类型。只允许使用一种数据类型。如果没有，自行推断

- copy：从输入复制数据。对于dict数据，copy=True，重新复制一份。对于DataFrame或ndarray输入，类似于copy=False



**Pandas Data是一个二维的数据结构，类似二维数组**

In [64]:
# 引入numpy和Pandas
import numpy as np
import pandas as pd

**1.使用普通列表创建**

In [65]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


**2.使用嵌套列表的创建**

In [66]:
# 列表中的每个元素代表一行数据

data = [['Hud',24,"男"],["Monica",22,"女"],["Qb",1,"不详"]]

#不分配列标签
df = pd.DataFrame(data)
print(df)

print("------------分配列标签-------------")
df1 = pd.DataFrame(data,columns=["Name","Age","Sex"])
df1

        0   1   2
0     Hud  24   男
1  Monica  22   女
2      Qb   1  不详
------------分配列标签-------------


Unnamed: 0,Name,Age,Sex
0,Hud,24,男
1,Monica,22,女
2,Qb,1,不详


**3.指定数值元素的数据类型为float**

- 需要注意：dtype只能设置一个，设置多个列的数据类型，需要使用其他方式

In [67]:
data = [['Hud',24,"男"],["Monica",22,"女"],["Qb",1,"不详"]]
df = pd.DataFrame(data,columns=["Name","Age","Sex"],dtype=int)
df


Unnamed: 0,Name,Age,Sex
0,Hud,24,男
1,Monica,22,女
2,Qb,1,不详


In [68]:
data = [['Hud',24,"男",1.81],["Monica",22,"女",1.65],["Qb",1,"不详",0.04]]
# df = pd.DataFrame(data,columns=["Name","Age","Sex","tall"],dtype={str,int,str,float}) 錯誤

df = pd.DataFrame(data,columns=["Name","Age","Sex","tall"],dtype=float)
df

Unnamed: 0,Name,Age,Sex,tall
0,Hud,24.0,男,1.81
1,Monica,22.0,女,1.65
2,Qb,1.0,不详,0.04


**4.列表嵌套字典的方式创建DataFrame对象**

列表嵌套字典可以作为输入数据传递给DataFrame构造函数，默认情况下，字典的键被用作列名

In [69]:
data = [{'a':1,'b':2},{'a':5,'b':10,'c':20}]
df = pd.DataFrame(data,index=["first","second"])
df

Unnamed: 0,a,b,c
first,1,2,
second,5,10,20.0


**5. Series创建DataFrame对象**

你也可以传递一个字典形式的Series，从而创建一个DataFrame对象，其输出结果的行索引是所有index的合集

In [70]:
d = {'one':pd.Series([1,2,3],index=['a','b','c']),
    'two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


### **列操作DataFrame**

DataFrame可以使用列标签来完成数据的选取、添加和删除操作。

**1. 选取数据列**

- 可以使用列索引，轻松实现数据选项

In [71]:
data = {'Name':['Hud','Monica','Qb'],'Age':[24,22,1]}
# 定义行标签
index = ['rank1','rank2','rank3']

# 通过字典定义DataFrame
df = pd.DataFrame(data,index=index)
print(df)
print("========df['Name']取得Name列=======")
print(df['Name'])
print("========df['Age']取得Age列=======")
print(df['Age'])

         Name  Age
rank1     Hud   24
rank2  Monica   22
rank3      Qb    1
rank1       Hud
rank2    Monica
rank3        Qb
Name: Name, dtype: object
rank1    24
rank2    22
rank3     1
Name: Age, dtype: int64


In [72]:
# 选取多列
df[['Name','Age']]

Unnamed: 0,Name,Age
rank1,Hud,24
rank2,Monica,22
rank3,Qb,1


**2.列添加**

- 使用columns列标签索引可以实现添加新的数据列，示例如下

In [73]:
d = {'One':pd.Series([1,2,3],index=['a','b','c']),
'Two':pd.Series([1,2,3,4],index=['a','b','c','d'])}
df = pd.DataFrame(d)
df

Unnamed: 0,One,Two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4


In [74]:
# 使用df['列']='值'，插入新的数据列
print("通过Series添加一个新的列")
df['Three']=pd.Series([10,20,30],index=['a','b','c'])
df

通过Series添加一个新的列


Unnamed: 0,One,Two,Three
a,1.0,1,10.0
b,2.0,2,20.0
c,3.0,3,30.0
d,,4,


In [75]:
# 将已经存在的数据列相加运算，从而创建一个新的列
df['Four']=df['One']+pd.Series([1,2,3,4],index=['a','b','c','d'])
df

Unnamed: 0,One,Two,Three,Four
a,1.0,1,10.0,2.0
b,2.0,2,20.0,4.0
c,3.0,3,30.0,6.0
d,,4,,


- **insert()方法添加**

上述方法，我们初次使用了FataFrame的算数运算，这和Numpy非常相似，除了使用df[]=value的方式外，还可以使用insert方法插入新的列

***df.insert(loc,column,value,allow_duplicates=FALSE)***

- loc: 整型，插入索引，必须验证0<=loc<=len(列)

- column: 插入列的标签，类型可以是(字符串/数字/散列对象)

- value: 数值，Series或者数组

- allow_duplicates: 允许重复，可以有相同的列标签数据，默认是False

In [76]:
info = [['Hud',24],['Monica',22],['Qb',1]]
df = pd.DataFrame(info,columns=['Name','Age'])
print(df)
# 数值1代表插入到columns列表的索引位置
df.insert(1,column='weight',value=[81,47,4.5])
print("========insert()插入数据========")
print(df)

     Name  Age
0     Hud   24
1  Monica   22
2      Qb    1
     Name  weight  Age
0     Hud    81.0   24
1  Monica    47.0   22
2      Qb     4.5    1


- **删除数据列**

    通过del()和pop()都能够删除DataFrame中的数据列,pop()有返回值

    示例如下:

In [77]:
d = {'One':pd.Series([1,2,3],index=['a','b','c']),
'Two':pd.Series([1,2,3,4],index=['a','b','c','d']),
'Three':pd.Series([10,20,30,40],index=['a','b','c','d'])}
df = pd.DataFrame(d)
df

Unnamed: 0,One,Two,Three
a,1.0,1,10
b,2.0,2,20
c,3.0,3,30
d,,4,40


In [78]:
# 使用del删除
del df['Three']
print("=======df['Three']=======")
print(df)
# 使用pop删除
res_pop = df.pop('Two')
print("=========df.pop('Two')========")
print("res_pop:",res_pop)
print("df:",df)

   One  Two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
res_pop: a    1
b    2
c    3
d    4
Name: Two, dtype: int64
df:    One
a  1.0
b  2.0
c  3.0
d  NaN


### **行操作DataFrame**

了解了上述的列索引操作后，行索引操作就变得简单

**1. 标签选取**

  - 行操作需要借助loc属性来完成：按标签或者布尔数组访问一组行和列

In [79]:
# 定义字典，生成数据
d = {'One':pd.Series([1,2,3],index=['a','b','c']),
'Two':pd.Series([1,2,3,4],index=['a','b','c','d']),
'Three':pd.Series([10,20,30,40],index=['a','b','c','d'])}
df = pd.DataFrame(d)
print("原始df:")
print(df)
# 确定标签为b的数据
print("=======b=======")
print(df.loc['b'])

原始df:
   One  Two  Three
a  1.0    1     10
b  2.0    2     20
c  3.0    3     30
d  NaN    4     40
One       2.0
Two       2.0
Three    20.0
Name: b, dtype: float64


**注意：loc只允许接收两个参数分别是行和列**

b行,one列交叉的数据

In [80]:
df.loc['b','One']

2.0

**行和列还可以使用切片**

In [81]:
# 标签为b的行到标签为d的行，对应标签为'One'的列
df.loc['b':'d','One']

b    2.0
c    3.0
d    NaN
Name: One, dtype: float64

**2. 数值型索引和切片**

- 使用数值型索引需要使用`iloc`属性

直接使用索引，会优先查找的是列标签，如果找不到会报错，列没有位置索引

- 可以使用`iloc`: 行基于整数位置的按位置选择索引

In [82]:
data = {'Name':['Hud','Monica','Qb'],'Age':[24,22,1]}
# 定义行标签
index = ['rank1','rank2','rank3']
# 通过字典创建DataFrame
df = pd.DataFrame(data,index=index)
df

Unnamed: 0,Name,Age
rank1,Hud,24
rank2,Monica,22
rank3,Qb,1


In [83]:
# 获得位置索引为2的数据
df.iloc[2]

Name    Qb
Age      1
Name: rank3, dtype: object

In [84]:
# 获得位置索引分别为0和2的数据
df.iloc[[0,2]]

Unnamed: 0,Name,Age
rank1,Hud,24
rank3,Qb,1


In [85]:
# 表示行索引为0，列索引为1的数据
df.iloc[0,1]

24

#### 注意：

- loc使用的是标签

- iloc使用的是位置索引

        
**两者不能混用**  

**3.添加数据行**

使用`append()`函数，可以将新的数据行添加到DataFrame中,该函数会在行末追加数据行

***df.append(other,ignore_index=False,verify_integrity=False,sort=False)***

将other追加到调用者的末尾，**返回一个新的对象**，"other"行中不在调用者中的列将作为新列添加。

- other: DataFrame或Series/dict類对象，或这些对象的列表

- ignore_index: 默认为False,如果True将不再适用index标签

- verify_integrity: 默认为False，如果为True，则在创建具有重复项索引时引发ValueError

- sort: 排序

In [86]:
data =  {
        'Name':['Hud','Monica','Qb'],
        'Age':[24,22,1],
        'Tall':[1.80,1.65,0.4]
}
df = pd.DataFrame(data,index=['a','b','c'])
df

Unnamed: 0,Name,Age,Tall
a,Hud,24,1.8
b,Monica,22,1.65
c,Qb,1,0.4


In [87]:
d2 = {'Name':"SunXX","Tall":1.63,'Age':49}
# 在行末追加新的数据行
# df3 = df.append(d2) 这里会报错，因为不知道行标签该给什么
df3 = df.append(d2,ignore_index=True)
df3

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,SunXX,49,1.63


In [88]:
# 或者转化为一个series
d2 = {"Name":"QTY","Age":24,"Tall":1.81}
s = pd.Series(d2,name="d")
print(s)
# 在行末尾追加新的数据行
df3 = df.append(s)
print("=====================")
print(df3)

Name     QTY
Age       24
Tall    1.81
Name: d, dtype: object
     Name  Age  Tall
a     Hud   24  1.80
b  Monica   22  1.65
c      Qb    1  0.40
d     QTY   24  1.81


**2) 追加列表**

- 如果list是一维的，则以列的形式追加

- 如果list是二维的，则以行的形式追加

- 如果list是三维的，只添加一个值







      

**list 是一维的，则以列的形式追加**

In [89]:
data = [[1,2,3,4],[5,6,7,8]]
df = pd.DataFrame(data,index=['a','b'])
print(df)
a1 = [10,20]
df3 = df.append(a1)
print(df3)

   0  1  2  3
a  1  2  3  4
b  5  6  7  8
    0    1    2    3
a   1  2.0  3.0  4.0
b   5  6.0  7.0  8.0
0  10  NaN  NaN  NaN
1  20  NaN  NaN  NaN


**追加一个二维的**

In [90]:
a1 = [[10,"20",30]]
df4 = df.append(a1,ignore_index=True)
df4

Unnamed: 0,0,1,2,3
0,1,2,3,4.0
1,5,6,7,8.0
2,10,20,30,


In [91]:
data =  {
        'Name':['Hud','Monica','Qb'],
        'Age':[24,22,1],
        'Tall':[1.80,1.65,0.4]
}
df = pd.DataFrame(data)
a1 = [[10,"20",30],[2,5,6]]
df2 = pd.DataFrame(a1,columns=["Name","Age","Tall"])
df4 = df.append(df2)
df4

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
0,10,20,30.0
1,2,5,6.0


**追加三维的数据**

In [92]:
data = [[1,2,3,4],[5,6,7,8]]
df = pd.DataFrame(data,index=['a','b'])
s = [[[1,2,3,4]]]
df2 = df.append(s)
df2

Unnamed: 0,0,1,2,3
a,1,2.0,3.0,4.0
b,5,6.0,7.0,8.0
0,"[1, 2, 3, 4]",,,


**4.刪除数据行**

可以使用行索引标签，从DataFrame中删除某一行数据，如果索引标签存在重复，那么他将被一起删除

In [93]:
df1 = pd.DataFrame([[1,2],[3,4]],columns=['a','b'])
df2 = pd.DataFrame([[5,6],[7,8]],columns=['a','b'])

df = df1.append(df2)
print("============源数据===========")
print(df)
# 这里使用drop方法，drop方法默认不会更改源数据
df1 = df.drop(0)
print("============修改后的df1=============")
print(df1)
print("============源数据df===========")
print(df)

   a  b
0  1  2
1  3  4
0  5  6
1  7  8
   a  b
1  3  4
1  7  8
   a  b
0  1  2
1  3  4
0  5  6
1  7  8


In [94]:
data =  {
        'Name':['Hud','Monica','Qb','QTY'],
        'Age':[24,22,1,24],
        'Tall':[1.80,1.65,0.4,1.81]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81


- **转置**

In [95]:
df.T

Unnamed: 0,0,1,2,3
Name,Hud,Monica,Qb,QTY
Age,24,22,1,24
Tall,1.8,1.65,0.4,1.81


- **axes**

返回一个行标签，列标签组成的列表

In [96]:
df.axes

[RangeIndex(start=0, stop=4, step=1),
 Index(['Name', 'Age', 'Tall'], dtype='object')]

- **dtypes**

返回Series每一列的数据类型

In [97]:
df.dtypes

Name     object
Age       int64
Tall    float64
dtype: object

- **empty**

返回一个布尔值，判断输出的数据对象是否为空，若为TRUE表示对象为空

In [98]:
df.empty

False

In [99]:
df_empty = pd.DataFrame()
df_empty.empty

True

#### **修改标签名**

***DataFrame.rename(index=None,columns=None,inplace=False)***

- **index**: 修改后的行标签

- **columns**: 修改后的列标签

- **inplace**: 默认为False,不改变源数据，返回修改后的数据，True则更改源数据

In [100]:
df

Unnamed: 0,Name,Age,Tall
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81


In [101]:
# 修改df的行标签
df.rename(index={0:"row1",1:"row2",2:"row3",3:"row4"})

Unnamed: 0,Name,Age,Tall
row1,Hud,24,1.8
row2,Monica,22,1.65
row3,Qb,1,0.4
row4,QTY,24,1.81


In [102]:
# 修改变量df的列标签
df.rename(columns={"Name":"姓名","Age":"年龄","Tall":"身高"})

Unnamed: 0,姓名,年龄,身高
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81


In [103]:
# 添加inplace参数，修改源数据
df.rename(index={0:"row1",1:"row2",2:"row3",3:"row4"},columns={"Name":"姓名","Age":"年龄","Tall":"身高"},inplace=True)
df

Unnamed: 0,姓名,年龄,身高
row1,Hud,24,1.8
row2,Monica,22,1.65
row3,Qb,1,0.4
row4,QTY,24,1.81


#### **Info()函数**

用于打印DataFrame的简要摘要，显示有关DataFrame的信息，包括索引的数据类型dtype，非空值的数量和内存使用情况。

In [104]:
# 创建一组数据
data =  {
        'Name':['Hud','Monica','Qb','QTY'],
        'Age':[24,22,1,24],
        'Tall':[1.80,1.65,0.4,1.81]
}
data1 = {"姓名":"Gqc","年龄":22,"身高":1.65}
# 将数据追加到df数据中
df = df.append(data1,ignore_index=True)
df

Unnamed: 0,姓名,年龄,身高
0,Hud,24,1.8
1,Monica,22,1.65
2,Qb,1,0.4
3,QTY,24,1.81
4,Gqc,22,1.65


In [105]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   姓名      5 non-null      object 
 1   年龄      5 non-null      int64  
 2   身高      5 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 248.0+ bytes


#### **df.sort_index()**

***sort_index(axis=0,ascending=True,inplace=False)***

作用: 默认根据行标签对所有行进行排序，或根据列标签对所有列进行排序，或根据指定某列或某几列对行排序。

**注意:**df.sort_index()可以完成和df.sort_values()完全相同的功能，但python更推荐只用f.sort_index()进行排序，其他方式使用df.sort_values()。

- **axis:** 0按照行名排序,1按照列名排序

- **ascending:** 默认True升序排列,False降序排列

- **inplace:** 默认False,否则替换源数据

In [106]:
df = pd.DataFrame({'b':[1,2,2,3],'a':[4,3,2,1],'c':[1,3,8,2]},index=[2,0,1,3])
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,2,2,8
3,3,1,2


In [107]:
# 默认按“行标签”升序排序
df.sort_index()

Unnamed: 0,b,a,c
0,2,3,3
1,2,2,8
2,1,4,1
3,3,1,2


In [108]:
# 按列标签升序排序
df.sort_index(axis=1)

Unnamed: 0,a,b,c
2,4,1,1
0,3,2,3
1,2,2,8
3,1,3,2


#### **df.sort_values()**

***DataFrame.sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')***

**作用:既可以根据列数据，也可以根据行数据排序**

**注意:** 必须指定by参数，即必须指定哪几行、哪几列；无法根据index名和columns名排序(由sort_index()执行)

  - by: str or list of str;如果axis=0 那么by='列名';如果axis=1,那么by="行名"

  - axis: (0 or 'index',1 or 'columns'),default 0,默认按照列排序，即纵向排序;如果为1,则是横向排序

  - ascending: 布尔型，True则升序，如果by=['列名','列名2'],则该参数可以是[True,False],即第一个字段升序,第二个降序

  - inplace: 布尔型，是否替换源数据

  - na_position:{'first','last'},default 'last',默认缺失值排在最后面。


In [109]:
df

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,2,2,8
3,3,1,2


In [110]:
# 按照b列升序排序
df.sort_values(by='b')

Unnamed: 0,b,a,c
2,1,4,1
0,2,3,3
1,2,2,8
3,3,1,2


In [111]:
# 先按b列降序，再按a列升序排序
df.sort_values(by=['b','a'],ascending=[False,True])

Unnamed: 0,b,a,c
3,3,1,2
1,2,2,8
0,2,3,3
2,1,4,1


In [112]:
# 按照行3升序排序
print(df)
df.sort_values(by=3,axis=1) #必须指定axis=1

   b  a  c
2  1  4  1
0  2  3  3
1  2  2  8
3  3  1  2


Unnamed: 0,a,c,b
2,4,1,1
0,3,3,2
1,2,8,2
3,1,2,3


In [113]:
# 按行3升序，行0降序排列
df.sort_values(by=[3,0],axis=1,ascending=[True,False])

Unnamed: 0,a,c,b
2,4,1,1
0,3,3,2
1,2,8,2
3,1,2,3


### **time模块**

不牵扯时区的问题，便于计算

- a.timestamp时间戳，时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量

- b.struct_time时间元组,共有9个元素组

- c.format time格式化时间,已格式化的结构使时间更具有可读性，包括自定义的格式和固定格式


In [1]:
# 导入time模块
import time

In [115]:
# 生成timestamp
time.time()

1672111923.4700077

In [116]:
int(time.time())

1672111923

In [117]:
# 程序开始时间
start_time = time.time()

# 程序
s = ""
for i in range(5):
    s += str(i)
    # 睡眠1秒
    time.sleep(1)
end_time=time.time()

print("程序消耗时间",end_time-start_time)

程序消耗时间 5.049642562866211


In [118]:
# 生成struct_time
my_time = time.localtime()
print(my_time)

time.struct_time(tm_year=2022, tm_mon=12, tm_mday=27, tm_hour=11, tm_min=32, tm_sec=8, tm_wday=1, tm_yday=361, tm_isdst=0)


In [119]:
print("年:",my_time.tm_year)
print("月:",my_time.tm_mon)
print("日:",my_time.tm_mday)

年: 2022
月: 12
日: 27


In [2]:
# 将timestamp转化为struct_time
time = time.localtime(1671520586.7540326)
time

time.struct_time(tm_year=2022, tm_mon=12, tm_mday=20, tm_hour=15, tm_min=16, tm_sec=26, tm_wday=1, tm_yday=354, tm_isdst=0)

In [121]:
# 格式化字符串到struct_time
time.strptime("2022-06-06 20:00:00",'%Y-%m-%d %X')

time.struct_time(tm_year=2022, tm_mon=6, tm_mday=6, tm_hour=20, tm_min=0, tm_sec=0, tm_wday=0, tm_yday=157, tm_isdst=-1)

In [122]:
# 转换为我们能看懂的格式
time.localtime(time.time())

time.struct_time(tm_year=2022, tm_mon=12, tm_mday=27, tm_hour=11, tm_min=32, tm_sec=8, tm_wday=1, tm_yday=361, tm_isdst=0)

In [123]:
time.time()

1672111928.9225547

In [124]:
# 显示当前时间格式化后的时间
time.strftime("%Y-%m-%d")

'2022-12-27'

In [125]:
# 显示指定struct_time的时间
time.strftime("%Y-%m-%d",time.localtime(1671533586))

'2022-12-20'

### datetime模块

datetime模块重新封装了time模块，提供更多接口，提供的类有:date,time,datetime,timedelta,tzinfo

**1.date类**

datetime.date(year,month,day)

**静态方法和字段**

- date.today():返回一个表示当前本地日期的date对象

- date.fromtimestamp(timestamp)根据给定的时间戳，返回一个date对象

In [3]:
from datetime import date
import time
print("date.today():",date.today())
print("date.fromtimestamp():",date.fromtimestamp(time.time()))

date.today(): 2022-12-29
date.fromtimestamp(): 2022-12-29


### 生成时间戳范围

有时候，我们可能想生成某个范围内的时间戳，例如，我想要生成"2018-6-26"这一天之后的8天的时间戳

我们可以使用`date_range`和`bdate_range`来完成时间戳范围的生成

- **date_range()返回固定频率的DatetimeIndex**

***date_range(start=None,end=None,periods=None,freq=None,tz=None,normalize=False,name=None,closed=None,kwargs)***

返回等距时间点的范围(其中任意两个相邻点之间的差值由指定频率指定)，以便他们都满足开始<[=]x<[=]end

- start: 生成日期的左边界

- end: 生成日期的右边界

- periods: 要生成的周期数

- freq: 频率，default'D',频率字符串可以有倍数,'5H'

- tz: 时区用于返回本地化日期时间索引的时区名称，例如'Asia/Hong_Kong'。默认情况下，生成的DatetimeIndex是时区初始索引。

- normalize: 默认False,在生成日期范围之前，将开始/结束日期标准化

- name: 默认None 设置返回DatetimeIndex name

1. **指定值**
  
  - 默认是包含开始和结束时间，默认频率使用的D(天)

In [127]:
pd.date_range(start='19/2/2022',end='22/2/2022')

DatetimeIndex(['2022-02-19', '2022-02-20', '2022-02-21', '2022-02-22'], dtype='datetime64[ns]', freq='D')

In [128]:
pd.date_range(start='2022',end='2023')

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10',
               ...
               '2022-12-23', '2022-12-24', '2022-12-25', '2022-12-26',
               '2022-12-27', '2022-12-28', '2022-12-29', '2022-12-30',
               '2022-12-31', '2023-01-01'],
              dtype='datetime64[ns]', length=366, freq='D')

 **2.指定开始时期，设置期间数**

In [129]:
pd.date_range(start='1/1/2022',periods=30)

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08',
               '2022-01-09', '2022-01-10', '2022-01-11', '2022-01-12',
               '2022-01-13', '2022-01-14', '2022-01-15', '2022-01-16',
               '2022-01-17', '2022-01-18', '2022-01-19', '2022-01-20',
               '2022-01-21', '2022-01-22', '2022-01-23', '2022-01-24',
               '2022-01-25', '2022-01-26', '2022-01-27', '2022-01-28',
               '2022-01-29', '2022-01-30'],
              dtype='datetime64[ns]', freq='D')

In [130]:
# 指定开始、结束和期间；频率自动生成(线性间隔)
pd.date_range(start='2022-2-19',end='2022-3-19',periods=3)

DatetimeIndex(['2022-02-19', '2022-03-05', '2022-03-19'], dtype='datetime64[ns]', freq=None)

| freq        | 描述                                                    |
| ----------- | ------------------------------------------------------- |
| Y           | 年                                                      |
| M           | 月                                                      |
| D           | 天(默认)                                                |
| T(MIN)      | 分钟                                                    |
| S           | 秒                                                      |
| L           | 毫秒                                                    |
| U           | 微秒                                                    |
| A-DEC       | 每年指定月份的最后一个日历日                            |
| W-MON       | 指定每月的哪个星期开始                                  |
| WOM_2MON    | 指定每几个月的第几个星期(这里是第二个星期)              |
| Q-DEC(Q-月) | 指定月为季度末，每个季度末最后一月的最后一个日历日      |
| B.(M,Q,A),S | 分别代表了工作日,(以月/季度/年为频率)最接近月初的那一天 |
| B           | 工作日                                                  |

In [131]:
# W-MON:从指定星期几开始算起，每周
pd.date_range('2022/12/1','2022/12/26',freq='W-MON')

DatetimeIndex(['2022-12-05', '2022-12-12', '2022-12-19', '2022-12-26'], dtype='datetime64[ns]', freq='W-MON')

In [132]:
# WOM-2MON：每月的第几个星期几开始算，这里是每月的第二个星期二
pd.date_range('2022/12/1','2022/12/26',freq='WOM-2TUE')

DatetimeIndex(['2022-12-13'], dtype='datetime64[ns]', freq='WOM-2TUE')

In [133]:
# 默认freq='D'，每个日历日
pd.date_range('2022/12/1','2022/12/26')

DatetimeIndex(['2022-12-01', '2022-12-02', '2022-12-03', '2022-12-04',
               '2022-12-05', '2022-12-06', '2022-12-07', '2022-12-08',
               '2022-12-09', '2022-12-10', '2022-12-11', '2022-12-12',
               '2022-12-13', '2022-12-14', '2022-12-15', '2022-12-16',
               '2022-12-17', '2022-12-18', '2022-12-19', '2022-12-20',
               '2022-12-21', '2022-12-22', '2022-12-23', '2022-12-24',
               '2022-12-25', '2022-12-26'],
              dtype='datetime64[ns]', freq='D')

In [134]:
# 每个工作日
pd.date_range('2022/12/1','2022/12/31',freq='B')

DatetimeIndex(['2022-12-01', '2022-12-02', '2022-12-05', '2022-12-06',
               '2022-12-07', '2022-12-08', '2022-12-09', '2022-12-12',
               '2022-12-13', '2022-12-14', '2022-12-15', '2022-12-16',
               '2022-12-19', '2022-12-20', '2022-12-21', '2022-12-22',
               '2022-12-23', '2022-12-26', '2022-12-27', '2022-12-28',
               '2022-12-29', '2022-12-30'],
              dtype='datetime64[ns]', freq='B')

In [135]:
# 每小时
pd.date_range('2022/12/1','2022/12/2',freq='H')

DatetimeIndex(['2022-12-01 00:00:00', '2022-12-01 01:00:00',
               '2022-12-01 02:00:00', '2022-12-01 03:00:00',
               '2022-12-01 04:00:00', '2022-12-01 05:00:00',
               '2022-12-01 06:00:00', '2022-12-01 07:00:00',
               '2022-12-01 08:00:00', '2022-12-01 09:00:00',
               '2022-12-01 10:00:00', '2022-12-01 11:00:00',
               '2022-12-01 12:00:00', '2022-12-01 13:00:00',
               '2022-12-01 14:00:00', '2022-12-01 15:00:00',
               '2022-12-01 16:00:00', '2022-12-01 17:00:00',
               '2022-12-01 18:00:00', '2022-12-01 19:00:00',
               '2022-12-01 20:00:00', '2022-12-01 21:00:00',
               '2022-12-01 22:00:00', '2022-12-01 23:00:00',
               '2022-12-02 00:00:00'],
              dtype='datetime64[ns]', freq='H')

In [136]:
# 每分钟
pd.date_range('2022/1/1 12:00','2022/1/1 12:10',freq='T')

DatetimeIndex(['2022-01-01 12:00:00', '2022-01-01 12:01:00',
               '2022-01-01 12:02:00', '2022-01-01 12:03:00',
               '2022-01-01 12:04:00', '2022-01-01 12:05:00',
               '2022-01-01 12:06:00', '2022-01-01 12:07:00',
               '2022-01-01 12:08:00', '2022-01-01 12:09:00',
               '2022-01-01 12:10:00'],
              dtype='datetime64[ns]', freq='T')

In [137]:
# 每秒
pd.date_range('2022/1/1 12:00:00','2022/1/1 12:00:10',freq='S')

DatetimeIndex(['2022-01-01 12:00:00', '2022-01-01 12:00:01',
               '2022-01-01 12:00:02', '2022-01-01 12:00:03',
               '2022-01-01 12:00:04', '2022-01-01 12:00:05',
               '2022-01-01 12:00:06', '2022-01-01 12:00:07',
               '2022-01-01 12:00:08', '2022-01-01 12:00:09',
               '2022-01-01 12:00:10'],
              dtype='datetime64[ns]', freq='S')

In [138]:
# 每毫秒
pd.date_range('2022/1/1 12:00:00','2022/1/1 12:10:01',freq='L')

DatetimeIndex([       '2022-01-01 12:00:00', '2022-01-01 12:00:00.001000',
               '2022-01-01 12:00:00.002000', '2022-01-01 12:00:00.003000',
               '2022-01-01 12:00:00.004000', '2022-01-01 12:00:00.005000',
               '2022-01-01 12:00:00.006000', '2022-01-01 12:00:00.007000',
               '2022-01-01 12:00:00.008000', '2022-01-01 12:00:00.009000',
               ...
               '2022-01-01 12:10:00.991000', '2022-01-01 12:10:00.992000',
               '2022-01-01 12:10:00.993000', '2022-01-01 12:10:00.994000',
               '2022-01-01 12:10:00.995000', '2022-01-01 12:10:00.996000',
               '2022-01-01 12:10:00.997000', '2022-01-01 12:10:00.998000',
               '2022-01-01 12:10:00.999000',        '2022-01-01 12:10:01'],
              dtype='datetime64[ns]', length=601001, freq='L')

In [139]:
# 每微秒
pd.date_range('2022/1/1 12:00:00','2022/1/1 12:10:01',freq='U')

DatetimeIndex([       '2022-01-01 12:00:00', '2022-01-01 12:00:00.000001',
               '2022-01-01 12:00:00.000002', '2022-01-01 12:00:00.000003',
               '2022-01-01 12:00:00.000004', '2022-01-01 12:00:00.000005',
               '2022-01-01 12:00:00.000006', '2022-01-01 12:00:00.000007',
               '2022-01-01 12:00:00.000008', '2022-01-01 12:00:00.000009',
               ...
               '2022-01-01 12:10:00.999991', '2022-01-01 12:10:00.999992',
               '2022-01-01 12:10:00.999993', '2022-01-01 12:10:00.999994',
               '2022-01-01 12:10:00.999995', '2022-01-01 12:10:00.999996',
               '2022-01-01 12:10:00.999997', '2022-01-01 12:10:00.999998',
               '2022-01-01 12:10:00.999999',        '2022-01-01 12:10:01'],
              dtype='datetime64[ns]', length=601000001, freq='U')

In [140]:
# M:每月最后一个日历日
pd.date_range('2022','2023',freq='M')

DatetimeIndex(['2022-01-31', '2022-02-28', '2022-03-31', '2022-04-30',
               '2022-05-31', '2022-06-30', '2022-07-31', '2022-08-31',
               '2022-09-30', '2022-10-31', '2022-11-30', '2022-12-31'],
              dtype='datetime64[ns]', freq='M')

In [141]:
# Q-月:指定月为季度末，每个季度末最后一月的最后一个日历日
print(pd.date_range('2022','2023',freq='Q-DEC'))

DatetimeIndex(['2022-03-31', '2022-06-30', '2022-09-30', '2022-12-31'], dtype='datetime64[ns]', freq='Q-DEC')


In [142]:
# A-月:每年指定月份的最后一个日历日
print(pd.date_range('2022','2023',freq='A-JAN'))

DatetimeIndex(['2022-01-31'], dtype='datetime64[ns]', freq='A-JAN')


In [143]:
# B,(M,Q,A),S-->分别代表了工作日(以月/季度/年为频率) BM:每月最后一个工作日
pd.date_range('2022','2023',freq='BM')

DatetimeIndex(['2022-01-31', '2022-02-28', '2022-03-31', '2022-04-29',
               '2022-05-31', '2022-06-30', '2022-07-29', '2022-08-31',
               '2022-09-30', '2022-10-31', '2022-11-30', '2022-12-30'],
              dtype='datetime64[ns]', freq='BM')

In [144]:
# pd.date_range():日期范围,复合频率
print(pd.date_range('2022/1/1','2022/2/1',freq='7D'))  #间隔7天
print(pd.date_range('2022/1/1','2022/1/2',freq='2h30min'))  #间隔2h30min
print(pd.date_range('2022','2023',freq='2M'))   # 间隔两个月 每个月的最后一天


DatetimeIndex(['2022-01-01', '2022-01-08', '2022-01-15', '2022-01-22',
               '2022-01-29'],
              dtype='datetime64[ns]', freq='7D')
DatetimeIndex(['2022-01-01 00:00:00', '2022-01-01 02:30:00',
               '2022-01-01 05:00:00', '2022-01-01 07:30:00',
               '2022-01-01 10:00:00', '2022-01-01 12:30:00',
               '2022-01-01 15:00:00', '2022-01-01 17:30:00',
               '2022-01-01 20:00:00', '2022-01-01 22:30:00'],
              dtype='datetime64[ns]', freq='150T')
DatetimeIndex(['2022-01-31', '2022-03-31', '2022-05-31', '2022-07-31',
               '2022-09-30', '2022-11-30'],
              dtype='datetime64[ns]', freq='2M')


**3.normalize: 在生成日期范围之前,将开始/结束日期标准化**

In [145]:
pd.date_range(start='1/1/2021 15:30',periods=10)

DatetimeIndex(['2021-01-01 15:30:00', '2021-01-02 15:30:00',
               '2021-01-03 15:30:00', '2021-01-04 15:30:00',
               '2021-01-05 15:30:00', '2021-01-06 15:30:00',
               '2021-01-07 15:30:00', '2021-01-08 15:30:00',
               '2021-01-09 15:30:00', '2021-01-10 15:30:00'],
              dtype='datetime64[ns]', freq='D')

In [146]:
pd.date_range(start='1/1/2021 15:30',periods=10,name='mypd',normalize=True)

DatetimeIndex(['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04',
               '2021-01-05', '2021-01-06', '2021-01-07', '2021-01-08',
               '2021-01-09', '2021-01-10'],
              dtype='datetime64[ns]', name='mypd', freq='D')

In [147]:
pd.date_range(start='1/1/2021 15:30',periods=10,name='mypd',freq='H')

DatetimeIndex(['2021-01-01 15:30:00', '2021-01-01 16:30:00',
               '2021-01-01 17:30:00', '2021-01-01 18:30:00',
               '2021-01-01 19:30:00', '2021-01-01 20:30:00',
               '2021-01-01 21:30:00', '2021-01-01 22:30:00',
               '2021-01-01 23:30:00', '2021-01-02 00:30:00'],
              dtype='datetime64[ns]', name='mypd', freq='H')

In [148]:
pd.date_range(start='1/1/2021 15:30',periods=10,name='mypd',freq='H',normalize=True)

DatetimeIndex(['2021-01-01 00:00:00', '2021-01-01 01:00:00',
               '2021-01-01 02:00:00', '2021-01-01 03:00:00',
               '2021-01-01 04:00:00', '2021-01-01 05:00:00',
               '2021-01-01 06:00:00', '2021-01-01 07:00:00',
               '2021-01-01 08:00:00', '2021-01-01 09:00:00'],
              dtype='datetime64[ns]', name='mypd', freq='H')

In [149]:
#closed 包含left还是right 默认start和right都包含
pd.date_range(start='1/1/2022',end='1/08/2022')

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07', '2022-01-08'],
              dtype='datetime64[ns]', freq='D')

In [150]:
pd.date_range(start='1/1/2022',end='1/08/2022',closed='left')

DatetimeIndex(['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04',
               '2022-01-05', '2022-01-06', '2022-01-07'],
              dtype='datetime64[ns]', freq='D')

***bdate_range(start=None,end=None,periods=None,freq='B')***

返回固定频率的DatetimeIndex，默认频率为工作日

In [151]:
pd.bdate_range(start='2022-6-1',end='2022-6-20')

DatetimeIndex(['2022-06-01', '2022-06-02', '2022-06-03', '2022-06-06',
               '2022-06-07', '2022-06-08', '2022-06-09', '2022-06-10',
               '2022-06-13', '2022-06-14', '2022-06-15', '2022-06-16',
               '2022-06-17', '2022-06-20'],
              dtype='datetime64[ns]', freq='B')

**4.时期频率转换**

***asfreq(freq,method=None,how=None,normalize=False,fill_value=None)***

将时间序列转换为指定的频率

- 如果此数据帧的索引是PeriodIndex,则新索引是使用PeriodIndex转换原始索引的结果

- 否则,新指数相当于pd,date_range(start,end,freq=freq),其中start和end分别是原始索引中的第一个和最后一个条目

- 与新索引中未出现在原始索引的任何时间同步对应的值将为空(NaN)，除非提供了填充此类未知值的方法


In [152]:
# asfrq: 时期频率转换

ts = pd.Series(np.random.rand(4),index=pd.date_range('20220101','20220104'))
print(ts)

2022-01-01    0.073814
2022-01-02    0.010846
2022-01-03    0.999061
2022-01-04    0.373579
Freq: D, dtype: float64


In [153]:
ts.asfreq('4H')

2022-01-01 00:00:00    0.073814
2022-01-01 04:00:00         NaN
2022-01-01 08:00:00         NaN
2022-01-01 12:00:00         NaN
2022-01-01 16:00:00         NaN
2022-01-01 20:00:00         NaN
2022-01-02 00:00:00    0.010846
2022-01-02 04:00:00         NaN
2022-01-02 08:00:00         NaN
2022-01-02 12:00:00         NaN
2022-01-02 16:00:00         NaN
2022-01-02 20:00:00         NaN
2022-01-03 00:00:00    0.999061
2022-01-03 04:00:00         NaN
2022-01-03 08:00:00         NaN
2022-01-03 12:00:00         NaN
2022-01-03 16:00:00         NaN
2022-01-03 20:00:00         NaN
2022-01-04 00:00:00    0.373579
Freq: 4H, dtype: float64

In [154]:
ts.asfreq('4H',method='ffill')

2022-01-01 00:00:00    0.073814
2022-01-01 04:00:00    0.073814
2022-01-01 08:00:00    0.073814
2022-01-01 12:00:00    0.073814
2022-01-01 16:00:00    0.073814
2022-01-01 20:00:00    0.073814
2022-01-02 00:00:00    0.010846
2022-01-02 04:00:00    0.010846
2022-01-02 08:00:00    0.010846
2022-01-02 12:00:00    0.010846
2022-01-02 16:00:00    0.010846
2022-01-02 20:00:00    0.010846
2022-01-03 00:00:00    0.999061
2022-01-03 04:00:00    0.999061
2022-01-03 08:00:00    0.999061
2022-01-03 12:00:00    0.999061
2022-01-03 16:00:00    0.999061
2022-01-03 20:00:00    0.999061
2022-01-04 00:00:00    0.373579
Freq: 4H, dtype: float64

In [155]:
ts.asfreq('4H',method='bfill')

2022-01-01 00:00:00    0.073814
2022-01-01 04:00:00    0.010846
2022-01-01 08:00:00    0.010846
2022-01-01 12:00:00    0.010846
2022-01-01 16:00:00    0.010846
2022-01-01 20:00:00    0.010846
2022-01-02 00:00:00    0.010846
2022-01-02 04:00:00    0.999061
2022-01-02 08:00:00    0.999061
2022-01-02 12:00:00    0.999061
2022-01-02 16:00:00    0.999061
2022-01-02 20:00:00    0.999061
2022-01-03 00:00:00    0.999061
2022-01-03 04:00:00    0.373579
2022-01-03 08:00:00    0.373579
2022-01-03 12:00:00    0.373579
2022-01-03 16:00:00    0.373579
2022-01-03 20:00:00    0.373579
2022-01-04 00:00:00    0.373579
Freq: 4H, dtype: float64

**5.shift()-时间频率进行位移**

***shift(periods=1,freq=None,axis=0,fill-value=None)***

按所需的时段数和可选的时间频率进行移位索引。

如果未传递`freq`，则在不重新调整数据的情况下移动索引，如果传递了freq(在这种情况下，索引必须是date或者datetime，否则会引发NOtimplementedError)，只要在索引中设置了freq或推断的_freq属性，就可以推断freq

- periods:要转换的时段数，可以是正面的也可以是负面的

- freq: 如果指定了freq，则索引值会位移，但数据不会重新对齐，也就是说，如果要在移动时扩展索引并保留原始数据

- axis:{0 or 'index',1 or 'columns'}转换方向

- fill_value: 填充值

In [166]:
import numpy as np
df = pd.DataFrame(np.random.rand(16).reshape((4,4)),
                  index=pd.date_range('20221224','20221227'),
                  columns=list('ABCD'))
df

Unnamed: 0,A,B,C,D
2022-12-24,0.633317,0.501079,0.38719,0.623127
2022-12-25,0.074382,0.886531,0.435037,0.059872
2022-12-26,0.576288,0.929858,0.206699,0.830161
2022-12-27,0.739472,0.2288,0.686617,0.690406


In [167]:
# 正数，数值后移(滞后),模式为行
df.shift(periods=2)

Unnamed: 0,A,B,C,D
2022-12-24,,,,
2022-12-25,,,,
2022-12-26,0.633317,0.501079,0.38719,0.623127
2022-12-27,0.074382,0.886531,0.435037,0.059872


In [168]:
# 正数，数值后移(滞后),模式为列
df.shift(periods=1,axis='columns')

Unnamed: 0,A,B,C,D
2022-12-24,,0.633317,0.501079,0.38719
2022-12-25,,0.074382,0.886531,0.435037
2022-12-26,,0.576288,0.929858,0.206699
2022-12-27,,0.739472,0.2288,0.686617


In [170]:
# 正数，数值后移(滞后),NaN填充为0
df.shift(periods=2,fill_value=0)

Unnamed: 0,A,B,C,D
2022-12-24,0.0,0.0,0.0,0.0
2022-12-25,0.0,0.0,0.0,0.0
2022-12-26,0.633317,0.501079,0.38719,0.623127
2022-12-27,0.074382,0.886531,0.435037,0.059872


In [172]:
# 当设置freq时 对时间索引移动
df.shift(periods=1,freq='D')

Unnamed: 0,A,B,C,D
2022-12-25,0.633317,0.501079,0.38719,0.623127
2022-12-26,0.074382,0.886531,0.435037,0.059872
2022-12-27,0.576288,0.929858,0.206699,0.830161
2022-12-28,0.739472,0.2288,0.686617,0.690406


In [173]:
df.shift(1)

Unnamed: 0,A,B,C,D
2022-12-24,,,,
2022-12-25,0.633317,0.501079,0.38719,0.623127
2022-12-26,0.074382,0.886531,0.435037,0.059872
2022-12-27,0.576288,0.929858,0.206699,0.830161


In [174]:
# 计算变化百分比，这里计算:该时间戳与上一个时间戳相比，变化百分比
per = df/df.shift(1) -1
print(per)

                   A         B         C          D
2022-12-24       NaN       NaN       NaN        NaN
2022-12-25 -0.882551  0.769245  0.123575  -0.903917
2022-12-26  6.747636  0.048872 -0.524870  12.865681
2022-12-27  0.283163 -0.753941  2.321820  -0.168347


**6.Pandas时期:Period()**

In [175]:
p= pd.Period('2022')
p

Period('2022', 'A-DEC')

In [176]:
p= pd.Period('2022',freq="M")
p

Period('2022-01', 'M')

- 通过加减正数可以实现对Period的移动

In [177]:
print(p+1)
print(p-1)

2022-02
2021-12


- 如果两个Period对象拥有相同的频率,则他们的差就是他们之间的单位数量

In [178]:
p = pd.Period('2022-1',freq='M')
print(p,type(p))

2022-01 <class 'pandas._libs.tslibs.period.Period'>


In [179]:
pd.Period('2023-11',freq='M') - p

<22 * MonthEnds>

**period_range()函数可以用来创建规则的时期范围**

In [180]:
rng=pd.period_range('2022/6/1','2022/12/1')
rng

PeriodIndex(['2022-06-01', '2022-06-02', '2022-06-03', '2022-06-04',
             '2022-06-05', '2022-06-06', '2022-06-07', '2022-06-08',
             '2022-06-09', '2022-06-10',
             ...
             '2022-11-22', '2022-11-23', '2022-11-24', '2022-11-25',
             '2022-11-26', '2022-11-27', '2022-11-28', '2022-11-29',
             '2022-11-30', '2022-12-01'],
            dtype='period[D]', length=184, freq='D')

**PeriodIndex类的构造函数允许直接使用一组字符串表示一段时期**

In [181]:
values=['200103','200104','200105']
# 必须指定freq
index = pd.PeriodIndex(values,freq='M')
index

PeriodIndex(['2001-03', '2001-04', '2001-05'], dtype='period[M]', freq='M')

**时间戳与时期之间的转化:pd.to_period(),pd.to_timestamp()**

In [183]:
rng = pd.date_range('2022/1/1',periods=10,freq='M')
prng = pd.period_range('2017','2018',freq='M')
print(rng)
print(prng)

DatetimeIndex(['2022-01-31', '2022-02-28', '2022-03-31', '2022-04-30',
               '2022-05-31', '2022-06-30', '2022-07-31', '2022-08-31',
               '2022-09-30', '2022-10-31'],
              dtype='datetime64[ns]', freq='M')
PeriodIndex(['2017-01', '2017-02', '2017-03', '2017-04', '2017-05', '2017-06',
             '2017-07', '2017-08', '2017-09', '2017-10', '2017-11', '2017-12',
             '2018-01'],
            dtype='period[M]', freq='M')


In [184]:
ts1 = pd.Series(np.random.rand(len(rng)),index=rng)
ts1

2022-01-31    0.925281
2022-02-28    0.831780
2022-03-31    0.073456
2022-04-30    0.546475
2022-05-31    0.861212
2022-06-30    0.377043
2022-07-31    0.836996
2022-08-31    0.497833
2022-09-30    0.473045
2022-10-31    0.726608
Freq: M, dtype: float64

In [185]:
# 每月的最后一日，转换为每月
ts1.to_period().head()

2022-01    0.925281
2022-02    0.831780
2022-03    0.073456
2022-04    0.546475
2022-05    0.861212
Freq: M, dtype: float64

In [187]:
ts1.to_period('M')

2022-01    0.925281
2022-02    0.831780
2022-03    0.073456
2022-04    0.546475
2022-05    0.861212
2022-06    0.377043
2022-07    0.836996
2022-08    0.497833
2022-09    0.473045
2022-10    0.726608
Freq: M, dtype: float64

In [2]:
ts2 = pd.Series(np.random.rand(len(prng)),index=prng)
print(ts2.head()) 

NameError: name 'prng' is not defined

**时间序列-重采样resample**

Pandas中的resample，重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。

重新采样时间序列数据。

方便时间序列的频率转换和重采样方法

对象必须具有类似datetime的索引(DatetimeIndex、PeriodIndex或者TimedeltaIndex)，或者将类似datetime的值传递给on或者level关键字。

***DataFrame.resample(rule,closed=None,label=None,level=None)***

  - *rule*: 表示目标转换的偏移量字符串或对象

  - *closed*: 在降采样时，各时段的哪一段是闭合的，'right'或'left',默认是'right'

  - *label*: 在降采样时，如何设置聚合值的标签，例如9:30-9:35会被标记成9:30还是9:35,默认9:35

In [3]:
rng = pd.date_range('20220101',periods=12)
ts = pd.Series(np.arange(12),index=rng)
ts

2022-01-01     0
2022-01-02     1
2022-01-03     2
2022-01-04     3
2022-01-05     4
2022-01-06     5
2022-01-07     6
2022-01-08     7
2022-01-09     8
2022-01-10     9
2022-01-11    10
2022-01-12    11
Freq: D, dtype: int32

In [4]:
# 将序列下采样到5天的数据箱中，并将放入数据箱的时间戳的值相加
ts.resample('5D').sum()

2022-01-01    10
2022-01-06    35
2022-01-11    21
Freq: 5D, dtype: int32

In [9]:
# 得到一个新的聚合后的Series,聚合方式为求和
print("=====求平均值=====")
print(ts.resample('5D').mean())
print("=====求最大值=====")
print(ts.resample('5D').max())
print("=====求最小值=====")
print(ts.resample('5D').min())
print("=====求中值=====")
print(ts.resample('5D').median())
print("=====返回第一个值=====")
print(ts.resample('5D').first())
print("=====返回最後一个值=====")
print(ts.resample('5D').last())
print("=====OHLC重采样=====")
print(ts.resample('5D').ohlc())


=====求平均值=====
2022-01-01     2.0
2022-01-06     7.0
2022-01-11    10.5
Freq: 5D, dtype: float64
=====求最大值=====
2022-01-01     4
2022-01-06     9
2022-01-11    11
Freq: 5D, dtype: int32
=====求最小值=====
2022-01-01     0
2022-01-06     5
2022-01-11    10
Freq: 5D, dtype: int32
=====求中值=====
2022-01-01     2.0
2022-01-06     7.0
2022-01-11    10.5
Freq: 5D, dtype: float64
=====返回第一个值=====
2022-01-01     0
2022-01-06     5
2022-01-11    10
Freq: 5D, dtype: int32
=====返回最後一个值=====
2022-01-01     4
2022-01-06     9
2022-01-11    11
Freq: 5D, dtype: int32
=====OHLC重采样=====
            open  high  low  close
2022-01-01     0     4    0      4
2022-01-06     5     9    5      9
2022-01-11    10    11   10     11


In [11]:
# 读取文件
import pandas as pd
file = pd.read_csv("data/job_1_norm.csv")
print(file,type(file))
print(file.info())

      Unnamed: 0  worker  gpu  time  batch_time_norm
0              0       0   25     1              476
1              1       1   25     1              509
2              2       2   25     1              468
3              3       3   25     1              433
4              4       4   25     1              475
...          ...     ...  ...   ...              ...
2995        2995       5   25  2988              454
2996        2996       6   25  2988              435
2997        2997       7   25  2988              447
2998        2998       8   25  2988              429
2999        2999       9   25  2988              433

[3000 rows x 5 columns] <class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   Unnamed: 0       3000 non-null   int64
 1   worker           3000 non-null   int64
 2   gpu           

- #### 缺失值处理

对于缺失值一般有两种处理方式，要么删除，要么填充(用某个值代替缺失值)缺失值一般分为两种：

- 一种是某一列的数据缺失

- 另一种是整行数据都缺失，即一个空行

In [12]:
file.isnull()

Unnamed: 0.1,Unnamed: 0,worker,gpu,time,batch_time_norm
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
2995,False,False,False,False,False
2996,False,False,False,False,False
2997,False,False,False,False,False
2998,False,False,False,False,False
