In [1]:
import numpy as np
import pandas as pd

In [22]:
# Pandas具有功能全面的高性能内存中连接操作，与SQL等关系数据库非常相似。
# Pandas提供了一个单独的merge()函数，作为DataFrame对象之间所有标准数据库连接操作的入口 -

# pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
# left_index=False, right_index=False, sort=True)
# Python
# 在这里，有以下几个参数可以使用 -

# left - 一个DataFrame对象。
# right - 另一个DataFrame对象。
# on - 列(名称)连接，必须在左和右DataFrame对象中存在(找到)。
# left_on - 左侧DataFrame中的列用作键，可以是列名或长度等于DataFrame长度的数组。
# right_on - 来自右的DataFrame的列作为键，可以是列名或长度等于DataFrame长度的数组。
# left_index - 如果为True，则使用左侧DataFrame中的索引(行标签)作为其连接键。 
# 在具有MultiIndex(分层)的DataFrame的情况下，级别的数量必须与来自右DataFrame的连接键的数量相匹配。
# right_index - 与右DataFrame的left_index具有相同的用法。
# how - 它是left, right, outer以及inner之中的一个，默认为内inner。 下面将介绍每种方法的用法。
# sort - 按照字典顺序通过连接键对结果DataFrame进行排序。默认为True，设置为False时，在很多情况下大大提高性能。

left=pd.DataFrame({
    'id':[1,2,3,4,5],
    'Name':['Alex','Amy','Allen','Alice','Ayoung'],
    'subject_id':['sub1','sub2','sub4','sub6','sub5'],
})
right=pd.DataFrame({
    'id':[1,2,3,4,5],
    'Name':['Bob','Bruis','Blue','Black','Bow'],
    'subject_id':['sub2','sub4','sub3','sub6','sub6']
})
print(left)
print('***'*15)
print(right)

     Name  id subject_id
0    Alex   1       sub1
1     Amy   2       sub2
2   Allen   3       sub4
3   Alice   4       sub6
4  Ayoung   5       sub5
*********************************************
    Name  id subject_id
0    Bob   1       sub2
1  Bruis   2       sub4
2   Blue   3       sub3
3  Black   4       sub6
4    Bow   5       sub6


In [23]:
# 在一个键上合并两个数据帧
rs=pd.merge(left,right,on='id')#全连接
print(rs)

   Name_x  id subject_id_x Name_y subject_id_y
0    Alex   1         sub1    Bob         sub2
1     Amy   2         sub2  Bruis         sub4
2   Allen   3         sub4   Blue         sub3
3   Alice   4         sub6  Black         sub6
4  Ayoung   5         sub5    Bow         sub6


In [14]:
# 合并多个键上的两个数据框
rs=pd.merge(left,right,on=['id','subject_id'])
print(rs)

   Name_x  id subject_id Name_y
0   Alice   4       sub6  Black
1  Ayoung   5       sub5    Bow


In [15]:
# 合并使用“how”的参数

# 如何合并参数指定如何确定哪些键将被包含在结果表中。
# 如果组合键没有出现在左侧或右侧表中，则连接表中的值将为NA。
# 这里是how选项和SQL等效名称的总结 -

# 合并方法	SQL等效	描述
# left	LEFT OUTER JOIN	使用左侧对象的键
# right	RIGHT OUTER JOIN	使用右侧对象的键
# outer	FULL OUTER JOIN	使用键的联合
# inner	INNER JOIN	使用键的交集

rs=pd.merge(left,right,on='subject_id',how='left')#左连接,值取公共长度
print(rs)

   Name_x  id_x subject_id Name_y  id_y
0    Alex     1       sub1    NaN   NaN
1     Amy     2       sub2    Bob   1.0
2   Allen     3       sub4  Bruis   2.0
3   Alice     4       sub6  Black   4.0
4  Ayoung     5       sub5    Bow   5.0


In [17]:
rs=pd.merge(left,right,on='subject_id',how='right')#右连接
print(rs)

   Name_x  id_x subject_id Name_y  id_y
0     Amy   2.0       sub2    Bob     1
1   Allen   3.0       sub4  Bruis     2
2   Alice   4.0       sub6  Black     4
3  Ayoung   5.0       sub5    Bow     5
4     NaN   NaN       sub3   Blue     3


In [18]:
# Outer Join示例
rs=pd.merge(left,right,how='outer',on='subject_id')#补全所有的数据，
print(rs)

   Name_x  id_x subject_id Name_y  id_y
0    Alex   1.0       sub1    NaN   NaN
1     Amy   2.0       sub2    Bob   1.0
2   Allen   3.0       sub4  Bruis   2.0
3   Alice   4.0       sub6  Black   4.0
4  Ayoung   5.0       sub5    Bow   5.0
5     NaN   NaN       sub3   Blue   3.0


In [24]:
# Inner Join示例
# 连接将在索引上进行。连接(Join)操作将授予它所调用的对象。
# 所以，a.join(b)不等于b.join(a)。
rs=pd.merge(left,right,on='subject_id',how='inner')#只取共有的列值
print(rs)

  Name_x  id_x subject_id Name_y  id_y
0    Amy     2       sub2    Bob     1
1  Allen     3       sub4  Bruis     2
2  Alice     4       sub6  Black     4
3  Alice     4       sub6    Bow     5


In [25]:
# # Pandas提供了各种工具(功能)，可以轻松地将Series，DataFrame和Panel对象组合在一起。
# pd.concat(objs,axis=0,join='outer',join_axes=None,
# ignore_index=False)
# Python
# 其中，

# objs - 这是Series，DataFrame或Panel对象的序列或映射。
# axis - {0，1，...}，默认为0，这是连接的轴。
# join - {'inner', 'outer'}，默认inner。如何处理其他轴上的索引。联合的外部和交叉的内部。
# ignore_index − 布尔值，默认为False。如果指定为True，则不要使用连接轴上的索引值。结果轴将被标记为：0，...，n-1。
# join_axes - 这是Index对象的列表。用于其他(n-1)轴的特定索引，而不是执行内部/外部集逻辑。


In [27]:
# 连接对象
# concat()函数完成了沿轴执行级联操作的所有重要工作。下面代码中，创建不同的对象并进行连接。

one=pd.DataFrame({
    'Name':['Alex','Amy','Allen','Alice','Ayoung'],
    'subject_id':['sub1','sub2','sub4','sub6','sub5'],
    'Marks_scored':[98,45,67,87,65]
})
two=pd.DataFrame({
    'Name':['Billy','Balla','Bran','Bryce','Betty'],
    'subject_id':['sub2','sub4','sub3','sub6','sub5'],
    'Marks_scored':[89,75,54,32,67]
})
rs=pd.concat([one,two])
print(rs)

   Marks_scored    Name subject_id
0            98    Alex       sub1
1            45     Amy       sub2
2            67   Allen       sub4
3            87   Alice       sub6
4            65  Ayoung       sub5
0            89   Billy       sub2
1            75   Balla       sub4
2            54    Bran       sub3
3            32   Bryce       sub6
4            67   Betty       sub5


In [28]:
# 假设想把特定的键与每个碎片的DataFrame关联起来。可以通过使用键参数来实现这一点 -
rs=pd.concat([one,two],keys=['x','y'])
print(rs)

     Marks_scored    Name subject_id
x 0            98    Alex       sub1
  1            45     Amy       sub2
  2            67   Allen       sub4
  3            87   Alice       sub6
  4            65  Ayoung       sub5
y 0            89   Billy       sub2
  1            75   Balla       sub4
  2            54    Bran       sub3
  3            32   Bryce       sub6
  4            67   Betty       sub5


In [29]:
# 结果的索引是重复的; 每个索引重复。
# 如果想要生成的对象必须遵循自己的索引，请将ignore_index设置为True。参考以下示例代码 -
rs=pd.concat([one,two],ignore_index=True)#索引追加
print(rs)

   Marks_scored    Name subject_id
0            98    Alex       sub1
1            45     Amy       sub2
2            67   Allen       sub4
3            87   Alice       sub6
4            65  Ayoung       sub5
5            89   Billy       sub2
6            75   Balla       sub4
7            54    Bran       sub3
8            32   Bryce       sub6
9            67   Betty       sub5


In [32]:
# 观察，索引完全改变，键也被覆盖。如果需要沿axis=1添加两个对象，则会添加新列。
one=pd.DataFrame({
    'Name':['Alex','Amy','Allen','Alice','Ayoung'],
    'subject_id':['sub1','sub2','sub4','sub6','sub5'],
    'Marks_scored':[98,45,67,87,65]
},index=[1,2,3,4,5]
)
two=pd.DataFrame({
    'Name':['Billy','Balla','Bran','Bryce','Betty'],
    'subject_id':['sub2','sub4','sub3','sub6','sub5'],
    'Marks_scored':[89,75,54,32,67]
},
index=[1,2,3,4,5]
)

In [33]:
rs=pd.concat([one,two],axis=1)#列名在同一行
print(rs)

   Marks_scored    Name subject_id  Marks_scored   Name subject_id
1            98    Alex       sub1            89  Billy       sub2
2            45     Amy       sub2            75  Balla       sub4
3            67   Allen       sub4            54   Bran       sub3
4            87   Alice       sub6            32  Bryce       sub6
5            65  Ayoung       sub5            67  Betty       sub5


In [34]:
# 使用附加连接

# 连接的一个有用的快捷方式是在Series和DataFrame实例的append方法。
# 这些方法实际上早于concat()方法。 它们沿axis=0连接，即索引 -
rs=one.append(two)
print(rs)

   Marks_scored    Name subject_id
1            98    Alex       sub1
2            45     Amy       sub2
3            67   Allen       sub4
4            87   Alice       sub6
5            65  Ayoung       sub5
1            89   Billy       sub2
2            75   Balla       sub4
3            54    Bran       sub3
4            32   Bryce       sub6
5            67   Betty       sub5


In [35]:
# append()函数也可以带多个对象 -
rs=one.append([two,one,two])
print(rs)

   Marks_scored    Name subject_id
1            98    Alex       sub1
2            45     Amy       sub2
3            67   Allen       sub4
4            87   Alice       sub6
5            65  Ayoung       sub5
1            89   Billy       sub2
2            75   Balla       sub4
3            54    Bran       sub3
4            32   Bryce       sub6
5            67   Betty       sub5
1            98    Alex       sub1
2            45     Amy       sub2
3            67   Allen       sub4
4            87   Alice       sub6
5            65  Ayoung       sub5
1            89   Billy       sub2
2            75   Balla       sub4
3            54    Bran       sub3
4            32   Bryce       sub6
5            67   Betty       sub5


In [36]:
# 时间序列

# Pandas为时间序列数据的工作时间提供了一个强大的工具，尤其是在金融领域。在处理时间序列数据时，我们经常遇到以下情况 -

# 生成时间序列
# 将时间序列转换为不同的频率
# Pandas提供了一个相对紧凑和自包含的工具来执行上述任务。


In [37]:
# 获取当前时间
# datetime.now()用于获取当前的日期和时间。
print(pd.datetime.now())

2018-01-04 10:58:40.593738


In [38]:
time=pd.Timestamp('2018-1-5')
print(time)

2018-01-05 00:00:00


In [40]:
# 也可以转换整数或浮动时期。
# 这些的默认单位是纳秒(因为这些是如何存储时间戳的)。 然而，时代往往存储在另一个可以指定的单元中。
time=pd.Timestamp(1588686880,unit='s')
print(time)

2020-05-05 13:54:40


In [41]:
# 创建一个时间范围
time=pd.date_range('12:00','23:59',freq='30min').time
print(time)

[datetime.time(12, 0) datetime.time(12, 30) datetime.time(13, 0)
 datetime.time(13, 30) datetime.time(14, 0) datetime.time(14, 30)
 datetime.time(15, 0) datetime.time(15, 30) datetime.time(16, 0)
 datetime.time(16, 30) datetime.time(17, 0) datetime.time(17, 30)
 datetime.time(18, 0) datetime.time(18, 30) datetime.time(19, 0)
 datetime.time(19, 30) datetime.time(20, 0) datetime.time(20, 30)
 datetime.time(21, 0) datetime.time(21, 30) datetime.time(22, 0)
 datetime.time(22, 30) datetime.time(23, 0) datetime.time(23, 30)]


In [42]:
# 改变时间的频率
time=pd.date_range('12:00','23:59',freq='H').time
print(time)

[datetime.time(12, 0) datetime.time(13, 0) datetime.time(14, 0)
 datetime.time(15, 0) datetime.time(16, 0) datetime.time(17, 0)
 datetime.time(18, 0) datetime.time(19, 0) datetime.time(20, 0)
 datetime.time(21, 0) datetime.time(22, 0) datetime.time(23, 0)]


In [46]:
# 转换为时间戳
# 要转换类似日期的对象(例如字符串，时代或混合)的序列或类似列表的对象，可以使用to_datetime函数。
# 当传递时将返回一个Series(具有相同的索引)，而类似列表被转换为DatetimeIndex。
time=pd.to_datetime(pd.Series(['Jul 28, 2017','2019-1-5',None]))#2017前面必须加空格
print(time)
# NaT表示不是一个时间的值(相当于NaN)

0   2017-07-28
1   2019-01-05
2          NaT
dtype: datetime64[ns]


In [47]:
time=pd.to_datetime(['2017/12/21','2019-06-10',None])
print(time)

DatetimeIndex(['2017-12-21', '2019-06-10', 'NaT'], dtype='datetime64[ns]', freq=None)


In [48]:
# 日期功能扩展了时间序列，在财务数据分析中起主要作用。在处理日期数据的同时，我们经常会遇到以下情况 -
# 生成日期序列
# 将日期序列转换为不同的频率


In [52]:
# 创建一个日期范围

# 通过指定周期和频率，使用date.range()函数就可以创建日期序列。
# 默认情况下，范围的频率是天。
datelist=pd.date_range('2020/11/20',periods=5)
print(datelist)


DatetimeIndex(['2020-11-20', '2020-11-21', '2020-11-22', '2020-11-23',
               '2020-11-24'],
              dtype='datetime64[ns]', freq='D')


In [53]:
datelist=pd.date_range('2020/11/21',periods=5,freq='M')
print(datelist)

DatetimeIndex(['2020-11-30', '2020-12-31', '2021-01-31', '2021-02-28',
               '2021-03-31'],
              dtype='datetime64[ns]', freq='M')


In [59]:
# bdate_range()函数

# bdate_range()用来表示商业日期范围，不同于date_range()，它不包括星期六和星期天。

datelist=pd.bdate_range('2011/11/03',periods=5)#相当于 ,freq='B'
print(datelist)

DatetimeIndex(['2011-11-03', '2011-11-04', '2011-11-07', '2011-11-08',
               '2011-11-09'],
              dtype='datetime64[ns]', freq='B')


In [60]:
# 像date_range和bdate_range这样的便利函数利用了各种频率别名。
# date_range的默认频率是日历中的自然日，而bdate_range的默认频率是工作日。
start=pd.datetime(2017,11,1)
end=pd.datetime(2017,11,5)
dates=pd.date_range(start,end)
print(dates)

DatetimeIndex(['2017-11-01', '2017-11-02', '2017-11-03', '2017-11-04',
               '2017-11-05'],
              dtype='datetime64[ns]', freq='D')


In [None]:
# 偏移别名

# 大量的字符串别名被赋予常用的时间序列频率。我们把这些别名称为偏移别名。

# 别名	描述说明
# B	工作日频率
# BQS	商务季度开始频率
# D	日历/自然日频率
# A	年度(年)结束频率
# W	每周频率
# BA	商务年底结束
# M	月结束频率
# BAS	商务年度开始频率
# SM	半月结束频率
# BH	商务时间频率
# SM	半月结束频率
# BH	商务时间频率
# BM	商务月结束频率
# H	小时频率
# MS	月起始频率
# T, min	分钟的频率
# SMS	SMS半开始频率
# S	秒频率
# BMS	商务月开始频率
# L, ms	毫秒
# Q	季度结束频率
# U, us	微秒
# BQ	商务季度结束频率
# N	纳秒
# BQ	商务季度结束频率
# QS	季度开始频率