#### Pandas是数据分析中的一个重要模块。给我的感觉有点像平时在用的excel一样重要。
##### 因为Pandas中的内容很多，这里只介绍一些我认为是核心的内容。更多的内容可以通过阅读文档来学习。介绍的内容大致如下：
###### Series、Dataframe、datetime、Timestamp、DatetimeIndex、Period、时间序列的索引和切片、时间序列的重采样、数值计算和统计、文本数据、合并 merge、join、连接与修补 concat、combine_first、去重、替换、数据分组、拆分-应用-合并、透视表及交叉表、数据读取、

#### 一、pandas-Series的概念和创建

In [1]:
# Series简单介绍
# Series可以理解为一个带有标签的一维数组，它可以存储任意的数据类型
# 先引入Numpy和Pandas模块
import numpy as np
import pandas as pd

# 先建立一个有个6元素的随时数据
ar = np.random.rand(6)
# 根据ar建立一个series
sr = pd.Series(ar)
print(ar)
# 特别说明：通过打印可以看出sr有2列内容，但是为什么还有说是一维数组呢？因为在pandas里所有的数据结构都有一个叫index的东西。
print(sr)
print('-----------------------------------')
print(type(sr))
print('-----------------------------------')
# 可以通过.index来看标签的情况，打印的内容是RangeIndex(start=0, stop=6, step=1)，意思是标签0开始，到6结束，步长为1.
# 注意一点：虽然是写的到6介绍，但是不包含6。
print(sr.index)
print('-----------------------------------')
# 既然有标签，那么一定有值。通过.values来查看标签对应的值。
# 我们把series看作是一个带索引index的数组，所以当只看series值的时候，就是个ndarray。
# 既然我们把series看作是一个带索引的ndarray，那么它们两个在索引和切片的功能上差别不大。
# 再拿series和dict比较一下，series更像一个有顺字典（dict本身不存在顺序），故其索引的原理和字典类似。
print(sr.values)
print('-----------------------------------')

[0.43027801 0.13808375 0.7586126  0.0096412  0.1089614  0.55379469]
0    0.430278
1    0.138084
2    0.758613
3    0.009641
4    0.108961
5    0.553795
dtype: float64
-----------------------------------
<class 'pandas.core.series.Series'>
-----------------------------------
RangeIndex(start=0, stop=6, step=1)
-----------------------------------
[0.43027801 0.13808375 0.7586126  0.0096412  0.1089614  0.55379469]
-----------------------------------


In [2]:
# Series的创建
# Series可通过列表、数组、字典或标量。如果愿意的话，你可以直接写

# 通过list创建
a = [1,2,3,4,5,6]
print(a,type(a))
sr_list = pd.Series(a)
print(sr,type(sr_list))
print('-------------------------')

# 通过数组创建
ar = np.random.randn(5)
s_ar = pd.Series(ar)
print(ar)
print(s_ar)
print('-------------------------')
# 默认情况下index是用数字表示的，并且是从0开始，步长为1。但是可通过增加参数来改变这些。
# 在设置index参数的时候一定要与数值的长度保持一致,这里在多说两句，index不仅是数字，还可以是字母。
# 可以通过dtype参数来设置数值类型,可以是整型、浮点型、字符等。
s_ar1 = pd.Series(ar, index = ['a','b','c','d','e'],dtype = np.object)
# 下面这种改变index的写法也可以。
#s_ar1 = pd.Series(ar, index = list('abcde'),dtype = np.object)
print(s_ar1)
print('-------------------------')

# 通过字典创建
# 由字典创建的话，字典的key就是index，values就是values
dic = {'a':1 ,'b':2 , 'c':3, 'd':4, 'e':5}
# 根据字典的一些特性，字典里的key也可以写成标量或者字母等等。如下：
#dic = {'a':1 ,'b':2 , 'c':3, 4:'c', 5:555}
s_dic = pd.Series(dic)
print(s_dic)
print('-------------------------')

# 通过标量创建.
# 标量就是一个固定的值。可以通过index来控制有多少个值。
# 创建6个相同value的series
#s_i = pd.Series(100, index = range(6))
# 创建10个相同value的series
s_i = pd.Series(200, index = range(10))
print(s_i)

[1, 2, 3, 4, 5, 6] <class 'list'>
0    0.430278
1    0.138084
2    0.758613
3    0.009641
4    0.108961
5    0.553795
dtype: float64 <class 'pandas.core.series.Series'>
-------------------------
[ 0.87538084 -0.10392666 -1.05709035 -2.36067051 -1.11032002]
0    0.875381
1   -0.103927
2   -1.057090
3   -2.360671
4   -1.110320
dtype: float64
-------------------------
a    0.875381
b   -0.103927
c    -1.05709
d    -2.36067
e    -1.11032
dtype: object
-------------------------
a    1
b    2
c    3
d    4
e    5
dtype: int64
-------------------------
0    200
1    200
2    200
3    200
4    200
5    200
6    200
7    200
8    200
9    200
dtype: int64


In [3]:
# .name()
# 我的理解就是类似于起个表名。
# .name输出格式为str，如果没用定义输出名称，输出为None
s1 = pd.Series(np.random.randn(10))
print(s1)
print('------------------------')
s2 = pd.Series(np.random.randn(5),name = '双击666')
print(s2)
print(s1.name, s2.name,type(s2.name))

0   -0.144771
1    0.387354
2   -0.261272
3    1.221655
4    0.681740
5   -1.410982
6    1.222884
7   -1.352525
8   -0.385654
9    0.300355
dtype: float64
------------------------
0   -1.100474
1   -0.539494
2   -1.380215
3    0.104062
4   -0.513177
Name: 双击666, dtype: float64
None 双击666 <class 'str'>


In [4]:
# .rename()
# .rename()重命名一个数组的名字，而且还新指向一个数组，原数组不变
s3 = s2.rename('人生苦短，我用python!!!')
print(s3)
print('------------------------------')
# 注意s2是否有变化。
print(s2)

0   -1.100474
1   -0.539494
2   -1.380215
3    0.104062
4   -0.513177
Name: 人生苦短，我用python!!!, dtype: float64
------------------------------
0   -1.100474
1   -0.539494
2   -1.380215
3    0.104062
4   -0.513177
Name: 双击666, dtype: float64


#### 二、pandas-Series的索引
###### 这部分主要包括：下标、标签、切片和布尔型索引

In [5]:
# 下标
# 下标类似于list的方式，但是不完全一样。尤其是[-1]
s = pd.Series(np.random.rand(10))
# Series的下标也是从0开始
print(s)
print(s[0])
print('-----------------------------')
# 通过type查看一下类型
# 输出结果为numpy的float格式。
print(s[0],type(s[0]))
print('-----------------------------')
# 通过dtype查看一下类型
# 输出结果为float格式。
print(s[0].dtype)
print('-----------------------------')
# 可以通过float()函数转换为python float格式
# numpy.float与float占用字节不同
print(float(s[0]),type(float(s[0])))
print('-----------------------------')

# 如果使用[-1]做索引的话就会报错。
#print(s[-1])

0    0.822418
1    0.003431
2    0.386793
3    0.531996
4    0.333466
5    0.774570
6    0.198023
7    0.230796
8    0.939770
9    0.780122
dtype: float64
0.822417988217558
-----------------------------
0.822417988217558 <class 'numpy.float64'>
-----------------------------
float64
-----------------------------
0.822417988217558 <class 'float'>
-----------------------------


In [6]:
# 索引
# 同样是类似下标索引，用[]表示，内写上index，注意index是字符串
s = pd.Series(np.random.rand(6))
# 也可以加上index参数
s1 = pd.Series(np.random.rand(6),index = ['a','b','c','d','e','f'])
print(s)
print('-----------------------')
print('这个是带index参数的：', '\n', s1)
print('-----------------------')
print(s[1])
print('-----------------------')
print('这个是带index参数的：', '\n',s1['a'])
print('-----------------------')

# 可以选择多个标签值，用[[]]来表示，其实相当于[]中包含着一个list。需要注意的一点是，多标签索引的结果会生成一个新的数组。
s_i = s[[3,4,5]]
print(s_i)
# 可以不按下标顺序索引
s_i1 = s1[['d','a']]
print(s_i1)

0    0.480849
1    0.823935
2    0.348288
3    0.696230
4    0.923584
5    0.860485
dtype: float64
-----------------------
这个是带index参数的： 
 a    0.115293
b    0.547916
c    0.253808
d    0.411296
e    0.735019
f    0.894954
dtype: float64
-----------------------
0.8239345672735611
-----------------------
这个是带index参数的： 
 0.11529256124040532
-----------------------
3    0.696230
4    0.923584
5    0.860485
dtype: float64
d    0.411296
a    0.115293
dtype: float64


In [7]:
# 切片
# 注意：如果用index做切片索引的话，是末端包含的

s1 = pd.Series(np.random.rand(6))
s2 = pd.Series(np.random.rand(6), index = ['a','b','c','d','e','f'])
print(s1)
print(s2)
print('----------------------')

# 用下标做切片
# 注意一下，这是不末端包含的。
print(s1[2:5],s1[5])
print('----------------------')

# 用index做切片
# 注意一下，这是末端包含的。
print('通过index对S2进行切片，但末端包含','\n' , s2['b':'e'],s2['e'])
# 同样是对s2进行切片
print('通过下标对S2进行切片，但不末端包含','\n' , s2[2:5],s2[5])
print('----------------------')

# 特别说明一下：
# 如果index在定义的时候也是用数字来表示，那么在用标签进行索引切片的时候，会默认使用下标而不是标签。
# 所以在用index参数的时候，不建议还用数字。而且也建议在使用index参数的情况下，还是使用标签来索引切片。

# 通过下标做切片，和list写法一样，可以用[-1]。如果使用了index参数的话，也可以使用[-1]做索引。
# print('S1没有使用index参数，不能使用[-1]来索引：','\n' , s1[-1])
print('S2使用index参数，可以使用[-1]来索引：', '\n', s2[-1])
print('----------------------')
print('S2使用index参数，可以使用[-1]来切片：', '\n', s2[:-1])
print('----------------------')
print(s2[::2])

0    0.339297
1    0.603015
2    0.545451
3    0.614710
4    0.011896
5    0.643576
dtype: float64
a    0.683527
b    0.088345
c    0.479402
d    0.212673
e    0.585541
f    0.050135
dtype: float64
----------------------
2    0.545451
3    0.614710
4    0.011896
dtype: float64 0.6435763218610769
----------------------
通过index对S2进行切片，但末端包含 
 b    0.088345
c    0.479402
d    0.212673
e    0.585541
dtype: float64 0.5855410893207621
通过下标对S2进行切片，但不末端包含 
 c    0.479402
d    0.212673
e    0.585541
dtype: float64 0.05013540234889258
----------------------
S2使用index参数，可以使用[-1]来索引： 
 0.05013540234889258
----------------------
S2使用index参数，可以使用[-1]来切片： 
 a    0.683527
b    0.088345
c    0.479402
d    0.212673
e    0.585541
dtype: float64
----------------------
a    0.683527
c    0.479402
e    0.585541
dtype: float64


In [8]:
# 布尔型索引
# 布尔型索引就类似数组的布尔型索引。
s = pd.Series(np.random.rand(4)*100)
# 将下标为5的元素改为空值。
s[5] = None
# 也可以写成如下形式来改空值。
# s[5] = np.nan
print(s)
print('------------------')

# 数组做判断之后，返回的是一个由布尔值组成的新数组
# .isnull()判断是否是空值，.notnull() 判断是否不是空值 
# None代表空值，NaN代表有问题的数值，两个都会识别为空值
s1_b = s > 50
s2_b = s.isnull()
s3_b = s.notnull()

# 注意一下类型
print(s1_b, type(s1_b), s1_b.dtype)

print(s2_b)
print(s3_b)
print('------------------')
# 用[判断条件]表示，其中判断条件可以是一个语句，或者是 一个布尔型数组！
print('使用的是条件判读语句：', '\n', s[s > 50])

# s3_b是判断是否不是空值，所以只有最后一个是False。
print(s3_b)
# 因为只有最后一个是False，所以会打印出前面4个。
print('使用的是布尔型数组：', '\n', s[s3_b])

0    26.8957
1    52.6821
2    15.0081
3    35.0392
5       None
dtype: object
------------------
0    False
1     True
2    False
3    False
5    False
dtype: bool <class 'pandas.core.series.Series'> bool
0    False
1    False
2    False
3    False
5     True
dtype: bool
0     True
1     True
2     True
3     True
5    False
dtype: bool
------------------
使用的是条件判读语句： 
 1    52.6821
dtype: object
0     True
1     True
2     True
3     True
5    False
dtype: bool
使用的是布尔型数组： 
 0    26.8957
1    52.6821
2    15.0081
3    35.0392
dtype: object


#### 三、pandas-Series的基本操作
###### 数据的增、删、查、改、重新索引、对齐

In [9]:
# 数据的查看
# 通过head()查看头部的数据，可添加参数来控制显示数据的多少。
# 通过tail()查看尾部数据，可添加参数来控制显示数据的多少。
# 默认情况下显示5条数据
s = pd.Series(np.random.rand(30))
print('默认显示头部5条：', '\n', s.head())
print('显示头部3条：', '\n', s.head(3))
print('--------------------------')
print('默认显示尾部5条：', '\n', s.tail())
print('显示尾部3条：', '\n', s.tail(3))


默认显示头部5条： 
 0    0.174811
1    0.450792
2    0.005235
3    0.250825
4    0.138553
dtype: float64
显示头部3条： 
 0    0.174811
1    0.450792
2    0.005235
dtype: float64
--------------------------
默认显示尾部5条： 
 25    0.310429
26    0.737797
27    0.301421
28    0.025559
29    0.006734
dtype: float64
显示尾部3条： 
 27    0.301421
28    0.025559
29    0.006734
dtype: float64


In [10]:
# 重新索引
# 通过reindex()对数据进行重新索引。
# 这里需要说明2点：
# 1、重新索引不是修改之前的索引，而是再新增一套索引。如果当前索引不存在，则引入缺失值,默认缺失值为NaN。
# 2、重新索引不是对现有Series的修改而是新建，可通过查看id来确定。

s = pd.Series(np.random.rand(5), index = ['a','b','c','d','e'])
print(s)

# 通过reindex()修改了2个索引，因修改的索引在原数据中不存在，故替换成缺失值。
s1 = s.reindex(['a','f','d','g','e'])
print(s1)

# 因为原索引是['a','b','c','d','e']没有和['v','w','x','y','z']重复的，所以返回的是缺失值
s2 = s.reindex(['v','w','x','y','z'])
# 打印出来的都是NaN.
print(s2)

# 注意id的变化。
print('s的id是：', '\n',id(s))
print('s1的id是：', '\n',id(s1))
print('s2的id是：', '\n',id(s2))

# 通过fill_value参数来完成对缺失值的填充。
# 将缺失值改为666
s3 = s.reindex(['a','f','d','g','e'], fill_value = 666)
print(s1)
print(s3)


a    0.112865
b    0.558902
c    0.921444
d    0.824592
e    0.627015
dtype: float64
a    0.112865
f         NaN
d    0.824592
g         NaN
e    0.627015
dtype: float64
v   NaN
w   NaN
x   NaN
y   NaN
z   NaN
dtype: float64
s的id是： 
 1821277197536
s1的id是： 
 1821277198488
s2的id是： 
 1821277198432
a    0.112865
f         NaN
d    0.824592
g         NaN
e    0.627015
dtype: float64
a      0.112865
f    666.000000
d      0.824592
g    666.000000
e      0.627015
dtype: float64


In [11]:
# 对齐
# 对齐操作在Series和ndarray之间的主要区别是，Series会根据标签自动对齐
# index的顺序不会影响数值计算，因为是以标签来计算的。


s1 = pd.Series(np.random.rand(3), index = ['a','b','c'])
s2 = pd.Series(np.random.rand(3), index = ['d','a','b'])
print(s1)
print(s2)
# 将s1和s2中index的a进行相加，将s1和s2中index的b进行相加，
# 缺失值和任何值计算结果还是缺失值
print(s1+s2)

# s3和s4的个数不同。
s3 = pd.Series(np.random.rand(4), index = ['a','b','c','e'])
s4 = pd.Series(np.random.rand(3), index = ['d','a','b'])
print(s3)
print(s4)
# 两个Series的元素个数也不影响计算结果。
# 对于没有对应起来的index依然用缺失值进行处理。
print(s3+s4)

a    0.450342
b    0.355775
c    0.720125
dtype: float64
d    0.483428
a    0.699010
b    0.661729
dtype: float64
a    1.149352
b    1.017504
c         NaN
d         NaN
dtype: float64
a    0.995380
b    0.172621
c    0.663250
e    0.963360
dtype: float64
d    0.179248
a    0.013980
b    0.343542
dtype: float64
a    1.009361
b    0.516163
c         NaN
d         NaN
e         NaN
dtype: float64


In [12]:
# 增加
# 通过append()方法，直接生成一个新的数组，不改变之前的数组。
# 通过下标索引或者index添加值。
s1 = pd.Series(np.random.rand(5))
s2 = pd.Series(np.random.rand(5), index = list('abcde'))

print(s1)
# 通过下标添加
s1[5] = 100
# 多了一个元素。
print(s1)
print('---------------------')
print(s2)
# 通过index添加。
s2['f'] = 666
# 多了一个元素
print(s2)
print('---------------------')

# 通过append直接将两个数组合起来。
# 注意；append会生成新的数组，并且不会改变原数组。
s3 = s1.append(s2)
print(s3)
print(s1)

0    0.627493
1    0.651931
2    0.719666
3    0.304280
4    0.453998
dtype: float64
0      0.627493
1      0.651931
2      0.719666
3      0.304280
4      0.453998
5    100.000000
dtype: float64
---------------------
a    0.225217
b    0.383554
c    0.171590
d    0.643917
e    0.414232
dtype: float64
a      0.225217
b      0.383554
c      0.171590
d      0.643917
e      0.414232
f    666.000000
dtype: float64
---------------------
0      0.627493
1      0.651931
2      0.719666
3      0.304280
4      0.453998
5    100.000000
a      0.225217
b      0.383554
c      0.171590
d      0.643917
e      0.414232
f    666.000000
dtype: float64
0      0.627493
1      0.651931
2      0.719666
3      0.304280
4      0.453998
5    100.000000
dtype: float64


In [13]:
# 删除
# 通过drop()删除元素。在默认（inplace=False）情况下，删除元素后会得到一个新的数组（即，不改变原数组）。
# 如果(inplace=True)就会改变原数组。
s = pd.Series(np.random.rand(5), index = list('abcde'))
sd = pd.Series(np.random.rand(3), index = list('xyz'))
print(s)
print('--------------------------')
s1 = s.drop('a')
# 删除多个的时候，用list把需要删除的元素的索引扩起来。
s2 = s.drop(['d','e'])

# 注意默认情况的各个数组的id。
print(s1, id(s1))
print(s2, id(s2))
print(s, id(s))
print('--------------------------')
# 当inplace=True的时候直接改变原数组
print(sd, id(sd))
sd1 = sd.drop('x',inplace = True)
# 因为sd1改变的是原数组，所以打印sd1的时候会得到None。
print(sd1)
print(sd, id(sd))

a    0.175270
b    0.236894
c    0.414274
d    0.601838
e    0.661139
dtype: float64
--------------------------
b    0.236894
c    0.414274
d    0.601838
e    0.661139
dtype: float64 1821277851208
a    0.175270
b    0.236894
c    0.414274
dtype: float64 1821277851040
a    0.175270
b    0.236894
c    0.414274
d    0.601838
e    0.661139
dtype: float64 1821277813000
--------------------------
x    0.628736
y    0.971655
z    0.585635
dtype: float64 1821277812832
None
y    0.971655
z    0.585635
dtype: float64 1821277812832


In [14]:
# 修改
# 通过index直接修改，类似序列
s = pd.Series(np.random.rand(3), index = ['a','b','c'])
print(s)
s['a'] = 100
s[['b','c']] = 666
print(s)

a    0.032892
b    0.192840
c    0.610386
dtype: float64
a    100.0
b    666.0
c    666.0
dtype: float64
