In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pandas import Series,DataFrame
import seaborn as sns
%matplotlib inline
index=['语文','数学','英语','理综']
data1=[150,150,150,300]
s=Series(data=data1,index=index)
s

Matplotlib is building the font cache; this may take a moment.


语文    150
数学    150
英语    150
理综    300
dtype: int64

**Series基本概念**  
1、它是一个定长的有序字典  
2、它有shape、size、index、values等属性  
3、功能方法：head()、tail()分别查看前n个和后n个值  
4、当索引对应的值，可能出现缺失数据显示NaN  
5、pd.isnull()、pd.notnull()或者自带isnull()、notnull()函数都可检测缺失数据  
6、使用bool型的列表访问数组对象  
7、Series对象本身及其实例都有一个name属性  

In [2]:
display(s.shape,s.size)

(4,)

4

In [3]:
s.values

array([150, 150, 150, 300], dtype=int64)

In [4]:
s.index

Index(['语文', '数学', '英语', '理综'], dtype='object')

In [5]:
s.head(2)

语文    150
数学    150
dtype: int64

In [6]:
dic={
    '语文':150,
    '数学':150,
    '英语':150,
    '理综':300
}

In [7]:
s=Series(data=data1,index=['语文','物理','数学','化学'])  #如果数据来源类型为list时，index与data两者没有强对应的关系；所以超出了范围也不会提示出错
s

语文    150
物理    150
数学    150
化学    300
dtype: int64

In [8]:
s=Series(data=dic,index=['语文','物理','数学','化学']) #如果data的数据类型为dict字典时，index与data就是强对应的关系，一旦索引超出范围就会提示出错
s

语文    150.0
物理      NaN
数学    150.0
化学      NaN
dtype: float64

In [9]:
s.isnull()

语文    False
物理     True
数学    False
化学     True
dtype: bool

In [10]:
s[s.isnull()]

物理   NaN
化学   NaN
dtype: float64

In [11]:
s.notnull()

语文     True
物理    False
数学     True
化学    False
dtype: bool

In [12]:
s[s.notnull()]

语文    150.0
数学    150.0
dtype: float64

In [13]:
#检查是否存在空值
s.isnull().any()

True

In [14]:
#为此series设置名称（在DataFrame中充当列名称）
s.name='Score'
s

语文    150.0
物理      NaN
数学    150.0
化学      NaN
Name: Score, dtype: float64

In [15]:
#根据值来排序
s.sort_values(ascending=True)

语文    150.0
数学    150.0
物理      NaN
化学      NaN
Name: Score, dtype: float64

In [16]:
#根据索引来排序
s.sort_index()

化学      NaN
数学    150.0
物理      NaN
语文    150.0
Name: Score, dtype: float64

In [17]:
#统计值出现的次数
s3=Series(data=np.random.randint(0,10,size=50))
s3

0     8
1     1
2     7
3     7
4     2
5     8
6     9
7     3
8     2
9     4
10    0
11    3
12    1
13    5
14    6
15    4
16    7
17    6
18    7
19    4
20    8
21    9
22    1
23    5
24    4
25    1
26    8
27    2
28    4
29    6
30    1
31    2
32    1
33    1
34    7
35    6
36    6
37    2
38    4
39    1
40    8
41    4
42    2
43    7
44    0
45    7
46    5
47    7
48    9
49    6
dtype: int32

In [18]:
s3.value_counts()

1    8
7    8
4    7
2    6
6    6
8    5
9    3
5    3
3    2
0    2
Name: count, dtype: int64

In [19]:
s1=Series(data=np.random.randint(0,100,size=5),index=list('ABCDE'))
s2=Series(data=np.random.randint(0,100,size=5),index=list('ABCDE'))
display(s1,s2)

A    58
B    37
C    78
D    51
E    10
dtype: int32

A    10
B    17
C    16
D    33
E    34
dtype: int32

**Series运算**  
1、numpy数组的运算也同样适用于Series  
2、Series之间的运算  
在运算中自动对齐不同索引的数据  
如果索引不对应，则应补NaN  
注意：要想保留所有的index，则需要使用  
add()加  
sub()减  
mul()乘  
div()除  
3、

In [20]:
#与一个数运算，广播机制运算
s1+1

A    59
B    38
C    79
D    52
E    11
dtype: int32

In [21]:
#Series之间的运算（索引对齐）
s1+s2

A    68
B    54
C    94
D    84
E    44
dtype: int32

In [22]:
s3=Series(data=np.random.randint(0,100,size=5),index=list('BCDEF'))
s3

B    27
C    44
D    80
E    38
F    64
dtype: int32

In [23]:
#因为索引对齐，所以两个Series对象中，索引只在某一个对象出现，而另外一个对象没有的话，就会出现NaN
s1+s3

A      NaN
B     64.0
C    122.0
D    131.0
E     48.0
F      NaN
dtype: float64

In [24]:
#如果要不出现上面的NaN的话，应该使用加、减、乘、除的运算函数中的fill_value= 来处理(0或1要看情况而定)
s1.add(s3,fill_value=0)

A     58.0
B     64.0
C    122.0
D    131.0
E     48.0
F     64.0
dtype: float64

In [25]:
#Series和numpy.array运算
s1

A    58
B    37
C    78
D    51
E    10
dtype: int32

In [26]:
n1=np.random.randint(0,10,size=5)
n1

array([8, 0, 8, 8, 7])

In [27]:
#属于广播运算
s1+n1

A    66
B    37
C    86
D    59
E    17
dtype: int32

In [28]:
n2=np.random.randint(0,10,size=(2,5))
n2

array([[3, 9, 4, 4, 1],
       [2, 0, 3, 9, 0]])

In [29]:
s1

A    58
B    37
C    78
D    51
E    10
dtype: int32

In [30]:
#Series不能直接与numpy的二维数组运算，因为两者的类型不一致
s1+n2

ValueError: Length of values (2) does not match length of index (5)

In [None]:
#可用s1.values先提取出Series对象中的所有值，而这些值会自动变成一个array数组的对象，这样就可以与numpy中的数组对象，类型上相一致，也就可以运算
#运算原理：不同维度间的数组运算，python编译器会自动进行数组维度的对齐扩展（广播运算）
s1.values+n2

**（2）DataFrame**  
*1、它是一个表格型的数据结构，可以看作是“由Series组成的字典”（共同使用一个索引）。它由按一定顺序排列的多列数据组成。既有行索引，也有列索引。*    
行索引：index  
列索引：columns    
值：values(numpy的二维数组)  


In [None]:
            python             java
index       python             java      列标签
lucy        15                 36
mery        65                 77
tom         85                 55
jack        14                 8
tony        2                  25
ironman     90                 65       data/values

行标签

*2、DataFrame创建*  
DataFrame(data=,columns=,index=)  
data：数据numpy.array  
columns：列索引  
index：行索引  


In [31]:
#方法1：用numpy.array来创建DataFrame
index=['lucy','mery','tom','jack','rose','tony']
columns=['python','java']
data=np.random.randint(50,100,size=(6,2))
df=DataFrame(data=data,columns=columns,index=index)
df

Unnamed: 0,python,java
lucy,78,93
mery,80,97
tom,85,80
jack,70,93
rose,88,78
tony,95,82


In [32]:
#方法2：用dict字典来创建
dic={
    'python':np.random.randint(0,100,size=6),
    'java':np.random.random(size=6)
}
index=['lucy','mery','tom','jack','rose','tony']
df2=DataFrame(data=dic,index=index)
df2

Unnamed: 0,python,java
lucy,66,0.105179
mery,94,0.699887
tom,12,0.160102
jack,98,0.679718
rose,40,0.720668
tony,77,0.466669


In [None]:
#说明每列中的数据类型可以不一致
df2.dtypes

In [33]:
#方法2：无索引名称，直接把姓名放入到列中
dic={
    'python':np.random.randint(0,100,size=6),
    'java':np.random.random(size=6),
    'name':['lucy','mery','tom','jack','rose','tony']
}
df2=DataFrame(data=dic)
df2

Unnamed: 0,python,java,name
0,52,0.416998,lucy
1,40,0.515373,mery
2,43,0.652054,tom
3,23,0.582977,jack
4,77,0.296344,rose
5,49,0.081051,tony


In [35]:
#方法3：从文件中读取数据来创建DataFrame
#前提条件：需要安装openpyxl库才行
#header  指定哪些行作为列标签，None为无
#index_col  指定哪些列作为行标签，None为无
pd.read_excel('rl.xlsx',sheet_name='客户信息',header=0,index_col=[0,1])


Unnamed: 0_level_0,Unnamed: 1_level_0,注册资本,客户类别,客户地址,省份,区域
客户代码,客户,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
100012,长城公司,280000,一般客户,河北省保定市高阳县,河北,北区
100026,长江公司,3610000,大客户,湖北省黄石市石灰窑区,湖北,南区
100086,黄河公司,42610000,大客户,河南省南阳市新野县,河南,南区
100118,黄山公司,2810000,大客户,安徽省芜湖市鸠江区,安徽,东区
100133,嵩山公司,8810000,一般客户,河南省平顶山市鲁山县,河南,南区
100607,庐山公司,15750000,一般客户,江西省赣州市,江西,南区
100671,峨眉山公司,390000,一般客户,四川省阿坝藏族羌族自治州理县,四川,北区
100865,泰山公司,220000,一般客户,山东省泰安市,山东,北区
101047,衡山公司,1190000,大客户,湖南省常德市武陵区,湖南,南区
101375,华山公司,240000,一般客户,陕西省宝鸡市岐山县,陕西,北区


In [34]:
#方法4：用Series数据来创建DataFrame
python=Series(data=np.random.randint(0,100,size=5),index=['lucy','mery','tom','jack','rose'],name='python')
python

lucy    44
mery    13
tom     18
jack    47
rose    39
Name: python, dtype: int32

In [None]:
#注意：Series中的name是作为DataFrame列中的字段名称
df=DataFrame(data=python)
df

In [None]:
#python2=Series(data=np.random.randint(50,100,size=5),index=['lucy','mery','tom','jack','rose'],name='C++')

In [37]:
#DataFrame和Series都支持拓展添加
df2=DataFrame()
df2['python']=[1,2,3]
df2

Unnamed: 0,python
0,1
1,2
2,3


In [36]:
#DataFrame支持拓展添加【此法灵活实用】
name1=['mojo','c++']
sizes=len(df.index)
df3=DataFrame(index=df.index)
df3[name1[0]]=np.random.randint(50,100,size=sizes)
df3[name1[1]]=np.random.randint(50,100,size=sizes)
df3

Unnamed: 0,mojo,c++
lucy,94,80
mery,82,80
tom,61,55
jack,67,77
rose,68,76
tony,58,97


In [None]:
len(df.index)

In [None]:
df2['C++']=[11,22,33]
df2

In [None]:
#Series支持拓展
python

In [None]:
#给不存在的索引赋值就可以实现拓展添加
python['eric']=99
python

In [None]:
#给不存在的索引赋值就可以实现拓展添加
python.loc['aaa']=88
python

*3、DataFrame访问*  
DataFrame是Series的容器，可以看成是Series的字典，键就是列标签，值就是每一列的数据  
<1>对列进行索引访问（显式访问）  

<2>对行进行索引访问（隐式访问）  

In [38]:
#列索引访问01
dic={
    'python':np.random.randint(0,100,size=6),
    'java':np.random.random(size=6),
    'name':['lucy','mery','tom','jack','rose','tony']
}
df3=DataFrame(data=dic)
df3

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
2,15,0.262574,tom
3,64,0.326944,jack
4,32,0.075373,rose
5,59,0.458364,tony


In [39]:
#读取整列值,字典访问02
df3['java']

0    0.075235
1    0.867389
2    0.262574
3    0.326944
4    0.075373
5    0.458364
Name: java, dtype: float64

In [40]:
#读取多条整列值,字典访问03
df3[['java','python']]

Unnamed: 0,java,python
0,0.075235,90
1,0.867389,87
2,0.262574,15
3,0.326944,64
4,0.075373,32
5,0.458364,59


In [41]:
#读取整列值,属性访问04
df3.python

0    90
1    87
2    15
3    64
4    32
5    59
Name: python, dtype: int32

In [42]:
#隐式访问，数组方式。使用iloc访问的是行05
#注意：隐式访问的原理，是把DataFrame当作普通的二维数组，所以访问逻辑与二维数组相同
df3.iloc[0]  #读取的是一行

python          90
java      0.075235
name          lucy
Name: 0, dtype: object

In [43]:
#隐式访问，数组方式。要读取列06
df3.iloc[:,[0,1]]  #读取的是一行

Unnamed: 0,python,java
0,90,0.075235
1,87,0.867389
2,15,0.262574
3,64,0.326944
4,32,0.075373
5,59,0.458364


In [44]:
#显式索引访问07，读取列（loc），一般用来访问读取行
df3.loc[:,['name','java']]

Unnamed: 0,name,java
0,lucy,0.075235
1,mery,0.867389
2,tom,0.262574
3,jack,0.326944
4,rose,0.075373
5,tony,0.458364


In [45]:
name=df3.name
name.loc[2]

'tom'

#### 总结  
1. 访问行，使用loc[row_index]
2. 访问列，使用[col_index]

In [48]:
#访问整列方法
df3['java']

0    0.075235
1    0.867389
2    0.262574
3    0.326944
4    0.075373
5    0.458364
Name: java, dtype: float64

In [52]:
#访问整行方法
df3.loc[[1,2]]

Unnamed: 0,python,java,name
1,87,0.867389,mery
2,15,0.262574,tom


#### 访问元素  
访问元素是先行后列（二维数组的逻辑）

In [53]:
df3

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
2,15,0.262574,tom
3,64,0.326944,jack
4,32,0.075373,rose
5,59,0.458364,tony


In [59]:
#显式索引，具体一定要与DataFrame创建时所指定的index和columns对象来决定
df3.loc[2,'name']

'tom'

In [62]:
#隐式索引，无论是行、列都是默认只能用数字下标访问
df3.iloc[3,0]

64

### DataFrame切片  
【注意】直接用中括号时  
* 索引表示的是列索引
* 切片表示的是行切片

（1）显式切片（标签切片，闭区间）

In [64]:
#显式索引行切片
df3[0:2]

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery


In [65]:
#显式索引行切片
df3.loc[1:3]

Unnamed: 0,python,java,name
1,87,0.867389,mery
2,15,0.262574,tom
3,64,0.326944,jack


In [71]:
#显式索引列切片（逻辑与二维数组类似，先行后列）
df3.loc[:,'python':'java']  #当列切片有多列时，列名称表达顺序一定有从左至右的顺序来写切片范围，否则会出现空白

Unnamed: 0,python,java
0,90,0.075235
1,87,0.867389
2,15,0.262574
3,64,0.326944
4,32,0.075373
5,59,0.458364


（2）隐式切片（索引切片，左闭右开）

In [66]:
#隐式索引行切片
df3.iloc[0:3]

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
2,15,0.262574,tom


In [73]:
#隐式索引列切片
df3.iloc[:,1:] #注意“ ： ”的用法解析，a:b表示a为起始值，b为结束值；如果a和b都空，则表示全部；如果只有一个有写，则表示从该位置开始或结束

Unnamed: 0,java,name
0,0.075235,lucy
1,0.867389,mery
2,0.262574,tom
3,0.326944,jack
4,0.075373,rose
5,0.458364,tony


In [75]:
#bool方法访问
bool_list_row=[True,False,False,True,True,False]
bool_list_col=[False,True,False]
df3.iloc[bool_list_row]

Unnamed: 0,python,java,name
0,90,0.075235,lucy
3,64,0.326944,jack
4,32,0.075373,rose


In [78]:
#注意：访问列数据，一定要先行后列的顺序来访问读取
df3.loc[:,bool_list_col]

Unnamed: 0,java
0,0.075235
1,0.867389
2,0.262574
3,0.326944
4,0.075373
5,0.458364


In [80]:
#直接访问DataFrame中的某列数据，返回的时Series对象类型
df3.python

0    90
1    87
2    15
3    64
4    32
5    59
Name: python, dtype: int32

In [82]:
#可以直接用某列值进行关系判断和比较，返回布尔型的Series的对象
df3.python>60

0     True
1     True
2    False
3     True
4    False
5    False
Name: python, dtype: bool

In [83]:
#实现查找出python大于60的所有数据，返回的是子DataFrame类型
df3.loc[df3.python>60]

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
3,64,0.326944,jack


In [85]:
#不行，因为df3.python>60判断后返回的值是一个Series类型，而且还隐藏一个隐式数字索引列，所以直接调用的话，其实调用的是隐式索引的数字值，不是布尔值，所以不行
df3.iloc[df3.python>60]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

In [85]:
#不行，因为df3.python>60判断后返回的值是一个Series类型，而且还隐藏一个隐式数字索引列，所以直接调用的话，其实调用的是隐式索引的数字值，不是布尔值，所以不行
df3.iloc[df3.python>60]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

In [86]:
#可以把df3.python>60返回的Series类型的data值部分读取出来即可，因为data部分就只剩下布尔型的值了
df3.iloc[(df3.python>60).values]

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
3,64,0.326944,jack


#### （1）DataFrame访问总结  
##### 显式访问：  
1. 列访问   直接使用df[col_index]，   多列访问df.[col_index_list]   
2. 行访问   使用.loc[row_index]，     多行访问df.loc[row_index_list]，     df.列索引名称  
3. 使用布尔列表访问  
     列访问：df.loc[:,bool_list]  
     行访问：df.loc[bool_list]  
5. 元素访问   .loc[row_index,col_index]

##### 隐式访问：  
1. 列访问   df.iloc[:,col_loc]，   多列访问 df.iloc[:,col_loc_list]
2. 行访问   df.iloc[row_loc]，     多行访问 df.iloc[row_loc_list]
3. bool列表访问【注意：bool列表不能带索引，也就是应该使用列表类型或者numpy.array类型】  
      列访问：df.iloc[:,bool_list]  
      行访问：df.iloc[bool_list]  
5. 元素访问 df.iloc[row_loc,col_loc]

#### （2）DataFrame切片总结  
直接使用[]，索引是列索引，切片是行切片  
##### 显式访问：  
1. 行切片  df.loc[row_loc1:row_loc2]   [row_loc1:row_loc2] (不推荐)
2. 列切片（使用二维数组的切片逻辑）  df.loc[:,col_loc1:col_loc2]  

##### 显式访问：  
1. 行切片  df.iloc[row1:row2]
2. 列切片  df.iloc[:,col1:col2]


In [87]:
df3

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
2,15,0.262574,tom
3,64,0.326944,jack
4,32,0.075373,rose
5,59,0.458364,tony


In [89]:
#查找java成绩大于0.4的所有信息
df3.loc[df3.java>0.4]

Unnamed: 0,python,java,name
1,87,0.867389,mery
5,59,0.458364,tony


In [92]:
#查找python大于平均值的所有信息
df3.loc[df3.python>df3.python.mean()]

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
3,64,0.326944,jack
5,59,0.458364,tony


In [127]:
#查找jack的java值，加上0.5
index3= df3[df3.name=='jack'].index
df3.loc[index3,'java'] +=0.5
df3

Unnamed: 0,python,java,name
0,90,0.075235,lucy
1,87,0.867389,mery
2,15,0.262574,tom
3,64,1.826944,jack
4,32,0.075373,rose
5,59,0.458364,tony


In [134]:
#获取只包含name和python列的子DataFrame
df3.loc[:,['name','python']]

Unnamed: 0,name,python
0,lucy,90
1,mery,87
2,tom,15
3,jack,64
4,rose,32
5,tony,59


In [135]:
df3[['name','python']]

Unnamed: 0,name,python
0,lucy,90
1,mery,87
2,tom,15
3,jack,64
4,rose,32
5,tony,59


### DataFrame的运算    
1. 一个数运算、numpy运算
2. 与Series运算
3. DataFrame之间的运算


In [136]:
df4=DataFrame(data=np.random.randint(0,10,size=(3,3)),index=list('ABC'),columns=list('甲乙丙'))
df4

Unnamed: 0,甲,乙,丙
A,0,3,2
B,7,8,4
C,1,1,8


In [137]:
#DataFrame与一个数运算，属于广播
df4+1

Unnamed: 0,甲,乙,丙
A,1,4,3
B,8,9,5
C,2,2,9


In [138]:
#DF与数组运算
n4=np.array([2,2,2])
df4+n4

Unnamed: 0,甲,乙,丙
A,2,5,4
B,9,10,6
C,3,3,10


In [140]:
#DF与Series运算
s4=Series(data=[1,1,1],index=list('ABC'))
s4+df4

Unnamed: 0,A,B,C,丙,乙,甲
A,,,,,,
B,,,,,,
C,,,,,,


In [141]:
#DF与Series运算
#1.Series默认与DF列索引对齐进行运算
#2.如果索引不对齐，则补空值
#3.不是广播
s4=Series(data=[1,1,1],index=list('甲乙丙'))
s4+df4

Unnamed: 0,甲,乙,丙
A,1,4,3
B,8,9,5
C,2,2,9


In [143]:
#DF与Series运算
#1.Series默认与DF列索引对齐进行运算
#2.如果索引不对齐，则补空值
#3.不是广播
s4=Series(data=[1,1,1],index=list('甲乙丁'))
s4+df4

Unnamed: 0,丁,丙,乙,甲
A,,,4.0,1.0
B,,,9.0,8.0
C,,,2.0,2.0


In [147]:
#axis=0让Series与DF行索引对齐
s4=Series(data=[1,1,1],index=list('ABC'))
df4.add(s4,axis=0)

Unnamed: 0,甲,乙,丙
A,1,4,3
B,8,9,5
C,2,2,9


In [148]:
#DF之间运算
#1.行列索引同时对齐
#2.对不齐补空
df5=DataFrame(data=np.random.randint(0,10,size=(4,4)),index=list('ABCD'),columns=list('甲乙丙丁'))
display(df4,df5)

Unnamed: 0,甲,乙,丙
A,0,3,2
B,7,8,4
C,1,1,8


Unnamed: 0,甲,乙,丙,丁
A,6,9,0,0
B,5,3,1,5
C,6,5,8,5
D,7,9,8,6


In [149]:
df4+df5

Unnamed: 0,丁,丙,乙,甲
A,,2.0,12.0,6.0
B,,5.0,11.0,12.0
C,,16.0,6.0,7.0
D,,,,


In [151]:
df4.add(df5,fill_value=0)

Unnamed: 0,丁,丙,乙,甲
A,0.0,2.0,12.0,6.0
B,5.0,5.0,11.0,12.0
C,5.0,16.0,6.0,7.0
D,6.0,8.0,9.0,7.0
