***Pandas数据结构***
---

**（1）数据分析三剑客（导入库）**

In [3]:
#提供数据分析业务处理的函数和类型
import pandas as pd
#提供数据分析的运算基础
import numpy as np
#提供数据分析可视化的函数
import matplotlib.pyplot as plt
#简化调用Series,DataFrame功能的引入
from pandas import Series,DataFrame
#指定绘图位置为当前文本文档（实现把图表绘制显示在此界面）
%matplotlib inline

**（2）Series一维对象**  
这是类似一维数组的对象，由下面两个部分组成：  
value：一组数据（array类型）  
index：相关的数据索引标签

Series(有序，类似数组，一维)
（index     data     key）  
隐式索引  data     index
0         15       lucy
1         65       mery
2         85       tom
3         14       jack
4         2        tony
5         90       ironman


**总结：**  
1、能键值对访问（类似字典）  
2、能索引访问  
3、有序一维

**（3）创建Series对象方法**  
1、由list列表或numpy数组创建  
 Series(data=,index=)

In [4]:
#<1>用list列表来创建Series对象
data1=[1,2,3,4,5]

In [8]:
#注意：这是numpy中的数组，虽然它与Series的显示结果相同，但类型不同；所以他俩的属性和增删改查的方法也就不同
np.array(data1)

array([1, 2, 3, 4, 5])

In [12]:
#如果没有显式指定index，则以隐式索引来填充index
#s1与data1两者内容存取是属于副本关系，即非共享，是两个独立的内存存储空间；一旦修改其中一个值，另外一个副本的对应值不变
s1=Series(data=data1)
s1

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [9]:
#<2>用numpy列表来创建Series对象
data2=np.random.randint(0,10,size=5)
data2

array([4, 6, 5, 9, 1])

In [11]:
#s2与data2两个对象的内容存取是属于引用关系。也就是共享一个内存存储空间，内容是联动
s2=Series(data=data2)
s2

0    4
1    6
2    5
3    9
4    1
dtype: int32

In [14]:
#index索引其实用来充当Series中的行标签；让数据更有意义和数据分析业务表达更适配
index=['lucy','mery','tom','jack','tony']
data=np.random.randint(0,100,size=5)
s3=Series(data=data,index=index,name='Score')  #Series对象只能是一维数组，不能是多维数组；如果要处理高维，可以用DataFrame
s3

lucy    89
mery    97
tom     70
jack    94
tony    20
Name: Score, dtype: int32

In [None]:
#<3>由字典创建

In [16]:
dic={
    'lucy':60,
    'mery':80,
    'tom':76,
    'tony':92
}

In [18]:
#字典中的key值会自动设置为索引
Series(data=dic)

lucy    60
mery    80
tom     76
tony    92
dtype: int64

In [19]:
#如果显示指定的index，index的优先级别会高于字典的键
Series(data=dic,index=['lucy','mery','nokey'])

lucy     60.0
mery     80.0
nokey     NaN
dtype: float64

**（4）Series的索引和切片**  
1、显式索引  
 使用index中的元素作为索引值  
 使用.loc[]（推荐）  
 注意：此时是闭区间  

In [4]:
data =np.random.randint(0,100,size=5)
index=list('ABCDE')
s=Series(data=data,index=index)
s

A    39
B    12
C    35
D    91
E    94
dtype: int32

In [21]:
#<1>字典访问
s['B']

16

In [22]:
#<2>属性访问
s.B

16

In [23]:
#<3>Series访问【推荐】
s.loc['A']

55

In [27]:
#<4>多元素访问。注意：这个返回的值类型属于子Series对象
#s[['A','B']]
s.loc[['A','B']]

A    55
B    16
dtype: int32

In [28]:
#<5>布尔列表访问。
#s[[True,False,True,False,False]]
s.loc[[True,False,True,False,False]]

A    55
C    54
dtype: int32

In [29]:
#使用values属性（获取Series中所有data的值）
s.values

array([55, 16, 54, 81, 13])

In [30]:
#找出所有data值大于60及以上的人
s.values >60

array([False, False, False,  True, False])

In [32]:
#使用了bool值来读取Series对象的信息内容
s[s.values >60]

D    81
dtype: int32

In [34]:
#找出有哪些data的值大于平均数值的人
s[s.values >s.values.mean()]

A    55
C    54
D    81
dtype: int32

2、隐式索引  
 使用整数作为索引值  
 使用.iloc[]（推荐）  
 注意：此时是半开区间  

In [5]:
#访问方法1：数值访问方式（下标--索引）
s[0]

39

In [6]:
#访问方法2：隐式访问iloc【推荐此方法】
s.iloc[0]

39

In [11]:
#多元素访问(隐式iloc)
s.iloc[[0,1,2,1]]

A    39
B    12
C    35
B    12
dtype: int32

3、Series切片  
  显式索引切片（左闭右闭）  
  隐式索引切片（左闭右开）  

In [13]:
s1=Series(data=np.random.randint(0,100,size=5))
s1

0    59
1    35
2    10
3    53
4    44
dtype: int32

In [14]:
#显式索引切片（闭区间）<一般字符索引为闭区间；而数字索引为左闭右开>
s.loc['A':'C']

A    39
B    12
C    35
dtype: int32

In [15]:
#loc默认传递的是显式索引，注意切片区间的表示问题
s1.loc[0:2]

0    59
1    35
2    10
dtype: int32

In [18]:
#隐式索引切片（左闭右开）。注意：隐式索引指的只能用数字索引值（因为这是python系统自动于隐藏方式给的索引，所以叫隐式索引）
s.iloc[0:2]

A    39
B    12
dtype: int32

In [19]:
#倒序输出
s.iloc[::-1]

E    94
D    91
C    35
B    12
A    39
dtype: int32

In [20]:
#注意：列表访问，可以返回一整条信息<包括：索引-行标签和值>（而非只有一个值信息），其实返回的是一个子Series对象
s[[1]]

B    12
dtype: int32

In [21]:
s.loc[['C']]

C    35
dtype: int32