## 1、pandas数据结构简介

#### Pandas的核心为两大数据结构。数据分析相关的所有事务都是围绕着这两种结构进行的：
Series序列：用于存储一维数据

DataFrame数据框：用于存储多维数据

两者的奇特之处是将index（索引）对象和标签整合到自己的结构中。

### 1.1 Series 对象

series对象用来表示一维数据结构，跟数组类似。它由两个相互关联的数组组成，其中主数组用来存放数据。主数组的每一个元素都有一个与之相关联的标签，这些标签存储在另外一个叫做Index的数组中

In [4]:
import pandas as pd
s=pd.Series([12,3,4,14],index=['a','b','c','d'])
s

a    12
b     3
c     4
d    14
dtype: int64

从Series的输出可以看出，左侧Index是一列标签，右侧是标签对应的元素。

声明series时，若不指定标签，pandas默认使用从0开始依次递增的数值作为标签。

index标签为字符串类型

In [5]:
# 若分别查看组成series对象的两个数组，调用index（索引）和values（元素）
s.values

array([12,  3,  4, 14], dtype=int64)

In [6]:
s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [11]:
# 选择内部元素
s[['c','d']] #注意要把标签放到数组中

c     4
d    14
dtype: int64

In [12]:
s[0:2]

a    12
b     3
dtype: int64

In [14]:
# 为元素赋值：用索引或标签选取元素后进行赋值
s[1]=-2
s

a    12
b    -2
c     4
d    14
dtype: int64

In [16]:
# 用numpy数组或其他series对象定义新series对象
import numpy as np
arr=np.array([-2,-3,-4,1,0])
s1=pd.Series(arr,index=['A','B','C','D','E']) #利用numpy数组定义新series对象
s1

A   -2
B   -3
C   -4
D    1
E    0
dtype: int32

In [17]:
s2=pd.Series(s) #利用series对象定义新series对象
s2

a    12
b    -2
c     4
d    14
dtype: int64

注意：新series对象是对原numpy数组或series对象元素的引用，即这些对象是动态插入到新series对象中，如改变原有对象元素的值，新series对象中这些元素也会发生改变

In [18]:
# 筛选元素
s[s>4]

a    12
d    14
dtype: int64

In [19]:
# series对象运算和数学函数
s/2

a    6.0
b   -1.0
c    2.0
d    7.0
dtype: float64

 series对象的组成元素：统计元素重复出现的次数或判断一个元素是否在series中


In [20]:
serd=pd.Series([1,2,3,1,2,0],index=['white','blue','green','yellow','white','blue'])
serd

white     1
blue      2
green     3
yellow    1
white     2
blue      0
dtype: int64

In [21]:
# 去重计次
serd.unique()  #返回结果为一个数组，包含series去重后的元素

array([1, 2, 3, 0], dtype=int64)

In [22]:
serd.value_counts() # 返回各个不同的元素和每个元素在series中出现的次数

2    2
1    2
3    1
0    1
dtype: int64

In [24]:
serd.isin([0,3]) # isin()用来判断所属关系，即判断给定的一列元素是否包含在数据结构之中。
#  isin（）返回布尔值，可用于筛选series或dataframe列中的数据

white     False
blue      False
green      True
yellow    False
white     False
blue       True
dtype: bool

In [27]:
# 识别有无空值，返回布尔值
s2=pd.Series([5,np.NaN,np.NaN,10,23]) # 创建数据结构中，可为数组中元素缺失的项输入np.NaN
s2

0     5.0
1     NaN
2     NaN
3    10.0
4    23.0
dtype: float64

In [30]:
s2.isnull()# 如果是NaN，isnull（）函数返回值为True

0    False
1     True
2     True
3    False
4    False
dtype: bool

In [31]:
s2.notnull()

0     True
1    False
2    False
3     True
4     True
dtype: bool

##### 将notnull（）作为筛选条件，得到s2中非空元素

In [35]:
s2[s2.notnull()]

0     5.0
3    10.0
4    23.0
dtype: float64

##### 将isnull（）作为筛选条件，得到s2中空元素

In [37]:
s2[s2.isnull()] 

1   NaN
2   NaN
dtype: float64

In [41]:
# series用作字典
mydict={'red':2000,'blue':'1000','yellow':300}
myseries=pd.Series(mydict)
myseries

blue      1000
red       2000
yellow     300
dtype: object

series对象之间的运算
两个series进行运算：只对标签相同的元素求和。其他只属于任何一个series对象的标签也被添加到新对象中，只不过它们的值均为NaN

### 1.2 DataFrame对象
DataFrame列表式数据结构跟工作表（Excel）极为相似，设计初衷是将series的使用场景由一维扩展到多维。

dataframe由按一定顺序排列的多列数据组成，各列的数据类型可以有所不同（数值，字符串或布尔值等）

DataFrame的解释：

1、DataFrame由两个索引数组。第一个数组与行相关，它与series的索引数组极为相似。每个标签与标签所在行的所有元素相关联。第二个数组包含一系列列标签，每个标签与一列数据相关联

2、DataFrame由series组成的字典，其中每一列的名称为字典的键，形成dataframe的列的series作为字典的值。
进一步来说，每个series的所有元素映射到叫做index的标签数组。

In [3]:
import pandas as pd

In [9]:
data={'color':['blue','green','yellow','red','white'],
               'object':['ball','pen','pencil','paper','mug'],
                'price':[1,2,7,5,3]}
frame=pd.DataFrame(data)
frame

Unnamed: 0,color,object,price
0,blue,ball,1
1,green,pen,2
2,yellow,pencil,7
3,red,paper,5
4,white,mug,3


在DataFrame构造函数中，用columns选项指定需要的列即可。新建的dataframe各列顺序与你指定的列顺序一致，而与它们在字典中的顺序无关

In [10]:
frame2=pd.DataFrame(data,columns=['object','price'])
frame2

Unnamed: 0,object,price
0,ball,1
1,pen,2
2,pencil,7
3,paper,5
4,mug,3


dataframe对象和series一样，如果index数组没有明确指定标签，pandas会自动为其添加一列从0开始的数值作为索引。如果想用标签作为dataframe的索引，则要把标签放到数组中，赋给index选项

In [11]:
frame3=pd.DataFrame(data,index=['one','two','three','four','five'])
frame3

Unnamed: 0,color,object,price
one,blue,ball,1
two,green,pen,2
three,yellow,pencil,7
four,red,paper,5
five,white,mug,3


#### 构造DataFrame函数
 DataFrame（数据矩阵，index选项，columns选项）
 
 index选项：存放有标签的数组，columns：存放有列名称的数组