#  <center> Pandas <center>

##  Pandas简介

Pandas是一个强大的分析结构化数据的工具集；

(Pandas 纳入了大量库和一些标准的数据模型，提供了高效地操作大型数据集所需的函数和方法，能够快速便捷地处理数据)

它的使用基础是Numpy（提供高性能的矩阵运算）；

用于数据挖掘和数据分析，同时也提供数据清洗功能

主要介绍常用的两个数据结构（DataFrame 和 Series ）和相应的常用方法与属性等

引用习惯如下：

In [1]:
import numpy as np
import pandas as pd

In [2]:
#全部行都能输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

##  Series数据结构

### 什么是Series
Series是一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。

Series是Pandas包提供的一种Key-value型数据结构,其中Key为用户定义的显示index,每个显式index对应一个value值.

它与Python列表的区别在于,Series的每个元素都带有两种index
- 显示index : 由用户指定
- 隐式index : 由系统自动分配(Series对象中每个元素的下标,类似Python"列表"的下标)

Series的访问既可以通过显示index,也可以通过隐式index,

在数据分析和数据科学项目中,一般用显式索引(index),而不是隐式下标,原因在于:当数据量很大时,很难准确定义其下标

### 创建Series
多数情况下，Series 数据结构是我们直接从 DataFrame 数据结构中截取出来的，但也可以自己创建 Series 。       
语法如下：  
    s = pd.Series(data, index=index)    
其中 data 可以是不同的内容：
- Ndarray
- 字典
- 标量
index 是轴标签列表，根据不同的情况传入的内容有所不同。   
如果 data 是 ndarray ，则索引的长度必须与数据的长度相同。如果没有入索引，将创建一个值为 [0，...，len(data)-1] 的索引。 

In [3]:
# pd.__version__  #查看pandas版本

In [4]:
#通过ndarray创建Series
np.random.seed(1234)
arr1=np.random.randint(1,10,(5,))
arr1

array([4, 7, 6, 5, 9])

In [5]:
ser1 = pd.Series(arr1,index=['a', 'b', 'c', 'd', 'e']) #当data中的values多于1时,values和index的个数应一致,不一致的时候会报错
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [6]:
np.random.seed(1234)
ser1 = pd.Series(np.random.randint(1,10,(5,)),   #也可以不赋值变量给ndarray,直接作为data参数使用
                index=['a', 'b', 'c', 'd', 'e'])
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [7]:
#通过字典创建Series
dic1 = {'a' : 0., 'b' : 1., 'c' : 2.}
dic1

{'a': 0.0, 'b': 1.0, 'c': 2.0}

In [8]:
ser2 = pd.Series(dic1)
ser2

a    0.0
b    1.0
c    2.0
dtype: float64

类 ndarray 的对象传入后也会转换为 ndarray 来创建 Series 。

In [9]:
#通过列表创建Series
list1=[1,2,3,4,5]
list1

[1, 2, 3, 4, 5]

In [10]:
ser3 = pd.Series(list1)  #没有指定显式index的时候,显示隐式索引
ser3

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [11]:
# 通过标量创建Series 当data只包含一个元素时,Series对象的定义支持"循环补齐"
ser4 = pd.Series(3,index=('x','y','z'))
ser4

x    3
y    3
z    3
dtype: int64

### Series的操作方法

#### 查看index和values以及Series的name

In [12]:
ser3

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [13]:
#查看index 
ser3.index  

RangeIndex(start=0, stop=5, step=1)

In [14]:
#查看values
ser3.values  #虽然当时传入的数据类型是列表,类ndarray的对象,传入后会转化成ndarray

array([1, 2, 3, 4, 5], dtype=int64)

In [15]:
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [16]:
ser1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [17]:
ser2

a    0.0
b    1.0
c    2.0
dtype: float64

In [18]:
ser2.index

Index(['a', 'b', 'c'], dtype='object')

In [19]:
ser4.name  #查看Series的name

#### Series 的数组特性和字典特性
- Series可以进行索引和切片操作
- Series 同时也像一个固定大小的 dict ，可以通过索引标签获取和设置值
- Series 与 ndarray 非常相似，是大多数 NumPy 函数的有效参数

##### 数组特性

In [20]:
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [21]:
ser1[0]  #通过位置信息索引查找元素

4

In [22]:
ser1[0] = 5  #通过索引切片更改元素信息

In [6]:
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [24]:
ser1[1:4] #通过位置信息索引切取连续元素

b    7
c    6
d    5
dtype: int32

In [25]:
ser1[[4,3,0]] #通过位置信息索引切取不连续元素

e    9
d    5
a    5
dtype: int32

In [26]:
ser1>5 #进行布尔判断

a    False
b     True
c     True
d    False
e     True
dtype: bool

In [27]:
ser1[ser1>5] #通过布尔判断切取满足指定条件的元素

b    7
c    6
e    9
dtype: int32

In [28]:
ser1[ser1>ser1.mean()]

b    7
e    9
dtype: int32

In [29]:
ser1[ser1>ser1.median()]

b    7
e    9
dtype: int32

In [30]:
np.log2(ser1) #大多数numpy中的函数都是适用于Series的  计算以2为底ser1中各元素的对数

a    2.321928
b    2.807355
c    2.584963
d    2.321928
e    3.169925
dtype: float64

In [31]:
np.add(ser1,ser1)

a    10
b    14
c    12
d    10
e    18
dtype: int32

In [32]:
np.add(ser1,1)

a     6
b     8
c     7
d     6
e    10
dtype: int32

##### 字典特性
Series 同时也像一个固定大小的 dict ，可以通过索引标签获取和设置值：

In [33]:
ser1['a'] #通过显式索引查找元素

5

In [34]:
ser1["a"] = 4

In [35]:
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [36]:
ser1['b':'d'] #通过显式索引切取连续元素

b    7
c    6
d    5
dtype: int32

In [37]:
ser1[['e','d','a']] #通过显式索引切取不连续元素

e    9
d    5
a    4
dtype: int32

In [38]:
'e' in ser1

True

In [39]:
'f' in ser1

False

注：如果引用了未包含的标签，则会引发异常。

In [40]:
ser1["f"]

KeyError: 'f'

In [45]:
try:
    print(ser1['f'])
except KeyError:
    print('没有这个键')

没有这个键


In [46]:
ser1.get('f')  #查找不存在的key,默认返回None

In [47]:
print(ser1.get('f') )

None


In [48]:
ser1.get('f',"没有这个键")

'没有这个键'

#### 矢量化操作 & 标签对齐
在进行数据分析时，通常没必要去使用循环，而是使用矢量化的操作方式。

In [49]:
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [50]:
ser1+ser1

a     8
b    14
c    12
d    10
e    18
dtype: int32

In [51]:
ser1+2

a     6
b     9
c     8
d     7
e    11
dtype: int32

Series 和 ndarray 之间的一个主要区别是，Series 之间的操作会自动对齐基于标签的数据。

In [52]:
ser1[:4]

a    4
b    7
c    6
d    5
dtype: int32

In [53]:
ser1[1:]

b    7
c    6
d    5
e    9
dtype: int32

In [54]:
ser1[1:]+ser1[:4]

a     NaN
b    14.0
c    12.0
d    10.0
e     NaN
dtype: float64

标签未对齐的Series 之间进行加法操作。不是共有标签的Series 元素，相加结果将被标记为 NaN。

通常不同索引对象之间操作的默认结果会产生索引的并集，以避免信息丢失。因为尽管计算结果为NaN，但拥有索引标签也可以作为计算的重要信息。

当然也可以选择通过 dropna 功能删除丢失数据的标签。

In [10]:
ser_1 = ser1[1:]+ser1[:4]
ser_1

a     NaN
b    14.0
c    12.0
d    10.0
e     NaN
dtype: float64

In [11]:
ser_1.dropna()

b    14.0
c    12.0
d    10.0
dtype: float64

####  Series 的属性

##### series有name

在多数情况下，series 名称会被自动分配，例如在获取 1D 切片的 DataFrame 时。（后续DataFrame 操作将会讲解到）

In [56]:
ser4 = pd.Series(3,index=('x','y','z'),name='数值') #name参数设置
ser4

x    3
y    3
z    3
Name: 数值, dtype: int64

In [57]:
ser3

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [58]:
# 一情况下,从dataframe中切取Series回自带name,这个name可以进行更改
ser3.rename("data")   #默认返回视图,不对原数据进行改变

0    1
1    2
2    3
3    4
4    5
Name: data, dtype: int64

In [59]:
ser5 = ser3.rename("data")  #如果要保留更改name后的series需要赋值变量捕捉
ser5

0    1
1    2
2    3
3    4
4    5
Name: data, dtype: int64

In [60]:
ser3

0    1
1    2
2    3
3    4
4    5
dtype: int64

这里需要注意的是，ser4 和 ser5 是指向不同的对象的，这是因为.rename 返回的是一个新的对象。

In [61]:
id(ser4)
id(ser5)

2420337727472

2420337698296

In [62]:
ser3.rename("data",inplace = True)  #设置参数inplace=True,直接对原数据进行更改

0    1
1    2
2    3
3    4
4    5
Name: data, dtype: int64

##### 通过索引属性获取索引：

In [63]:
ser1

a    4
b    7
c    6
d    5
e    9
dtype: int32

In [64]:
ser1.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [65]:
ser1.values

array([4, 7, 6, 5, 9])

In [66]:
ser3

0    1
1    2
2    3
3    4
4    5
Name: data, dtype: int64

In [67]:
ser3.index  #自动生成的索引与指定索引返回结果的不同

RangeIndex(start=0, stop=5, step=1)

In [68]:
ser3.values

array([1, 2, 3, 4, 5], dtype=int64)