# pandas

Pandas 是 Python 语言的一个扩展程序库，用于数据分析。

Pandas 是一个开放源码、提供高性能、易于使用的数据结构和数据分析工具。

Pandas 名字衍生自术语 "panel data"（面板数据）和 "Python data analysis"（Python 数据分析）。

Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。

Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。


Pandas 的主要数据结构是
Series （一维数据）与 DataFrame（二维数据），

这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

#### Series是一种类似于一维数组的对象，它由一组数据，以及一组与之相关的数据标签（即索引）组成。

* 生成一个Series对象
    * 可以通过指定列表、元组、数组创建默认序列，也可以通过指定索引创建个性化序列
    * 还可以通过字典来创建序列，其中字典的键转化为索引，值即为序列的值。
    * 序列对象的创建通过Pandas包中的Series()函数来实现。

In [1]:
import pandas as pd
import numpy as  np
s1 = pd.Series([1,2,3,'a'])
s1

0    1
1    2
2    3
3    a
dtype: object

In [2]:
s1 = pd.Series([1,2,3,'a'],index=list('ABCD'))
s1

A    1
B    2
C    3
D    a
dtype: object

In [3]:
s2 = pd.Series(np.array([1,2,3,4]))
s2

0    1
1    2
2    3
3    4
dtype: int32

In [4]:
d1 = {'A':200,'B':1000,'c':500} # 用字典创建序列
s3 = pd.Series(d1)
s3

A     200
B    1000
c     500
dtype: int64

* Series属性
    * Series有两个属性，分别为值（Values）和索引（Index），通过序列中的values属性和index属性可以获取其内容

In [5]:
s3.index

Index(['A', 'B', 'c'], dtype='object')

In [6]:
s3.values

array([ 200, 1000,  500], dtype=int64)

* Series方法
    * unique()方法，可以去掉序列中重复的元素值，使元素值唯一
    * isin()方法，判断元素值的存在性，如果存在，则返回True，否则返回False
    * value_counts()方法，可以统计序列元素值出现的次数
    * isnull()判断序列中是否有空值（nan值），如果有空值，返回True，否则返回False
    * notnull()判断序列中的非空值（nan值），如果非空值，返回True，否则返回False

In [7]:
s4 = pd.Series([1,2,2,3,5,4,4])
s4

0    1
1    2
2    2
3    3
4    5
5    4
6    4
dtype: int64

In [8]:
s5 = s4.unique()
s5 

array([1, 2, 3, 5, 4], dtype=int64)

In [9]:
ss5=pd.Series(s5)
ss5
ss6=ss5.isin([0,2])
ss6

0    False
1     True
2    False
3    False
4    False
dtype: bool

In [10]:
s6 = s4.isin([0,2])  # 每一个元素是否在 [0，2] 这个列表中
s6 

0    False
1     True
2     True
3    False
4    False
5    False
6    False
dtype: bool

In [11]:
s7 = s4.value_counts() # 统计值的个数
s7

2    2
4    2
1    1
3    1
5    1
dtype: int64

In [12]:
s8 = pd.Series([10,'hq',30,np.nan,20]) # 生成一个含空值的序列
s8

0     10
1     hq
2     30
3    NaN
4     20
dtype: object

In [13]:
s8.isnull() #  查看s8 中的空值，true 表明该索引对应的值为NaN

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [14]:
s8[s8.isnull()]  # s8中包含NaN的行

3    NaN
dtype: object

In [15]:
s8[~s8.isnull()] # ~ 返回筛选对象的取反

0    10
1    hq
2    30
4    20
dtype: object

* Series切片
    * 序列元素的访问是通过索引完成的，切片即连续或者间断地批量获取序列中的元素，可以通过给定一组索引来实现切片的访问。一般地，给定的一组索引可以用列表或者逻辑数组来表示。

In [16]:
s9 = pd.Series([1,2,-2,3,'python']) # 使用默认的数值索引
s10 = pd.Series([1,2,-2,3,'python'],index=list('abcde'))  # 自己设定的索引

In [17]:
s9

0         1
1         2
2        -2
3         3
4    python
dtype: object

In [18]:
s10

a         1
b         2
c        -2
d         3
e    python
dtype: object

In [19]:
s9[0:3]  # 取索引【0，2）

0     1
1     2
2    -2
dtype: object

In [23]:
s10[0:3] # 按照数值所以提取

a     1
b     2
c    -2
dtype: object

In [22]:
s10[['a','b']] # 按照设定的索引取提取

a    1
b    2
dtype: object

In [24]:
s11 = pd.Series([1,2,5,4,8,7,6]) # 数值型的序列

In [25]:
s11[s11>4]  # 提取值大于3的序列

2    5
4    8
5    7
6    6
dtype: int64

* Series对象的运算操作

In [26]:
s11.sum()  # 求和

33

In [26]:
s11.mean()  # 方差

4.714285714285714

In [27]:
s11.std()  # 标准差

2.563479777846623

In [28]:
s12 = pd.Series(list(range(len(s11))))

In [29]:
s12

0    0
1    1
2    2
3    3
4    4
5    5
6    6
dtype: int64

In [30]:
s12 + s11

0     1
1     3
2     7
3     7
4    12
5    12
6    12
dtype: int64

In [27]:
s13 = pd.Series(list(range(len(s11))),index=list('abcdefg'))  # 设置不同索引

In [28]:
s13

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [29]:
s13 + s11

a   NaN
b   NaN
c   NaN
d   NaN
e   NaN
f   NaN
g   NaN
0   NaN
1   NaN
2   NaN
3   NaN
4   NaN
5   NaN
6   NaN
dtype: float64