# 1 简介

Pandas是一款开放源码的BSD许可的Python库，为Python编程语言提供了高性能，易于使用的数据结构和数据分析工具。Pandas用于广泛的领域，包括金融，经济，统计，分析等学术和商业领域。在本教程中，我们将学习Python Pandas的各种功能以及如何在实践中使用它们。

pandas建立在numpy之上，并用到了两种新的数据结构，series和dataframe，我们首先就要对这两种结构进行介绍。

网络上有丰富的学习内容，这里提供一个参考[中文文档翻译](https://wizardforcel.gitbooks.io/pandas-official-tut-zh/content/)

# 2 pandas.Series

系列(Series)是能够保存任何类型的数据(整数，字符串，浮点数，Python对象等)的一维标记数组。轴标签统称为索引。

Pandas系列可以使用以下构造函数创建 

```pandas.Series( data, index, dtype, copy)```

1. data
数据采取各种形式，如：ndarray，list，dict，constants
2. index
索引值必须是唯一的和散列的，与数据的长度相同。 默认np.arange(n)如果没有索引被传递。
3. dtype
dtype用于数据类型。如果没有，将推断数据类型
4. copy
复制数据，默认为false。

## 2.1 创建

In [1]:
import pandas as pd
import numpy as np
s = pd.Series()
s

Series([], dtype: float64)

如果数据是ndarray，则传递的索引必须具有相同的长度。 如果没有传递索引值，那么默认的索引将是范围(n)，其中n是数组长度，即[0,1,2,3…. range(len(array))-1] - 1]。

In [2]:
data = np.array(['a','b','c','d'])
s = pd.Series(data)
s

0    a
1    b
2    c
3    d
dtype: object

In [3]:
data = np.array(['a','b','c','d'])
s = pd.Series(data,index=[100,101,102,103])
s

100    a
101    b
102    c
103    d
dtype: object

In [4]:
s.index

Int64Index([100, 101, 102, 103], dtype='int64')

字典(dict)可以作为输入传递，如果没有指定索引，则按排序顺序取得字典键以构造索引。 如果传递了索引，索引中与标签对应的数据中的值将被拉出


In [5]:
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data)
s

a    0.0
b    1.0
c    2.0
dtype: float64

In [6]:
data = {'a' : 0., 'b' : 1., 'c' : 2.}
s = pd.Series(data,index=['b','c','d','a'])
s

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

NaN表示没有数据

如果数据是标量值，则必须提供索引。将重复该值以匹配索引的长度。


In [7]:
s = pd.Series(5, index=[0, 1, 2, 3])
s

0    5
1    5
2    5
3    5
dtype: int64

## 2.2 访问

series和ndarray的处理非常相似，只是index和数据会同时被操作。

In [8]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s

a    0.280060
b    0.059269
c   -0.809607
d   -0.560844
e   -0.688322
dtype: float64

In [9]:
s[0]

0.28006027321744265

In [10]:
s[:3]

a    0.280060
b    0.059269
c   -0.809607
dtype: float64

In [11]:
s[s > s.median()]

a    0.280060
b    0.059269
dtype: float64

In [12]:
s[[4, 3, 1]]

e   -0.688322
d   -0.560844
b    0.059269
dtype: float64

In [13]:
np.exp(s)

a    1.323210
b    1.061061
c    0.445033
d    0.570727
e    0.502419
dtype: float64

In [15]:
s.to_numpy()

AttributeError: 'Series' object has no attribute 'to_numpy'

同时series又和dict非常相似

In [None]:
s['a']

In [None]:
s['e'] = 12.
s

In [None]:
'e' in s

In [None]:
s.get('b')

# 3 DataFrame
数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列。

数据帧(DataFrame)的功能特点：
* 潜在的列是不同的类型
* 大小可变
* 标记轴(行和列)
* 可以对行和列执行算术运算

pandas中的DataFrame可以使用以下构造函数创建

```pandas.DataFrame( data, index, columns, dtype, copy)```

构造函数的参数如下 -  

1. data
数据采取各种形式，如:ndarray，series，map，lists，dict，constant和另一个DataFrame。
2. index
对于行标签，要用于结果帧的索引是可选缺省值np.arrange(n)，如果没有传递索引值。
3. columns
对于列标签，可选的默认语法是 - np.arange(n)。 这只有在没有索引传递的情况下才是这样。
4. dtype
每列的数据类型。
5. copy
如果默认值为False，则此命令(或任何它)用于复制数据。

## 3.1 创建

从list创建

In [16]:
data = [1,2,3,4,5]
df = pd.DataFrame(data)
df

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


In [17]:
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
df

Unnamed: 0,Name,Age
0,Alex,10
1,Bob,12
2,Clarke,13


从dict或者是series的dict，index和列名都可以通过参数来选择。

In [19]:
d = {'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'two': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
pd.DataFrame(d)

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [20]:
pd.DataFrame(d, index=['d', 'b', 'a'])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [21]:
pd.DataFrame(d, index=['d', 'b', 'a'], columns=['two', 'three'])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


从ndarray或者list的dict

In [23]:
d = {'one': [1., 2., 3., 4.],
     'two': [4., 3., 2., 1.]}

In [24]:
pd.DataFrame(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


In [25]:
pd.DataFrame(d, index=['a', 'b', 'c', 'd'])

Unnamed: 0,one,two
a,1.0,4.0
b,2.0,3.0
c,3.0,2.0
d,4.0,1.0


从dict的list，list的一个元素代表了dataframe的一行，dict的key会转换成dataframe的列名

In [27]:
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
pd.DataFrame(data)

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [28]:
pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b'])

Unnamed: 0,a,b
first,1,2
second,5,10


总而言之，创建方法非常多，只要能构成二维的序列，list，dict，ndarray，series的组合基本上都是可以的。

## 3.2 控制

### 3.2.1 列的选择，删除，增加

In [35]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
df ['one']

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

In [36]:
df['three']=pd.Series([10,20,30],index=['a','b','d'])
df

Unnamed: 0,one,two,three
a,1.0,1,10.0
b,2.0,2,20.0
c,3.0,3,
d,,4,30.0


In [37]:
df['four']=df['one']+df['three']
df

Unnamed: 0,one,two,three,four
a,1.0,1,10.0,11.0
b,2.0,2,20.0,22.0
c,3.0,3,,
d,,4,30.0,


In [38]:
del df['one']
df

Unnamed: 0,two,three,four
a,1,10.0,11.0
b,2,20.0,22.0
c,3,,
d,4,30.0,


In [39]:
df.pop('two')

a    1
b    2
c    3
d    4
Name: two, dtype: int64

In [40]:
df

Unnamed: 0,three,four
a,10.0,11.0
b,20.0,22.0
c,,
d,30.0,


### 3.2.2 行的选择、添加、删除

向loc传递index

In [49]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)
df.loc['b']

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


one    2.0
two    2.0
Name: b, dtype: float64

向iloc传递序号

In [50]:
df.iloc[1]

one    2.0
two    2.0
Name: b, dtype: float64

切片

In [51]:
df[2:4]

Unnamed: 0,one,two
c,3.0,3
d,,4


In [52]:
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['one','two'])

df = df.append(df2)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4
0,5.0,6
1,7.0,8


In [53]:
df = df.drop(0)
df

Unnamed: 0,one,two
a,1.0,1
b,2.0,2
c,3.0,3
d,,4
1,7.0,8
