In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1. pandas 介绍
1.1 Pandas处理以下三个数据结构，这些数据结构构建在Numpy数组之上，这意味着它们很快。 
- 系列(Series)
- 数据帧(DataFrame)
- 面板(Panel)  


# 2. pandas数据结构：Series，dataframe and Index Objects（索引对象）
## 2.1 series
- 它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引index）组成。  
- Series的**字符串表现形式**为：索引在左边，值在右边。如果没有为数据指定索引会自动创建一个0到N-1（N为长度）的整数型索引。
- Series看成是一个定长的有序字典

所有Pandas数据结构是**值可变的**(可以更改)，除了Series(系列)都是大小可变的。Series是大小不变的。  
  
### 2.1.1 用list和dict创建Series

In [2]:
# 通过list 创建一个含有对各个数据点进行标记的index 的 Series
print('-----------------通过list创建--------------')
obj = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
print(obj)
print('\nobj.index:',obj.index)
print('\nobj.values:',obj.values)

# 通过字典创建Series
print('\n-------------通过字典创建Series------------')
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj2 = pd.Series(sdata)
print(obj2)

# index参数：通过传入排过序的字典key 改变Series顺序
print('\nindex参数：通过传入排过序的字典key 改变Series顺序\n')
s_index = ['California', 'Ohio', 'Oregon', 'Texas']
obj3 = pd.Series(sdata,index=s_index)
print(obj3)

-----------------通过list创建--------------
d    4
b    7
a   -5
c    3
dtype: int64

obj.index: Index(['d', 'b', 'a', 'c'], dtype='object')

obj.values: [ 4  7 -5  3]

-------------通过字典创建Series------------
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

index参数：通过传入排过序的字典key 改变Series顺序

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64


### 2.1.2 用index选取Series中的值并进行修改

In [3]:
print('obj[\'a\']=',obj['a'])
print()

obj['a']=2222

# 用列表进行多值索引
print('obj[[\'a\',\'b\',\'c\']] =')
print(obj[['a','b','c']])

obj['a']= -5

obj[['a','b','c']] =
a    2222
b       7
c       3
dtype: int64


### 2.1.3 修改index

In [4]:
print(obj)
print()
# 直接赋值进行修改
obj.index = ['aa','bb','c','d']

print(obj)

d       4
b       7
a    2222
c       3
dtype: int64

aa       4
bb       7
c     2222
d        3
dtype: int64


### 2.1.4 Series的运算
以下是数值计算及逻辑计算，它能够根据index自动对齐。

In [5]:
print('obj[obj>0]=')
print(obj[obj>0])
print()

print('obj*2=')
print(obj*2)
print()

print('np.exp(obj)=')
print(np.exp(obj))

obj[obj>0]=
aa       4
bb       7
c     2222
d        3
dtype: int64

obj*2=
aa       8
bb      14
c     4444
d        6
dtype: int64

np.exp(obj)=
aa      54.598150
bb    1096.633158
c             inf
d       20.085537
dtype: float64


In [6]:
print(obj2)
print()
print(obj3)
print()

print(obj2+obj3)

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64


## 2.2 DataFrame  
DataFrame是一个表格型的数据结构，它包含有**一组**有序的**列**，每列可以是不同的值类型（数值，字符串，布尔值等）。  
it can be thought of as a dict of Series all sharing the same index.  
### 2.2.1 创建一个DataFrame
- 最常用的方法是传入 a dict of equal-length lists or NumPy arrays
- 把嵌套字典传给DataFrame，外层字典的键作为列，内层键则作为行索引

In [26]:
# 直接传入一个由 等长的 列表或NumPy数组 组成的字典
data = {
        'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
       }
df = pd.DataFrame(data)
print(df)
print()

df1 = pd.DataFrame(np.arange(12).reshape((3,4)))
print("pd.DataFrame(np.arange(12).reshape((3,4))):")
print(df1)

print("--"*16)
print('\n创建时指定列的顺序及index:')

# 创建时指定列的顺序及index
print(pd.DataFrame(data,columns=['year','state','pop'],index=['one', 'two', 'three', 'four','five', 'six']))

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2

pd.DataFrame(np.arange(12).reshape((3,4))):
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
--------------------------------

创建时指定列的顺序及index:
       year   state  pop
one    2000    Ohio  1.5
two    2001    Ohio  1.7
three  2002    Ohio  3.6
four   2001  Nevada  2.4
five   2002  Nevada  2.9
six    2003  Nevada  3.2


In [27]:
# 把嵌套字典传给DataFrame，外层字典的键作为列，内层键则作为行索引
pop = {
        'Nevada': {2001: 2.4, 2002: 2.9},
        'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}
      }

df2 = pd.DataFrame(pop)
print(df2)

print(type(df2['Ohio'][:-1]))

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6
<class 'pandas.core.series.Series'>


### 2.2.2 查看一个DataFrame
- head方法:对于特别大的DataFrame，head方法会选取前五行
- 类似字典属性：**A column** in a DataFrame can be retrieved as **a Series**
- loc属性：通过位置或名称的方式获取dataframe的一行
- index以及index的name属性：获取index以及命名
- columns属性以及columns的name属性：获取表头以及表头的命名
- values属性:以二维ndarray的形式返回DataFrame中的数据。如果DataFrame各列的数据类型不同， 则值数组的dtype就会选用能兼容所有列的数据类型。

In [25]:
#head 方法选取前五行
print(df.head())
print('--'*20)

# 将DataFrame的列获取为一个Series：
print('df[\'state\']:')
print(df['state'])


# frame2[column]适用于任何列的名， 但是frame2.column只有在列名是一个合理的Python变量名时才适用。
print('df.state:')
print(df.state)
print('--'*20)

print('loc属性：获取dataframe的一行')
print('df.loc[2]:')
print(df.loc[2])
print()

print
print('--'*20)

print('df.index:')
print(df.index)
print('设置index的name属性：')
df.index.name='no.'
print(df)
print('--'*20)

# loc:通过位置或名称的方式获取dataframe的一行
print('df.columns:')
print(df.columns)
print('设置columns的name属性：')
df.columns.name='state'
print(df)
print('--'*20)

# values属性
print('values属性')
print(df.values)

state   state  year  pop
no.                     
0        Ohio  2000  NaN
1        Ohio  2001 -1.5
2        Ohio  2002 -1.7
3      Nevada  2001 -1.2
4      Nevada  2002  NaN
----------------------------------------
df['state']:
no.
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
df.state:
no.
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object
----------------------------------------
loc属性：获取dataframe的一行
df.loc[2]:
state
state    Ohio
year     2002
pop      -1.7
Name: 2, dtype: object
----------------------------------------
df.index:
RangeIndex(start=0, stop=6, step=1, name='no.')
设置index的name属性：
state   state  year  pop
no.                     
0        Ohio  2000  NaN
1        Ohio  2001 -1.5
2        Ohio  2002 -1.7
3      Nevada  2001 -1.2
4      Nevada  2002  NaN
5      Nevada  2003  NaN
----------------------------------------
df.columns:
Index(['state', 'year', 'pop'], dtype='obje

### 2.2.3 对DataFrame进行操作
- 对列赋值
    - 将列表或数组赋值给**某个列**时， 其长度必须跟DataFrame的长度相匹配
    - 用Series进行赋值，则会**精确匹配DataFrame的index**，**所有空位都会被填上缺失值**
    - 为不存在的列赋值会创建出一个新列。
- 删除列：del
- 转置操作（DataFrame.T）

In [9]:
print(df)
print()

df['pop'] = np.arange(6)
print('df[\'pop\'] = np.arange(6):')
print(df)
print('--'*20)

val = pd.Series([-1.2, -1.5, -1.7],index=[3,1,2])
df['pop'] = val
print('df[\'pop\'] = Series:')
print(df)
print('--'*20)

# 为不存在的列赋值会创建出一个新列。
df['to_be_del'] = (df.state=='Ohio')
print(df)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2

df['pop'] = np.arange(6):
    state  year  pop
0    Ohio  2000    0
1    Ohio  2001    1
2    Ohio  2002    2
3  Nevada  2001    3
4  Nevada  2002    4
5  Nevada  2003    5
----------------------------------------
df['pop'] = Series:
    state  year  pop
0    Ohio  2000  NaN
1    Ohio  2001 -1.5
2    Ohio  2002 -1.7
3  Nevada  2001 -1.2
4  Nevada  2002  NaN
5  Nevada  2003  NaN
----------------------------------------
    state  year  pop  to_be_del
0    Ohio  2000  NaN       True
1    Ohio  2001 -1.5       True
2    Ohio  2002 -1.7       True
3  Nevada  2001 -1.2      False
4  Nevada  2002  NaN      False
5  Nevada  2003  NaN      False


In [10]:
# del方法用来删除列：
del df['to_be_del']
print(df.columns)

Index(['state', 'year', 'pop'], dtype='object')


In [14]:
print(df.T)

          0     1     2       3       4       5
state  Ohio  Ohio  Ohio  Nevada  Nevada  Nevada
year   2000  2001  2002    2001    2002    2003
pop     NaN  -1.5  -1.7    -1.2     NaN     NaN


## 2.3 Index Objects（索引对象）
pandas’s Index objects are responsible for holding the axis labels(轴标签) and other metadata(like the axis name).  
构建Series或DataFrame时， 所用到的任何数组或其他序列的标签都会被转换成一个Index。    
Index对象是不可变的， 因此用户不能对其进行修改，这使Index对象在多个数据结构之间安全共享。

In [45]:
# 除了类似于数组， Index的功能也类似一个固定大小的Set：
print(df)
print('--'*20)
print(df.columns)
print()

print('state'in df.columns)
print(2 in df.index)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
----------------------------------------
Index(['state', 'year', 'pop'], dtype='object')

True
True


In [54]:
labels = pd.Index(np.ones(3))
print(labels)

# Index对象是不可变的
try:
    labels[1]='d'
except BaseException as e:
    print('Index does not support mutable operations')

# Index对象可在多个数据结构之间安全共享
print()
obj2 = pd.DataFrame(np.arange(12).reshape((3,4)),index=labels)
print(obj2)

print('\n obj2.index is labels:',obj2.index is labels)
print()

# 与python的集合不同， pandas的Index可以包含重复的标签：
print('选择重复的标签， 会显示所有的结果')
print(obj2.loc[1])

Float64Index([1.0, 1.0, 1.0], dtype='float64')
Index does not support mutable operations

     0  1   2   3
1.0  0  1   2   3
1.0  4  5   6   7
1.0  8  9  10  11

 obj2.index is labels: True

选择重复的标签， 会显示所有的结果
     0  1   2   3
1.0  0  1   2   3
1.0  4  5   6   7
1.0  8  9  10  11


# 3. Essential Functionality(基本功能)
## 3.1 Reindexing（重新索引）
reindex方法：创建一个新对象， 它的数据根据新索引进行重排，如果某个索引值当前不存在， 就引入缺失值：

In [65]:
# reindex方法修改Series
obj = pd.Series([4.5, 7.2, -5.3, 3.6],index=['d', 'b','a', 'c'])
print(obj)
print('--'*16+'reindex方法修改Series')
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
print(obj2)

# reindex方法修改DataFrame（行）索引和列。 
#只传递一个序列时，会重新索引结果的行
frame = pd.DataFrame(np.arange(9).reshape((3,3)),index=['a','c','d'],columns=['Ohio','Texas','California'])
print('\n\nDataFrame:')
print(frame)
print('--'*16+'reindex方法修改DataFrame')
frame2 = frame.reindex(['a','b','c','d'])
print(frame2)
# 同时修改行和列（列使用columns关键字）
states = ['Texas','Utah','California']
frame3 = frame.reindex(['a','b','c','d'],columns=states)
print('columns关键字reindex列:')
print(frame3)

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64
--------------------------------reindex方法修改Series
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64


DataFrame:
   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8
--------------------------------reindex方法修改DataFrame
   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0
columns关键字reindex列:
   Texas  Utah  California
a    1.0   NaN         2.0
b    NaN   NaN         NaN
c    4.0   NaN         5.0
d    7.0   NaN         8.0


- method选项：对于时间序列这样的有序数据，重新索引时可能需要做一些**插值处理**（填充一些数据）。
    - eg:method='ffill'可以实现前向值填充：

In [58]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
print(obj3)
print('--'*6+'ffill可以实现前向值填充'+'--'*6)
obj3 = obj3.reindex(range(6),method='ffill')
print(obj3)

0      blue
2    purple
4    yellow
dtype: object
------------ffill可以实现前向值填充------------
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object


# . pandas中的函数
## .1 isnull 和 notnull 函数 以及 Series的实例方法
用于检检测缺失数据

In [12]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
states = ['California', 'Ohio', 'Oregon', 'Texas']
temp = pd.Series(sdata,index=states)
print(temp)
print()

print(pd.isnull(temp))
print()

print(temp.isnull())
print()

print(pd.notnull(temp))

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool
