In [6]:
import pandas as pd
import numpy as np

In [7]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002, 2003],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)  # 利用包含等长度列表或者Numpy 数组的字典来形成DataFrame
print(frame)

frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],  # columns: 指定列名  index: 指定行名
                     index = ['one', 'two', 'three', 'four', 'five', 'six'])
print(frame2)

frame2['debt'] = np.arange(6.)
print(frame2)
val = pd.Series([-1.2, -1.5, -1.7], index = ['two', 'four', 'five'])  # series的索引会按照DataFrame的索引重新排序，并在孔雀的地方填充缺失值
frame2['debt'] = val
print(frame2)

    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
       year   state  pop debt
one    2000    Ohio  1.5  NaN
two    2001    Ohio  1.7  NaN
three  2002    Ohio  3.6  NaN
four   2001  Nevada  2.4  NaN
five   2002  Nevada  2.9  NaN
six    2003  Nevada  3.2  NaN
       year   state  pop  debt
one    2000    Ohio  1.5   0.0
two    2001    Ohio  1.7   1.0
three  2002    Ohio  3.6   2.0
four   2001  Nevada  2.4   3.0
five   2002  Nevada  2.9   4.0
six    2003  Nevada  3.2   5.0
       year   state  pop  debt
one    2000    Ohio  1.5   NaN
two    2001    Ohio  1.7  -1.2
three  2002    Ohio  3.6   NaN
four   2001  Nevada  2.4  -1.5
five   2002  Nevada  2.9  -1.7
six    2003  Nevada  3.2   NaN


普通的Python 切片中是不包含尾部的，Series 的切片与之不同，包含头部和尾部

In [8]:
obj = pd.Series(np.arange(5.), index = ['a', 'b', 'c', 'd', 'e'])

print(obj)
print(obj['b':'e'])  

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64


在pandas 对象使用整数索引对新用户来说经常会产生歧义，这是因为它和在列表、元组等Python 内建数据结构上进行索引有些许不同。例如，下面的代码会产生错误：

In [9]:
ser = pd.Series(np.arange(3.))
print(ser)
print(ser[-1])

0    0.0
1    1.0
2    2.0
dtype: float64


KeyError: -1

在上面的例子中，pandas可以“回退”到整数索引，但是这样的方式难免会引起一些微小的错误。假设我们有一个索引，它包含了0、1、2，但是推断用户所需要的索引（标签索引或位置索引）是很难的。
另一方面，对于非整数索引，则不会有潜在的歧义：

In [10]:
ser2 = pd.Series(np.arange(3.), index = ['a', 'b', 'c'])

print(ser2)
print(ser2[-1])

a    0.0
b    1.0
c    2.0
dtype: float64
2.0


所以为了更精确处理，可以使用loc（用于标签）或iloc（用于整数）

In [11]:
print(ser[:1])  # 取ser第0行

print(ser.loc[:1]) # 取ser第0、1行，包含尾部==》用于标签

print(ser.iloc[:1]) #取ser第0行==》用于整数

0    0.0
dtype: float64
0    0.0
1    1.0
dtype: float64
0    0.0
dtype: float64


DataFrame 算术和数据对齐

In [15]:
df1 = pd.DataFrame(np.arange(12.).reshape(3, 4), columns=list('abcd'))
df2 = pd.DataFrame(np.arange(20.).reshape(4, 5), columns=list('abcde'))
print(df1)
print(df2)

print(df1.add(df2, fill_value = 0)) # df1 + df2
print(df1.radd(df2, fill_value = 0)) # df2 + df1

print(df1.div(df2, fill_value = 0)) # df1 / df2
print(df1.rdiv(df2, fill_value = 0)) # df2 / df1

     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0
      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   6.0   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0
      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0  11.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0
      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0  11.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0
     a         b         c         d    e
0  NaN  1.000000  1.000000  1.000000  0.0
1  0.8  0.833333  0.857143  0.875000  0.0
2  0.8  0.818182  0.833333  0.846154  0.0
3  0.0  0.000000  0.000000  0.000000  0.0
          a         b         c         d    e
0       NaN  1.000000  1.000000  1.000000  inf
1  1.250000  1.200000  1.166667  1.142857  inf
2  1.250000  1.222222  1.200000  1.181818  inf
3       inf       inf     