In [2]:
import pandas as pd
from pandas import DataFrame,Series
import numpy as np

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及
一组与之相关的数据标签（即索引）组成


In [3]:
obj = pd.Series([4,4,6,1])
obj

0    4
1    4
2    6
3    1
dtype: int64

Series的字符串表现形式为：索引在左边，值在右边。由于我们没有为数据指定索
引，于是会自动创建一个0到N-1（N为数据的长度）的整数型索引。可以通过
Series 的values和index属性获取其数组表示形式和索引对象

In [4]:
obj.values

array([4, 4, 6, 1], dtype=int64)

In [5]:
obj.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
 # 创建Series带有一个可以对各个数据点进行标记的索引
obj = pd.Series([-1,-2,3,4,5],index=["a",'b','c','d','e'])
obj

a   -1
b   -2
c    3
d    4
e    5
dtype: int64

使用NumPy函数或类似NumPy的运算（如根据布尔型数组进行过滤、标量乘法、
应用数学函数等）都会保留索引值的链接

In [7]:
obj[obj>0]

c    3
d    4
e    5
dtype: int64

In [8]:
obj*2

a    -2
b    -4
c     6
d     8
e    10
dtype: int64

In [9]:
np.exp(obj)

a      0.367879
b      0.135335
c     20.085537
d     54.598150
e    148.413159
dtype: float64

Series看成是一个定长的有序字典，因为它是索引值到数据值的一个映
射。它可以用在许多原本需要字典参数的函数中

In [10]:
'a' in obj

True

In [11]:
# 直接将字典转变为Series
data = {"bob":200,"tom":233,"jok":1000,"ax":299}
obj = pd.Series(data)
obj

bob     200
tom     233
jok    1000
ax      299
dtype: int64

In [12]:
# 如果只传入一个字典，则结果Series中的索引就是原字典的键（有序排列）。你可
# 以传入排好序的字典的键以改变顺
obj = pd.Series(data,index=["tom","jok","ax","bob","tt"])
obj

tom     233.0
jok    1000.0
ax      299.0
bob     200.0
tt        NaN
dtype: float64

In [13]:
# 使用缺失（missing）或NA表示缺失数据。pandas的isnull和notnull函数可用于
# 检测缺失数据
pd.isnull(obj)

tom    False
jok    False
ax     False
bob    False
tt      True
dtype: bool

In [14]:
pd.notnull(obj)

tom     True
jok     True
ax      True
bob     True
tt     False
dtype: bool

In [15]:
obj.isnull()

tom    False
jok    False
ax     False
bob    False
tt      True
dtype: bool

Series最重要的一个功能是，它会根据运算的索引标签自动对
齐数据

In [16]:
obj1 = pd.Series({"jok":200,"tom":300,"bob":90})
obj1

jok    200
tom    300
bob     90
dtype: int64

In [17]:
obj

tom     233.0
jok    1000.0
ax      299.0
bob     200.0
tt        NaN
dtype: float64

In [18]:
obj+obj1

ax        NaN
bob     290.0
jok    1200.0
tom     533.0
tt        NaN
dtype: float64

Series对象本身及其索引都有一个name属性，该属性跟pandas其他的关键功能关
系非常密切

In [19]:
obj.name="money"
obj.index.name = "name"
obj

name
tom     233.0
jok    1000.0
ax      299.0
bob     200.0
tt        NaN
Name: money, dtype: float64

In [20]:
# 通过赋值的方式修改索引
obj2 = pd.Series([1,2,3,4])
obj2

0    1
1    2
2    3
3    4
dtype: int64

In [21]:
obj2.index=["a","b","c","d"]
obj2

a    1
b    2
c    3
d    4
dtype: int64

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值
类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被
看做由Series组成的字典（共用同一个索引）。DataFrame中的数据是以一个或多
个二维块存放的（而不是列表、字典或别的一维数据结构）


In [22]:
# 生成DataFranme:传入等长列表或numpy数组组成的列表
data = {"state":["Ohio","Ohio","Ohio","nevada","nevada","nevada"],
       "year":[2000,2001,2002,2001,2002,2003],
       "pop":[1.5,1.7,3.6,2.4,2.9,3.2]}
frame = pd.DataFrame(data)

In [23]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,nevada,2001,2.4
4,nevada,2002,2.9
5,nevada,2003,3.2


指定了列序列，则DataFrame的列就会按照指定顺序进行排列：


In [24]:
pd.DataFrame(data,columns=["pop","state","year"])


Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,nevada,2001
4,2.9,nevada,2002
5,3.2,nevada,2003


通过类似字典标记的方式或属性的方式，可以将DataFrame的列获取为一个
Series

In [25]:
frame["state"]

0      Ohio
1      Ohio
2      Ohio
3    nevada
4    nevada
5    nevada
Name: state, dtype: object

In [26]:
frame.year

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64

In [27]:
frame.year.name

'year'

行可以通过位置或名称的方式进行获取

In [28]:
frame.loc[0]


state    Ohio
year     2000
pop       1.5
Name: 0, dtype: object

In [29]:
frame1 = pd.DataFrame(data,columns=["pop","state","year","debt"])

In [30]:
frame1["debt"] = 16.5
frame1


Unnamed: 0,pop,state,year,debt
0,1.5,Ohio,2000,16.5
1,1.7,Ohio,2001,16.5
2,3.6,Ohio,2002,16.5
3,2.4,nevada,2001,16.5
4,2.9,nevada,2002,16.5
5,3.2,nevada,2003,16.5


In [31]:
frame1["debt"] = np.arange(6.)
frame1

Unnamed: 0,pop,state,year,debt
0,1.5,Ohio,2000,0.0
1,1.7,Ohio,2001,1.0
2,3.6,Ohio,2002,2.0
3,2.4,nevada,2001,3.0
4,2.9,nevada,2002,4.0
5,3.2,nevada,2003,5.0


将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配。如果赋值
的是一个Series，就会精确匹配DataFrame的索引，所有的空位都将被填上缺失
值

In [32]:
var = pd.Series([-1,3,5.0],index=[1,2,3])
frame1["debt"] = var
frame1

Unnamed: 0,pop,state,year,debt
0,1.5,Ohio,2000,
1,1.7,Ohio,2001,-1.0
2,3.6,Ohio,2002,3.0
3,2.4,nevada,2001,5.0
4,2.9,nevada,2002,
5,3.2,nevada,2003,


为不存在的列赋值会创建新列
注意：不能用frame1.wet创建新的列。


In [33]:
frame1["wet"] = frame1.state=="Ohio"
frame1

Unnamed: 0,pop,state,year,debt,wet
0,1.5,Ohio,2000,,True
1,1.7,Ohio,2001,-1.0,True
2,3.6,Ohio,2002,3.0,True
3,2.4,nevada,2001,5.0,False
4,2.9,nevada,2002,,False
5,3.2,nevada,2003,,False


In [34]:
del frame1["wet"]


In [35]:
frame1.columns

Index(['pop', 'state', 'year', 'debt'], dtype='object')

嵌套字典：


In [36]:
pop = {"nevada":{2001:2.4,2002:2.9},
      "ohio":{2000:1.5,2001:1.7,2002:3.6}}
frame2 = pd.DataFrame(pop)
frame2

Unnamed: 0,nevada,ohio
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [37]:
# 你也可以使用类似NumPy数组的方法，对DataFrame进行转置（交换行和列）：
frame2.T

Unnamed: 0,2001,2002,2000
nevada,2.4,2.9,
ohio,1.7,3.6,1.5


In [38]:
# 明确指定了索引
pd.DataFrame(pop,index=[2001,2002,2003])


Unnamed: 0,nevada,ohio
2001,2.4,1.7
2002,2.9,3.6
2003,,


DataFrame构造函数所能接受的各种数据
二维ndarray  ----可以传入行标与列标
由数组，列表或元组组成的字典  ----每个序列变成DF的一列
Series组成的字典
字典组成的字典

In [39]:
frame2
frame2.index.name = "year"
frame2.columns.name = "state"


In [40]:
frame2

state,nevada,ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2001,2.4,1.7
2002,2.9,3.6
2000,,1.5


In [41]:
frame2.values

array([[2.4, 1.7],
       [2.9, 3.6],
       [nan, 1.5]])

In [42]:
frame1.values

array([[1.5, 'Ohio', 2000, nan],
       [1.7, 'Ohio', 2001, -1.0],
       [3.6, 'Ohio', 2002, 3.0],
       [2.4, 'nevada', 2001, 5.0],
       [2.9, 'nevada', 2002, nan],
       [3.2, 'nevada', 2003, nan]], dtype=object)