In [None]:
###### 一维数据 Series ######
# Series 是 Pandas 中最基本的 1 维数据形式。其可以储存整数、浮点数、字符串等形式的数据。

# 创建Series的方法：
# data 可以是字典、numpy 里的 ndarray 对象等；index 是数据索引
s = pandas.Series(data, index=index)

In [6]:
# 导入pandas并查看当前版本
import pandas as pd
import numpy as np
print(pd.__version__)
print(np.__version__)

0.23.4
1.15.1


In [4]:
# 1.1 通过字典创建Series
# 索引就是字典的key, data则是对应的value
d = {'a': 10, 'b': 20, 'c': 30}
pd.Series(d)

a    10
b    20
c    30
dtype: int64

In [5]:
# 注意，pandas 会自动匹配人为设定的索引值和字典转换过来的索引值。而当索引无对应值时，会显示为 NaN 缺失值。
index = [0, 1, 2]
pd.Series(d, index=index)

0   NaN
1   NaN
2   NaN
dtype: float64

In [11]:
# 1.2 通过ndarray创建series
data = np.random.randn(5)  # 一维随机数组
index = ['a', 'b', 'c', 'd', 'e']   # 指定索引

s = pd.Series(data, index)
print(s)
print("------输出分割线------")
print(s['a'])    # 当我们需要从一维数据 Series 中返回某一个值时，可以直接通过索引完成。
print("------输出分割线------")
print(2*s)       # Series可以直接进行运算
print("------输出分割线------")
print(s-s)

a   -0.594751
b    0.593388
c    0.601333
d   -0.383798
e    1.679278
dtype: float64
------输出分割线------
-0.5947514433138111
------输出分割线------
a   -1.189503
b    1.186775
c    1.202666
d   -0.767596
e    3.358557
dtype: float64
------输出分割线------
a    0.0
b    0.0
c    0.0
d    0.0
e    0.0
dtype: float64


In [None]:
###### 二维数据 DataFrame ######
# DataFrame 可以被看成是以 Series 组成的字典。它和 Series 的区别在于，不但具有行索引，且具有列索引。
# DataFrame 可以用于储存多种类型的输入：
# * 一维数组、列表、字典或者 Series 字典
# * 二维 numpy.ndarray
# * 结构化的 ndarray
# * 一个 Series
# * 另一个 DataFrame

In [12]:
# 2.1 Series字典创建DataFrame
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [13]:
# 2.2 ndarrays or lists字典 创建 DataFrame
d = {'one' : [1, 2, 3, 4], 'two' : [4, 3, 2, 1]}    # 列表构成的字典

df1 = pd.DataFrame(d) # 未指定索引
df2 = pd.DataFrame(d, index=['a', 'b', 'c', 'd']) # 指定索引

print(df1)
print("------输出分割线------")
print(df2)

   one  two
0    1    4
1    2    3
2    3    2
3    4    1
------输出分割线------
   one  two
a    1    4
b    2    3
c    3    2
d    4    1


In [14]:
# 2.3 带字典的列表创建DataFrame
d = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]    # 带字典的列表
df = pd.DataFrame(d)
df

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [15]:
# 2.4 DataFrame.from_ 方法
# pandas 的 DataFrame 下面还有 4 个以 from_ 开头的方法，这也可以用来创建 Dataframe
# * from_csv()
# * from_dict()
# * from_items()
# * from_records()

d = [('A', [1, 2, 3]), ('B', [4, 5, 6])]
c = ['one', 'two', 'three']

df = pd.DataFrame.from_items(d, orient='index', columns=c)
df

  # This is added back by InteractiveShellApp.init_path()


Unnamed: 0,one,two,three
A,1,2,3
B,4,5,6


In [23]:
# 2.5 列选择，添加，删除
# 在一维数据结构 Series 中，我们用 df['标签'] 来选择行。而到了二维数据 DataFrame 中，df['标签'] 表示选择列
print(df['three'])
df[['one', 'three']]

A    3
B    6
Name: three, dtype: int64


Unnamed: 0,one,three
A,1,3
B,4,6


In [24]:
# 删除列
df.pop('one')
df

Unnamed: 0,two,three
A,2,3
B,5,6


In [29]:
# 添加列
df.insert(1, 'one', [10, 20])
df

Unnamed: 0,two,one,three,four
A,2,10,3,10
B,5,20,6,20


In [30]:
###### 三维数据 Panel ######
# Panel 主要由三个要素构成：
# - items: 每个项目（item）对应于内部包含的 DataFrame。
# - major_axis: 每个 DataFrame 的索引（行）
# - minor_axis: 每个 DataFrame 的索引列

In [31]:
wp = pd.Panel(np.random.randn(2, 5, 4), items=['Item1', 'Item2'], major_axis=pd.date_range('1/1/2000', periods=5), minor_axis=['A', 'B', 'C', 'D'])
wp

Panel is deprecated and will be removed in a future version.
The recommended way to represent these types of 3-dimensional data are with a MultiIndex on a DataFrame, via the Panel.to_frame() method
Alternatively, you can use the xarray package http://xarray.pydata.org/en/stable/.
Pandas provides a `.to_xarray()` method to help automate this conversion.

  exec(code_obj, self.user_global_ns, self.user_ns)


<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 5 (major_axis) x 4 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 2000-01-01 00:00:00 to 2000-01-05 00:00:00
Minor_axis axis: A to D

In [32]:
wp.to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,Item1,Item2
major,minor,Unnamed: 2_level_1,Unnamed: 3_level_1
2000-01-01,A,-1.37478,-0.943553
2000-01-01,B,0.359058,0.51418
2000-01-01,C,-0.448335,0.8051
2000-01-01,D,0.243755,-0.398973
2000-01-02,A,-0.942459,0.395631
2000-01-02,B,1.207673,-0.139206
2000-01-02,C,0.625281,0.639977
2000-01-02,D,1.237978,0.170736
2000-01-03,A,-0.94218,-0.305255
2000-01-03,B,0.506691,-0.579887


In [34]:
wp['Item2']

Unnamed: 0,A,B,C,D
2000-01-01,-0.943553,0.51418,0.8051,-0.398973
2000-01-02,0.395631,-0.139206,0.639977,0.170736
2000-01-03,-0.305255,-0.579887,-0.421576,1.078821
2000-01-04,-0.179744,-1.15141,-1.042601,0.84507
2000-01-05,-0.475567,1.22208,-1.120624,0.027215
