# 数据结构
1. 系列Series
    - 1维
    - 均匀数据
    - 尺寸大小不变
    - 数据的值可变
2. 数据帧DataFrame
    - 2维
    - 异构数据（潜在的列是不同的类型）
    - 尺寸大小可变
    - 数据可变
    - 可以对行和列执行算术运算
3. 面板Panel
    - 3维
    - 异构数据
    - 尺寸大小可变
    - 数据可变
4. 联系
    - 较高维数据结构是其较低维数据结构的容器（例如，DataFrame是Series的容器，Panel是DataFrame的容器）
5. 特点
    - pandas数据结构构建在Numpy数组之上，这意味着它们很快

# 系列
1. 描述：系列(Series)是能够保存任何类型的数据(整数，字符串，浮点数，Python对象等)的一维标记数组，轴标签统称为索引
2. 语法
    - pandas.Series(data, index, dtype, copy)
        - data：数据采取各种形式，如：ndarray，list，constants
        - index：索引值必须是唯一的和散列的，与数据的长度相同。默认np.arange(n)如果没有索引被传递
        - dtype：dtype用于数据类型。如果没有，将推断数据类型
        - copy：复制数据，默认为false
3. 用于创建系列的输入
    - 创建数组
    - 字典
    - 标量值或常数
4. 系列属性
    - axes：返回行轴标签列表
    - dtype：返回对象的数据类型(dtype)
    - empty：如果系列为空，则返回True
    - ndim：返回底层数据的维数，默认定义：1
    - size：返回基础数据中的元素数
    - values：将系列作为ndarray返回
5. 系列方法
    - head()：返回前n行
    - tail()：返回最后n行

### 创建一个空系列

In [1]:
import numpy as np
import pandas as pd

s = pd.Series()
s

Series([], dtype: float64)

### 从ndarray创建一个系列：如果数据是ndarray，则传递的索引必须具有相同的长度。 如果没有传递索引值，那么默认的索引将是范围(n)，其中n是数组长度，即[0,1,2,3…. range(len(array))-1]

##### 不传入索引

In [5]:
data = np.array(['a', 'b', 'c', 'd'])
s = pd.Series(data)
s

0    a
1    b
2    c
3    d
dtype: object

##### 传入自定义索引

In [6]:
s = pd.Series(data, index=[100, 101, 111, 122])
s

100    a
101    b
111    c
122    d
dtype: object

### 从字典创建一个系列：字典(dict)可以作为输入传递，如果没有指定索引，则按排序顺序取得字典键以构造索引。 如果传递了索引，索引中与标签对应的数据中的值将被拉出

##### 不指定索引

In [7]:
data = {'a': 0., 'b': 1., 'c': 2.}
s = pd.Series(data)
s

a    0.0
b    1.0
c    2.0
dtype: float64

##### 指定索引：索引顺序保持不变，缺少的元素使用NaN(不是数字)填充

In [9]:
data = {'a': 0., 'b': 1., 'c': 2.}
s = pd.Series(data, index=['b', 'c', 'd', 'a'])
s

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

### 从标量创建一个系列：若提供索引，则将重复该值以匹配索引的长度

##### 未提供索引

In [14]:
s = pd.Series(10)
s

0    10
dtype: int64

##### 提供索引

In [17]:
s = pd.Series(10, [0, 2, 30, 4])
s

0     10
2     10
30    10
4     10
dtype: int64

### 从具有位置的系列中访问数据：系列中的数据可以使用类似于访问ndarray中的数据来访问

##### 索引访问

In [19]:
s = pd.Series([1,2,3,4,5],index = ['a','b','c','d','e'])
s[2]

3

##### 切片访问

In [22]:
s[-3:]

c    3
d    4
e    5
dtype: int64

##### 字典键访问

In [25]:
s['c']

3

##### 字典多键访问

In [26]:
s[['c', 'a', 'b']]

c    3
a    1
b    2
dtype: int64

### axes属性：返回行轴标签列表（左闭右开）

In [8]:
s = pd.Series(np.random.randn(4))
s.axes

[RangeIndex(start=0, stop=4, step=1)]

### empty：如果系列为空，则返回True

In [13]:
s = pd.Series()
s.empty

True

### ndim属性：返回对象的维数，系列为一维

In [17]:
s = pd.Series(np.random.randn(4))
s.ndim

1

### size属性：返回系列的大小(长度)

In [20]:
s = pd.Series(np.random.randn(4))
s.size  #相当于len()

4

### values属性：以数组形式返回系列中的实际数据值

In [23]:
s = pd.Series(np.random.randn(4))
s.values

array([ 0.72466144, -0.54513089, -1.60794645,  1.83671885])

### head()：返回前n行(观察索引值)，n默认为5

In [34]:
s = pd.Series(np.random.randn(8))
s.head(3)

0    0.707266
1    1.357675
2   -0.613387
dtype: float64

### tail()：返回最后n行(观察索引值)，n默认为5

In [36]:
s = pd.Series(np.random.randn(8))
s.tail(1)

7    1.143973
dtype: float64

# 数据帧
1. 描述：数据帧(DataFrame)是二维数据结构，即数据以行和列的表格方式排列
2. 语法
    - pandas.DataFrame( data, index, columns, dtype, copy)
        - data：数据采取各种形式，如:ndarray，series，map，lists，dict，constant和另一个DataFrame
        - index：对于行标签，要用于结果帧的索引是可选缺省值np.arrange(n)，如果没有传递索引值
        - columns：对于列标签，可选的默认语法是np.arange(n)。这只有在没有索引传递的情况下才是这样
        - dtype：每列的数据类型
        - copy：默认值为False，则此命令(或任何它)用于复制数据
3. 用于创建数据帧的输入
    - 列表
    - 字典
    - 系列
    - ndarray
    - 另一个数据帧
4. 数据帧属性
    - axes：返回行轴标签列表
    - dtype：返回对象的数据类型(dtype)
    - empty：如果系列为空，则返回True
    - ndim：返回底层数据的维数，默认定义：1
    - size：返回基础数据中的元素数
    - values：将系列作为ndarray返回
    - T	转置行和列
    - shape	返回表示DataFrame的维度的元组
5. 数据帧方法
    - head()：返回前n行
    - tail()：返回最后n行

### 创建一个空的数据帧

In [28]:
import pandas as pd

df = pd.DataFrame()
print(df)

Empty DataFrame
Columns: []
Index: []


### 从列表创建DataFrame

##### 传入一维列表

In [29]:
data = [1, 2, 3, 4, 5]
df = pd.DataFrame(data)
df

Unnamed: 0,0
0,1
1,2
2,3
3,4
4,5


##### 传入二维列表

In [31]:
data = [['Alex',10], ['Bob',12], ['Clarke',13]]
df = pd.DataFrame(data, columns=['Name','Age'])  #指定columns
df

Unnamed: 0,0,1
0,Alex,10
1,Bob,12
2,Clarke,13


In [33]:
df = pd.DataFrame(data, columns=['Name','Age'], dtype=float)  #指定dtype
df

Unnamed: 0,Name,Age
0,Alex,10.0
1,Bob,12.0
2,Clarke,13.0


### 从ndarrays/lists的字典来创建DataFrame：所有的ndarrays必须具有相同的长度。如果传递了索引(index)，则索引的长度应等于数组的长度。如果没有传递索引，则默认情况下，索引将为range(n)，其中n为数组长度

##### 使用默认索引

In [36]:
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'], 'Age':[28,34,29,42]}
df = pd.DataFrame(data)
df

Unnamed: 0,Age,Name
0,28,Tom
1,34,Jack
2,29,Steve
3,42,Ricky


##### 传入索引

In [37]:
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
df

Unnamed: 0,Age,Name
rank1,28,Tom
rank2,34,Jack
rank3,29,Steve
rank4,42,Ricky


### 从字典列表创建数据帧DataFrame

##### 默认索引

In [38]:
data = [{'a': 1, 'b': 2},{'a': 5, 'b': 10, 'c': 20}]
df = pd.DataFrame(data)
df

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


##### 传入索引

In [39]:
df = pd.DataFrame(data, index=['first', 'second'])
df

Unnamed: 0,a,b,c
first,1,2,
second,5,10,20.0


##### 传入索引、列

In [42]:
df = pd.DataFrame(data, index=['first', 'second'], columns=['a', 'b', 'c', 'd'])
df

Unnamed: 0,a,b,c,d
first,1,2,,
second,5,10,20.0,


### 从系列的字典来创建DataFrame（列顺序参照字母表）

In [64]:
d = {'one' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
      'two' : pd.Series([1, 2, 3], index=['a', 'b', 'c'])}

df = pd.DataFrame(d)
df

Unnamed: 0,a,b,c
a,1.0,1,1.0
b,2.0,2,2.0
c,3.0,3,3.0
d,,4,


### 列选择

In [97]:
d = {'one' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
      'two' : pd.Series([1, 2, 3], index=['a', 'b', 'c'])}

df = pd.DataFrame(d)
df['one']

a    1
b    2
c    3
d    4
Name: one, dtype: int64

### 列添加

In [98]:
d = {'one' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
      'two' : pd.Series([1, 2, 3], index=['a', 'b', 'c'])}

df['three'] = pd.Series([10,20,30], index=['a', 'b', 'c'])
df

Unnamed: 0,one,two,three
a,1,1.0,10.0
b,2,2.0,20.0
c,3,3.0,30.0
d,4,,


### 列求和（对应相加）

In [99]:
d = {'one' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']),
      'two' : pd.Series([1, 2, 3], index=['a', 'b', 'c'])}

df['four'] = df['one'] + df['two']
df

Unnamed: 0,one,two,three,four
a,1,1.0,10.0,2.0
b,2,2.0,20.0,4.0
c,3,3.0,30.0,6.0
d,4,,,


### 列删除：del、pop

In [100]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'd', 'c']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
df

Unnamed: 0,one,three,two
a,1.0,10.0,1
b,2.0,20.0,2
c,3.0,30.0,4
d,,,3


In [81]:
del df['one']  #使用del删除
df

Unnamed: 0,three,two
a,10.0,1
b,20.0,2
c,30.0,4
d,,3


In [82]:
df.pop('two')  #使用pop删除，并返回被删除的列

a    1
b    2
c    4
d    3
Name: two, dtype: int64

### 行选择

##### 标签选择：通过将行标签传递给loc()函数来选择行

In [86]:
d = {'C' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'A' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
df.loc['b']

A    2.0
C    2.0
Name: b, dtype: float64

##### 按整数位置选择：通过将整数位置传递给iloc()函数来选择行

In [87]:
df.iloc[2]

A    3.0
C    3.0
Name: c, dtype: float64

### 行切片

In [94]:
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
    'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
df[2:]

Unnamed: 0,one,two
c,3.0,3
d,,4


### 行追加：在末尾追加

In [101]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df.append(df2)

Unnamed: 0,a,b
0,1,2
1,3,4
0,5,6
1,7,8


### 行删除：使用索引标签从DataFrame中删除指定标签的行，可能会删除多行

In [103]:
df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)

df = df.drop(0)
df

Unnamed: 0,a,b
1,3,4
1,7,8


### T(转置)将：行和列交换，返回DataFrame的转置

In [50]:
d = {'Name': pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack']),
   'Age': pd.Series([25,26,25,23,30,29,23]),
   'Rating': pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8])}

df = pd.DataFrame(d)
df

Unnamed: 0,Age,Name,Rating
0,25,Tom,4.23
1,26,James,3.24
2,25,Ricky,3.98
3,23,Vin,2.56
4,30,Steve,3.2
5,29,Minsu,4.6
6,23,Jack,3.8


In [38]:
df.T  #转置

Unnamed: 0,0,1,2,3,4,5,6
Age,25,26,25,23,30,29,23
Name,Tom,James,Ricky,Vin,Steve,Minsu,Jack
Rating,4.23,3.24,3.98,2.56,3.2,4.6,3.8


### axes属性：返回行轴标签和列轴标签列表

In [39]:
df.axes

[RangeIndex(start=0, stop=7, step=1),
 Index(['Age', 'Name', 'Rating'], dtype='object')]

### dtypes属性：返回每列的数据类型

In [45]:
df.dtypes

Age         int64
Name       object
Rating    float64
dtype: object

### empty属性：返回布尔值，表示对象是否为空（True）

In [46]:
df.empty

False

### ndim属性：返回对象的维数，数据帧为2维

In [47]:
df.ndim

2

### shape属性：返回表示DataFrame的维度的元组（行数，列数）

In [51]:
df.shape

(7, 3)

### size属性：返回DataFrame中的元素数

In [52]:
df.size  #7*3=21

21

### values属性：将DataFrame中的实际数据作为ndarray返回

In [53]:
df.values

array([[25, 'Tom', 4.23],
       [26, 'James', 3.24],
       [25, 'Ricky', 3.98],
       [23, 'Vin', 2.56],
       [30, 'Steve', 3.2],
       [29, 'Minsu', 4.6],
       [23, 'Jack', 3.8]], dtype=object)

### head()：返回前n行(观察索引值)，n默认为5

### tail()：返回最后n行(观察索引值)，n默认为5

# 面板
1. 描述：面板(Panel)是3D容器的数据
2. 语法
    - pandas.Panel(data, items, major_axis, minor_axis, dtype, copy)
        - data：数据采取各种形式，如：ndarray，series，map，lists，dict，constant和另一个数据帧DataFrame
        - items：axis 0，每个项目对应于内部包含的数据帧(DataFrame)
        - major_axis：axis 1，它是每个数据帧(DataFrame)的索引(行)
        - minor_axis - axis 2，它是每个数据帧(DataFrame)的列
        - dtype：每列的数据类型
        - copy：复制数据，默认为False
3. 用于创建面板的输入
    - ndarrays
    - DataFrame的dict

### 创建一个空面板

In [110]:
import numpy as np
import pandas as pd

p = pd.Panel()
p

<class 'pandas.core.panel.Panel'>
Dimensions: 0 (items) x 0 (major_axis) x 0 (minor_axis)
Items axis: None
Major_axis axis: None
Minor_axis axis: None

### 从3维ndarray创建面板

In [104]:
data = np.random.rand(2,4,5)
p = pd.Panel(data)
p

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 5 (minor_axis)
Items axis: 0 to 1
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 4

### 从DataFrame对象的dict创建面板

In [109]:
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), #randn函数返回标准正态分布数据
        'Item2' : pd.DataFrame(np.random.randn(4, 1))} #Minor_axis是此维度中最大的数

p = pd.Panel(data)
p

<class 'pandas.core.panel.Panel'>
Dimensions: 2 (items) x 4 (major_axis) x 3 (minor_axis)
Items axis: Item1 to Item2
Major_axis axis: 0 to 3
Minor_axis axis: 0 to 2

### 从面板中通过轴选择数据

##### 使用Items

In [115]:
data = {'Item1' : pd.DataFrame(np.random.randn(4, 3)), 
        'Item2' : pd.DataFrame(np.random.randn(4, 1))}

p = pd.Panel(data)
p['Item1']

Unnamed: 0,0,1,2
0,1.399526,1.430239,1.176952
1,1.23563,-1.108791,1.864432
2,0.265943,-0.227987,-0.488059
3,0.029489,-0.776581,1.242125


##### 使用major_xs（取行，即axis=0）

In [119]:
p.major_xs(2)

Unnamed: 0,Item1,Item2
0,0.265943,-0.754777
1,-0.227987,
2,-0.488059,


##### 使用minor_xs（取列，即axis=1）

In [117]:
p.minor_xs(1)

Unnamed: 0,Item1,Item2
0,1.430239,
1,-1.108791,
2,-0.227987,
3,-0.776581,


# 描述性统计函数
1. count()：非空观测数量
2. sum()：所有值之和
3. mean()：所有值的平均值
4. median()：所有值的中位数
5. mode()：值的模值
6. std()：值的标准偏差
7. min()：所有值中的最小值
8. max()：所有值中的最大值
9. abs()：绝对值
10. prod()：数组元素的乘积
11. cumsum()：累计总和
12. cumprod()：累计乘积
13. describe()：用来计算有关DataFrame列的统计信息的摘要

In [54]:
import pandas as pd
import numpy as np

d = {'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Minsu','Jack',
   'Lee','David','Gasper','Betina','Andres']),
   'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,2.98,4.80,4.10,3.65])}

df = pd.DataFrame(d)
df

Unnamed: 0,Age,Name,Rating
0,25,Tom,4.23
1,26,James,3.24
2,25,Ricky,3.98
3,23,Vin,2.56
4,30,Steve,3.2
5,29,Minsu,4.6
6,23,Jack,3.8
7,34,Lee,3.78
8,40,David,2.98
9,30,Gasper,4.8


In [55]:
df.sum()

Age                                                     382
Name      TomJamesRickyVinSteveMinsuJackLeeDavidGasperBe...
Rating                                                44.92
dtype: object

In [58]:
df.sum(1)  #axis=1，即每行求和

0     29.23
1     29.24
2     28.98
3     25.56
4     33.20
5     33.60
6     26.80
7     37.78
8     42.98
9     34.80
10    55.10
11    49.65
dtype: float64