# 数据结构简介

在pandas中有两类非常重要的数据结构，即序列Series和数据框DataFrame。Series类似于numpy中的一维数组，除了通吃一维数组可用的函数或方法，而且其可通过索引标签的方式获取数据，还具有索引的自动对齐功能；DataFrame类似于numpy中的二维数组，同样可以通用numpy数组的函数和方法，而且还具有其他灵活应用

# 1.Series的创建

序列的创建主要有三种方式：

1）通过一维数组创建序列

In [4]:
import numpy as np, pandas as pd
 
arr1 = np.arange(10)
print(arr1)

print(type(arr1))

[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>


In [5]:
s1 = pd.Series(arr1)
print(s1)

0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int64


In [6]:
print(type(s1))

<class 'pandas.core.series.Series'>


2）通过字典的方式创建序列

In [7]:
dic1 = {'a':10,'b':20,'c':30,'d':40,'e':50}
print(dic1)
print(type(dic1))

{'a': 10, 'b': 20, 'c': 30, 'd': 40, 'e': 50}
<class 'dict'>


In [12]:
f1 = pd.DataFrame.from_dict(dic1, orient='index').T
print(f1)

    a   b   c   d   e
0  10  20  30  40  50


## DataFrame的创建

数据框的创建主要有三种方式：

1）通过二维数组创建数据框

In [13]:
arr2 = np.array(np.arange(12)).reshape(4,3)
print(arr2)
print(type(arr2))

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
<class 'numpy.ndarray'>


In [14]:
df1 = pd.DataFrame(arr2)
print(df1)
print(type(df1))

   0   1   2
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
<class 'pandas.core.frame.DataFrame'>


2）通过字典的方式创建数据框
以下以两种字典来创建数据框，一个是字典列表，一个是嵌套字典。

In [15]:
dic2 = {'a':[1,2,3,4],'b':[5,6,7,8],'c':[9,10,11,12],'d':[13,14,15,16]}
print(dic2)
print(type(dic2))

{'a': [1, 2, 3, 4], 'b': [5, 6, 7, 8], 'c': [9, 10, 11, 12], 'd': [13, 14, 15, 16]}
<class 'dict'>


In [16]:
df2 = pd.DataFrame(dic2)
print(df2)
print(type(df2))

   a  b   c   d
0  1  5   9  13
1  2  6  10  14
2  3  7  11  15
3  4  8  12  16
<class 'pandas.core.frame.DataFrame'>


In [17]:
dic3 = {'one':{'a':1,'b':2,'c':3,'d':4},'two':{'a':5,'b':6,'c':7,'d':8},'three':{'a':9,'b':10,'c':11,'d':12}}
print(dic3)
print(type(dic3))

{'one': {'a': 1, 'b': 2, 'c': 3, 'd': 4}, 'two': {'a': 5, 'b': 6, 'c': 7, 'd': 8}, 'three': {'a': 9, 'b': 10, 'c': 11, 'd': 12}}
<class 'dict'>


In [18]:
df3 = pd.DataFrame(dic3)
print(df3)
print(type(df3))

   one  two  three
a    1    5      9
b    2    6     10
c    3    7     11
d    4    8     12
<class 'pandas.core.frame.DataFrame'>


3）通过数据框的方式创建数据框

In [19]:
df4 = df3[['one','three']]
print(df4)
print(type(df4))

   one  three
a    1      9
b    2     10
c    3     11
d    4     12
<class 'pandas.core.frame.DataFrame'>


In [20]:
s3 = df3['one']
print(s3)
print(type(s3))

a    1
b    2
c    3
d    4
Name: one, dtype: int64
<class 'pandas.core.series.Series'>


# 2. 数据索引index

细致的朋友可能会发现一个现象，不论是序列也好，还是数据框也好，对象的最左边总有一个非原始数据对象，这个是什么呢？不错，就是我们接下来要介绍的索引。 在我看来，序列或数据框的索引有两大用处，一个是通过索引值或索引标签获取目标数据，另一个是通过索引，可以使序列或数据框的计算、操作实现自动化对齐，下面我们就来看看这两个功能的应用。
## 2.1 通过索引值或索引标签获取数据

In [21]:
s4 = pd.Series(np.array([1,1,2,3,5,8]))
print(s4)

0    1
1    1
2    2
3    3
4    5
5    8
dtype: int64


如果不给序列一个指定的索引值，则序列自动生成一个从0开始的自增索引。可以通过index查看序列的索引：

In [22]:
print(s4.index)

RangeIndex(start=0, stop=6, step=1)


现在我们为序列设定一个自定义的索引值：

In [23]:
s4.index = ['a','b','c','d','e','f']
print(s4)

a    1
b    1
c    2
d    3
e    5
f    8
dtype: int64


序列有了索引，就可以通过索引值或索引标签进行数据的获取：

In [24]:
print('s4[3]: ',s4[3])
print('s4[e]: ',s4['e'])
print("s4[1,3,5]: ",s4[[1,3,5]])
print("s4[['a','b','d','f']]: ",s4[['a','b','d','f']])
print('s4[:4]: ',s4[:4])
print("s4['c':]: ",s4['c':])
print("s4['b':'e']: ",s4['b':'e'])

s4[3]:  3
s4[e]:  5
s4[1,3,5]:  b    1
d    3
f    8
dtype: int64
s4[['a','b','d','f']]:  a    1
b    1
d    3
f    8
dtype: int64
s4[:4]:  a    1
b    1
c    2
d    3
dtype: int64
s4['c':]:  c    2
d    3
e    5
f    8
dtype: int64
s4['b':'e']:  b    1
c    2
d    3
e    5
dtype: int64


千万注意：如果通过索引标签获取数据的话，末端标签所对应的值是可以返回的！在一维数组中，就无法通过索引标签获取数据，这也是序列不同于一维数组的一个方面。

## 2.2 自动化对齐

如果有两个序列，需要对这两个序列进行算术运算，这时索引的存在就体现的它的价值了—自动化对齐.

In [25]:
s5 = pd.Series(np.array([10,15,20,30,55,80]),index = ['a','b','c','d','e','f'])
print(s5)
 
s6 = pd.Series(np.array([12,11,13,15,14,16]),index = ['a','c','g','b','d','f'])
print(s6)
print(s5 + s6)
print(s5/s6)

a    10
b    15
c    20
d    30
e    55
f    80
dtype: int64
a    12
c    11
g    13
b    15
d    14
f    16
dtype: int64
a    22.0
b    30.0
c    31.0
d    44.0
e     NaN
f    96.0
g     NaN
dtype: float64
a    0.833333
b    1.000000
c    1.818182
d    2.142857
e         NaN
f    5.000000
g         NaN
dtype: float64


由于s5中没有对应的g索引，s6中没有对应的e索引，所以数据的运算会产生两个缺失值NaN。注意，这里的算术结果就实现了两个序列索引的自动对齐，而非简单的将两个序列加总或相除。对于数据框的对齐，不仅仅是行索引的自动对齐，同时也会自动对齐列索引（变量名）

数据框中同样有索引，而且数据框是二维数组的推广，所以其不仅有行索引，而且还存在列索引，关于数据框中的索引相比于序列的应用要强大的多，这部分内容将放在数据查询中讲解。

## 3. 利用pandas查询数据

这里的查询数据相当于R语言里的subset功能，可以通过布尔索引有针对的选取原数据的子集、指定行、指定列等。我们先导入一个student数据集

In [26]:
import pandas as pd
 
stu_dic = {'Age':[14,13,13,14,14,12,12,15,13,12,11,14,12,15,16,12,15,11,15],
'Height':[69,56.5,65.3,62.8,63.5,57.3,59.8,62.5,62.5,59,51.3,64.3,56.3,66.5,72,64.8,67,57.5,66.5],
'Name':['Alfred','Alice','Barbara','Carol','Henry','James','Jane','Janet','Jeffrey','John','Joyce','Judy','Louise','Marry','Philip','Robert','Ronald','Thomas','Willam'],
'Sex':['M','F','F','F','M','M','F','F','M','M','F','F','F','F','M','M','M','M','M'],
'Weight':[112.5,84,98,102.5,102.5,83,84.5,112.5,84,99.5,50.5,90,77,112,150,128,133,85,112]}
student = pd.DataFrame(stu_dic)

查询数据的前5行或末尾5行

student.head()

student.tail()

In [27]:
print(student.head())

   Age  Height     Name Sex  Weight
0   14    69.0   Alfred   M   112.5
1   13    56.5    Alice   F    84.0
2   13    65.3  Barbara   F    98.0
3   14    62.8    Carol   F   102.5
4   14    63.5    Henry   M   102.5


In [28]:
print(student.tail())

    Age  Height    Name Sex  Weight
14   16    72.0  Philip   M   150.0
15   12    64.8  Robert   M   128.0
16   15    67.0  Ronald   M   133.0
17   11    57.5  Thomas   M    85.0
18   15    66.5  Willam   M   112.0


查询指定的行

student.loc[[0,2,4,5,7]] #这里的loc索引标签函数必须是中括号[]

In [29]:
print(student.loc[[0,2,4,5,7]])

   Age  Height     Name Sex  Weight
0   14    69.0   Alfred   M   112.5
2   13    65.3  Barbara   F    98.0
4   14    63.5    Henry   M   102.5
5   12    57.3    James   M    83.0
7   15    62.5    Janet   F   112.5


查询指定的列

student[['Name','Height','Weight']].head() #如果多个列的话，必须使用双重中括号

In [31]:
print(student[['Name','Height','Weight']].head())

      Name  Height  Weight
0   Alfred    69.0   112.5
1    Alice    56.5    84.0
2  Barbara    65.3    98.0
3    Carol    62.8   102.5
4    Henry    63.5   102.5


也可以通过loc索引标签查询指定的列

student.loc[:,['Name','Height','Weight']].head()

In [32]:
print(student.loc[:,['Name','Height','Weight']].head())

      Name  Height  Weight
0   Alfred    69.0   112.5
1    Alice    56.5    84.0
2  Barbara    65.3    98.0
3    Carol    62.8   102.5
4    Henry    63.5   102.5


查询出所有12岁以上的女生信息

student[(student['Sex']=='F') & (student['Age']>12)]

In [34]:
print(student[(student['Sex'] == 'F') & (student['Age'] > 12)])

    Age  Height     Name Sex  Weight
1    13    56.5    Alice   F    84.0
2    13    65.3  Barbara   F    98.0
3    14    62.8    Carol   F   102.5
7    15    62.5    Janet   F   112.5
11   14    64.3     Judy   F    90.0
13   15    66.5    Marry   F   112.0


查询出所有12岁以上的女生姓名、身高和体重

student[(student['Sex']=='F') & (student['Age']>12)][['Name','Height','Weight']]

In [35]:
print( student[(student['Sex']=='F') & (student['Age']>12)][['Name','Height','Weight']] )

       Name  Height  Weight
1     Alice    56.5    84.0
2   Barbara    65.3    98.0
3     Carol    62.8   102.5
7     Janet    62.5   112.5
11     Judy    64.3    90.0
13    Marry    66.5   112.0


上面的查询逻辑其实非常的简单，需要注意的是，如果是多个条件的查询，必须在&（且）或者|（或）的两端条件用括号括起来。

# 4. 利用pandas的DataFrames进行统计分析

pandas模块为我们提供了非常多的描述性统计分析的指标函数，如总和、均值、最小值、最大值等，我们来具体看看这些函数： 首先随机生成三组数据