# Pandas数据结构Series和DataFrame基础详解

## 概述

### pandas作为数据分析强大的库，是基于numpy数组构建的，专门用来处理表格和混杂的数据。pandas中最主要的两个数据结构就是：Series和DataFrame。

## Series基础

### Series结构是由一维numpy数据和与之相对应的索引组成。索引在左边，相对应的值在右边，若初始没有指定索引，则会自动创建从0开始的自然数索引。

In [1]:
# 创建Series对象
# 不指定索引创建
import pandas as pd

res = pd.Series(['data_1','data_2','data_3'])
res

0    data_1
1    data_2
2    data_3
dtype: object

In [2]:
# 指定索引创建
res = pd.Series(['data_1','data_2','data_3'], index=['a', 'b', 'c'])
res

a    data_1
b    data_2
c    data_3
dtype: object

In [3]:
# 通过python字典创建
dd = {
    'name' : 'bird',
    'age' : 18,
}
res = pd.Series(dd)
res

name    bird
age       18
dtype: object

In [4]:
# 默认情况下，Series对象索引的顺序跟字典的顺序保持一致，但若想改变索引顺序，同样可以传入index参数。

# 从下面输出结果可以看到，索引顺序已经改变
dd = {
    'name' : 'bird',
    'age' : 18,
}
res = pd.Series(dd, index=['age', 'name'])
res

age       18
name    bird
dtype: object

In [5]:
# 若传入的index参数中，传入了字典中没有的键，会发生什么情况呢？
# 若传入没有的键，会显示NaN，表示是缺失值
dd = {
    'name' : 'bird',
    'age' : 18,
}
res = pd.Series(dd, index=['age', 'sex'])
res

age     18
sex    NaN
dtype: object

In [6]:
# 获取Series对象数组及索引信息

# 使用Series对象的values和index方法即可
res = pd.Series(['data_1','data_2','data_3'], index=['a', 'b', 'c'])
res.values, res.index

(array(['data_1', 'data_2', 'data_3'], dtype=object),
 Index(['a', 'b', 'c'], dtype='object'))

In [7]:
# 获取Series对象的一个或多个组值

# 可以通过索引的方式来获取。获取多个值时，传入的是一个列表
res = pd.Series(['data_1','data_2','data_3'], index=['a', 'b', 'c'])
res['b']

'data_2'

In [8]:
res[['a', 'b']]

a    data_1
b    data_2
dtype: object

In [9]:
# 修改Series对象的索引和值
res = pd.Series([1,2,3], index=['a', 'b', 'c'])

In [10]:
# 修改值
# 给相对应的索引赋值即可
res['b'] = 666
res

a      1
b    666
c      3
dtype: int64

In [11]:
# 修改索引
# 给Series对象的index属性重新赋值即可
res.index = ['a', 'update_b', 'c']
res

a             1
update_b    666
c             3
dtype: int64

### Series对象的运算

In [12]:
# 可以进行numpy的运算
res = pd.Series(['data_1','data_2','data_3'], index=['a', 'b', 'c'])
res * 2

a    data_1data_1
b    data_2data_2
c    data_3data_3
dtype: object

In [13]:
# 若数组为相应的数字，则进行数值计算
res = pd.Series([1,2,3], index=['a', 'b', 'c'])
res * 2

a    2
b    4
c    6
dtype: int64

In [14]:
res[res>2]

c    3
dtype: int64

### Series对象的索引和值的name属性

In [15]:
# 指定索引的name属性，相当于索引的统称，同理值也是一样。这一name属性可以跟pandas的其他功能密切融合。
res = pd.Series([1,2,3], index=['a', 'b', 'c'])
res.index.name = 'index_name'
res.name = 'value_name'
res

index_name
a    1
b    2
c    3
Name: value_name, dtype: int64

## DataFrame基础

### DataFrame是一个表格型的数据结构，由行和列组成，分别有行索引和列索引，且每列可以是不同类型的值。

### 下面可以最直观感受DataFrame的结构，从下面可以看到，行索引和列索引都是自动创建，且从0开始

In [16]:
import numpy as np

np_res = np.array([[1,2,3], [4,5,6], [7,8,9]])

pd_res = pd.DataFrame(np_res)
pd_res

Unnamed: 0,0,1,2
0,1,2,3
1,4,5,6
2,7,8,9


### 创建DataFrame对象
#### 创建的时候，可以通过参数index和columns分别指定行索引和列索引

#### 1.传入一个numpy的多维数组对象

In [17]:
# 如上面那个例子

#### 2.传入一个字典内部包含列表，字典内的列表是等长的

In [18]:
# 字典的key默认为列索引
dd = {
    'name' : ['bird_1', 'bird_2', 'bird_3'],
    'age' : [18, 19, 20]
}

pd_res = pd.DataFrame(dd)
pd_res

Unnamed: 0,name,age
0,bird_1,18
1,bird_2,19
2,bird_3,20


#### 3.传入一个嵌套字典

In [19]:
# 规则是：外层字典的key作为列，内层的key作为行
dd = {
    'name' : {
        'name_1' : 'bird_1',
        'name_2' : 'bird_2'
    },
    'age' : {
        'age_1' : 18,
        'age_2' : 19
    }
}

pd_res = pd.DataFrame(dd)
pd_res

Unnamed: 0,name,age
age_1,,18.0
age_2,,19.0
name_1,bird_1,
name_2,bird_2,


#### 4.导入创建

In [20]:
# 通过外部文件导入来创建，比如csv，excel，mysql，其他数据库等

#### 5.创建方法汇总

In [21]:
# 参考
# http://note.youdao.com/noteshare?id=95aed84de9dac3a734db91d986081361&sub=F6C4D4A49299403F84262303545AA98D 中的可以输入给DataFrame构造器的数据

### 获取DataFrame对象的行或列

In [22]:
dd = {
    'name' : ['bird_1', 'bird_2', 'bird_3'],
    'age' : [18, 19, 20]
}

pd_res = pd.DataFrame(dd)

In [23]:
# 获取某列
# 获取某列可以类似字典直接获取，获取的结果为一个Series对象
pd_res['name']

0    bird_1
1    bird_2
2    bird_3
Name: name, dtype: object

In [24]:
# 获取多列
# 跟上面同样的方法，只是将多个列索引名称组成一个列表形式
pd_res[['name', 'age']]

Unnamed: 0,name,age
0,bird_1,18
1,bird_2,19
2,bird_3,20


In [25]:
# 获取某行
# 通过DataFrame对象的loc属性进行获取
pd_res.loc[1]

name    bird_2
age         19
Name: 1, dtype: object

In [26]:
# 获取多行
# 同样使用loc属性，此时传入列表
pd_res.loc[[1,2]]

Unnamed: 0,name,age
1,bird_2,19
2,bird_3,20


### 修改DataFrame对象的行或列
#### 切记：对于多行或多列，要使用列表形式的，可以通过下面的一些例子注意下

In [27]:
# 修改某列
# 跟获取某列相似，获取的同时赋值即可
pd_res['age'] = 666
pd_res

Unnamed: 0,name,age
0,bird_1,666
1,bird_2,666
2,bird_3,666


In [28]:
# 修改多列

# 同样使用列表方式，赋值时也使用列表可以同时修改多列

pd_res[['name', 'age']] = [10, 20]
pd_res

Unnamed: 0,name,age
0,10,20
1,10,20
2,10,20


In [29]:
# 修改某行

# 同理，修改某行同样是使用loc属性
pd_res.loc[0] = 666
pd_res

Unnamed: 0,name,age
0,666,666
1,10,20
2,10,20


In [30]:
# 修改多行

# 同样使用loc属性，赋值列表
pd_res.loc[[0, 1]] = 666
pd_res

Unnamed: 0,name,age
0,666,666
1,666,666
2,10,20


In [31]:
# 若修改的行或列索引不存在的特殊情况

# 若在修改行或列的时候，指定的索引名称不存在，则会新增一行或一列。

# 通常新增行或列数据时可以使用此方法
pd_res['sex'] = 'male'
pd_res

Unnamed: 0,name,age,sex
0,666,666,male
1,666,666,male
2,10,20,male


### 删除列或行

In [32]:
# 删除列

# 删除使用del，跟python中的del类似
del pd_res['sex']
pd_res

Unnamed: 0,name,age
0,666,666
1,666,666
2,10,20


In [33]:
# 删除行

# 删除行就跟之前不太一样了，使用DataFrame对象的drop方法。

# drop方法有个参数inplace,若设置为True，则删除原始数据的行；默认为False，返回的结果是删除行了的，但原始的数据还是原封不动，没有被删除。

# inplace参数为False的情况（默认为False）
pd_res.drop(0)

Unnamed: 0,name,age
1,666,666
2,10,20


In [34]:
pd_res

Unnamed: 0,name,age
0,666,666
1,666,666
2,10,20


In [35]:
# inplace参数为True的情况

# 删除多行同样是使用列表形式

pd_res.drop([0, 1], inplace=True)
pd_res

Unnamed: 0,name,age
2,10,20


In [36]:
# 对DataFrame对象转置
# 转置：将行变成列，列变成行，跟numpy中一样，使用.T操作即可

# 注意：转置后的结果是一个副本，不会对原对象进行转置
dd = {
    'name' : ['bird_1', 'bird_2', 'bird_3'],
    'age' : [18, 19, 20]
}

pd_res = pd.DataFrame(dd)
pd_res.T

Unnamed: 0,0,1,2
name,bird_1,bird_2,bird_3
age,18,19,20


In [37]:
# DataFrame对象的索引和值的name属性

# 跟Series对象一样，也可指定行index和列columns的name属性名称
pd_res.index.name = 'index_name'
pd_res.columns.name = 'value_name'
pd_res

value_name,name,age
index_name,Unnamed: 1_level_1,Unnamed: 2_level_1
0,bird_1,18
1,bird_2,19
2,bird_3,20
