# 3.1 pandas数据结构

### pandas有两个基本的数据结构：Series和DataFrame。

## 3.1.1 创建Series数据

### Series数据结构类似于一维数组，但它是由一组数据（各种Numpy数据类型）和一组对应的索引组成。通过一组列表数据即可产生最简单的Series数据。

In [3]:
from pandas import Series,DataFrame
import pandas as pd

In [4]:
obj = Series([1,-2,3,-4])
obj

0    1
1   -2
2    3
3   -4
dtype: int64

### Series数据：索引在左边，值在右边。可以看出，如果没有指定一组数据作为索引的话，Series数据会以0到N-1（N为数据的长度）作为索引，也可以通过指定索引的方式来创建Series数据

In [5]:
obj2 = Series([1,-2,-3,4],index=['a','b','c','d'])
obj2

a    1
b   -2
c   -3
d    4
dtype: int64

### Series有values和index属性，可返还值数据的数组形式和索引对象

In [7]:
obj2.values

array([ 1, -2, -3,  4], dtype=int64)

In [8]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

### Series与普通的一维数组相比，其具有索引对象，可通过索引来获取Series的单个或一组值

In [9]:
obj2['b']

-2

In [10]:
obj2['c'] = 23
obj2[['c','d']]

c    23
d     4
dtype: int64

### Series运算都会保留索引和值之间的链接

In [11]:
obj2

a     1
b    -2
c    23
d     4
dtype: int64

In [13]:
obj2[obj2<0]

b   -2
dtype: int64

In [14]:
obj2*2

a     2
b    -4
c    46
d     8
dtype: int64

In [15]:
import numpy as np

In [16]:
np.abs(obj2)

a     1
b     2
c    23
d     4
dtype: int64

### Series数据中的索引和值一一对应，类似于Python字典数据，所以也可以通过字典数据来创建Series

In [17]:
data = {
    '张三':93,
    '李四':87,
    '王五':68,
    '小明':82
}

In [19]:
obj3 = Series(data)
obj3

张三    93
李四    87
王五    68
小明    82
dtype: int64

### 由于字典结构是无序的，因此这里返回的Series也是无序的，这里依旧可以通过index指定索引的排列顺序

In [21]:
names = ['张三','李四','王五','小明']
obj4 = Series(data,index=names)
obj4

张三    93
李四    87
王五    68
小明    82
dtype: int64

### Series对象和索引都有name属性，这样我们就可以给Series定义名称，让Series更具可读性

In [22]:
obj4.name = 'math'
obj4.index.name = 'students'

In [23]:
obj4

students
张三    93
李四    87
王五    68
小明    82
Name: math, dtype: int64

## 3.1.2 创建DataFrame数据

### DataFrame数据是Python数据分析最常用的数据，无论是创建的数据或外部数据，我们首先想到的都是如何将其转换为DataFrame数据，原因是DataFrame为表格型数据。说到表格型数据，多数人想到的可能是Excel表格

### 在Excel中，在单元格中输入数据即可创建一张表格。对于DataFrame数据而言，需要用代码实现，创建DataFrame数据的办法有很多，最常用的是传入由数组、列表或元组组成的字典

In [27]:
data = {
    'name':['张三','李四','王五','小明'],
    'sex':['female','female','male','male'],
    'year':[2001,2001,2003,2002],
    'city':['北京','上海','广州','北京']
}
df = DataFrame(data)
df

Unnamed: 0,name,sex,year,city
0,张三,female,2001,北京
1,李四,female,2001,上海
2,王五,male,2003,广州
3,小明,male,2002,北京


### DataFrame数据有行索引和列索引，行索引类似于Excel表格中每行的编号（没有指定行索引的情况下），列索引类似于Excel表格的列名（通常也可称为字段）。

### 由于字典是无序的，因此可以通过columns指定列索引的排列顺序

In [29]:
df = DataFrame(data,columns=['name','sex','year','city'])
df

Unnamed: 0,name,sex,year,city
0,张三,female,2001,北京
1,李四,female,2001,上海
2,王五,male,2003,广州
3,小明,male,2002,北京


### 当没有指定行索引的情况下，会使用0到N-1（N为数据的长度）作为行索引，这里也可以使用其他数据作为行索引

In [30]:
df = DataFrame(data,columns=['name','sex','year','city'],index=['a','b','c','d'])
df

Unnamed: 0,name,sex,year,city
a,张三,female,2001,北京
b,李四,female,2001,上海
c,王五,male,2003,广州
d,小明,male,2002,北京


### 使用嵌套字典的数据也可以创建DataFrame数据

In [32]:
data2 = {
    'sex':{'张三':'female','李四':'female','王五':'male'},
    'city':{'张三':'北京','李四':'上海','王五':'广州'}
}
df2 = DataFrame(data2)
df2

Unnamed: 0,sex,city
张三,female,北京
李四,female,上海
王五,male,广州


### 如果df为某班级学生的信息，通过设置DataFrame的index和columns的name属性，可以将这些信息显示出来

In [33]:
df.index.name = 'id'
df.columns.name = 'std_info'

In [34]:
df

std_info,name,sex,year,city
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,张三,female,2001,北京
b,李四,female,2001,上海
c,王五,male,2003,广州
d,小明,male,2002,北京


### 通过values属性可以将DataFrame数据转换为二维数组

In [35]:
df.values

array([['张三', 'female', 2001, '北京'],
       ['李四', 'female', 2001, '上海'],
       ['王五', 'male', 2003, '广州'],
       ['小明', 'male', 2002, '北京']], dtype=object)

## 3.1.3 索引对象

### Series的索引和DataFrame的行和列索引都是索引对象，用于负责管理轴标签和元数据

In [37]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [38]:
df.index

Index(['a', 'b', 'c', 'd'], dtype='object', name='id')

In [39]:
df.columns

Index(['name', 'sex', 'year', 'city'], dtype='object', name='std_info')

### 索引对象是不可以进行修改的，如果修改就会报错

In [40]:
index = obj.index
index[1] = 't'

TypeError: Index does not support mutable operations

### 索引对象类似于数组数据，其功能也类似于一个固定大小的集合

In [41]:
df

std_info,name,sex,year,city
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,张三,female,2001,北京
b,李四,female,2001,上海
c,王五,male,2003,广州
d,小明,male,2002,北京


In [42]:
'sex' in df.columns

True

In [43]:
'f' in df.index

False