## 03. Pandas 数据结构

1. Series 一维数据，一行或一列
2. DataFrame 二维或多维数据
3. 从DataFrame中查询出Series

In [2]:
import pandas as pd
import numpy as np

# 1、Series
series 是一种类似于一维数组的对象，它由一组数据（不同数据类型）以及一组与之相关的数据标签（即索引）组成


**1.1 仅有数据列表即可产生最简单的Series**

In [3]:
s1 = pd.Series([1,2,3,'a','asdfa'])
#左侧为index， 右侧是数据
s1

0        1
1        2
2        3
3        a
4    asdfa
dtype: object

In [4]:
s1.index #获取索引

RangeIndex(start=0, stop=5, step=1)

In [5]:
#获取数据
s1.values

array([1, 2, 3, 'a', 'asdfa'], dtype=object)

**1.2 创建一个具有标签索引的Series**

In [6]:
s2 = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])

In [7]:
s2
#可以看到左边的索引就是我们自定义的索引

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [8]:
#于是可以用自定义的索引来获取value
s2['a']

1

In [13]:
s2.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

**1.3使用python字典创建Series**

In [9]:
dic = {'changsha':'Hunan', 'guangzhou':'Guangdong','chengdu':"Sichuan"}
series_dic = pd.Series(dic)
series_dic

changsha         Hunan
guangzhou    Guangdong
chengdu        Sichuan
dtype: object

In [10]:
series_dic.index

Index(['changsha', 'guangzhou', 'chengdu'], dtype='object')

**1.4 根据标签索引查询数据**  
类似Python字典的dict

In [11]:
s2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [12]:
s2['a']

1

In [13]:
type(s2['a'])

numpy.int64

In [14]:
s2[['c','b']]

c    3
b    2
dtype: int64

In [15]:
type(s2[['c','b']])

pandas.core.series.Series

# 2. DataFrame  
DataFrame 是一个表格型的数据结构
* 每列可以是不同的值类型（数值、字符、布尔值等）
* 既有行索引index，也有列索引columns
* 可以被看作由Series组成的字典  

创建dataFrame最常见的方法，见02节读取纯文本文件、excel、mysql数据库

**2.1 根据多个字典序列创建dataframe**

In [16]:
data={'stat':['Ohio','Ohio','Ohio','Nevada', 'Nevada'],
         'year':[2000,2001,2002,2001,2002],
          'pop':[1.5,1.7,3.6,2.4,2.9]
    }
df = pd.DataFrame(data)

In [17]:
df

Unnamed: 0,stat,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [21]:
df.dtypes

stat     object
year      int64
pop     float64
dtype: object

In [22]:
df.columns

Index(['stat', 'year', 'pop'], dtype='object')

# 3.从DataFrame中查询出Series  
* 如果只查询一行、一列，返回的是Series
* 如果查询多行、多列，返回的是pd.DataFrame

In [23]:
df

Unnamed: 0,stat,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


**3.1 查询一列，结果是一个pd.Series**

In [24]:
df['stat']

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
Name: stat, dtype: object

In [25]:
type(df['year'])

pandas.core.series.Series

**3.2 查询多列，结果是一个pd.DataFrame**

In [28]:
df[['year','stat']]

Unnamed: 0,year,stat
0,2000,Ohio
1,2001,Ohio
2,2002,Ohio
3,2001,Nevada
4,2002,Nevada


In [29]:
type(df[['year','stat']])

pandas.core.frame.DataFrame

**3.3查询一行，结果是一个pd.Series**

In [31]:
df.loc[0]

stat    Ohio
year    2000
pop      1.5
Name: 0, dtype: object

In [32]:
type(df.loc[0])

pandas.core.series.Series

**3.4查询多行，结果是一个pd.DataFrame**

In [36]:
df.loc[:3]#pandas 区别于python的地方，在slice的时候，python是不包括最后一位，但是pandas会包括

Unnamed: 0,stat,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4


In [37]:
type(df.loc[:3])

pandas.core.frame.DataFrame