In [1]:
import numpy as np
import pandas as pd

# 1. Series对象
主要用于存储一维数据

In [4]:
data = pd.Series([0.25, 0.5, 0.75, 1.])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [5]:
# 获取数据
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [6]:
# 获取标签索引
data.index

RangeIndex(start=0, stop=4, step=1)

In [7]:
# 可以使用numpy的索引和切片方式进行数据获取
data[1], data[1:3]

(0.5,
 1    0.50
 2    0.75
 dtype: float64)

In [9]:
# 创建指定索引的Series
data = pd.Series([0.25, 0.5, 0.75, 1.],
                 index = ['a', 'b', 'c', 'd'])
data, data['b']

(a    0.25
 b    0.50
 c    0.75
 d    1.00
 dtype: float64,
 0.5)

In [17]:
# 使用字典创建Series
pd.Series({'a':3, 'b':2, 'c': 1})

a    3
b    2
c    1
dtype: int64

In [11]:
# 使用字典和索引混合创建Series
# ! 注意只会保留索引中提到的索引值对应的数据
pd.Series({'a':3, 'b':2, 'c': 1},index=['b','c'])

b    2
c    1
dtype: int64

# 2. DataFrame对象
主要用于存储二维数据

In [15]:
# 数据准备
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
population_dict = {'California': 38332521,
                                'Texas': 26448193,
                                'New York': 19651127,
                                'Florida': 19552860,
                                'Illinois': 12882135}
population = pd.Series(population_dict)

# 使用两个Series构建一个DataFrame
states = pd.DataFrame({'area':area,'population':population})
states


Unnamed: 0,area,population
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [19]:
# 获取标签索引/行索引
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [21]:
# 获取列索引
states.columns

Index(['area', 'population'], dtype='object')

In [22]:
# 使用numpy二维数组创建DataFrame
# 可以自定义指定行名列名
pd.DataFrame(np.random.rand(3, 2),columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.789776,0.135599
b,0.924158,0.272982
c,0.779633,0.588796


# 3. Index对象
Series和DataFrame所使用的索引对象

可以将其视为一个不可变数组，或者是有序集合

In [28]:
# 创建index对象
pd.Index([2,3,5,7,11])

Int64Index([2, 3, 5, 7, 11], dtype='int64')