# 3.3 数据取值和选择

可以将Series对象看做一个字典

- 支持 contain 操作
- 可以使用 keys, 也可以使用 items
- 还支持 `data['e'] = 1.25`

将Series看做一维数组

注意显式索引和隐式索引的区别：当使用显式索引作为切片时，结果包含最后一个索引；而使用隐式索引作为切片时，结果不包含 最后一个索引

隐式索引，说白了就是数字下标

索引器, 他们不是Series对象的函数方法，而是切片接口的属性
- loc  : 取值和切片都是显式的
- iloc : 取值和切片都是隐式的
- ix   : 前两种索引器的混合形式，在Series对象中等价于标准的python列表取值方式, 新版中 Series对象已经移除了



In [1]:
import pandas as pd


In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [3]:
# 一些相关的取值操作

print(data['b'])

print('a' in data)
# print(1.0 in data)
print(data.keys())
print(list(data.items()))
# print(data.to_markdown())

data['e'] = 1.25
print(data)

0.5
True
Index(['a', 'b', 'c', 'd'], dtype='object')
[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]
a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64


In [4]:
# 索引，掩码，花哨的索引

print(data['a': 'c'])

# 将隐式整数索引作为切片
print(data[0:2])

# 掩码
print(data[(data > 0.3) & (data < 0.8)])

print(data[['a', 'c']])


a    0.25
b    0.50
c    0.75
dtype: float64
a    0.25
b    0.50
dtype: float64
b    0.50
c    0.75
dtype: float64
a    0.25
c    0.75
dtype: float64


In [5]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [6]:
# 取值操作是显式索引
print(data[1])

# 切片操作是隐式索引
print(data[1:3])

a
3    b
5    c
dtype: object


In [7]:
print(data.loc[1])
print(data.loc[1:4])

print(data.iloc[1])
print(data.iloc[1:4])

# print(data.ix[1])
# print(data.ix[1:3])

a
1    a
3    b
dtype: object
b
3    b
5    c
dtype: object


## DataFrame 数据选择方法

把DataFrame当作一个由若干Series对象构成的字典, 可使用 属性形式与字典形式的访问

列名不是纯字符串，或者列名与dataframe的方法同名，就不能用属性索引，还应该避免对用属性形式选择的列直接赋值。

还可以将df看作为二维数组

dataframe.values

行列转置: dataframe.T

任何处理Numpy形式数据的方法都可以用于这些索引器。



In [8]:
area = pd.Series({'California': 423967, 'Texas': 695662,
                  'New York': 141297, 'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
                 'New York': 19651127, 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area': area, 'pop': pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [9]:
print(data['area'])
print(data.area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64
California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64


In [10]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [11]:
# 二维数组

print(data.values)

print(data.T)

print(f'values type is {type(data.values)}')

print(data.values[0])

[[4.23967000e+05 3.83325210e+07 9.04139261e+01]
 [6.95662000e+05 2.64481930e+07 3.80187404e+01]
 [1.41297000e+05 1.96511270e+07 1.39076746e+02]
 [1.70312000e+05 1.95528600e+07 1.14806121e+02]
 [1.49995000e+05 1.28821350e+07 8.58837628e+01]]
           California         Texas      New York       Florida      Illinois
area     4.239670e+05  6.956620e+05  1.412970e+05  1.703120e+05  1.499950e+05
pop      3.833252e+07  2.644819e+07  1.965113e+07  1.955286e+07  1.288214e+07
density  9.041393e+01  3.801874e+01  1.390767e+02  1.148061e+02  8.588376e+01
values type is <class 'numpy.ndarray'>
[4.23967000e+05 3.83325210e+07 9.04139261e+01]


In [12]:
print(data.iloc[:3, :2])  # 下标索引

print(data.loc[: 'Illinois', : 'pop'])

              area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127
              area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127
Florida     170312  19552860
Illinois    149995  12882135


In [13]:
data.loc[data.density > 100, ['pop', 'density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [14]:
print(data['Florida':'Illinois'])

print(data[1:3])

print(data[data.density > 100])

            area       pop     density
Florida   170312  19552860  114.806121
Illinois  149995  12882135   85.883763
            area       pop     density
Texas     695662  26448193   38.018740
New York  141297  19651127  139.076746
            area       pop     density
New York  141297  19651127  139.076746
Florida   170312  19552860  114.806121
