In [6]:
import numpy as np
import pandas as pd

In [7]:
##-------------------------##
## ----Pandas数据索引-------##
##-------------------------##

In [8]:
#### Series数据选择方法 ####

In [12]:
#01. 将Series看作字典
#创建一个Series对象
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [19]:
#使用类似于字典的键值对映射
print(data["a"])

0.25


In [20]:
#Series 对象还可以用字典语法调整数据。 就像你可以通过增加新的键扩展字典一样，
data["e"] = 100
data

a      0.25
b      0.50
c      0.75
d      1.00
e    100.00
dtype: float64

In [None]:
#2. 将Series看作一维数组

In [21]:
#显式索引切片
data["a":"c"]

a    0.25
b    0.50
c    0.75
dtype: float64

In [22]:
#隐式索引切片
data[0:3]

a    0.25
b    0.50
c    0.75
dtype: float64

In [26]:
#使用逻辑值索引
print(data[(data >= 1)])
print(data[(data >= 1) & (data < 100)])

d      1.0
e    100.0
dtype: float64
d    1.0
dtype: float64


In [32]:
#03. 使用索引器： loc、 iloc和ix进行索引
data

a      0.25
b      0.50
c      0.75
d      1.00
e    100.00
dtype: float64

In [33]:
# loc 属性， 表示取值和切片都是显式的
print(data.loc["a"],"\n","\n")
print(data.loc["a":"d"])

0.25 
 

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64


In [37]:
# iloc 属性， 表示取值和切片都是隐式的
print(data.iloc[0],"\n")
print(data.iloc[3:6])

0.25 

d      1.0
e    100.0
dtype: float64


In [38]:
#ix 属性 混合的主要用于 DataFrame 对象
#使用 loc 和 iloc 可以让代码更容易维护， 可读性更高。 特别是在处理整数索引的对象时
# 我强烈推荐使用这两种索引器。 它们既可以让代码阅读和理解起来更容易， 也能避免因误用索引 / 切片而产生的小 bug。

In [None]:
#### DataFrame数据选择方法 ####

In [46]:
#01. 将DataFrame看作字典
#两个 Series 分别构成 DataFrame 的一列， 可以通过对列名进行字典形式（dictionary-style） 的取值获取数据
#首先创建一个series对象
area = pd.Series({'California': 423967, 
                  'Texas': 695662,
                  'New York': 141297, 
                  'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521, 
                 'Texas': 26448193,
                 'New York': 19651127, 
                 'Florida': 19552860,
                 'Illinois': 12882135})

data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [40]:
#根据列名选取数据
data["area"]

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [41]:
#也可以用属性形式（attribute-style） 选择纯字符串列名的数据
data.pop

<bound method DataFrame.pop of               area       pop
California  423967  38332521
Texas       695662  26448193
New York    141297  19651127
Florida     170312  19552860
Illinois    149995  12882135>

In [47]:
#增加新的一列
data["dens"] = data["pop"] / data["area"]
data

Unnamed: 0,area,pop,dens
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [None]:
#02. 将DataFrame看作二维数组

In [51]:
#同样DataFrame也可以使用values index T等查看属性
print(data.values,"\n")
print(data.index,"\n")
print(data.T)

[[4.23967000e+05 3.83325210e+07 9.04139261e+01]
 [6.95662000e+05 2.64481930e+07 3.80187404e+01]
 [1.41297000e+05 1.96511270e+07 1.39076746e+02]
 [1.70312000e+05 1.95528600e+07 1.14806121e+02]
 [1.49995000e+05 1.28821350e+07 8.58837628e+01]] 

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object') 

        California         Texas      New York       Florida      Illinois
area  4.239670e+05  6.956620e+05  1.412970e+05  1.703120e+05  1.499950e+05
pop   3.833252e+07  2.644819e+07  1.965113e+07  1.955286e+07  1.288214e+07
dens  9.041393e+01  3.801874e+01  1.390767e+02  1.148061e+02  8.588376e+01


In [56]:
#使用 loc、 iloc 对DataFrame索引
print(data.loc["Texas"],"\n")
print(data.iloc[0])

area    6.956620e+05
pop     2.644819e+07
dens    3.801874e+01
Name: Texas, dtype: float64 

area    4.239670e+05
pop     3.833252e+07
dens    9.041393e+01
Name: California, dtype: float64


In [61]:
#数据的调整
data.iloc[0,2] = 9000
data

Unnamed: 0,area,pop,dens
California,423967,38332521,9000.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [67]:
#如取area列的"Texas"和"California"
data["area"].loc[["Texas","California"]]

Texas         695662
California    423967
Name: area, dtype: int64

In [71]:
#03. 其他取值方法，如果对单个标签取值就选择列， 而对多个标签用切片就选择行
data['Florida':'Illinois']

Unnamed: 0,area,pop,dens
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [74]:
#逻辑符操作也可以直接对每一行进行过滤
data[data.dens > 50]

Unnamed: 0,area,pop,dens
California,423967,38332521,9000.0
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763
