## 选取列

- 选择列是直接使用`df[col_lable]`来选择单列，使用`df[[col1, col2...]]`来选择多列。
- 如果要使用`loc()`来选择列，那么就需要使用到切片，如`df.loc[:, col1]`。

In [4]:
import numpy as np
import pandas as pd

df = pd.DataFrame(
    {
        'A' : np.random.randint(0, 100, 3),
        'B' : np.random.randint(0, 100, 3),
        'C' : np.random.randint(0, 100, 3),
    }
)

print("column A")
print(df['A'])

print("column A&B")
print(df[['A','B']])

column A
0    62
1    70
2    14
Name: A, dtype: int32
column A&B
    A   B
0  62  21
1  70  28
2  14  37


In [5]:
for col in df.columns:
    print(col)


A
B
C


## 选取行

1. 使用`df.loc(row_lable)`按照行标签名称来选择单行和多行，不能用“数字索引”。
2. 使用切片的时候不需要使用`.loc()`，而是直接通过`df[start_row_lable : end_row_lable]`的形式。可以使用“名称索引”和“数字索引”。
3. 使用`df[col_lable]`来选择单列和多列。

*注：`df.index[0:3]`的输出为`['a', 'b', 'c']`。*

要点：

- 离散行的选择要使用`.loc`。
- 非切片使用数字索引必须要使用`.loc`。

In [6]:
import numpy as np
import pandas as pd

df = pd.DataFrame(
    {
        'A' : np.random.randint(0, 100, 3),
        'B' : np.random.randint(0, 100, 3),
        'C' : np.random.randint(0, 100, 3),
    }
)
print(df)
print("row 0")
print(df.loc[0])
print("row 1")
print(df.iloc[1])

print("row 0&1")
print(df.loc[[0, 1]])


    A   B   C
0   9  89  57
1  12  88  48
2  52  80  52
row 0
A     9
B    89
C    57
Name: 0, dtype: int32
row 1
A    12
B    88
C    48
Name: 1, dtype: int32
row 0&1
    A   B   C
0   9  89  57
1  12  88  48
    A   B   C
1  12  88  48


In [7]:
print(df)
print(df[1:-1])

    A   B   C
0   9  89  57
1  12  88  48
2  52  80  52
    A   B   C
1  12  88  48


## 数据单元

- 如果知道标签名称，那么可以使用`df.loc['row']['col']`或者`df.loc['row','col']`。
- 如果都是数字索引，那么使用`iloc()`，如`df.iloc [[3, 4], [1, 2]]`。
- 如果混用，使用`df.iloc[0]['col']`或者`df['col'].iloc[0]`。

In [10]:
import numpy as np
import pandas as pd

df = pd.DataFrame(
    {
        'A' : np.random.randint(0, 100, 3),
        'B' : np.random.randint(0, 100, 3),
        'C' : np.random.randint(0, 100, 3),
    }
)

df.index = ['a', 'b', 'c']
print(df)
# using df.loc[label, label]
print(df.loc['a', 'A'])
# using df.loc[label][label]
print(df.loc['a']['A'])

# using df.iloc[index][label]
print(df.iloc[0]['A'])
# using df.loc[index, label] 错误的方式
#print(df.iloc[0, 'A'])

    A   B   C
a  43  58  90
b  74  96  71
c  11  88  75
43
43
43


In [2]:
import numpy as np
import pandas as pd

df = pd.DataFrame(
    {
        'A' : np.random.randint(0, 100, 3),
        'B' : np.random.randint(0, 100, 3),
        'C' : np.random.randint(0, 100, 3),
    }
)

print(df)
# using df.loc[label, label]
print(df.loc[0, 'A'])
# using df.loc[label][label]
print(df.loc[0]['A'])

# using df.iloc[index][label]
print(df.iloc[0]['A'])
# using df.iloc[index, label] 错误的方式
# print(df.iloc[0, 'A']) 错误的方式

    A   B   C
0  12  95  57
1  26  38  65
2  83  28  89
12
12
12


ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

注：在使用`iloc[number][label]`的时候有些版本无法设置生效，反而提示“”，但使用`loc[label][label]`就可以。

In [3]:
print("before change:")
print(df)

df.iloc[0]['C'] = 100

print("after change:")
print(df)
print(pandas.version())

before change:
    A   B   C
a  97  21  69
b  39  94  81
c  20   0  61
after change:
    A   B    C
a  97  21  100
b  39  94   81
c  20   0   61


## 按行遍历

1. 遍历空的DataFrame，不会有输出
2. 遍历非空的DataFrame，输出每行对应的单元格

In [1]:
import pandas as pd

df = pd.read_csv("ex_empty_csv_with_header.csv")
for index, row in df.iterrows():
    print(row['name'], row['score'])

In [2]:
import pandas as pd

df = pd.read_csv("ex_nonempty_csv_with_header.csv")
for index, row in df.iterrows():
    print(row['name'], row['score'])

app 1780


## 布尔索引

In [10]:
df = pd.DataFrame([10, 20, 30, 40],
                  columns=['numbers'],
                  index=['a', 'b', 'c', 'd'])
df['floats'] = (1.5, 2.5, 3.5, 4.5)
df['names1'] = ('Yves', 'Guido', 'Felix', 'Francesc')

print("按条件选择行例1：")
print(df[df.floats > 3.0]) # 选择列'floats'值大于3.0的那些行

print("按条件选择行例2：")
conditions = []
for f in df.floats:
    if f > 3.0:
        conditions.append(True)
    else:
        conditions.append(False)
print(df[conditions])
match_condition = pd.Series(conditions, index=df.index)
print(df[match_condition])

print("按条件选择行例3：")
condition = df.floats > 3.0
print(df[condition])

按条件选择行例1：
   numbers  floats    names1
c       30     3.5     Felix
d       40     4.5  Francesc
按条件选择行例2：
   numbers  floats    names1
c       30     3.5     Felix
d       40     4.5  Francesc
   numbers  floats    names1
c       30     3.5     Felix
d       40     4.5  Francesc
按条件选择行例3：
   numbers  floats    names1
c       30     3.5     Felix
d       40     4.5  Francesc


In [22]:
df = pd.DataFrame([10, 20, 30, 40],
                  columns=['numbers'],
                  index=['a', 'b', 'c', 'd'])
df['floats'] = (1.5, 2.5, 3.5, 4.5)
df['names1'] = ('Yves', 'Guido', 'Felix', 'Francesc')
print(df)

df2 = df[(df.floats > 2.0) | (df.names1 == 'Yves')].copy()
print(df2)
df2.loc['c','numbers'] = 100
print(df2)

print(df)

   numbers  floats    names1
a       10     1.5      Yves
b       20     2.5     Guido
c       30     3.5     Felix
d       40     4.5  Francesc
   numbers  floats    names1
a       10     1.5      Yves
b       20     2.5     Guido
c       30     3.5     Felix
d       40     4.5  Francesc
   numbers  floats    names1
a       10     1.5      Yves
b       20     2.5     Guido
c      100     3.5     Felix
d       40     4.5  Francesc
   numbers  floats    names1
a       10     1.5      Yves
b       20     2.5     Guido
c       30     3.5     Felix
d       40     4.5  Francesc
