In [1]:
# -*- coding:utf-8 -*-

import pandas as pd

### 3.2.1  訪問數據表元素

In [2]:
# 訪問列
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
print(df['a']) # 用列名訪問
print(df[['a','b']]) # 用列名數據訪問多列

0     1
1    11
Name: a, dtype: int64
    a   b
0   1   2
1  11  12


In [3]:
# 訪問記錄
print(df[:1]) # 用切片方式訪問多行
print(type(df[:1])) # 顯示返回值類型

   a  b
0  1  2
<class 'pandas.core.frame.DataFrame'>


In [4]:
# 條件篩選記錄
print(df['a']==11)
print(df[df['a'] == 11]) # 篩選數據表中a值爲11的所有行
print(df[(df['a'] > 10) & (df['a'] < 20)]) # 篩選a值在10-20之間的所有記錄

0    False
1     True
Name: a, dtype: bool
    a   b
1  11  12
    a   b
1  11  12


In [5]:
# 訪問具體元素
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
print(df.iloc[0,0]) # 用下標註訪問數據
print(df.iloc[[0,1],[1]]) # 指定下標數組
print(df.iloc[[0],:1]) # 指定下標切片

df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'], index=['item1','item2'])
print(df.loc['item1','b']) # 訪問單個元素
print(df.loc[['item1','item2'], ['a','b']])# 用列表指定訪問範圍
print(df.loc['item1':'item2', ]) # 用切片指定訪問範圍

print(df.loc[df['a']==11,])

1
    b
0   2
1  12
   a
0  1
2
        a   b
item1   1   2
item2  11  12
        a   b
item1   1   2
item2  11  12
        a   b
item2  11  12


In [6]:
# 迭代訪問數據表
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
for idx,item in df.iterrows():	
    print(idx, type(item) , item['a'])

0 <class 'pandas.core.series.Series'> 1
1 <class 'pandas.core.series.Series'> 11


### 3.2.2  修改數據表元素

In [7]:
# 修改列名
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
df.columns = ['a','c'] # 重置列名

df = df[['c','a']]
print(df)
print(df.rename(columns = {'c':'d'}))

    c   a
0   2   1
1  12  11
    d   a
0   2   1
1  12  11


In [8]:
# 修改行索引
df.index = [7,8]
print(df)
print(df.rename({7:'x', 8:'y'},axis = 0))

    c   a
7   2   1
8  12  11
    c   a
x   2   1
y  12  11


In [9]:
# 修改數據表內容
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
df['b'] = [3,13] # 修改b列的值
df.loc[:,'a'] = [4,14] # 修改a列的值
print(df)

df.loc[0] = {'a':21,'b':22}
print(df)

df.loc[0,'a'] = 32
print(df)

df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
df.loc[df['b'] > 10, 'b'] = 10
print(df)

    a   b
0   4   3
1  14  13
    a   b
0  21  22
1  14  13
    a   b
0  32  22
1  14  13
    a   b
0   1   2
1  11  10


In [10]:
# 批量修改
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
df['a'] = df['a'].apply(lambda x: x*x) # 修改a列
df['b'] = df['b'].apply(lambda x: True if x > 10 else False) # 修改b列
print(df)

def f(item, arg1, arg2): # 用a,b,arg1,arg2逐條構造新列c的值
    if item['b']:
        return item['a'] * arg1
    else:
        return item['a'] * arg2
df['c'] = df.apply(f, args={-1,1}, axis=1) # 調用函數f
print(df)


     a      b
0    1  False
1  121   True
     a      b    c
0    1  False   -1
1  121   True  121
