In [1]:
# -*- coding:utf-8 -*-

import pandas as pd

### 3.1.1  Series對象

In [2]:
# 創建
a = pd.Series([1,2,3],index=['item1','item2','item3'])
print(a)

b = pd.Series([1,2,3]) # 從列表轉換
c = pd.Series({"item1":1, "item2":2, "item3":3}) # 從字典轉換

item1    1
item2    2
item3    3
dtype: int64


In [3]:
# 查詢
print(a['item1'])  # 用索引號訪問
print(a[2])  # 用下標訪問

print(a.values) # 訪問數據
print(a.index) # 訪問索引

print(a.__array__()) # 訪問數據接口
print(a.mean()) # 求Series均值

print(a[['item1','item2']]) # 索引列表
print(a[[1,2]]) # 下標列表
print(a[:1]) # 下標切片

for idx,val in a.iteritems():
    print(idx,val) # idx爲索引號，val爲數據值

1
3
[1 2 3]
Index(['item1', 'item2', 'item3'], dtype='object')
[1 2 3]
2.0
item1    1
item2    2
dtype: int64
item2    2
item3    3
dtype: int64
item1    1
dtype: int64
item1 1
item2 2
item3 3


In [4]:
# 添加
print(a.append(c))

item1    1
item2    2
item3    3
item1    1
item2    2
item3    3
dtype: int64


In [5]:
# 刪除
print(a.drop('item1'))

item2    2
item3    3
dtype: int64


### 3.1.2  DataFrame對象

In [6]:
# 創建
dic = {"a":[1,3], "b":[2,4]} # a,b爲列名
print(pd.DataFrame(dic, index=['item1','item2'])) # index指定索引行號

arr = [{"a":1,"b":2}, {"a":3,"b":4}] # 每個字典爲一個記錄
print(pd.DataFrame(arr))

arr = [[1,2],[3,4]]
print(pd.DataFrame(arr, columns=['a','b'])) # columns指定列名

       a  b
item1  1  2
item2  3  4
   a  b
0  1  2
1  3  4
   a  b
0  1  2
1  3  4


In [7]:
# 添加
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b']) # 創建dataframe
print(df.append({'a':21,'b':22}, ignore_index=True))# 在dataframe表末尾添加記錄

print(df.append(df, ignore_index=True))

arr = [[1,2],[11,12]]
df = pd.DataFrame(arr, columns=['a','b']) # 創建dataframe
df['c'] = [3,13] # 添加新列c

df.insert(0,'x',[0,10]) # 在開始位置插入新列x
print(df)

    a   b
0   1   2
1  11  12
2  21  22
    a   b
0   1   2
1  11  12
2   1   2
3  11  12
    x   a   b   c
0   0   1   2   3
1  10  11  12  13


In [8]:
# 刪除
df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
print(df.drop(1)) # 刪除第1行

df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
print(df.drop('a', axis=1)) # 刪除a列

df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
del df['a']
print(df)

df = pd.DataFrame([[1,2],[11,12]], columns=['a','b'])
print(df.pop('b')) # b作爲函數返回值 
print(df) # 查看數據表

   a  b
0  1  2
    b
0   2
1  12
    b
0   2
1  12
0     2
1    12
Name: b, dtype: int64
    a
0   1
1  11


### 3.1.3  Index對象

In [9]:
# 索引
df = pd.DataFrame({"a":[1,3], "b":[2,4]}, index=['line1', 'line2'])
print(df.index) # 顯示行索引
print(df.columns) # 顯示列索引

idx = pd.Index(["x","y","z"]) # 將列表轉換成索引
print(idx) 
print(idx.values)

print(idx[1])# 使用下標訪問索引值
print(idx[1:2])# 使用下標註切片訪問索引值

print(idx.get_loc("y"))# 查找單個下標
print(idx.get_indexer(["y","z"]))# 查找下標註列表

Index(['line1', 'line2'], dtype='object')
Index(['a', 'b'], dtype='object')
Index(['x', 'y', 'z'], dtype='object')
['x' 'y' 'z']
y
Index(['y'], dtype='object')
1
[1 2]


In [10]:
# 修改索引
df = pd.DataFrame({"a":[1,3], "b":[2,4]}, index=['line1', 'line2'])
df.index=['l1','l2'] # 對行索引重新賦值
print(df)

print(df.reindex(['l2','l1','l0'])) # 重置行索引
print(df.reindex(columns=['b','a']))

df = pd.DataFrame({"a":[1,3], "b":[2,4]}, index=['line2', 'line1'])
print(df.sort_index())

order = ['b','a']
df = df[order]
print(df)

    a  b
l1  1  2
l2  3  4
      a    b
l2  3.0  4.0
l1  1.0  2.0
l0  NaN  NaN
    b  a
l1  2  1
l2  4  3
       a  b
line1  3  4
line2  1  2
       b  a
line2  2  1
line1  4  3


In [11]:
# 多重索引
df = pd.read_excel('test.xlsx', header=[0,1]) # 指定前兩行爲列索引
print(df)
print(df.columns.values) # 查看列索引內容

df.columns = ['_'.join(col).strip() for col in df.columns.values] # 重置字段名
print(df)

   期中      期末    
   語文  數學  語文  數學
0  95  91  82  79
1  92  80  95  85
[('期中', '語文') ('期中', '數學') ('期末', '語文') ('期末', '數學')]
   期中_語文  期中_數學  期末_語文  期末_數學
0     95     91     82     79
1     92     80     95     85


In [12]:
import statsmodels.api as sm
data = sm.datasets.ccard.load_pandas().data
df = data.groupby(['AGE','OWNRENT']).mean() # 根據AGE和OWNRENT分組
print(df.head())
print(df.reset_index().head())

                  AVGEXP    INCOME  INCOMESQ
AGE  OWNRENT                                
20.0 0.0      108.610000  1.650000  2.722500
21.0 0.0       68.910000  1.600000  2.570000
     1.0      552.720000  2.470000  6.100900
22.0 0.0       65.126667  2.076667  4.553633
23.0 0.0       72.825000  2.545000  6.479050
    AGE  OWNRENT      AVGEXP    INCOME  INCOMESQ
0  20.0      0.0  108.610000  1.650000  2.722500
1  21.0      0.0   68.910000  1.600000  2.570000
2  21.0      1.0  552.720000  2.470000  6.100900
3  22.0      0.0   65.126667  2.076667  4.553633
4  23.0      0.0   72.825000  2.545000  6.479050
