# 進擊的熊貓

先來標準的套件讀入。

In [1]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## 3. 自製一個 DataFrame

一個 DataFrame 基本上包含:
    
1. 資料區 (一個 $m\times n$ 陣列)
2. index (列的名字)
3. columns (行的名字)

#### 小插播

Python 做一個 ['A', 'B', 'C'] 這類的 list 很簡單。

In [2]:
list("ABC")

['A', 'B', 'C']

#### 做一個 DataFrame

In [3]:
df = pd.DataFrame(np.random.randn(5,3), index=list(range(1,6)),
                  columns=list("ABC"))

In [4]:
df

Unnamed: 0,A,B,C
1,1.510406,-1.421399,0.239983
2,0.319529,-0.040253,0.488497
3,-1.240463,-0.277877,-1.677971
4,-0.987508,-0.122564,2.007372
5,0.560296,1.154443,1.578351


我們學到了一些 slicing 的方法...

In [5]:
df["A"]

1    1.510406
2    0.319529
3   -1.240463
4   -0.987508
5    0.560296
Name: A, dtype: float64

In [6]:
df.A

1    1.510406
2    0.319529
3   -1.240463
4   -0.987508
5    0.560296
Name: A, dtype: float64

我們也可以模仿以前 array 的方式找出符合條件的資料。例如我們想找 B 這行大於 0 的資料。

In [7]:
df[df.B > 0]

Unnamed: 0,A,B,C
5,0.560296,1.154443,1.578351


In [8]:
df[df.B > 0]

Unnamed: 0,A,B,C
5,0.560296,1.154443,1.578351


# 4. `loc` 定位法

我們想讓 B > 0 的那筆資料, C 都變成 0 (不要問我為什麼, 就高興)

In [9]:
df[df.B > 0]["C"] = 0

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


Wow! Pandas 抗議了, 抗議沒關係, 我們看看它幫我們改了沒有。

In [10]:
df

Unnamed: 0,A,B,C
1,1.510406,-1.421399,0.239983
2,0.319529,-0.040253,0.488497
3,-1.240463,-0.277877,-1.677971
4,-0.987508,-0.122564,2.007372
5,0.560296,1.154443,1.578351


沒。有。改!!

這也太可怕了! 這原因是

    df[df.B > 0]["C"]
    
的時候 `pandas` 在

    df[df.B > 0]
    
就回傳一個新的 DataFrame 給你, 然後改了這個 DataFrame 的 C 欄... 因此 `df` 根本沒有碰!!

正確改變要用 `loc`, `loc`, `loc`!!

#### 基本的 `loc` 使用方式

基本上 `loc` 這樣使用

    df[列的範圍, 行的範圍]

In [11]:
df.loc[2:3, "B":"C"]

Unnamed: 0,B,C
2,-0.040253,0.488497
3,-0.277877,-1.677971


只有一列或一行就用括號!

In [12]:
df.loc[(2), ("B")]

-0.040253046329845076

我們來改改看...

In [13]:
df.loc[(2), ("B")] = -1

In [14]:
df

Unnamed: 0,A,B,C
1,1.510406,-1.421399,0.239983
2,0.319529,-1.0,0.488497
3,-1.240463,-0.277877,-1.677971
4,-0.987508,-0.122564,2.007372
5,0.560296,1.154443,1.578351


改成了!!

In [15]:
df.loc[df.B > 0, "C"] = 0

In [16]:
df

Unnamed: 0,A,B,C
1,1.510406,-1.421399,0.239983
2,0.319529,-1.0,0.488497
3,-1.240463,-0.277877,-1.677971
4,-0.987508,-0.122564,2.007372
5,0.560296,1.154443,0.0
