# pandas
<font color='blue'>Data structures and data analysis</font> tools for the Python

## Series - 類似numpy的array，但是擁有label(index)
* 建立
    * list: `Series([3, 6, 9])`
    * Value和Index都是list: `Series([2100000, 400000], index=['Japan', 'USA'])`
    * dictionary: `Series(my_dict)`
    * Value為dictionary，Index為list: `Series(my_dict, index=['Japan', 'USA'])`
        * 會以index為準去找dict中對應的key取value，dict多的key會被忽略，index少的value會變NaN
* 轉成dictionary: `ser.to_dict()`
* 選擇
    * `ser['USA']` / `ser[['USA', 'TW']]`
    * `ser[ser > 4000000]`
    * `ser[0]` (number index)
    * `ser[0:3]`
* 檢查
    * 是否在index: `'TW' in ser`
    * 是否為NaN: `pd.isnull(ser)` / `ser.isnull()`
    * 是否不為NaN: `pd.notnull(ser)` / `ser.notnull()`
* 四則運算: `ser1 + ser2` (value + NaN = NaN)、`ser1 * 2`
* Reindex
    * `ser.reindex(['A', 'B', 'C'])`
        * 本來沒有的index值會是NaN，或者可以指定
            * default value: `ser.reindex(['A', 'B', 'C'], fill_value=0)`
            * foward fill: `ser.reindex(my_list, method='ffill')`
* Rank and Sort
    * Sort: `ser.sort_index()` / `ser.sort_values()`
    * Rank: `ser.rank()`
* Drop
    * Drop entry: `ser.drop('B')`
    * Drop value為NaN的entry: `ser.dropna()`
* Unique: `ser.unique`
* Value counts: `ser.value_counts()`
* attributes
    * `ser.index`
        * index可以像list一般操作取得值，但不能賦值(immutable): `my_index[2:]`
        * `ser.index.name = '可以自行命名'`
    * `ser.values`
* Index Hierarchy
    * Example: `Series(randn(6), index=[[3, 3, 3, 2, 2, 2], ['a', 'b', 'c', 'a', 'b', 'c']])`
    * 選取
        * `ser[3]`: 選取3的a, b, c
        * `ser[:, 'a']`: 選取3的a和2的a
    * 轉換成dataframe: `dframe = ser.unstack()`

## DataFrame
* 建立
    * 從剪貼簿: `pd.read_clipboard()`
    * dictionary: `DataFrame(my_dict)`，keys為columns，values為value list
* 選擇
    * 特定Column (回傳Series)
        * Name沒有空格: `dframe.Rank`
        * Name有空格: `dframe['First Season']` (覺得應該統一使用這個較清楚)
    * 多個columns
        * `DataFrame(dframe, columns=['Team', 'First Season'])`
        * 可選擇原本沒有的columns，值會是NaN
    * 特定row (回傳Series)
        * `dframe.ix[3]`
    * 多個rows
        * Top n: `dframe.head(3)`
        * Botton n: `dframe.tail(2)`
        * `dframe.ix[[3, 1]]` / `dframe.take([3, 1])`
        * `dframe[ser]`，ser的element必須為True / False，表示對應的index是否選取
    * Columns & Rows
        * `dframe.ix[['Row_1', 'Row_3'], ['Col_2', 'Col_3']]`
        * 不指定rows: `dframe.ix[:, ['Col_2', 'Col_3']]`
        * 不指定columns: `dframe.ix[['Row_1', 'Row_3'], :]`
* 賦值
    * 整個column
        * 全部一樣: `dframe['Stadium'] = "Levi's Stadium"`
        * array of numbers: `dframe['Stadium'] = np.arange(5)`
    * Series: `dframe['Stadium'] = ser`，ser的index會match到dataframe
* 四則運算
    * `+`: value + NaN = NaN
    * `dframe.add(dframe2, fill_value=0)`
        * NaN + NaN = NaN，而value + NaN的case為fill_value
    * `dframe - ser`
        * Columns全部減對應的series value
* 刪除
    * 整個column: `del dframe['Stadium']`
* Drop
    * Drop index: `dframe.drop('LA')` (要drop column使用`axis=1`)
    * Drop有NaN的indexs: `dframe.dropna()` (若要drop columns，使用axis=1)
        * 只有全部NaN的indexs才會被drop: `dframe.dropna(how='all')`
        * 沒有超過2個有效data(非NaN)的rows會被drop: `dframe2.dropna(thresh=2)`
    * 指定value取代NaN
        * 同一value: `dframe.fillna(1)`
        * 不同columns指定不同values: `dframe.fillna({0:0, 1:1, 2:2, 3:3})`
        * `dframe.fillna(1, inplace=True)`，等同於`dframe = dframe.fillna(1)`
* Reindex
    * rows (index): `dframe.reindex(['A', 'B', 'C'])`
    * columns: `dframe.reindex(columns=['col4', 'col5', 'col6'])`
* Sort: `dframe.sort_values(by=...)`
* Statistics (各方法預設為cross indexs(axis=0)，可以改成columns的版本(axis=1))
    * Sum: `dframe.sum()`
    * 累加的sum: `dframe.cumsum()`
    * Min / Max: `dframe.min()` / `dframe.max()`
    * 各column擁有最小 / 大的value的index: `dframe.idmin()` / `dframe.idmax()`
    * 整個dataframe的各項統計資訊: `dframe.describe()`
        * `dframe1.describe()['col_1']` / `dframe1.describe().ix['std']`
    * Correlation: `dframe.corr()`
* attributes
    * `dframe.columns`
* Index Hierarchy
    * Example: `DataFrame(data, index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=[['NY', 'NY', 'LA'], ['cold', 'hot', 'hot']])`
    * Naming
        * `dframe.index.names = ['INDEX_1', 'INDEX_2']`
        * `dframe.columns.names = ['Citites', 'Temp']`
    * Swap columns: `dframe.swaplevel('Citites', 'Temp', axis=1)`
    * Sort index: `dframe.sortlevel(1)` (number index: 以這個例子指INDEX_2)
    * Sum columns: `dframe.sum(level='Temp', axis=1)`