# Pandas Data Manipulation

## Tidy data with Pandas

1. Each variable forms a column.
2. Each observation forms a row.
3. Each type of observational unit forms a table.

####  `melt`: 欄位名變成值

- **id_vars (key)**: 識別 record 的最小單位的變數 (或變數的組合) => 不動
- **value_vars (measure_var)**: 要折下來的欄位們 (default will use all non id_vars variables)
- **var_name**: 舊欄位折下來後
- **value_name**: 舊欄位的值疊成單一欄位
- **col_level**: If columns are a MultiIndex then use this level to melt

#### `pivot_table` (cast): 值變成欄位名

- **index (key)**: 識別 record 的最小單位的變數 (或變數的組合)
    - 如果是唯一的 => 直接填值
    - 不是唯一 => 需要 `aggfunc`
- **columns (variables)**: 作為 *新變數* 的欄位
- **values**: 作為 *值* 的欄位

**Tools for reshaping dataframe:**

| Packages     | to long | to wide                        |
|--------------|---------|--------------------------------|
| **tidyr**    | gather  | spread                         |
| reshape2     | melt    | dcast                          |
| **pandas**   | melt    | unstsack / pivot_table / pivot |
| spreadsheets | unpivot | pivot                          |
| databases    | fold    | unfold                         |

## Long data (Unpivot): 欄位名變成值

Pandas methods:

```py
df3.melt(id_vars=['first', 'last'], var_name='variable', value_name='value)
```

- **index (key)**: 識別 record 的最小單位的變數 (或變數的組合)
    - 如果是唯一的 => 直接填值
    - 不是唯一 => 需要 `aggfunc`
- **columns (variables)**: 作為 *新變數* 的欄位
- **values**: 作為 *值* 的欄位

https://pandas.pydata.org/pandas-docs/stable/reshaping.html#reshaping-by-melt

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_melt.png" width="640">

#### 範例資料：Minisoda 交通死亡數

- **Twin_Cities**: 是否為 Twin Cities (Minneapolis and St. Paul are frequently)
- **Pres_Election**: 該區 2016 美國總統優勢候選人
- **Public_Transport(%)**: 大眾運輸搭乘率
- **Travel_Time**: 平均通勤時間
- **2012 - 2016**: 交通死亡數

![](img/pandas-melt.png)

## Wide data (Pivot): 值變成欄位名

> Not tidy data. 通常用在表格呈現或 Pandas 畫圖


Pandas methods:

- `unstack()`: for multiindex

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_unstack_0.png" width="640">

- `pivot()`:
    - doesn't accept a list for index (key).
    - provides general purpose pivoting with various data types (strings, numerics, etc.)
- `pivot_table()`
    - supports using __multiple columns__ for the index (key).
    - you can give `pivot_table` a __list of aggregation functions__ using keyword argument `aggfunc`.
    - the default `aggfunc` is `numpy.mean`.
- Internally, both of them are using `reset_index()`/`stack()`/`unstack()` to do the job.

Args for `pivot` and `pivot_table`:

- **index (key)**: 識別 record 的最小單位的變數 (或變數的組合)
    - 如果是唯一的 => 直接填值
    - 不是唯一 => 需要 `aggfunc` 的參數
- **columns (variables)**: 作為 *新變數* 的欄位
- **values**: 作為 *值* 的欄位

<img src="https://pandas.pydata.org/pandas-docs/stable/_images/reshaping_pivot.png" width="640">

### Group and summarize

#### Twin_Cities 和非 Twin_Cities 每年的交通死亡數 (Fatalities) 是否有差異？

#### Titanic

- 姓名、性別、年齡
- survived: 是否生還
- pclass: 艙等
- cabin: 房間號碼
- embarlked: 登船港口
- sibsp: 兄弟姊妹＋老婆丈夫數量(sibsp)
- parch: 父母小孩的數量

#### 不同艙等各有多少人？

#### 不同艙等的生還/死亡率？

#### 小結

- **`value_counts()`** (Series method)
    - Compute frequencies of values in a Series. (Returns named series)
- **`size()`** (Series, DataFrame, GroupBy method)
    - Compute number of elements in this object.
- **`count()`** (Series, DataFrame, GroupBy method)
    - Compute (groups') count of __valid values__

### pivot() / pivot_table()

#### 範例資料：各地銷售額

In [13]:
sales_df = pd.DataFrame({
    'year': ['2016', '2016', '2015', '2014', '2013'],
    'country':['uk', 'usa', 'fr','fr','uk'],
    'sales': [10, 21, 20, 10,12],
    'rep': ['john', 'john', 'claire', 'kyle','kyle']
})
sales_df.head()

Unnamed: 0,year,country,sales,rep
0,2016,uk,10,john
1,2016,usa,21,john
2,2015,fr,20,claire
3,2014,fr,10,kyle
4,2013,uk,12,kyle
