# [教學目標]
- Pandas 處理最常用的資料格式, 我們稱為 DataFrame, 試著使用不同的方式新建一個 DataFrame 吧
- 練習看看 DataFrame 可以對資料做什麼操作? (groupby 的使用)

# [範例重點]
- 新建 DataFrame 方法一 (In[2], In[3])
- 新建 DataFrame 方法二 (In[4], In[5])
- 資料操作 : groupby (In[6], Out[6])

In [13]:
import pandas as pd
import numpy as np

### 方法一

In [2]:
data = {'weekday': ['Sun', 'Sun', 'Mon', 'Mon'],
        'city': ['Austin', 'Dallas', 'Austin', 'Dallas'],
        'visitor': [139, 237, 326, 456]}

In [3]:
data

{'weekday': ['Sun', 'Sun', 'Mon', 'Mon'],
 'city': ['Austin', 'Dallas', 'Austin', 'Dallas'],
 'visitor': [139, 237, 326, 456]}

In [5]:
type(data)

dict

In [6]:
visitors_1 = pd.DataFrame(data)
print(visitors_1)

  weekday    city  visitor
0     Sun  Austin      139
1     Sun  Dallas      237
2     Mon  Austin      326
3     Mon  Dallas      456


### 方法二

In [9]:
cities = ['Austin', 'Dallas', 'Austin', 'Dallas']
weekdays = ['Sun', 'Sun', 'Mon', 'Mon']
visitors = [139, 237, 326, 456]

list_labels = ['city', 'weekday', 'visitor']
list_cols = [cities, weekdays, visitors]

zipped = list(zip(list_labels, list_cols))
zipped

[('city', ['Austin', 'Dallas', 'Austin', 'Dallas']),
 ('weekday', ['Sun', 'Sun', 'Mon', 'Mon']),
 ('visitor', [139, 237, 326, 456])]

In [10]:
visitors_2 = pd.DataFrame(dict(zipped))
print(visitors_2)

     city weekday  visitor
0  Austin     Sun      139
1  Dallas     Sun      237
2  Austin     Mon      326
3  Dallas     Mon      456


## 一個簡單例子
假設你想知道如果利用 pandas 計算上述資料中，每個 weekday 的平均 visitor 數量，

通過 google 你找到了 https://stackoverflow.com/questions/30482071/how-to-calculate-mean-values-grouped-on-another-column-in-pandas

想要測試的時候就可以用 visitors_1 這個只有 4 筆資料的資料集來測試程式碼

In [11]:
visitors_1.groupby(by="weekday")['visitor'].mean()

weekday
Mon    391
Sun    188
Name: visitor, dtype: int64

## 練習時間
在小量的資料上，我們用眼睛就可以看得出來程式碼是否有跑出我們理想中的結果

請嘗試想像一個你需要的資料結構 (裡面的值可以是隨機的)，然後用上述的方法把它變成 pandas DataFrame

#### Ex: 想像一個 dataframe 有兩個欄位，一個是國家，一個是人口，求人口數最多的國家

### Hints: [隨機產生數值](https://blog.csdn.net/christianashannon/article/details/78867204)

In [44]:
np.random.seed(2020)
data = {
    'country': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k'],
    'population': np.random.randint(low=10**4, high=10**5, size=11)
}
data_frame = pd.DataFrame(data)
new_data = data_frame.sort_values(by = ['population'], ascending = False)
print(data_frame)
new_data.head(1)

   country  population
0        a       51824
1        b       71832
2        c       50259
3        d       54739
4        e       28523
5        f       77197
6        g       30039
7        h       30637
8        i       89008
9        j       84648
10       k       48665


Unnamed: 0,country,population
8,i,89008


In [45]:
np.random.seed(2020)
countries = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k']
populations = np.random.randint(low=10**4, high=10**5, size=11)

list_labels = ['country', 'population']
list_columns = [countries, populations]

data_frame = pd.DataFrame(dict(zip( list_labels, list_columns )))
new_data = data_frame.sort_values(by = ['population'], ascending = False)
print(data_frame)
new_data.head(1)

   country  population
0        a       51824
1        b       71832
2        c       50259
3        d       54739
4        e       28523
5        f       77197
6        g       30039
7        h       30637
8        i       89008
9        j       84648
10       k       48665


Unnamed: 0,country,population
8,i,89008


In [38]:
?pd.DataFrame.sort_values