# [教學目標]
- Pandas 處理最常用的資料格式, 我們稱為 DataFrame, 試著使用不同的方式新建一個 DataFrame 吧
- 練習看看 DataFrame 可以對資料做什麼操作? (groupby 的使用)

# [範例重點]
- 新建 DataFrame 方法一 (In[2], In[3])
- 新建 DataFrame 方法二 (In[4], In[5])
- 資料操作 : groupby (In[6], Out[6])

In [1]:
import pandas as pd

### 方法一

In [2]:
data = {'weekday': ['Sun', 'Sun', 'Mon', 'Mon'],
        'city': ['Austin', 'Dallas', 'Austin', 'Dallas'],
        'visitor': [139, 237, 326, 456]}

In [3]:
visitors_1 = pd.DataFrame(data)
print(visitors_1)

  weekday    city  visitor
0     Sun  Austin      139
1     Sun  Dallas      237
2     Mon  Austin      326
3     Mon  Dallas      456


### 方法二

In [4]:
cities = ['Austin', 'Dallas', 'Austin', 'Dallas']
weekdays = ['Sun', 'Sun', 'Mon', 'Mon']
visitors = [139, 237, 326, 456]

list_labels = ['city', 'weekday', 'visitor']
list_cols = [cities, weekdays, visitors]
zipped = list(zip(list_labels, list_cols))

In [5]:
zipped

[('city', ['Austin', 'Dallas', 'Austin', 'Dallas']),
 ('weekday', ['Sun', 'Sun', 'Mon', 'Mon']),
 ('visitor', [139, 237, 326, 456])]

In [6]:
visitors_2 = pd.DataFrame(dict(zipped))
print(visitors_2)

     city weekday  visitor
0  Austin     Sun      139
1  Dallas     Sun      237
2  Austin     Mon      326
3  Dallas     Mon      456


## 一個簡單例子
假設你想知道如果利用 pandas 計算上述資料中，每個 weekday 的平均 visitor 數量，

通過 google 你找到了 https://stackoverflow.com/questions/30482071/how-to-calculate-mean-values-grouped-on-another-column-in-pandas

想要測試的時候就可以用 visitors_1 這個只有 4 筆資料的資料集來測試程式碼

In [7]:
visitors_1.groupby(by="weekday")['visitor'].mean()

weekday
Mon    391
Sun    188
Name: visitor, dtype: int64

## 練習時間
在小量的資料上，我們用眼睛就可以看得出來程式碼是否有跑出我們理想中的結果

請嘗試想像一個你需要的資料結構 (裡面的值可以是隨機的)，然後用上述的方法把它變成 pandas DataFrame

#### Ex: 想像一個 dataframe 有兩個欄位，一個是國家，一個是人口，求人口數最多的國家

### Hints: [隨機產生數值](https://blog.csdn.net/christianashannon/article/details/78867204)

In [26]:
import numpy as np
countries=["Taiwan","China","Japan"]
populations=np.random.randint(150000000,size=3)
columns=["country","population"]

In [27]:
data=[countries,populations]

In [28]:
zipped=list(zip(columns,data))

In [29]:
dict(zipped)

{'country': ['Taiwan', 'China', 'Japan'],
 'population': array([ 17182450, 111780684,  40776847])}

In [30]:
country_population=pd.DataFrame(dict(zipped))

In [45]:
country_population

Unnamed: 0,country,population
0,Taiwan,17182450
1,China,111780684
2,Japan,40776847


In [54]:
country_population["population"]

0     17182450
1    111780684
2     40776847
Name: population, dtype: int32

In [55]:
country_population.set_index("country",inplace=True)

In [56]:
country_population

Unnamed: 0_level_0,population
country,Unnamed: 1_level_1
Taiwan,17182450
China,111780684
Japan,40776847


In [57]:
country_population.max()

population    111780684
dtype: int32

In [58]:
country_population.idxmax()

population    China
dtype: object