# [教學目標]
- Pandas 處理最常用的資料格式, 我們稱為 DataFrame, 試著使用不同的方式新建一個 DataFrame 吧
- 練習看看 DataFrame 可以對資料做什麼操作? (groupby 的使用)

# [範例重點]
- 新建 DataFrame 方法一 (In[2], In[3])
- 新建 DataFrame 方法二 (In[4], In[5])
- 資料操作 : groupby (In[6], Out[6])

In [1]:
import pandas as pd

### 方法一

In [2]:
data = {'weekday': ['Sun', 'Sun', 'Mon', 'Mon'],
        'city': ['Austin', 'Dallas', 'Austin', 'Dallas'],
        'visitor': [139, 237, 326, 456]}

In [3]:
visitors_1 = pd.DataFrame(data)
print(visitors_1)

  weekday    city  visitor
0     Sun  Austin      139
1     Sun  Dallas      237
2     Mon  Austin      326
3     Mon  Dallas      456


### 方法二

In [4]:
cities = ['Austin', 'Dallas', 'Austin', 'Dallas']
weekdays = ['Sun', 'Sun', 'Mon', 'Mon']
visitors = [139, 237, 326, 456]

list_labels = ['city', 'weekday', 'visitor']
list_cols = [cities, weekdays, visitors]

# 組裝成list
zipped = list(zip(list_labels, list_cols))
print(zipped)

[('city', ['Austin', 'Dallas', 'Austin', 'Dallas']), ('weekday', ['Sun', 'Sun', 'Mon', 'Mon']), ('visitor', [139, 237, 326, 456])]


In [5]:
# 把字串變成字典
visitors_2 = pd.DataFrame(dict(zipped))
print(visitors_2)

     city weekday  visitor
0  Austin     Sun      139
1  Dallas     Sun      237
2  Austin     Mon      326
3  Dallas     Mon      456


## 一個簡單例子
假設你想知道如果利用 pandas 計算上述資料中，每個 weekday 的平均 visitor 數量，

通過 google 你找到了 https://stackoverflow.com/questions/30482071/how-to-calculate-mean-values-grouped-on-another-column-in-pandas

想要測試的時候就可以用 visitors_1 這個只有 4 筆資料的資料集來測試程式碼

In [6]:
# 依照 weekday 分類，計算 visitor 的平均值
visitors_1.groupby(by="weekday")["visitor"].mean()

weekday
Mon    391
Sun    188
Name: visitor, dtype: int64

In [7]:
# 如果把 as_index 設定為 False 的話，index 就不會是 weekday，回傳 DataFrame
visitors_1.groupby(by="weekday", as_index=False)['visitor'].mean()

Unnamed: 0,weekday,visitor
0,Mon,391
1,Sun,188


## 練習時間
在小量的資料上，我們用眼睛就可以看得出來程式碼是否有跑出我們理想中的結果

請嘗試想像一個你需要的資料結構 (裡面的值可以是隨機的)，然後用上述的方法把它變成 pandas DataFrame

#### Ex: 想像一個 dataframe 有兩個欄位，一個是國家，一個是人口，求人口數最多的國家

### Hints: [隨機產生數值](https://blog.csdn.net/christianashannon/article/details/78867204)

### 方法1

In [17]:
import numpy as np
import pandas as pd
import random

In [18]:
countries = ['France', 'Taiwan', 'Japan']
population = []
for i in range(3):
    population.append(random.randint(100000, 10000000))

list_labels = ['country', 'population']
list_cols = [countries, population]
print(list_cols)

zipped = list(zip(list_labels, list_cols))

country = pd.DataFrame(dict(zipped))
print(country)

[['France', 'Taiwan', 'Japan'], [4935842, 178883, 1853359]]
  country  population
0  France     4935842
1  Taiwan      178883
2   Japan     1853359


In [19]:
data1 = country.sort_values(by=['population'], ascending=False)
print(data1)

  country  population
0  France     4935842
2   Japan     1853359
1  Taiwan      178883


In [20]:
idx_max = country['population'].idxmax()
print(country['country'][idx_max])
print(data1.iloc[idx_max])

France
country        France
population    4935842
Name: 0, dtype: object


### 方法2

In [32]:
import pandas as pd
import numpy as np

In [33]:
data = {'國家': ['France', 'Taiwan', 'Japan'],
        '人口': np.random.randint(100000, 10000000, size = 3)}
data = pd.DataFrame(data)
print(data)

       國家       人口
0  France  6574341
1  Taiwan  1155053
2   Japan  3266139


In [34]:
data1 = data.sort_values(by=['人口'], ascending=False)
print(data1)

       國家       人口
0  France  6574341
2   Japan  3266139
1  Taiwan  1155053


In [35]:
idx_max = data['人口'].idxmax()
print(data.iloc[idx_max])

國家     France
人口    6574341
Name: 0, dtype: object
