# Pandas
+ 可使用預設或自訂的索引，進行快速地資料表格規劃。
+ 可針對資料整理或資料遺失值進行大量處理。     
+ 針對資料進行切割、索引與子項目處理。
+ 資料表格中的列行可以被刪除或著插入。
+ 可將資料進行分組後進行聚合和轉換。
+ 可針對資料進行合併與連結。  

## Series
類似於一個dictionary 結構包含key與value 
Series的key對應到 index 而value對應到data

In [1]:
import pandas as pd
data = [10,11,12]
s1 = pd.Series(data = data,index=["A","B","C"])
data2 = {"A":92,"B":83,"C":75}
s2 = pd.Series(data2)
print(s1)
print(s2)

A    10
B    11
C    12
dtype: int64
A    92
B    83
C    75
dtype: int64


## DataFrame
+ DataFrame 是一個二維結構的資料，資料依照行與列的表格方式排列。
+ Column 與 Row 的表達方式如右：
+ Columns 可以是不同類型的資料。
+ 可針對 Columns 與 Rows 進行標記。
+ 可針對 Columns 和 Rows 執行計算。
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

### DataFrame 的參數
DataFrame 可加入的參數主要有四個：
+ 資料來源：
  + 資料來源，包含 list、ndarray，dictionary、表格、另一個DataFrame、其他 Pandas 物件。
+ Rows 標籤：	
  + 如果沒有設定則會自動進行數值索引顯示。
+ Columns 標籤：	 
  + 如果沒有設定則會自動進行數值索引顯示。
+ 資料類型：每一個 Column 的資料類型，可省略。

### DataFrame 物件
+ DataFrame 是一個表格型的資料結構，每一個 Row 與 Column 都有序號，每一個 Row 與 Column 都可以是不同的資料類型集合 (整數、浮點數、字串)。
+ DataFrame 可以被看作是由Series類似陣列組成的字典集合。
+ DataFrame 中的資料可以用一個或多個二維進行規劃。
+ Numpy.array 中要求所有元素都是相同類型，在 DataFrame 中，但在row 是可以不一樣的。
+ 可用 to_html( ) 方式將物件轉存為網頁，資料將轉為表格。

### 關於索引
+ 預設為數值索引，從 0 開始，亦可以使用 list 方式自建索引。
+ 可以於 pandas 物件建立後，使用 df.index 屬性來更改使用的索引。
+ DataFrame 既有 row 索引也有 column索引。

###  使用Series建立DdataFrame

In [4]:
import pandas as pd
s0 = pd.Series([10,20,30],index=["A","B","C"])
df = pd.DataFrame({"First":s0})
print(df)
print("====================================")
data1 = {"Ken":89,"Lucy":61,"Vivin":51}
data2 = {"Ken":78,"Lucy":71,"Vivin":92}
s1 = pd.Series(data1)
s2 = pd.Series(data2)
df = pd.DataFrame({"Score1":s1,"Score2":s2},index=["Lucy","Ken","Vivin"])
print(df)
print("================================================")
data3={"Score1":[72,55,43],"Score2":[92,65,84]}
indexs = ["Ken","Lucy","Vivin"]
df2 = pd.DataFrame(data3,index=indexs)
print(df2)
print("================================================")
data3={"Score1":[72,55,43],"Score2":[92,65,84]}
df3 = pd.DataFrame(data3)
print(df3)

   First
A     10
B     20
C     30
       Score1  Score2
Vivin      51      92
Lucy       61      71
Ken        89      78
       Score1  Score2
Ken        72      92
Lucy       55      65
Vivin      43      84
   Score1  Score2
0      72      92
1      55      65
2      43      84


### 關於載入 csv 的參數
+ 打開後預設增加 index 為從 0 自動變化，而 columns 預設使用第一列資料
  + df1 = pd.read_csv('ex1.csv')　
+ header 參數指定 columns 改為從 0 自動變化的整數
  + df2 = pd.read_csv('ex1.csv',header=None)  
+ 使用 names 參數指定 columns 的index
  + df3 = pd.read_csv('ex1.csv',names=list('abcde'))　　　　
+ 使用 index_col 用指定的 columns 的 e欄位作為 row的index值
  + df4 = pd.read_csv('ex1.csv',names=list('abcde'),index_col='e')  

In [10]:
import pandas as pd
import data1
df3 = pd.DataFrame(data1.data1,columns=["name","population"],index=data1.data1["city"])
print(df3)
# index=False 第一欄 使用第一列資料
# index=True 使用index指定的欄位
df3.to_csv("df3.csv",index=True,encoding="utf8")#存檔為CSV
df4 = pd.DataFrame(data1.data1)# 無指定index所以第一欄自動編號
print(df4)
df4.to_json("df4.json")

    name  population
台北市  中正區      159598
新北市  板橋區      551452
桃園市  桃園區      441287
台中市  北屯區      275207
台南市  安南區      192327
高雄市  三民區      343203
台北市  大安區      309835
新北市  永和區      222531
桃園市  八德區      198473
高雄市  前鎮區      189623
高雄市  鳳山區      359125
台北市  信義區      225561
新北市  新店區      302070
   name  population city
0   中正區      159598  台北市
1   板橋區      551452  新北市
2   桃園區      441287  桃園市
3   北屯區      275207  台中市
4   安南區      192327  台南市
5   三民區      343203  高雄市
6   大安區      309835  台北市
7   永和區      222531  新北市
8   八德區      198473  桃園市
9   前鎮區      189623  高雄市
10  鳳山區      359125  高雄市
11  信義區      225561  台北市
12  新店區      302070  新北市


### 讀取CSV

In [11]:
import pandas as pd
df = pd.read_csv("df3.csv",encoding="utf8")
print(df)
df.to_html("pandas5-1.html")
print("----------------------")

df2 = pd.read_html("pandas5-1.html",encoding="utf8")
print(df2)
print("----------------------")

df3 = pd.read_json("df4.json")
print(df3)

   Unnamed: 0 name  population
0         台北市  中正區      159598
1         新北市  板橋區      551452
2         桃園市  桃園區      441287
3         台中市  北屯區      275207
4         台南市  安南區      192327
5         高雄市  三民區      343203
6         台北市  大安區      309835
7         新北市  永和區      222531
8         桃園市  八德區      198473
9         高雄市  前鎮區      189623
10        高雄市  鳳山區      359125
11        台北市  信義區      225561
12        新北市  新店區      302070
----------------------
[    Unnamed: 0.1 Unnamed: 0 name  population
0              0        台北市  中正區      159598
1              1        新北市  板橋區      551452
2              2        桃園市  桃園區      441287
3              3        台中市  北屯區      275207
4              4        台南市  安南區      192327
5              5        高雄市  三民區      343203
6              6        台北市  大安區      309835
7              7        新北市  永和區      222531
8              8        桃園市  八德區      198473
9              9        高雄市  前鎮區      189623
10            10        高雄市  鳳山區      359125
11

In [12]:
import pandas as pd
df1 = pd.read_csv('ex1.csv')
print(df1)
print("-----")
df2 = pd.read_csv('ex2.csv')#使用第一行資料做colum名稱
print(df2)
print("-----")
df3 = pd.read_csv('ex2.csv',header=None)#指定使用第幾筆的row作為colum的name 如設為 None自動編號
print(df3)
df4 = pd.read_csv('ex2.csv',names=list('abcde')) #設定cloum name為abcde
print(df4)
print("-----")
df5 = pd.read_csv('ex2.csv',names=list('abcdef'),index_col=0)#index is 0 colum
print(df5)
df5 = pd.read_csv('ex2.csv',names=list('abcdef'),index_col='e')#index is e colum
print(df5)
print("-----")

     104/01/02  2,104,640,545   50,472,201,894    497,889  6,952.21  -119.87
0    104/01/03  2,640,781,030   64,138,886,194    623,192  7,053.38   101.17
1    104/01/04  2,983,756,821   75,845,629,353    728,417  7,082.97    29.59
2    104/01/05  3,062,757,248   76,850,752,698    737,780  7,130.86    47.89
3    104/01/06  3,314,147,435   88,101,921,548    823,810  7,120.51   -10.35
4    104/01/09  2,610,433,477   71,323,370,369    634,137  7,093.04   -27.47
5    104/01/10  3,595,611,551   97,168,542,017    869,327  7,178.87    85.83
6    104/01/11  3,322,390,467   88,786,671,892    802,539  7,188.21     9.34
7    104/01/12  2,969,248,375   78,947,910,460    731,328  7,186.58    -1.63
8    104/01/13  3,497,838,901   99,286,437,370    819,762  7,181.54    -5.04
9    104/01/16  3,184,795,667   76,842,611,338    719,725  7,103.62   -77.92
10   104/01/17  3,720,277,205  101,133,309,290    899,597  7,221.08   117.46
11   104/01/18  4,088,756,925  113,988,641,382  1,020,420  7,233.69    12.61

In [14]:
import pandas as pd
df1 = pd.read_csv('ex3.csv')
print(df1)
print("-----")
df2 = pd.read_csv('ex3.csv',skiprows=[0,2,3]) # 跳過的row
print(df2)
print("-----")
df3= pd.read_csv('ex4.csv',nrows =3) #只取三row
print(df3)
print("-----")
df4 = pd.read_csv('ex4.csv',na_values={'message':['foo','NA'],'something':['two']})# message 欄位是foo或NA 與 something 欄位是 two的換成NaN   
print(df4)
print("-----")

     104/01/02  2,104,640,545   50,472,201,894    497,889  6,952.21  -119.87
0    104/01/03  2,640,781,030   64,138,886,194    623,192  7,053.38   101.17
1    104/01/04  2,983,756,821   75,845,629,353    728,417  7,082.97    29.59
2    104/01/05  3,062,757,248   76,850,752,698    737,780  7,130.86    47.89
3    104/01/06  3,314,147,435   88,101,921,548    823,810  7,120.51   -10.35
4    104/01/09  2,610,433,477   71,323,370,369    634,137  7,093.04   -27.47
5    104/01/10  3,595,611,551   97,168,542,017    869,327  7,178.87    85.83
6    104/01/11  3,322,390,467   88,786,671,892    802,539  7,188.21     9.34
7    104/01/12  2,969,248,375   78,947,910,460    731,328  7,186.58    -1.63
8    104/01/13  3,497,838,901   99,286,437,370    819,762  7,181.54    -5.04
9    104/01/16  3,184,795,667   76,842,611,338    719,725  7,103.62   -77.92
10   104/01/17  3,720,277,205  101,133,309,290    899,597  7,221.08   117.46
11   104/01/18  4,088,756,925  113,988,641,382  1,020,420  7,233.69    12.61

## 過濾分析
+ 可以透過條件分析的方式針對 row 或指定的 column 進行過濾分析。
+ 可以將過濾的結果轉存為 dataframe。
+ 可以直接於 dataframe 內建立子矩陣方式進行進行過濾檢查。
+ 子矩陣內的操作：
  + 以陣列的概念進行特定欄位的分析，例如 gap1["year"] 欄位名稱中有空白時或特殊字時特別好用 
  + 用.的方式帶出 dataframe 的某特定欄位，例如 gap1.year
+ & 代表兩個條件的 and 邏輯分析，而 | 代表兩個條件的 or 邏輯分析。

In [15]:
import pandas as pd
data_url = 'http://bit.ly/2cLzoxH'
gap1 = pd.read_csv(data_url)
print(gap1.head(3)) #取得前3筆資料

       country  year         pop continent  lifeExp   gdpPercap
0  Afghanistan  1952   8425333.0      Asia   28.801  779.445314
1  Afghanistan  1957   9240934.0      Asia   30.332  820.853030
2  Afghanistan  1962  10267083.0      Asia   31.997  853.100710


In [18]:
import pandas021a
is_2002 =  pandas021a.gap1['year']==2002
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html
print(type(is_2002))
print(is_2002.head()) #預設輸出前5筆
print("==================") #預設輸出前5筆
gap1_2002 = pandas021a.gap1[is_2002] # 找year是2002年的
print(gap1_2002.shape)
print(gap1_2002.head())

<class 'pandas.core.series.Series'>
0    False
1    False
2    False
3    False
4    False
Name: year, dtype: bool
(142, 6)
        country  year         pop continent  lifeExp    gdpPercap
10  Afghanistan  2002  25268405.0      Asia   42.129   726.734055
22      Albania  2002   3508512.0    Europe   75.651  4604.211737
34      Algeria  2002  31287142.0    Africa   70.994  5288.040382
46       Angola  2002  10866106.0    Africa   41.003  2773.287312
58    Argentina  2002  38331121.0  Americas   74.340  8797.640716


In [19]:
import pandas021a
gap_2002 = pandas021a.gap1[pandas021a.gap1['year']==2002]
print(gap_2002 .shape)
gap2 = pandas021a.gap1[pandas021a.gap1.year == 2002] # 也可使用.year 取代gap1['year'] 指定查找欄位
print(gap2.shape)
gap2 =pandas021a.gap1.query("year == 2002")#
print(gap2.shape)

(142, 6)
(142, 6)
(142, 6)


In [20]:
import pandas as pd
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
        'year': [2012, 2012, 2013, 2014, 2014],
        'reports': [4, 24, 31, 2, 3],
        'coverage': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, index = ['Cochice', 'Pima', 'Santa Cruz', 'Maricopa', 'Yuma'])
print(df)
print("=====================")
print(df[1:3])#取得1~2的row
print("=====================")
print(df['name'])#取得 name的cloum
print("=====================")
print(df[df['coverage'] > 50])
print("=====================")
print(df.query("coverage > 50"))

             name  year  reports  coverage
Cochice     Jason  2012        4        25
Pima        Molly  2012       24        94
Santa Cruz   Tina  2013       31        57
Maricopa     Jake  2014        2        62
Yuma          Amy  2014        3        70
             name  year  reports  coverage
Pima        Molly  2012       24        94
Santa Cruz   Tina  2013       31        57
Cochice       Jason
Pima          Molly
Santa Cruz     Tina
Maricopa       Jake
Yuma            Amy
Name: name, dtype: object
             name  year  reports  coverage
Pima        Molly  2012       24        94
Santa Cruz   Tina  2013       31        57
Maricopa     Jake  2014        2        62
Yuma          Amy  2014        3        70
             name  year  reports  coverage
Pima        Molly  2012       24        94
Santa Cruz   Tina  2013       31        57
Maricopa     Jake  2014        2        62
Yuma          Amy  2014        3        70


In [1]:
import pandas as pd
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
        'year': [2012, 2012, 2013, 2014, 2014],
        'reports': [4, 24, 31, 2, 3],
        'coverage': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, index = ['Cochice', 'Pima', 'Santa Cruz', 'Maricopa', 'Yuma'])
print(df[(df['coverage'] > 50) & (df['reports'] < 4)])
print("===================================")
v1 = 50
v2 = 4
# @v1 @v2 表示變數
print(df.query("coverage > @v1 & reports < @v2"))

          name  year  reports  coverage
Maricopa  Jake  2014        2        62
Yuma       Amy  2014        3        70
          name  year  reports  coverage
Maricopa  Jake  2014        2        62
Yuma       Amy  2014        3        70


In [2]:
# Import modules
import pandas as pd
import numpy as np
# Create a dataframe
raw_data = {'first_name': ['Jason', 'Molly', np.nan, np.nan, np.nan],
        'nationality': ['USA', 'USA', 'France', 'UK', 'UK'],
        'age': [42, 52, 36, 24, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'nationality', 'age'])
american = df['nationality'] == "USA"
elderly = df['age'] > 50
print(df[american | elderly])

  first_name nationality  age
0      Jason         USA   42
1      Molly         USA   52
4        NaN          UK   70


### in 與 not in

+ Pandas 有 isin 方法，代表如果資料存在於 isin 方法內的比對對象，那就傳回 True。
+ 如果比對對象是一個 dictionary：
  + 首先判斷對應的 index 是否存在。
  + 如果存在，接著判斷對應的位置是否存在。
  + 如果不存在，那麼全部為 False。
+ 如果是一個 DataFrame：
  + 首先就是 column 名稱要存在。
  + 原資料行列位置和對應的行列位置一一匹配，才返回 TRUE。
+ 若要設計一個 not in 的分析語法，請在函數方法前面加個 ~ 即可。

In [3]:
import pandas as pd
df = pd.DataFrame({   'A': [1, 2, 3],
                      'B': ['a', 'b', 'f']  })
x=df.isin([1, 3, 12, 'a'])
print(x)
print("------------")
df2 = pd.DataFrame({  'A': [1, 2, 3], 'B': [1, 4, 7] })
x2=df2.isin({    'A': [1, 3],   'B': [4, 7, 12] })
print(x2)
print("------------")

       A      B
0   True   True
1  False  False
2   True  False
------------
       A      B
0   True  False
1  False   True
2   True   True
------------


In [4]:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3],'B': ['a', 'b', 'f']})
x3=df.isin({ 'A': [1, 3],'C': [4, 7, 12]}) #因為B不在比較清單內所以全為False
print(x3)
print("------------")
df = pd.DataFrame({'A': [1, 2, 3],'B': ['a', 'b', 'f']})
# 使用DataFramey時 必須一一對映才可為true
other = pd.DataFrame({'A': [1, 3, 3, 2], 'B': ['e', 'f', 'f', 'e']})
x4=df.isin(other)
print(x4)
print("------------")
other = pd.DataFrame({'C': [1, 3, 3, 2],'D': ['e', 'f', 'f', 'e']})
x5=df.isin(other) #因為沒對上Key所以全為False
print(x5)
print("------------")

       A      B
0   True  False
1  False  False
2   True  False
------------
       A      B
0   True  False
1  False  False
2   True   True
------------
       A      B
0  False  False
1  False  False
2  False  False
------------


In [5]:
import pandas021a
years = [1952, 2007]
print(pandas021a.gap1.year.isin(years))
gapminder_years= pandas021a.gap1[pandas021a.gap1.year.isin(years)]
print(gapminder_years.shape)
print(gapminder_years.head(5))

       country  year         pop continent  lifeExp   gdpPercap
0  Afghanistan  1952   8425333.0      Asia   28.801  779.445314
1  Afghanistan  1957   9240934.0      Asia   30.332  820.853030
2  Afghanistan  1962  10267083.0      Asia   31.997  853.100710
0        True
1       False
2       False
3       False
4       False
        ...  
1699    False
1700    False
1701    False
1702    False
1703     True
Name: year, Length: 1704, dtype: bool
(284, 6)
        country  year         pop continent  lifeExp    gdpPercap
0   Afghanistan  1952   8425333.0      Asia   28.801   779.445314
11  Afghanistan  2007  31889923.0      Asia   43.828   974.580338
12      Albania  1952   1282697.0    Europe   55.230  1601.056136
23      Albania  2007   3600523.0    Europe   76.423  5937.029526
24      Algeria  1952   9279525.0    Africa   43.077  2449.008185


In [6]:
import pandas021a
continents = ['Asia','Africa', 'Americas', 'Europe']
gapminder_Ocean = pandas021a.gap1[~pandas021a.gap1.continent.isin(continents)]#not in
#print(gapminder_Ocean.shape)
print(gapminder_Ocean)


          country  year         pop continent  lifeExp    gdpPercap
60      Australia  1952   8691212.0   Oceania   69.120  10039.59564
61      Australia  1957   9712569.0   Oceania   70.330  10949.64959
62      Australia  1962  10794968.0   Oceania   70.930  12217.22686
63      Australia  1967  11872264.0   Oceania   71.100  14526.12465
64      Australia  1972  13177000.0   Oceania   71.930  16788.62948
65      Australia  1977  14074100.0   Oceania   73.490  18334.19751
66      Australia  1982  15184200.0   Oceania   74.740  19477.00928
67      Australia  1987  16257249.0   Oceania   76.320  21888.88903
68      Australia  1992  17481977.0   Oceania   77.560  23424.76683
69      Australia  1997  18565243.0   Oceania   78.830  26997.93657
70      Australia  2002  19546792.0   Oceania   80.370  30687.75473
71      Australia  2007  20434176.0   Oceania   81.235  34435.36744
1092  New Zealand  1952   1994794.0   Oceania   69.390  10556.57566
1093  New Zealand  1957   2229407.0   Oceania   

## 排序
+ 可選擇依據 sort_index( ) 依據索引值或者 sort_values( ) 依據內容進行排序。
+ 若加入 ascending=False 代表由大而小進行排序。
+ sort_index 預設為依據 row 的 index 進行，若加入 axis=1 則會依據 column 的 index 進行排序。
+ 可給予一個排序欄位清單，物件將依照欄位清單依序進行排序。

### sort index

In [7]:
import pandas as pd
import numpy as np
df1 = pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],columns = ['col2','col1'])
print(df1)
print("--------------")
df2=df1.sort_index( )
print(df2)
print("--------------")
df3 = df1.sort_index(ascending=False) #遞增排序
print(df3)
print("--------------")
df4=df1.sort_index(axis=1) #使用columns 的index排序
print(df4)
print("--------------")

       col2      col1
1 -0.657132 -0.224088
4  0.401250  0.077938
6 -0.265738 -1.249131
2  1.249855 -0.599930
3 -0.960211  1.504970
5 -0.968159 -1.335745
9 -1.468377 -0.820438
8  0.541769 -0.571021
0  0.493485 -0.121352
7 -0.404094 -0.420762
--------------
       col2      col1
0  0.493485 -0.121352
1 -0.657132 -0.224088
2  1.249855 -0.599930
3 -0.960211  1.504970
4  0.401250  0.077938
5 -0.968159 -1.335745
6 -0.265738 -1.249131
7 -0.404094 -0.420762
8  0.541769 -0.571021
9 -1.468377 -0.820438
--------------
       col2      col1
9 -1.468377 -0.820438
8  0.541769 -0.571021
7 -0.404094 -0.420762
6 -0.265738 -1.249131
5 -0.968159 -1.335745
4  0.401250  0.077938
3 -0.960211  1.504970
2  1.249855 -0.599930
1 -0.657132 -0.224088
0  0.493485 -0.121352
--------------
       col1      col2
1 -0.224088 -0.657132
4  0.077938  0.401250
6 -1.249131 -0.265738
2 -0.599930  1.249855
3  1.504970 -0.960211
5 -1.335745 -0.968159
9 -0.820438 -1.468377
8 -0.571021  0.541769
0 -0.121352  0.493485
7 -0.4207

### sort value

In [8]:
import pandas as pd
url = 'http://bit.ly/imdbratings'
df1 = pd.read_csv(url)
print(df1.head( ))
print("--------------")
df2=df1.title.sort_values( )#使用title做排序
print(df2.head( ))
print("--------------")
df3=df1['title'].sort_values( )
print(df3.head( ))
print("--------------")
df4=df1.title.sort_values(ascending=False)#遞減排序
print(df4.head( ))
print("--------------")

   star_rating                     title content_rating   genre  duration  \
0          9.3  The Shawshank Redemption              R   Crime       142   
1          9.2             The Godfather              R   Crime       175   
2          9.1    The Godfather: Part II              R   Crime       200   
3          9.0           The Dark Knight          PG-13  Action       152   
4          8.9              Pulp Fiction              R   Crime       154   

                                         actors_list  
0  [u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt...  
1    [u'Marlon Brando', u'Al Pacino', u'James Caan']  
2  [u'Al Pacino', u'Robert De Niro', u'Robert Duv...  
3  [u'Christian Bale', u'Heath Ledger', u'Aaron E...  
4  [u'John Travolta', u'Uma Thurman', u'Samuel L....  
--------------
542     (500) Days of Summer
5               12 Angry Men
201         12 Years a Slave
698                127 Hours
110    2001: A Space Odyssey
Name: title, dtype: object
--------------
542  

### sort dataframe

In [9]:
import pandas as pd
url = 'http://bit.ly/imdbratings'
df1 = pd.read_csv(url)
print(df1.head( ))
print("--------------")
df2=df1.sort_values('title') #使用title做dataframe排序條件
print(df2.head( ))
print("--------------")
df3=df1.sort_values('duration', ascending=False) #使用duration排序 遞減
print(df3.head( ))
print("--------------")
columns = ['content_rating', 'duration'] # content_rating 排完 再用duration 排
df4=df1.sort_values(columns)
print(df4.head( ))
print("--------------")
# content_rating 降序 duration 升序 
df4=df1[columns].sort_values(columns,ascending=[True,False])
print(df4.head( ))
print("--------------")

   star_rating                     title content_rating   genre  duration  \
0          9.3  The Shawshank Redemption              R   Crime       142   
1          9.2             The Godfather              R   Crime       175   
2          9.1    The Godfather: Part II              R   Crime       200   
3          9.0           The Dark Knight          PG-13  Action       152   
4          8.9              Pulp Fiction              R   Crime       154   

                                         actors_list  
0  [u'Tim Robbins', u'Morgan Freeman', u'Bob Gunt...  
1    [u'Marlon Brando', u'Al Pacino', u'James Caan']  
2  [u'Al Pacino', u'Robert De Niro', u'Robert Duv...  
3  [u'Christian Bale', u'Heath Ledger', u'Aaron E...  
4  [u'John Travolta', u'Uma Thurman', u'Samuel L....  
--------------
     star_rating                  title content_rating      genre  duration  \
542          7.8   (500) Days of Summer          PG-13     Comedy        95   
5            8.9           12 Angr

## 處理日期資訊
+ 可使用 pandas 的 date_range( ) 函數，可以建立日期資料。
+ 默認情況下，範圍的週期單位為天。
+ 若要表達出工作天 (不包含周六周日)，則請選擇 bdate_range( ) 方法。
+ date_range 或 bdate_range( ) 內的參數：
  + ('起始日期', periods=天數)
  + periods 由開始日取幾天
  + ('起始日期','結束日期')
  + 可加入另外一個參數：freq 代表範圍的週期單位
+ freq 參數的內容
![image.png](attachment:image.png)

In [12]:
import pandas as pd
a=pd.date_range('10/10/2018', periods=10)#10天
print(a)
print("-------------")
a=pd.date_range('10/10/2018', periods=10,freq="W")#間隔為7天
print(a)
print("-------------")
s1 = pd.Series(a)
print(s1)
print("-------------")
a=pd.date_range('10/10/2018', periods=5,freq="W")#間隔為7天
df = pd.DataFrame({"Time":a},index=["A","B","C","D","E"])
print(df)
print("-------------")
print(df["Time"].dt.year)#輸出所有的year

DatetimeIndex(['2018-10-10', '2018-10-11', '2018-10-12', '2018-10-13',
               '2018-10-14', '2018-10-15', '2018-10-16', '2018-10-17',
               '2018-10-18', '2018-10-19'],
              dtype='datetime64[ns]', freq='D')
-------------
DatetimeIndex(['2018-10-14', '2018-10-21', '2018-10-28', '2018-11-04',
               '2018-11-11', '2018-11-18', '2018-11-25', '2018-12-02',
               '2018-12-09', '2018-12-16'],
              dtype='datetime64[ns]', freq='W-SUN')
-------------
0   2018-10-14
1   2018-10-21
2   2018-10-28
3   2018-11-04
4   2018-11-11
5   2018-11-18
6   2018-11-25
7   2018-12-02
8   2018-12-09
9   2018-12-16
dtype: datetime64[ns]
-------------
        Time
A 2018-10-14
B 2018-10-21
C 2018-10-28
D 2018-11-04
E 2018-11-11
-------------
A    2018
B    2018
C    2018
D    2018
E    2018
Name: Time, dtype: int64


In [13]:
import pandas as pd
from datetime  import datetime
start = datetime(2018, 10, 10) #新版改為 使用datetime套件
end = datetime(2018, 12, 25)
a=pd.date_range(start, end)#有假日
b=pd.bdate_range(start,end)#無假日 工作天
c=pd.date_range(start,end,freq="M") #每月結束
print(a)
print("-------------")
print(b)
print("-------------")
print(c)
print("-------------")

DatetimeIndex(['2018-10-10', '2018-10-11', '2018-10-12', '2018-10-13',
               '2018-10-14', '2018-10-15', '2018-10-16', '2018-10-17',
               '2018-10-18', '2018-10-19', '2018-10-20', '2018-10-21',
               '2018-10-22', '2018-10-23', '2018-10-24', '2018-10-25',
               '2018-10-26', '2018-10-27', '2018-10-28', '2018-10-29',
               '2018-10-30', '2018-10-31', '2018-11-01', '2018-11-02',
               '2018-11-03', '2018-11-04', '2018-11-05', '2018-11-06',
               '2018-11-07', '2018-11-08', '2018-11-09', '2018-11-10',
               '2018-11-11', '2018-11-12', '2018-11-13', '2018-11-14',
               '2018-11-15', '2018-11-16', '2018-11-17', '2018-11-18',
               '2018-11-19', '2018-11-20', '2018-11-21', '2018-11-22',
               '2018-11-23', '2018-11-24', '2018-11-25', '2018-11-26',
               '2018-11-27', '2018-11-28', '2018-11-29', '2018-11-30',
               '2018-12-01', '2018-12-02', '2018-12-03', '2018-12-04',
      

### to_datatime() 
字串轉日期

In [14]:
import pandas as pd
df = pd.read_csv("./flowdata.csv")
df["Time"] = pd.to_datetime(df["Time"])
df2 = df.set_index("Time")
print(df2)

                      L06_347  LS06_347  LS06_348
Time                                             
2009-01-01 00:00:00  0.137417  0.097500  0.016833
2009-01-01 03:00:00  0.131250  0.088833  0.016417
2009-01-01 06:00:00  0.113500  0.091250  0.016750
2009-01-01 09:00:00  0.135750  0.091500  0.016250
2009-01-01 12:00:00  0.140917  0.096167  0.017000
...                       ...       ...       ...
2013-01-01 12:00:00  1.710000  1.710000  0.129583
2013-01-01 15:00:00  1.420000  1.420000  0.096333
2013-01-01 18:00:00  1.178583  1.178583  0.083083
2013-01-01 21:00:00  0.898250  0.898250  0.077167
2013-01-02 00:00:00  0.860000  0.860000  0.075000

[11697 rows x 3 columns]


In [16]:
import pandas as pd
# date_parser=True 是否要將index做data_parser
df = pd.read_csv("./flowdata.csv",index_col=0,parse_dates=True)
print(df)
print(df.loc["2010-01-01":"2012-01-01"]) #使用日期做切片

                      L06_347  LS06_347  LS06_348
Time                                             
2009-01-01 00:00:00  0.137417  0.097500  0.016833
2009-01-01 03:00:00  0.131250  0.088833  0.016417
2009-01-01 06:00:00  0.113500  0.091250  0.016750
2009-01-01 09:00:00  0.135750  0.091500  0.016250
2009-01-01 12:00:00  0.140917  0.096167  0.017000
...                       ...       ...       ...
2013-01-01 12:00:00  1.710000  1.710000  0.129583
2013-01-01 15:00:00  1.420000  1.420000  0.096333
2013-01-01 18:00:00  1.178583  1.178583  0.083083
2013-01-01 21:00:00  0.898250  0.898250  0.077167
2013-01-02 00:00:00  0.860000  0.860000  0.075000

[11697 rows x 3 columns]
                      L06_347  LS06_347  LS06_348
Time                                             
2010-01-01 00:00:00  0.535083  0.644750  0.061917
2010-01-01 03:00:00  0.493000  0.607000  0.058833
2010-01-01 06:00:00  0.464667  0.565750  0.055333
2010-01-01 09:00:00  0.448167  0.524583  0.052000
2010-01-01 12:00:00  0.4

In [17]:
print(df.loc["2013"])

                      L06_347  LS06_347  LS06_348
Time                                             
2013-01-01 00:00:00  1.688333  1.688333  0.207333
2013-01-01 03:00:00  2.693333  2.693333  0.201500
2013-01-01 06:00:00  2.220833  2.220833  0.166917
2013-01-01 09:00:00  2.055000  2.055000  0.175667
2013-01-01 12:00:00  1.710000  1.710000  0.129583
2013-01-01 15:00:00  1.420000  1.420000  0.096333
2013-01-01 18:00:00  1.178583  1.178583  0.083083
2013-01-01 21:00:00  0.898250  0.898250  0.077167
2013-01-02 00:00:00  0.860000  0.860000  0.075000


In [18]:
print(df.loc["2010-01":"2012-03"])#取出2010 1月份的到2012-03

                      L06_347  LS06_347  LS06_348
Time                                             
2010-01-01 00:00:00  0.535083  0.644750  0.061917
2010-01-01 03:00:00  0.493000  0.607000  0.058833
2010-01-01 06:00:00  0.464667  0.565750  0.055333
2010-01-01 09:00:00  0.448167  0.524583  0.052000
2010-01-01 12:00:00  0.436333  0.499333  0.050750
...                       ...       ...       ...
2012-03-31 09:00:00  0.104917  0.125000  0.012417
2012-03-31 12:00:00  0.098333  0.124417  0.011833
2012-03-31 15:00:00  0.091917  0.123917  0.011500
2012-03-31 18:00:00  0.085750  0.121417  0.011000
2012-03-31 21:00:00  0.068417  0.119750  0.010417

[6568 rows x 3 columns]


In [19]:
print(df[df.index.month == 1])#所有1月份的都查出

                      L06_347  LS06_347  LS06_348
Time                                             
2009-01-01 00:00:00  0.137417  0.097500  0.016833
2009-01-01 03:00:00  0.131250  0.088833  0.016417
2009-01-01 06:00:00  0.113500  0.091250  0.016750
2009-01-01 09:00:00  0.135750  0.091500  0.016250
2009-01-01 12:00:00  0.140917  0.096167  0.017000
...                       ...       ...       ...
2013-01-01 12:00:00  1.710000  1.710000  0.129583
2013-01-01 15:00:00  1.420000  1.420000  0.096333
2013-01-01 18:00:00  1.178583  1.178583  0.083083
2013-01-01 21:00:00  0.898250  0.898250  0.077167
2013-01-02 00:00:00  0.860000  0.860000  0.075000

[1001 rows x 3 columns]


In [20]:
print(df.between_time("08:00","12:00"))#查詢8~12點的

                      L06_347  LS06_347  LS06_348
Time                                             
2009-01-01 09:00:00  0.135750  0.091500  0.016250
2009-01-01 12:00:00  0.140917  0.096167  0.017000
2009-01-02 09:00:00  0.141917  0.097083  0.016417
2009-01-02 12:00:00  0.147833  0.101917  0.016417
2009-01-03 09:00:00  0.124583  0.084417  0.015833
...                       ...       ...       ...
2012-12-30 12:00:00  1.465000  1.465000  0.086833
2012-12-31 09:00:00  0.682750  0.682750  0.066583
2012-12-31 12:00:00  0.651250  0.651250  0.063833
2013-01-01 09:00:00  2.055000  2.055000  0.175667
2013-01-01 12:00:00  1.710000  1.710000  0.129583

[2924 rows x 3 columns]


## 使用中括弧

+ 要選取某個欄位使用中括號格可 [ ]。
+ 多個欄位可以使用 list。
+ 若是某個範圍的資料篩選，可使用兩次的中括號篩選，第一個是 row，第二個是 column。

In [28]:
import pandas as pd
import data1
df = pd.DataFrame(
data1.data1,
columns = ["name", "city", "population"],
index=data1.data2)
print(df)
print("-------")
print(df[["city"]])
print("-------")
print(df[["city","name"]])
print("-------")
print(df[2:5])#取得隱含index為2~4的row
print("-------")
print(df[2:5][["city","name"]])
print("-------")
list1=["city","name"]
print(df[3:6][list1])
print("-------")
print(df["city"])#取得Colum
print("-------")
print(df["second":"sixth"])#取得"second":"sixth" 區間的row
print("-------")
#print(df["second"])# 會判斷為取得名為second的Colum 
print("-------")
print(df.loc['second'])# 取得row 必須使用明確index模式

           name city  population
first       中正區  台北市      159598
second      板橋區  新北市      551452
third       桃園區  桃園市      441287
fourth      北屯區  台中市      275207
fifth       安南區  台南市      192327
sixth       三民區  高雄市      343203
seventh     大安區  台北市      309835
eigth       永和區  新北市      222531
ninth       八德區  桃園市      198473
tenth       前鎮區  高雄市      189623
eleventh    鳳山區  高雄市      359125
twelvth     信義區  台北市      225561
thirteenth  新店區  新北市      302070
-------
           city
first       台北市
second      新北市
third       桃園市
fourth      台中市
fifth       台南市
sixth       高雄市
seventh     台北市
eigth       新北市
ninth       桃園市
tenth       高雄市
eleventh    高雄市
twelvth     台北市
thirteenth  新北市
-------
           city name
first       台北市  中正區
second      新北市  板橋區
third       桃園市  桃園區
fourth      台中市  北屯區
fifth       台南市  安南區
sixth       高雄市  三民區
seventh     台北市  大安區
eigth       新北市  永和區
ninth       桃園市  八德區
tenth       高雄市  前鎮區
eleventh    高雄市  鳳山區
twelvth     台北市  信義區
thirteenth  新北市  新店區
----

### 使用 loc(文字 m:n 會包含到n)
+ .loc[ ], 中括弧裡面是先 row 後 column，以逗號分開。
+ row 與 column 要放入的是 row 標籤與 column 標籤。
+ 可於 row 或 column 加入「：」 ，代表指定起訖範圍。


In [31]:
import pandas as pd
import numpy as np
dates=pd.date_range('20180516',periods=6)
df=pd.DataFrame(np.arange(24).reshape(6,4),index=dates,columns=['a','b','c','d'])
print(df)
print("====================")
print(df.loc[:,['a','b']])
print("------------")
print(df.loc['20180517':,['a','b']])
print("------------")
print(df.loc['20180517':,['b']])
print("------------")
print(df.loc['20180518':'20180520','b':'d']) #會包含到20180520

             a   b   c   d
2018-05-16   0   1   2   3
2018-05-17   4   5   6   7
2018-05-18   8   9  10  11
2018-05-19  12  13  14  15
2018-05-20  16  17  18  19
2018-05-21  20  21  22  23
             a   b
2018-05-16   0   1
2018-05-17   4   5
2018-05-18   8   9
2018-05-19  12  13
2018-05-20  16  17
2018-05-21  20  21
------------
             a   b
2018-05-17   4   5
2018-05-18   8   9
2018-05-19  12  13
2018-05-20  16  17
2018-05-21  20  21
------------
             b
2018-05-17   5
2018-05-18   9
2018-05-19  13
2018-05-20  17
2018-05-21  21
------------
             b   c   d
2018-05-18   9  10  11
2018-05-19  13  14  15
2018-05-20  17  18  19


### 使用 iloc 與 ix
+ iloc[ ] 與 loc 一樣，中括弧裡面也是先 row 後 column，行列標籤用逗號分開。
+ 與 loc 不同的之處是，.iloc 是根據索引來進行選擇。
+ .ix 代表可以混用 loc 的標籤也可以使用 iloc 的索引編號。 不建議用

In [32]:
import pandas as pd
groups = ["Python", "Django", "Sqlite", "Numpy", "Security", "Pandas"]
numbers = [59, 9, 19, 14, 6, 77]
group_dict = {
"groups": groups,
"numbers": numbers
}
df1 = pd.DataFrame(group_dict)
print(df1)
print("--------------")
print(df1.iloc[0:1, 1])
print("------------")
print(df1.iloc[0:1,:])
print(type(df1.iloc[0:1,:]))#DataFrame
print("------------")
d1 = df1.iloc[:,1] 
print(d1)
print(type(d1))#Series
print("------------")
d1 = df1["numbers"]
print(df1.numbers)
print(type(d1))#Series
print("------------")
print(df1.iloc[2])

     groups  numbers
0    Python       59
1    Django        9
2    Sqlite       19
3     Numpy       14
4  Security        6
5    Pandas       77
--------------
0    59
Name: numbers, dtype: int64
------------
   groups  numbers
0  Python       59
<class 'pandas.core.frame.DataFrame'>
------------
0    59
1     9
2    19
3    14
4     6
5    77
Name: numbers, dtype: int64
<class 'pandas.core.series.Series'>
------------
0    59
1     9
2    19
3    14
4     6
5    77
Name: numbers, dtype: int64
<class 'pandas.core.series.Series'>
------------
groups     Sqlite
numbers        19
Name: 2, dtype: object


In [33]:
import pandas as pd
import numpy as np
dates=pd.date_range('20180516',periods=6)
df=pd.DataFrame(np.arange(24).reshape(6,4),index=dates,columns=['a','b','c','d'])
print(df)
print("------------")
print(df.iloc[3])
print("------------")
print(df.iloc[3,1])
print("------------")
print(df.iloc[3:5,1:3])
print("------------")
print(df.iloc[[1,3,5],1:3])
print("------------")

             a   b   c   d
2018-05-16   0   1   2   3
2018-05-17   4   5   6   7
2018-05-18   8   9  10  11
2018-05-19  12  13  14  15
2018-05-20  16  17  18  19
2018-05-21  20  21  22  23
------------
a    12
b    13
c    14
d    15
Name: 2018-05-19 00:00:00, dtype: int32
------------
13
------------
             b   c
2018-05-19  13  14
2018-05-20  17  18
------------
             b   c
2018-05-17   5   6
2018-05-19  13  14
2018-05-21  21  22
------------


## 作業：開啟檔案計算各種資訊
+ 請開啟 HW15__Data.csv，開啟時加入參數 usecols=(x, y) ，代表使用 index=x 與 index=y 的 column。
請列出收盤價與成交量。
+ 加權平均代表以成交量作為權重。

In [34]:
import numpy as np
x,y=np.loadtxt('HW15__Data.csv',delimiter=',',skiprows=1,usecols=(4,5),unpack=True)
print("收盤價：",x)
print('------')
print("成交量:",y)
print("收盤價最大值",np.max(x))
print("收盤價最小值",np.min(x))
print("收盤價平均數",np.mean(x))
print("收盤價中位數",np.median(x))
print("收盤價加權平均",np.average(x,weights=y))

收盤價： [104.08 110.26  96.8  ...  26.87  26.37  26.5 ]
------
成交量: [70749800. 54967000. 79260700. ...  5444000.  2346400.  2981600.]
收盤價最大值 199.83
收盤價最小值 12.94
收盤價平均數 46.79861864824865
收盤價中位數 38.13
收盤價加權平均 63.11373661448603
