# 資料型態
### 葉永傑
### jan 25, 2019
---

# 資料結構
## 資料型別

變數型態 | 類別    |  範例                  | 註解
:---------:|:---------:|:------------------------:|:-----------------------
浮點數     |float  | 2.333                  | 雙精準浮點數16位
整數     |int  | 9                     |
邏輯值	 |bool  | True、False             | 等價 1、0
字串	 |str  | "NSYSU"            | 可相加、重複印出、利用中括號可取部份內容
字元     |chr| "N","S","Y","S","U"  | len() 看字串的長度(字元個數)、字串由字元組成
日期	   |datetime.datetime、datetime.date	   | 2022-12-09         | import datetime
時間	   |time.struct_time、str | 1670567195.7250018、'Fri Dec  9 15:48:43 2022' | import time，1970/1/1 00:00:00 至今的秒數
字典| dict | {"key1":"value1", "key2":"value2"} | 透過 key 來取得對應的 value，兩種方法 : { }、dict()
串列 | list| ["N","s",5,5.,True] | 用 [ ] 儲存不同類別的資料、利用中括號可取部份內容

$\large\text {在Python中，所有東西都是一個物件，物件可以當作最小單位}$

### float

In [1]:
print(type(2.))

<class 'float'>


### Integer

In [2]:
print(type(9))

<class 'int'>


### Logical

In [3]:
print(type(True),"\n",type(False == 0))

<class 'bool'> 
 <class 'bool'>


### string / Character

In [4]:
print(type("NSYSU"))

<class 'str'>


In [5]:
print("NSYSU"+"NSYSU","\n","NSYSU"*2)

NSYSUNSYSU 
 NSYSUNSYSU


In [6]:
NSYSU = "NSYSU"
print(NSYSU[0],"\n",len(NSYSU))

N 
 5


### Date

In [7]:
import datetime
print(datetime.date.today(),"\n",type(datetime.date.today()))

2022-12-10 
 <class 'datetime.date'>


### Time

In [8]:
import time
print(time.time(),"\n")
print(time.localtime(),"\n",type((time.localtime())))

1670630351.0631626 

time.struct_time(tm_year=2022, tm_mon=12, tm_mday=10, tm_hour=7, tm_min=59, tm_sec=11, tm_wday=5, tm_yday=344, tm_isdst=0) 
 <class 'time.struct_time'>


In [9]:
print(time.ctime(),"\n",type((time.ctime())))

Sat Dec 10 07:59:11 2022 
 <class 'str'>


### Dictionary

In [10]:
d = {"key1":"value1", "key2":"value2"}
print(d["key1"],"\n",type(d))

value1 
 <class 'dict'>


In [11]:
d = dict(key1 = "value1",
         key2 = "value2")
print(d["key2"],"\n",type(d))

value2 
 <class 'dict'>


### list

In [12]:
l = list("NSYSU")
print(l,"\n",type(l))

['N', 'S', 'Y', 'S', 'U'] 
 <class 'list'>


In [13]:
l = (["N","s",5,5.,True])
print(l,"\n",l[4],"\n",type(l[4]))

['N', 's', 5, 5.0, True] 
 True 
 <class 'bool'>


## 運算子(operation)

運算子    | 語法    |運算子   |語法 |註解
:---------:   |:--------: |:-------------:|:----: |:---:
加            |+        | 相等        |==   |
減            |-        | 不等        |!=   |
乘            |*        | 大於        |>    |
除            |/        | 小於        |<    |
次方          |**       |大於等於     |>=   |
餘數          |%        |小於等於     |<=   |
整數除法      |//       |內積(矩陣相乘)|np.dot(A, B) |需 import numpy as np
包含         |in      |不包含     | not in |
交集         |and、&    |聯集      |or、$|$   |需要兩個邏輯元素          


### **運算子舉例** 
### Power

In [14]:
2**2

4

### mod

In [15]:
5%2

1

### 整數除法

In [16]:
5//2

2

### 內積(inner product)

In [17]:
import numpy as np
A = np.array([1, 2, 3])
B = np.array([2, 3, 4])
np.dot(A,B)

20

### 點積

In [18]:
A*B

array([ 2,  6, 12])

### 相等

In [19]:
"NSYSU"=="1"

False

### 不等

In [20]:
"NSYSU"!="1"

True

### 大於等於

In [21]:
5>=3

True

### 包含

In [22]:
5 in np.array([1, 2, 3])

False

In [23]:
"word" in "This contains a word"

True

### 不包含

In [24]:
5 not in np.array([1, 2, 3])

True

In [25]:
"word" not in "This contains a word"

False

### 交集

In [26]:
(2>=6) and (2<6)

False

In [27]:
(2>=6) & (2<6)

False

### 聯集

In [28]:
(2>=6) or (2<6)

True

In [29]:
(2>=6) | (2<6)

True

## 表格型態轉換
$\large\text{轉換函數  xxx()}\quad \large\text{EX:} \quad\text {int()}$ 


### **轉換舉例**

### 字串轉串列

In [30]:
list("NSYSU")

['N', 'S', 'Y', 'S', 'U']

In [31]:
s = "Line1-abcdef \nLine2-abc \nLine3-abcd"
print(s.split())                           # 以空格為分隔符，包含 \n
print(s.split(' ', 1 ))                     # 以空格為分隔符，分隔一次

['Line1-abcdef', 'Line2-abc', 'Line3-abcd']
['Line1-abcdef', '\nLine2-abc \nLine3-abcd']


### 串列轉字串

In [32]:
"".join(list("NSYSU"))

'NSYSU'

### 字串轉數值

In [33]:
int("12345")

12345

### 數值轉字串

In [34]:
str(12345)

'12345'

### 數值轉邏輯
*註備:資料需1,0*

In [35]:
bool(0)

False

In [36]:
bool(np.array([1,0,4]).any())  # 有一個 1 則 True

True

In [37]:
bool(np.array([1,2,3]).all())  # 全 1 才 True 

True

### 邏輯轉數值

In [38]:
int(True)

1

In [39]:
float(False)

0.0

### 文字轉日期

In [40]:
print(datetime.datetime.strptime('2021-01-05 11:30:20', '%Y-%m-%d %H:%M:%S'))

2021-01-05 11:30:20


In [41]:
print(datetime.datetime.strptime('01-05-2021 11:30:20', '%m-%d-%Y %H:%M:%S'))

2021-01-05 11:30:20


### 日期轉文字

In [42]:
(str(datetime.datetime.strptime('2021-01-05 11:30:20', '%Y-%m-%d %H:%M:%S')))

'2021-01-05 11:30:20'

### Date _format 常見參數

符號|	格式	      |範例
----|-------------|------
%d	|日	          |01
%a	|禮拜幾的縮寫	|Mon
%A	|禮拜幾	      |Monday
%m	|月	          |01
%b	|月名稱的縮寫	|Jan
%B	|月名稱	      | January
%y	|兩位數的年	  |70
%Y	|四位數的年	  |1970

[strftime() 與 strptime() 的行為](https://docs.python.org/zh-tw/3/library/datetime.html)

## 判斷物件型態 

* 判斷型態函數 isinstance(object,type)
* type 一次可放多個，可用 int，float，bool，complex，str，list，dict，set，tuple
* 判斷 NaN $\Rightarrow$ pd.isnull() 
 * type(None) = NoneType
 * type(np.nan) = float   
<note> Note : NaN 無法用其他運算子計算 </note> 
 <ex>EX : 1 * NaN = NaN </ex>

 


### 判斷數值

In [43]:
print(isinstance(8.7, int))

False


In [44]:
print(isinstance(8.7, float))

True


### 判斷文字

In [45]:
print(isinstance("NSYSU", (int, str, float)))

True


### 判斷日期

In [46]:
datetime.datetime.now()

datetime.datetime(2022, 12, 10, 7, 59, 11, 863467)

In [47]:
isinstance(datetime.datetime.now(),datetime.datetime)   # "2022-01-05" 型式則要自己寫

True

### 判斷NaN

In [48]:
import pandas as pd
pd.isnull(None)

True

In [49]:
print(pd.isnull(float("nan")),"\n",pd.isnull(np.nan))

True 
 True


In [50]:
pd.isnull(1)

False

In [51]:
from sklearn import datasets
data = datasets.load_iris() 
data = pd.DataFrame(data["data"])

print(data.isnull().sum().sum()) # 有缺失值嗎(對 dateframe)
print(data.isna())               # TRUE、FALSE 表格(對 dateframe)

0
         0      1      2      3
0    False  False  False  False
1    False  False  False  False
2    False  False  False  False
3    False  False  False  False
4    False  False  False  False
..     ...    ...    ...    ...
145  False  False  False  False
146  False  False  False  False
147  False  False  False  False
148  False  False  False  False
149  False  False  False  False

[150 rows x 4 columns]


## 向量
向量（vector）: 一個維度的 ndarray
我們可以想像一個向量就是一條序列(sequense)

每一條向量元素都有對應到的index

**index**| 0 | 1 | 2 | 3 |...| n
:---|:---|:---|:---|:---|:---|:---
**value**| $s_0$ | $s_1$ | $s_2$ | $s_3$ |...|$s_{n}$|

```
我們可以使用 numpy 裡的 array 來定義一條向量
EX : np.array([1, 2, 3])  
     np.array(["n","s","y","s","u"])  
```

### 使用 np.array 來定義向量

In [52]:
x = np.array(["red","yellow","blue"])  

### 刪除指定 index 的元素 element

In [53]:
np.delete(x,2)

array(['red', 'yellow'], dtype='<U6')

### 拿取指定 index 的元素 element

In [54]:
x[1]

'yellow'

### 拿取多個 index的元素 element

In [55]:
x.take([0,1])

array(['red', 'yellow'], dtype='<U6')

### 用邏輯型態的向量 拿取index的元素 element
note:必需有同樣長度

In [56]:
x = np.array(["red","yellow","blue"])  
x[[False,True,False]]

array(['yellow'], dtype='<U6')

### 創造向量

+ 一般

In [57]:
np.array([1, 2, 3, 4])

array([1, 2, 3, 4])

+ 有序

In [58]:
np.arange(1, 10, 2)

array([1, 3, 5, 7, 9])

+ 全 0 / 全 1

In [59]:
print(np.zeros(3),"\n",np.ones(3))

[0. 0. 0.] 
 [1. 1. 1.]


+ 產生[0, 1]之間的數组成的向量

In [60]:
np.random.random(3)

array([0.63954938, 0.35112628, 0.287049  ])

+ 定義區間中等距元素组成的向量

In [61]:
np.linspace(0, 2*np.pi, 6) 

array([0.        , 1.25663706, 2.51327412, 3.76991118, 5.02654825,
       6.28318531])

* 重複(循環)序列

In [62]:
np.array([1, 2, 3, 4]*2)

array([1, 2, 3, 4, 1, 2, 3, 4])

+ 組合兩個向量

In [63]:
a = np.array([1, 2, 3, 4])
b = np.arange(1, 10, 2)
np.append(a,b)

array([1, 2, 3, 4, 1, 3, 5, 7, 9])

### 取代向量

* nomal

In [64]:
x = np.array(["N","S","Y","S","U"]) 
x[1:4] = ["","T",""]
x

array(['N', '', 'T', '', 'U'], dtype='<U1')

+ distinst

In [65]:
y = np.array(["N","S","Y","S","U"]) 
y[y=="S"] = "K"
y

array(['N', 'K', 'Y', 'K', 'U'], dtype='<U1')

### 向量內部型態

同一條向量裡面表格的型態需一致

In [66]:
z1 = np.array([2,5,"matlab","maple"])
print(z1)

['2' '5' 'matlab' 'maple']


In [67]:
z2 = np.array([0,1,2,3])
print(z2)

[0 1 2 3]


## matrix (矩陣)& data.frame

n $\times$ m 矩陣 我們會取名 n 個 row，m 個 column ，所以我們會有兩個 index

In [68]:
sys = np.array([[1,4,7],
                [2,5,8],
                [3,6,9]])
sys

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

### 第一個 row 第二個 column

In [69]:
sys[0,1]

4

### 取第一個column

In [70]:
sys[:,0]

array([1, 2, 3])

+ 矩陣轉置

In [71]:
sys.T

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

+ 取代矩陣元素

In [72]:
sys==1

array([[ True, False, False],
       [False, False, False],
       [False, False, False]])

In [73]:
sys[sys==1] = 2
sys

array([[2, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

+ 取代矩陣向量

In [74]:
sys[0,:] = [11,15,18]
sys

array([[11, 15, 18],
       [ 2,  5,  8],
       [ 3,  6,  9]])

+ 矩陣相乘

In [75]:
sys.dot(sys)

array([[205, 348, 480],
       [ 56, 103, 148],
       [ 72, 129, 183]])

我們也可以再把它變成我們想要的維度<br>
會先把原先矩陣先變成一條向量再塑型，須留意順序

In [76]:
sys.shape

(3, 3)

In [77]:
new_sys = sys
new_sys.reshape((1,9))

array([[11, 15, 18,  2,  5,  8,  3,  6,  9]])

**data.frame** 是一個比 **matrix** 更加彈性的資料型態，<br>
可以容納許多不一樣的結構在各個欄位之中，同時保留了一些 **matrix** 的性質


 - 點乘

In [78]:
sys[:,0] = [3,1,2]
sys = pd.DataFrame(sys)
sys*sys

Unnamed: 0,0,1,2
0,9,225,324
1,1,25,64
2,4,36,81


+ 保留轉置功能

In [79]:
sys.T

Unnamed: 0,0,1,2
0,3,1,2
1,15,5,6
2,18,8,9


+ 取名

In [80]:
sys.columns = ["x1","x2","x3"]
sys.index = ["x1","x2","x3"]
sys

Unnamed: 0,x1,x2,x3
x1,3,15,18
x2,1,5,8
x3,2,6,9


+ 改名

In [81]:
sys.rename(columns = {"x1":"理","x2":"學","x3":"院"},
           index = {"x1":"商","x2":"學","x3":"院"},
           inplace=True)
sys

Unnamed: 0,理,學,院
商,3,15,18
學,1,5,8
院,2,6,9


+ 拼裝data.frame

In [82]:
new_sys = sys
new_sys["new"] = [1,2,3]
new_sys


Unnamed: 0,理,學,院,new
商,3,15,18,1
學,1,5,8,2
院,2,6,9,3


+ 使用變數名稱 找出此變數

In [83]:
new_sys["new"]

商    1
學    2
院    3
Name: new, dtype: int64

### 多維度資料型態可以構建超過2維度的資料

In [84]:
my_arr = np.array([np.arange(1,21)])
my_arr = my_arr.reshape((5,2,2))
my_arr

array([[[ 1,  2],
        [ 3,  4]],

       [[ 5,  6],
        [ 7,  8]],

       [[ 9, 10],
        [11, 12]],

       [[13, 14],
        [15, 16]],

       [[17, 18],
        [19, 20]]])

取出第二個維度的第一個 index 和第三個維度的第一個 index 的向量

In [85]:
my_arr[:,0,0]

array([ 1,  5,  9, 13, 17])

## list
list 相比 dataframe 來說更像一個資料夾，可以不斷的包住任何物件，<br>
但搜尋上會比較困難也比較難轉用

In [86]:
title = "Great NBA Teams"
teams = ["Chicago Bulls", "Golden State Warriors"]
wins = np.array([72, 73])
losses = np.array([10, 9])
winning_percentage = wins / (wins + losses)
season = ["1995-96", "2015-16"]
wins_losses = np.array([wins, losses]).T
df = pd.DataFrame({"Teams" : teams,
                  "Winning_Percentage" : winning_percentage,
                  "Season" : season})
great_nba_teams = [title, teams, wins_losses, df]
great_nba_teams

['Great NBA Teams',
 ['Chicago Bulls', 'Golden State Warriors'],
 array([[72, 10],
        [73,  9]]),
                    Teams  Winning_Percentage   Season
 0          Chicago Bulls            0.878049  1995-96
 1  Golden State Warriors            0.890244  2015-16]

In [87]:
great_nba_teams[3]

Unnamed: 0,Teams,Winning_Percentage,Season
0,Chicago Bulls,0.878049,1995-96
1,Golden State Warriors,0.890244,2015-16


+ list 可以不斷往內包

In [88]:
list_bag = [great_nba_teams,np.array([0,1,2,3])]
list_bag

[['Great NBA Teams',
  ['Chicago Bulls', 'Golden State Warriors'],
  array([[72, 10],
         [73,  9]]),
                     Teams  Winning_Percentage   Season
  0          Chicago Bulls            0.878049  1995-96
  1  Golden State Warriors            0.890244  2015-16],
 array([0, 1, 2, 3])]

+ 取出方式: 利用 [ ]，前面需先拆才能看拿下一層的物件

In [89]:
list_bag[0][0]

'Great NBA Teams'

## 時間數列(序列)變數     ts(time series)

時間上序列跟一般數列不同的是他對於排序上有較嚴格的要求，<br>
且有需要對他有分明的區間(循環) EX:春夏秋冬<br>

[如何在Python建立時間序列(Python Generate Datetime Series)](https://traveldog99.blogspot.com/2019/10/pythonpython-generate-datetime-series.html)

In [90]:
# 將 DatePeriod格式化成像要的格式，以及最重要的把時間由 index 改為 string
# PS：strftime 這函式很重要，可以把時間序列從 index 變為 string !

DatePeriod = pd.date_range("2019/1/1", "2019/1/5", freq='D') 
# 設定起訖日期

dp1 = DatePeriod.strftime('%Y%m%d')                          
# <class 'pandas.core.indexes.base.Index'>

print(DatePeriod)
for Day in dp1:
    print(Day)   
# <class 'str'>

DatetimeIndex(['2019-01-01', '2019-01-02', '2019-01-03', '2019-01-04',
               '2019-01-05'],
              dtype='datetime64[ns]', freq='D')
20190101
20190102
20190103
20190104
20190105


## formula


主要的 statsmodels API 分為多個模型：

+ statsmodels.api：橫截面模型和方法。使用 import statsmodels.api as sm

+ statsmodels.tsa.api：時間序列模型和方法。使用 import statsmodels.tsa.api as tsa

+ statsmodels.formula.api：使用公式字符串和 DataFrame 指定模型的便捷界面。導入 import statsmodels.formula.api as smf

[statsmodels API](https://www.statsmodels.org/dev/api.html)

## 判斷資料屬性、型態、名稱

### 語法整理


語法         |  用途         | 註解
:-------------:|:---------------:|:--
 .shape         | 查詢維度      | 
 len()      | 查詢長度  | EX : 向量、串列、字串
 type       | 查詢資料型態  |  
 .index       |查詢行(row)名稱| type 為 dataframe
 .columns    |查詢列(col)名稱| type 為 dataframe
 .describe()     | 查詢資料內容  | type 為 dataframe


<hr>