# 結構化數據和非結構化數據簡介

在進入Pytorch學習前，我們會稍微介紹一下一般我們常見的資料型態，這關係到後續我們學習要利用pytorch介紹的演算法。<br>
資料大致上分為:<br> 
- 結構化資料(Structured data)<br>
- 非結構化資料(Non-Structured data)<br>
- 半結構資料(Semi-structured data)<br>



## 結構化資料

結構化資料通常有精確定義，不要複雜化來思考，我們如果簡單定義可以透過表單呈現<br>
例如Excel來呈現的資料泛屬於結構化資料<br>
我們這邊舉結構化數據<br>
EX1:

 |ID|身高(cm)|體重(kg)|膚色|頭髮顏色|性別|
 |:---: |:---:|:---|:---  |:---    |:---  |
 |001   |180  | 80 |Yellow| Black  | Male |
 |002   |170  | 70 |Yellow| Brown  | FeMale |
 |003   |162  | 60 |Yellow| Black  | Male |
 |004   |182  | 85 |Yellow| Black  | Male |
 
EX2:
 
 |萼片長度(cm)|萼片寬度(cm)|花瓣長度(cm)|花瓣寬度(cm)|類別|
 |:---:      |:---:       |:---       |:---       |:---|
 |5.1|3.5|1.4|0.2|Iris-setosa|
 |7|3.2|4.7|1.4|Iris-versicolor|
 |6.3|3.3|6|2.5|Iris-virginica|


結構化資料通常會以「量」為特性來儲存，因此比較好拿來直接分析。<br>

每一列(row): 表示一筆資料，包含這筆資料的所有屬性(feature)。<br>
每一行(cloumn): 代表一種屬性(feature)。<br>

結構化資料的特性為
- 固定欄位
- 固定順序
- 固定格式

在資料分析往往會針對屬性為字元的特徵(Ex1的膚色、頭髮顏色、性別和Ex2的類別)進行Dummy variable轉換，將非數字的特徵轉換成數字化<br>
另外當資料有缺失的時候也有很多處理方式可以將空白欄位補齊，在此不多做討論。

## 非結構化資料

非結構化資料不同於結構化數據，只要無法像結構化資料那樣來表示的資料都屬於非結構化資料。<br>
例如: 圖片、文字、語音檔、檔案、email等等。<br>

EX:<br>
MNIST手寫數字辨識資料庫<br>
![image-4.png](attachment:image-4.png)







## 半結構化資料

半結構化資料屬於混和型的方式，有結構化的呈現方式，但內容物卻有著非結構化的數據。<br>
半結構化數據的優勢在於，它更靈活更易於擴展。<br>

EX1: <br>
UCI資料庫內的SMS垃圾郵件收集數據集<br>
- 第一欄表示資料ID
- 第二欄表示類別(ham和spam兩類)
- 第三欄表示非結構化資料(一段不固定長度的文字)

![image.png](attachment:image.png)

本系列教學都可以從我的[GitHub](https://github.com/TommyHuang821/PytorchTutorial)來看對應的內容及範例程式！



## 作者 Author
![image](https://user-images.githubusercontent.com/25295252/204134360-67946cc4-e3fe-4c73-a994-b84e5e4098af.png)
<span> - &copy; 黃志勝 Chih-Sheng (Tommy) Huang (<a href="https://github.com/TommyHuang821">Github</a>) (<a href="https://sites.google.com/site/chihshenghuang821">個人網頁</a>) (<a href="https://medium.com/@chih-sheng-huang821">Medium文章</a>) </span>  

## Pytorch Tutorial 實作課程系列文章
## 目錄 
  * [Class 0: 數據型態簡介<br>](https://github.com/TommyHuang821/PytorchTutorial#class-0-%E6%95%B8%E6%93%9A%E5%9E%8B%E6%85%8B%E7%B0%A1%E4%BB%8B)
  * [Class 1: 資料庫取得 <br>](https://github.com/TommyHuang821/PytorchTutorial#class-1-%E8%B3%87%E6%96%99%E5%BA%AB%E5%8F%96%E5%BE%97-)
  * [Class 2: 利用Pytorch建立Dataset和Dataloader<br>](https://github.com/TommyHuang821/PytorchTutorial#class-2-%E5%88%A9%E7%94%A8pytorch%E5%BB%BA%E7%AB%8Bdataset%E5%92%8Cdataloader)
  * [Class 3: 利用Pytorch進行梯度下降更新<br>](https://github.com/TommyHuang821/PytorchTutorial#class-3-%E5%88%A9%E7%94%A8pytorch%E9%80%B2%E8%A1%8C%E6%A2%AF%E5%BA%A6%E4%B8%8B%E9%99%8D%E6%9B%B4%E6%96%B0)
  * [Class 4: 在pytorch建立卷積、池化和激活函數和自定義運算架構方式<br>](https://github.com/TommyHuang821/PytorchTutorial#class-4-%E5%9C%A8pytorch%E5%BB%BA%E7%AB%8B%E5%8D%B7%E7%A9%8D%E6%B1%A0%E5%8C%96%E5%92%8C%E6%BF%80%E6%B4%BB%E5%87%BD%E6%95%B8%E5%92%8C%E8%87%AA%E5%AE%9A%E7%BE%A9%E9%81%8B%E7%AE%97%E6%9E%B6%E6%A7%8B%E6%96%B9%E5%BC%8F)
  * [Class 5: 利用Pytorch模組torchvision進行資料擴增(Data Augmentation)<br>](https://github.com/TommyHuang821/PytorchTutorial#class-5-%E5%88%A9%E7%94%A8pytorch%E6%A8%A1%E7%B5%84torchvision%E9%80%B2%E8%A1%8C%E8%B3%87%E6%96%99%E6%93%B4%E5%A2%9Edata-augmentation)
  * [Class 6: Pytorch進行圖像分類模型訓練<br>](https://github.com/TommyHuang821/PytorchTutorial#class-6-pytorch%E9%80%B2%E8%A1%8C%E5%9C%96%E5%83%8F%E5%88%86%E9%A1%9E%E6%A8%A1%E5%9E%8B%E8%A8%93%E7%B7%B4)
  * [Class 7: Pytorch進行圖像分類 - 手刻ResNet-18和Torchvision匯入<br>](https://github.com/TommyHuang821/PytorchTutorial#class-7-pytorch%E9%80%B2%E8%A1%8C%E5%9C%96%E5%83%8F%E5%88%86%E9%A1%9E---%E6%89%8B%E5%88%BBresnet-18%E5%92%8Ctorchvision%E5%8C%AF%E5%85%A5)
  * [Class 8: Pytorch-AutoEncoder<br>](https://github.com/TommyHuang821/PytorchTutorial#class-8-pytorch-autoencoder)
  * [Class 9: Generative Adversarial Network(GAN)<br>](https://github.com/TommyHuang821/PytorchTutorial#class-9-generative-adversarial-networkgan)


## 授權 License
<a rel="license" href="https://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/3.0/tw/88x31.png" /></a> (CC BY-NC-SA 4.0)<br />本教學課程適用 <a rel="license" href="https://creativecommons.org/licenses/by-nc-sa/4.0/">Attribution-NonCommercial-ShareAlike 4.0 International</a> 授權方式。

※ 轉載、改作、分享請附上以下內容：
 - 如有轉載、改作、分享，請註明出處，source: https://github.com/TommyHuang821/PytorchTutorial
