## 數據分析

<b>現狀分析 -> 原因分析 -> 預測分析</b>  
<b>在 數據 中找出 問題 及 合適的解決方案。</b>
- 數據包含文本、音樂、文字、數字等。

### 狹義的數據分析

根據分析目的，採用 <b>對比分析</b>、<b>分組分析</b>、<b>交叉分析</b> 和 <b>回歸分析</b> 等分析方法，  
對數據進行 處理與分析，提取有價值的信息，得到一個 <b>特徵統計量結果的過程</b>。

### 應用

1. 客戶分析
    - 界定目標客戶，提高銷售率
    - 客戶特征分析
    - 客戶忠誠分析
    - 客戶營銷分析 
    - 客戶收益分析
2. 社交媒體分析
    - 用戶個人畫像
    - 用戶愛好分析
    - 預測用戶行為
3. 營銷分析
    - 產品分析
    - 價格分析
    - 渠道分析
    - 廣告分析
4. 交通物流分析
5. 欺詐行為檢測
6. 統計分析
    - 數據描述分析
    - 數據相關性分析
    - 迴歸分析

- - -

## 數據挖掘

從 <b> 大量的、不完全的、有噪聲的、模糊的、隨機的 </b>實際應用數據中，  
通過應用 <b>聚類、分類、回歸、關聯規則</b> 等技術，挖掘 <b>潛在價值的過程</b>。
- 數據融合，從量變到質變
- 發現規律
- 相關性分析
- 趨勢預測

### CRISP-DM 挖掘過程（六部曲）

1. business understanding 商業理解
    - 根據數據進行聚類，提供數據特征
2. data understanding 數據理解
    - 分析評估數據的有效性
3. data preparation 數據準備
    - 對原始數據進行清洗
4. modeling 建立模型
    - 根據數據情況建立模型
5. evaluation 模型評估
    - 重點考慮結果是否符合商業目的
6. deployment 部署
    - 撰寫報告

- - -

## 機器學習

提供數據挖掘的<b>相關技術</b>，  
幫助企業提取數據的<b>商業價值</b>，提升<b>競爭力</b>。  
- 分類與預測
- 聚類分析
- 關聯規則
- 時序模式
- 偏差檢測
- 智能推薦
- 自然語言處理


### 常見算法

##### 數據挖掘算法
C4.5, K-means, SVM, Apri, EM, PageRank, AdaBoost, kNN, Naive Bayes, CART
##### 機器學習算法
線性迴歸，決策樹，神經網絡，單純貝氏分類器，集成學習，聚類，規律學習，強化學習
##### 深度學習
神經網絡的延申，使用多個網絡層從原始護具逐步提取更高的特徵。  
能夠從設置的網絡結構中計算網絡權值和預測結果，並根據結果不斷優化權值以此達到最優預測。

- - -

## 工具

編程：Python, R  
軟件：Visual Studio Code, jupyter notebook/lab, Tableau, Power BI, Excel

Python第三方庫: numpy, padans, Matplotlib, pyecharts, scikit-learn

## 流程

In [None]:
# !pip3 install snapshot-selenium
# !pip3 install pyecharts

In [6]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt

### 1. 明確分析目的

### 2. 數據搜集

### 3. 數據處理

## csv to json

In [7]:
import csv
import json

In [11]:
def csv_to_json(csvFilePath, jsonFilePath):
    jsonArray = []
      
    #read csv file
    with open(csvFilePath, encoding='utf-8') as csvf: 
        #load csv file data using csv library's dictionary reader
        csvReader = csv.DictReader(csvf) 

        #convert each csv row into python dict
        for row in csvReader: 
            #add this python dict to json array
            jsonArray.append(row)
  
    #convert python jsonArray to JSON String and write to file
    with open(jsonFilePath, 'w') as jsonf: 
        jsonString = json.dumps(jsonArray, indent=4)
        jsonf.write(jsonString)
          
csvFilePath = r'/Users/ansoncar/Desktop/數據分析/模擬戰/01New.csv'
jsonFilePath = r'data.json'

csv_to_json(csvFilePath, jsonFilePath)

In [None]:
df = pd.read_csv("")

In [None]:
df.info #顯示檔案的資訊
df.head() #顯示最前五筆資料
df.tail() #顯示最後五筆資料
df.shape #顯示(rows,columns)

In [None]:
df[""][0:4] #選擇某幾筆資料

In [None]:
df[""].max() 最大值  
df[""].min() 最小值  
df[""].mean() 平均值  
df[""].sum() 求和

### 4. 數據分析

### 5. 數據展示

### 6. 撰寫報告

- - -

## 參考資料

- 泰迪盃
1. https://www.bilibili.com/video/BV1sP4y1S77n/?spm_id_from=333.788&vd_source=321cde0fad227f78b3a5c63379a71f04
2. https://www.bilibili.com/video/BV16m4y1F7jA/?spm_id_from=333.788&vd_source=321cde0fad227f78b3a5c63379a71f04
3. https://www.bilibili.com/video/BV1QD4y1b7gR/?spm_id_from=333.788&vd_source=321cde0fad227f78b3a5c63379a71f04
- pandas
4. https://ithelp.ithome.com.tw/articles/10193421
- Matplotlib
5. https://www.runoob.com/matplotlib/matplotlib-tutorial.html
6. https://www.runoob.com/w3cnote/matplotlib-tutorial.html
- pyecharts
7. https://pyecharts.org/#/zh-cn/
- scikit-learn
8. https://ithelp.ithome.com.tw/articles/10204845