Skip to content

Umaporn19/DWDM21

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DWDM21

Data Warehouse & Data Mining 2021

ชื่อ : อุมาพร คำภิชัย 623020547-0

กลุ่ม เทเลทับบี้

สมาชิกในกลุ่ม

  1. นางสาวอุมาพร คำภิชัย
  2. นางสาวภัทรสร เทพบุตร
  3. นางสาวสุพิชญา ตั้งกิจวานิชย์
  4. นางสาวสุภาวดี คำทุย
  5. นางสาวพลอยบงกช แสงโทโพธิ์

grading

สารบัญเนื้อหา

  • สรุปเนื้อหาบทที่ 1 Introduction

    • Data Warehouse คืออะไร
    • Data Mining คืออะไร
    • ทำไมต้องทำ Data Mining
    • ตัวอย่างข้อมูล
    • การเรียกชื่ออื่น ๆ
    • ลักษณะภาพรวม
    • ขั้นตอนการทำข้อมูล
    • หัวข้อที่จะเรียน
  • สรุปเนื้อหาบทที่ 2 Getting to Know Your Data

    • ลักษณะภาพว่าแต่ละมิติแตกต่างกันอย่างไร
    • ลักษณะข้อมูล EX ข้อมูลเป้นกราฟ , วิดีโอ
    • ชนิดของข้อมูล
    • คุณสมบัติที่สำคัญ
    • ชนิดของ Attribute
    • การนำค่าสถิติเข้ามาเกี่ยวข้อง
  • สรุปเนื้อหาบทที่ 2 เพิ่มเติม Getting to Know Your Data เพิ่มเติม

    • สูตรในการคำนวณต่าง ๆ
  • สรุปเนื้อหาบทที่ 3 Data Preprocessing

    • Data Preprocessing คืออะไร
    • ขั้นตอนในการทำ Data Preprocessing
    • ทำไมถึงต้องทำ Data Preprocessing
    • Data Cleaning คืออะไร
    • เพราะเหตุใดข้อมูลจึงไม่สมบูรณ์
    • ตัวเลือกในการจัดการกับค่า Missing
  • สรุปเนื้อหาบทที่ 4 Data Warehousing and On-line Anaalytical Processing

    • Data Warehousing คืออะไร
    • OLTP & OLAP
    • ทำไมถึงต้องแยก Data Warehousing
    • โมเดล ทั้ง 3 แบบของ Data Warehousing
    • Meta Data
    • การสร้างแบบจำลองแนวคิดของ Data Warehousing ว่ามีแบบไหนบ้าง แต่ละแบบเป็นอย่างไร
    • ลักษณะข้อมูลในหลายมิติเป็นอย่างไร
    • การใช้ data warehouse ทั้งหมด 3 ประเภท
  • สรุปเนื้อหาบทที่ 6 Mining Frequent Patterns, Association and Correlations:Basic Concepts and Methods

    • Basic Concepts
    • Patterns หมายถึงอะไร ทำไมมันถึงสำคัญ
    • ตัวอย่าง K-Itemsets
    • การหาค่าต่าง ๆ ของ K-Itemsets
    • The Apriori Algorihm
    • ตัวอย่าง The Apriori Algorihm
  • สรุปเนื้อบทที่ 8 Classification:Basic Concepts

    • ลักษณะการสร้างโมเดลแบบมีผู้สอน
    • ลักษณะการสร้างโมเดลแบบไม่มีผู้สอน
    • การทำนายปัญหา ระหว่าง Classification กับ การใช้ ทำนายตัวเลข
    • การสร้างโมเดลแบบจำลอง
    • Decision Tree ต้นไม้ตัดสินใจ
    • หลักการสร้างตาราง
    • ตัวอย่างในการหาค่าต่าง ๆ
    • Gini Index
    • การหาค่า Gini
    • Naive Bayes Classfier
    • Linear Regreesion

    สารบัญในส่วน Github

  • บทที่ 2 Data101(Chapter2)

    • ไฟล์ .csv (cav คือ comma separated values) เป็นไฟล์หลักที่เราได้ใช้เรียนกันในวิชานี้
    • Basic Python
    • Casting int () float () str ()
    • Data Structure
    • วิธีสร้าง list ว่าง
    • เติมค่าลงไปใน list ใช้ (.append)
    • การชี้ค่าใน list (indexing)
    • list slicing การตัดลิสต์
    • [จุดเริ่มต้น:จุดสุดท้าย :step]
    • list + list
    • format string
    • Loop
    • Nested loop ลูบซ้อนลูบ
    • Condition (if statement)
    • Quiz 1 หา max
    • เฉลย Quiz 1
    • การบ้านที่ 3 หาเกรด
    • Function
    • ลักณะตัวอย่าง (ไม่มี input)
    • ลักษณะตัวอย่างที่ (ไม่มี output)
    • ลักษณะตัวอย่าง (ไม่มี input และ output)
    • ลักษณะของ input (พารามิเตอร์)
    • Quiz ครั้งที่ 2 (27 ก.ค. 64)
  • บทที่ 2 Data102_(Chapter2)

    • Nan = not a Number (ช่องว่าง)
    • คำสั่ง .head() .tail()
    • Box plot
    • Time Series Plot
  • บทที่ 3 Data_Preprocessing_(Chapter_3)

    • Meta Data (Data ที่ใช้อธิบาย Data)
    • ชี้ข้อมูลในตาราง
    • ชี้แบบ .iloc[] (มองข้อมูลแบบ matrix)
    • Missing Values
    • Handling Misiing Value 1 (ลบค่า missing ออกไป)
    • Quiz 3 ให้หาว่าการทำ dropna() ทำให้ข้อมูลหายไปกี่ %
    • Handling Misiing Value 1.5 (ลบค่า missing เฉพาะในคอลัมม์ที่เราสนใจออกไป)
    • Quiz 3.1 ให้หาว่าการทำ dropna() แบบเลือก drop เฉพาะคอลลัมม์ที่เราสนใจ (age) ทำให้ข้อมูลหายไปกี่ %
    • Handling Misiing Value 2 (แทนค่าด้วย class ใหม่ (unknown))
    • Handling Misiing Value 3 (แทนค่าด้วย class ใหม่ (ค่าที่เหมาะสม)
    • Handling Misiing Value 4 (แทนค่าด้วย ค่ากลาง)
    • Handling Misiing Value 5 (แทนค่าด้วย ค่ากลางของ sample ใน class เดียวกัน)
    • Select data by values [PD] คำสั่งแพนด้า
    • ขั้นตอนสร้าง list ของ boolen
    • สร้าง list ของ boolen
    • Quiz 4 + การบ้าน
    • ต่อตารางแนวแกน Y [PD]
    • การเรียงข้อมูล [PD]
    • Outlier
    • Quiz 5
    • Quiz กลุ่ม
    • การรวมตาราง (ต่อตารางในแนวแกน x) Data Integration
    • รวม 2 ตาราง (.merge())
    • เอาเฉพาะคอลลัมม์ที่เราต้องการมาแปะ (.map())
    • ข้อควรจำ
    • Project กลุ่ม
    • Group by (pandas)
    • การบ้าน + ควิซ
    • [PD] save ตารางเอาไปใช้ที่อื่น
    • [PD] การสร้างตาราง
  • บทที่ 6 Chapter_6_Association_Rules

    • ลบ records ที่ถูก cancel ออกไป
    • การบ้านครั้งที่ 13 วาดกราฟสรุปจำนวน items และ ยอดขายของแต่ละประเทศ
    • เตรียม Data สำหรับ (Fequence Pattern) Association Rule
    • Apriori
    • (Quiz 7)
  • บทที่ 7 Chapter7_Classification_(Decision_Tree)

    • Load Data
    • train (ฝึกสอนตัวแบบ)
    • plot tree
    • Evaluation
    • Random
    • Advanced Tree
    • TEST
    • Start here
    • Train - Test
    • Train - Validation
    • การบ้านครั้งที่ 16
  • บทที่ 7 Chap7_Classification_(KNN_NN)

    • Load data
    • Split Data
    • Train Model
    • knn1
    • knn2
    • knn3
    • Retrain & Evaluate
    • Neural Network
    • Train - Test
    • ANN 2
    • ANN 3
  • บทที่ 7 Chapter_7_Classification_(Evaluation)

    • Load data
    • แบ่ง data
    • สร้าง model ทำนาย
    • Train - Test
    • Evalution
  • บทที่ 8 Chap_8_Clustering

    • K-means
    • Generat Data
    • Explole data
    • Clustering
    • ตัวอย่าง
    • นับจำนวนสี
    • จัดกลุ่มสีให้เหลือ 16 สี
    • แปลงข้อมูลให้อยู่ในรูป row-column
    • ใช้ centroid เป็นตัวแทนของสี
    • แทนสีคืนลงไป
    • Hierachical Clustering
    • Clustering Evaluation
  • Data Visualization Data_Visualization

    • Visuliazation
    • Scatter plot
    • Plot
    • ควิซกลุ่ม
    • Bar chart
    • Stacked Barchart
    • Histrogram
  • Distance Numpy Distance_Numpy

    • Numpy Array
    • สร้าง numpy array
    • สร้าง matrix เริ่มต้น (zeros,ones)
    • สร้าง matrix random ค่าเเบบมั่ว ๆ
    • matrix transpose
    • Indexing & Slicing
    • Useful Function
    • วนลูปเอง
    • Summation
    • Quiz กลุ่ม
    • Distance Matrix
    • Euclidean Distance (L2-norm)
    • คำนวณระยะห่าง dist(P1,P2)
    • คำนวณระยะห่าง dist(P2,P4)
    • Distance function
    • Quiz 6
    • การบ้านครั้งที่ 11
    • Distance of Binary Value
  • สอบมิดเทอม MiniExam

  • โปรเจค Project

  • สไลด์ โปรเจค Slide Project

About

Data Warehouse & Data Mining 2021

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published