Umaporn19 / DWDM21 Public

Notifications You must be signed in to change notification settings
Fork 1
Star 0

Data Warehouse & Data Mining 2021

0 stars 1 fork Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 121 Commits
Chap7_Classification_(KNN_NN).ipynb		Chap7_Classification_(KNN_NN).ipynb
Chap_8_Clustering.ipynb		Chap_8_Clustering.ipynb
Chapter7_Classification_(Decision_Tree).ipynb		Chapter7_Classification_(Decision_Tree).ipynb
Chapter_6_Association_Rules.ipynb		Chapter_6_Association_Rules.ipynb
Chapter_7_Classification_(Evaluation).ipynb		Chapter_7_Classification_(Evaluation).ipynb
DWDM21.jpg		DWDM21.jpg
Data101(Chapter2).ipynb		Data101(Chapter2).ipynb
Data102_(Chapter2).ipynb		Data102_(Chapter2).ipynb
Data_Preprocessing_(Chapter_3).ipynb		Data_Preprocessing_(Chapter_3).ipynb
Data_Structure.ipynb		Data_Structure.ipynb
Data_Visualization.ipynb		Data_Visualization.ipynb
Distance_Numpy.ipynb		Distance_Numpy.ipynb
Intro0.ipynb		Intro0.ipynb
MiniExam.ipynb		MiniExam.ipynb
Project.ipynb		Project.ipynb
Project_New.ipynb		Project_New.ipynb
README.md		README.md
Slide Project.pdf		Slide Project.pdf
Test_Detection.ipynb		Test_Detection.ipynb
การบ้านบทที่ 7 .pdf		การบ้านบทที่ 7 .pdf
สรุป Chapter 1.pdf		สรุป Chapter 1.pdf
สรุป Chapter 2 (ต่อ).pdf		สรุป Chapter 2 (ต่อ).pdf
สรุป Chapter 2.pdf		สรุป Chapter 2.pdf
สรุป Chapter 3.pdf		สรุป Chapter 3.pdf
สรุป Chapter 4 .pdf		สรุป Chapter 4 .pdf
สรุป Chapter 4 เพิ่มเติม.pdf		สรุป Chapter 4 เพิ่มเติม.pdf
สรุป Chapter 6 .pdf		สรุป Chapter 6 .pdf
สรุป Chapter 6 เพิ่มเติม.pdf		สรุป Chapter 6 เพิ่มเติม.pdf
สรุป Chapter 8 (ต่อ).pdf		สรุป Chapter 8 (ต่อ).pdf
สรุป Chapter 8 .pdf		สรุป Chapter 8 .pdf
สรุป Chapter 8 เพิ่มเติม.pdf		สรุป Chapter 8 เพิ่มเติม.pdf

Repository files navigation

DWDM21

Data Warehouse & Data Mining 2021

ชื่อ : อุมาพร คำภิชัย 623020547-0

กลุ่ม เทเลทับบี้

สมาชิกในกลุ่ม

นางสาวอุมาพร คำภิชัย
นางสาวภัทรสร เทพบุตร
นางสาวสุพิชญา ตั้งกิจวานิชย์
นางสาวสุภาวดี คำทุย
นางสาวพลอยบงกช แสงโทโพธิ์

สารบัญเนื้อหา

สรุปเนื้อหาบทที่ 1 Introduction
- Data Warehouse คืออะไร
- Data Mining คืออะไร
- ทำไมต้องทำ Data Mining
- ตัวอย่างข้อมูล
- การเรียกชื่ออื่น ๆ
- ลักษณะภาพรวม
- ขั้นตอนการทำข้อมูล
- หัวข้อที่จะเรียน
สรุปเนื้อหาบทที่ 2 Getting to Know Your Data
- ลักษณะภาพว่าแต่ละมิติแตกต่างกันอย่างไร
- ลักษณะข้อมูล EX ข้อมูลเป้นกราฟ , วิดีโอ
- ชนิดของข้อมูล
- คุณสมบัติที่สำคัญ
- ชนิดของ Attribute
- การนำค่าสถิติเข้ามาเกี่ยวข้อง
สรุปเนื้อหาบทที่ 2 เพิ่มเติม Getting to Know Your Data เพิ่มเติม
- สูตรในการคำนวณต่าง ๆ
สรุปเนื้อหาบทที่ 3 Data Preprocessing
- Data Preprocessing คืออะไร
- ขั้นตอนในการทำ Data Preprocessing
- ทำไมถึงต้องทำ Data Preprocessing
- Data Cleaning คืออะไร
- เพราะเหตุใดข้อมูลจึงไม่สมบูรณ์
- ตัวเลือกในการจัดการกับค่า Missing
สรุปเนื้อหาบทที่ 4 Data Warehousing and On-line Anaalytical Processing
- Data Warehousing คืออะไร
- OLTP & OLAP
- ทำไมถึงต้องแยก Data Warehousing
- โมเดล ทั้ง 3 แบบของ Data Warehousing
- Meta Data
- การสร้างแบบจำลองแนวคิดของ Data Warehousing ว่ามีแบบไหนบ้าง แต่ละแบบเป็นอย่างไร
- ลักษณะข้อมูลในหลายมิติเป็นอย่างไร
- การใช้ data warehouse ทั้งหมด 3 ประเภท
สรุปเนื้อหาบทที่ 6 Mining Frequent Patterns, Association and Correlations:Basic Concepts and Methods
- Basic Concepts
- Patterns หมายถึงอะไร ทำไมมันถึงสำคัญ
- ตัวอย่าง K-Itemsets
- การหาค่าต่าง ๆ ของ K-Itemsets
- The Apriori Algorihm
- ตัวอย่าง The Apriori Algorihm
สรุปเนื้อบทที่ 8 Classification:Basic Concepts
- ลักษณะการสร้างโมเดลแบบมีผู้สอน
- ลักษณะการสร้างโมเดลแบบไม่มีผู้สอน
- การทำนายปัญหา ระหว่าง Classification กับ การใช้ ทำนายตัวเลข
- การสร้างโมเดลแบบจำลอง
- Decision Tree ต้นไม้ตัดสินใจ
- หลักการสร้างตาราง
- ตัวอย่างในการหาค่าต่าง ๆ
- Gini Index
- การหาค่า Gini
- Naive Bayes Classfier
- Linear Regreesion
สารบัญในส่วน Github
บทที่ 2 Data101(Chapter2)
- ไฟล์ .csv (cav คือ comma separated values) เป็นไฟล์หลักที่เราได้ใช้เรียนกันในวิชานี้
- Basic Python
- Casting int () float () str ()
- Data Structure
- วิธีสร้าง list ว่าง
- เติมค่าลงไปใน list ใช้ (.append)
- การชี้ค่าใน list (indexing)
- list slicing การตัดลิสต์
- [จุดเริ่มต้น:จุดสุดท้าย :step]
- list + list
- format string
- Loop
- Nested loop ลูบซ้อนลูบ
- Condition (if statement)
- Quiz 1 หา max
- เฉลย Quiz 1
- การบ้านที่ 3 หาเกรด
- Function
- ลักณะตัวอย่าง (ไม่มี input)
- ลักษณะตัวอย่างที่ (ไม่มี output)
- ลักษณะตัวอย่าง (ไม่มี input และ output)
- ลักษณะของ input (พารามิเตอร์)
- Quiz ครั้งที่ 2 (27 ก.ค. 64)
บทที่ 2 Data102_(Chapter2)
- Nan = not a Number (ช่องว่าง)
- คำสั่ง .head() .tail()
- Box plot
- Time Series Plot
บทที่ 3 Data_Preprocessing_(Chapter_3)
- Meta Data (Data ที่ใช้อธิบาย Data)
- ชี้ข้อมูลในตาราง
- ชี้แบบ .iloc[] (มองข้อมูลแบบ matrix)
- Missing Values
- Handling Misiing Value 1 (ลบค่า missing ออกไป)
- Quiz 3 ให้หาว่าการทำ dropna() ทำให้ข้อมูลหายไปกี่ %
- Handling Misiing Value 1.5 (ลบค่า missing เฉพาะในคอลัมม์ที่เราสนใจออกไป)
- Quiz 3.1 ให้หาว่าการทำ dropna() แบบเลือก drop เฉพาะคอลลัมม์ที่เราสนใจ (age) ทำให้ข้อมูลหายไปกี่ %
- Handling Misiing Value 2 (แทนค่าด้วย class ใหม่ (unknown))
- Handling Misiing Value 3 (แทนค่าด้วย class ใหม่ (ค่าที่เหมาะสม)
- Handling Misiing Value 4 (แทนค่าด้วย ค่ากลาง)
- Handling Misiing Value 5 (แทนค่าด้วย ค่ากลางของ sample ใน class เดียวกัน)
- Select data by values [PD] คำสั่งแพนด้า
- ขั้นตอนสร้าง list ของ boolen
- สร้าง list ของ boolen
- Quiz 4 + การบ้าน
- ต่อตารางแนวแกน Y [PD]
- การเรียงข้อมูล [PD]
- Outlier
- Quiz 5
- Quiz กลุ่ม
- การรวมตาราง (ต่อตารางในแนวแกน x) Data Integration
- รวม 2 ตาราง (.merge())
- เอาเฉพาะคอลลัมม์ที่เราต้องการมาแปะ (.map())
- ข้อควรจำ
- Project กลุ่ม
- Group by (pandas)
- การบ้าน + ควิซ
- [PD] save ตารางเอาไปใช้ที่อื่น
- [PD] การสร้างตาราง
บทที่ 6 Chapter_6_Association_Rules
- ลบ records ที่ถูก cancel ออกไป
- การบ้านครั้งที่ 13 วาดกราฟสรุปจำนวน items และ ยอดขายของแต่ละประเทศ
- เตรียม Data สำหรับ (Fequence Pattern) Association Rule
- Apriori
- (Quiz 7)
บทที่ 7 Chapter7_Classification_(Decision_Tree)
- Load Data
- train (ฝึกสอนตัวแบบ)
- plot tree
- Evaluation
- Random
- Advanced Tree
- TEST
- Start here
- Train - Test
- Train - Validation
- การบ้านครั้งที่ 16
บทที่ 7 Chap7_Classification_(KNN_NN)
- Load data
- Split Data
- Train Model
- knn1
- knn2
- knn3
- Retrain & Evaluate
- Neural Network
- Train - Test
- ANN 2
- ANN 3
บทที่ 7 Chapter_7_Classification_(Evaluation)
- Load data
- แบ่ง data
- สร้าง model ทำนาย
- Train - Test
- Evalution
บทที่ 8 Chap_8_Clustering
- K-means
- Generat Data
- Explole data
- Clustering
- ตัวอย่าง
- นับจำนวนสี
- จัดกลุ่มสีให้เหลือ 16 สี
- แปลงข้อมูลให้อยู่ในรูป row-column
- ใช้ centroid เป็นตัวแทนของสี
- แทนสีคืนลงไป
- Hierachical Clustering
- Clustering Evaluation
Data Visualization Data_Visualization
- Visuliazation
- Scatter plot
- Plot
- ควิซกลุ่ม
- Bar chart
- Stacked Barchart
- Histrogram
Distance Numpy Distance_Numpy
- Numpy Array
- สร้าง numpy array
- สร้าง matrix เริ่มต้น (zeros,ones)
- สร้าง matrix random ค่าเเบบมั่ว ๆ
- matrix transpose
- Indexing & Slicing
- Useful Function
- วนลูปเอง
- Summation
- Quiz กลุ่ม
- Distance Matrix
- Euclidean Distance (L2-norm)
- คำนวณระยะห่าง dist(P1,P2)
- คำนวณระยะห่าง dist(P2,P4)
- Distance function
- Quiz 6
- การบ้านครั้งที่ 11
- Distance of Binary Value
สอบมิดเทอม MiniExam
โปรเจค Project
สไลด์ โปรเจค Slide Project

About

Data Warehouse & Data Mining 2021

Report repository

Releases

No releases published

Packages

No packages published

Languages

Jupyter Notebook 100.0%