# Data cleaning - Comprehensive Cheatsheet

## Data Quality Assessment

### **Common Data Quality Issues - Các vấn đề chất lượng dữ liệu thường gặp**

In [None]:
# Missing Data (Thiếu dữ liệu):

- Null values (None, NaN, NULL) → Giá trị rỗng
- Empty strings ("") → Chuỗi rỗng
- Placeholder values ("N/A", "Unknown", -999) → Giá trị thay thế
- Inconsistent missing representations → Biểu diễn thiếu dữ liệu không nhất quán

In [None]:
# Inconsistent Data (Dữ liệu không nhất quán):

- Different formats for same data → Nhiều định dạng cho cùng một dữ liệu
- Varying case (uppercase/lowercase) → Phân biệt chữ hoa/thường
- Different date formats → Định dạng ngày khác nhau
- Unit inconsistencies → Đơn vị không nhất quán

In [None]:
# Invalid Data (Dữ liệu không hợp lệ):

- Out-of-range values → Giá trị ngoài phạm vi
- Impossible combinations → Kết hợp không hợp lý
- Wrong data types → Sai kiểu dữ liệu
- Duplicate records → Bản ghi trùng lặp

In [None]:
# Structural Issues (Vấn đề cấu trúc):

- Incorrect column names → Tên cột sai
- Wrong data types → Sai kiểu dữ liệu
- Inconsistent schemas → Lược đồ không nhất quán
- Encoding problems → Vấn đề mã hóa

### **Data Profiling - Hồ sơ dữ liệu**

In [None]:
import pandas as pd
import numpy as np 

# overview
df.info()               # Kiểu dữ liệu, số lượng giá trị không null
df.describe()           # Thống kê cơ bản
df.shape                # Kích thước dữ liệu
df.columns.tolist()     # Danh sách tên cột
df.dtypes               # Kiểu dữ liệu


# Missing data analysis (Phân tích dữ liệu thiếu)
df.isnull().sum()           # Đếm số lượng giá trị thiếu theo cột
df.isnull().sum()/len(df)   # Tỷ lệ % thiếu
df.isnull().any(axis=1).sum() # Số hàng có ít nhất một giá trị thiếu


# Unique values analysis (Phân tích giá trị duy nhất)
df.nunique()                    # Đếm giá trị duy nhất trong mỗi cột
df['column'].value_counts()     # Phân phối tần suất
df.duplicated().sum()           # Đếm số dòng trùng

## Missing Data Handling - Xử lý dữ liệu thiếu

### **Types of Missing Data (Các loại dữ liệu thiếu)**:

1. Missing Completely at Random (MCAR) → Thiếu ngẫu nhiên hoàn toàn

2. Missing at Random (MAR) → Thiếu dựa vào dữ liệu quan sát được

3. Missing Not at Random (MNAR) → Thiếu có hệ thống, cần kiến thức miền