# Cách tính toán các thông số thống kê mô tả và vẽ biểu đồ histogram cho từng đặc trưng


---

## Import

In [None]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import seaborn as sns

## Chọn Thành phố Hồ Chí Ming - Đại diện cho vùng Đông Nam Bộ

### Read data from file HoChiMinh_DongNamBo.csv

In [None]:
name = 'HoChiMinh_DongNamBo.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram và xác định ngoại lại trên biểu đồ

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)

### Read data from file BenTre_DongBangSongCuuLong.csv

In [None]:
name = 'BenTre_DongBangSongCuuLong.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram và xác định ngoại lại trên biểu đồ

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)

### Read data from file DaNang_NamTrungBo.csv

In [None]:
name = 'DaNang_NamTrungBo.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)

### Read data from file HaNoi_DongBangSongHong.csv

In [None]:
name = 'HaNoi_DongBangSongHong.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram và xác định ngoại lại trên biểu đồ

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)

### Read data from file LamDong_TayNguyen.csv

In [None]:
name = 'LamDong_TayNguyen.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram và xác định ngoại lại trên biểu đồ

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)

### Read data from file LangSon_DongBacBo.csv

In [None]:
name = 'LangSon_DongBacBo.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram và xác định ngoại lại trên biểu đồ

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)

### Read data from file NgheAn_BacTrungBo.csv

In [None]:
name = 'NgheAn_BacTrungBo.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram và xác định ngoại lại trên biểu đồ

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)

### Read data from file SonLa_TayBacBo.csv

In [None]:
name = 'SonLa_TayBacBo.csv'
df = pd.read_csv(os.path.join("../Data",name),sep=',', encoding='utf-8')

In [None]:
# Test
df.head()

### Data type

In [None]:
dtypes = df.dtypes

In [None]:
# Test
dtypes

### Phân tích thống kê

In [None]:
# Trả về dataframe chỉ có các cột là kiểu số
df_numeric_cols = df.select_dtypes(include='float')

In [None]:
# Test
df_numeric_cols.head()

In [None]:
descriptive_statistics = df_numeric_cols.describe().round(2)
def missing_ratio(series):
    return series.isnull().sum() / len(series) * 100
m_ratio = missing_ratio(df_numeric_cols).round(2)

descriptive_statistics.loc['missing_ratio'] = m_ratio
descriptive_statistics

### Vẽ histogram và xác định ngoại lại trên biểu đồ

In [None]:
# Tính IQR cho từng cột
Q1 = df_numeric_cols.quantile(0.25)
Q3 = df_numeric_cols.quantile(0.75)
IQR = Q3 - Q1

# Xác định ngưỡng để nhận diện ngoại lai
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Nhận diện ngoại lai: Dữ liệu nằm ngoài khoảng [lower_bound, upper_bound]
outliers = (df_numeric_cols < lower_bound) | (df_numeric_cols > upper_bound)

# Vẽ histogram với các ngoại lai được đánh dấu
n_cols = len(df_numeric_cols.columns)
fig, axes = plt.subplots(n_cols, 1, figsize=(12, 4 * n_cols))

# Nếu chỉ có một cột, axes sẽ không phải là danh sách mà là một đối tượng đơn lẻ
if n_cols == 1:
    axes = [axes]

for i, col in enumerate(df_numeric_cols.columns):
    # Vẽ histogram với KDE
    sns.histplot(df_numeric_cols[col], bins=20, kde=True, ax=axes[i])
    
    # Lọc các ngoại lai cho cột hiện tại
    outliers_col = df_numeric_cols[col][outliers[col]]
    
    # Đánh dấu ngoại lai trên histogram bằng điểm đỏ
    axes[i].scatter(outliers_col, [0] * len(outliers_col), color='red', label='Outliers', zorder=5)
    
    # Cài đặt tiêu đề và nhãn
    axes[i].set_title(f'Histogram of {col} with Outliers')
    axes[i].set_xlabel(col)
    axes[i].set_ylabel('Frequency')
    axes[i].legend()

# Tinh chỉnh layout và hiển thị biểu đồ
plt.tight_layout()
plt.show()

# Tạo báo cáo số lượng ngoại lai trong từng cột
outliers_summary = outliers.sum()
print("Số lượng ngoại lai trong từng cột:")
print(outliers_summary)