In [217]:
import warnings
warnings.simplefilter('ignore')

import pandas as pd
import numpy as np

# Thống kê mô tả

## I. Giới thiệu chung

Thống kê mô tả trong phân tích dữ liệu là quá trình tóm tắt và biểu diễn các đặc điểm chính của tập dữ liệu. Nó giúp chúng ta hiểu rõ hơn về phân phối, trung bình, phương sai, và các thông số thống kê khác của dữ liệu.

Các phương pháp thống kê mô tả thường được sử dụng để trình bày thông tin cơ bản về tập dữ liệu mà không cần đưa ra những kết luận chính xác hay giải thích nguyên nhân. Chúng bao gồm:

- Thống kê mô tả định tính: Dùng để mô tả các biến rời rạc, ví dụ như số lượng, tỷ lệ phần trăm, và mode (giá trị xuất hiện nhiều nhất).

- Thống kê mô tả định lượng: Dùng để mô tả các biến liên tục, ví dụ như mean (trung bình), median (trung vị), range (phạm vi), variance (phương sai), và standard deviation (độ lệch chuẩn).

- Biểu đồ tóm tắt: Sử dụng biểu đồ như biểu đồ cột, biểu đồ tròn, biểu đồ hình thang, biểu đồ violin, và biểu đồ hộp-whisker để trực quan hóa thông tin về phân phối và tập trung của dữ liệu.

Thống kê mô tả cung cấp cái nhìn tổng quan về dữ liệu, giúp chúng ta nhận ra các xu hướng, sự biến đổi, và tính chất của tập dữ liệu để chuẩn bị cho quá trình phân tích chi tiết và đưa ra những quyết định đúng đắn.









## II. Thực hiện

### 1. Đọc dữ liệu và tính số dòng và cột

Đọc file "VN_housing_dataset.csv" vào dataframe df và in ra 5 dòng đầu tiên của dataframe.

In [218]:
df = pd.read_csv('VN_housing_dataset.csv', index_col=0)
df.head()

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
0,8/5/2020,"Đường Hoàng Quốc Việt, Phường Nghĩa Đô, Quận Cầu Giấy, Hà Nội",Quận Cầu Giấy,Phường Nghĩa Đô,"Nhà ngõ, hẻm",Đã có sổ,4.0,5 phòng,46 m²,,,"86,96 triệu/m²"
1,8/5/2020,"Đường Kim Giang, Phường Kim Giang, Quận Thanh Xuân, Hà Nội",Quận Thanh Xuân,Phường Kim Giang,"Nhà mặt phố, mặt tiền",,,3 phòng,37 m²,,,"116,22 triệu/m²"
2,8/5/2020,"phố minh khai, Phường Minh Khai, Quận Hai Bà Trưng, Hà Nội",Quận Hai Bà Trưng,Phường Minh Khai,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,40 m²,10 m,4 m,65 triệu/m²
3,8/5/2020,"Đường Võng Thị, Phường Thụy Khuê, Quận Tây Hồ, Hà Nội",Quận Tây Hồ,Phường Thụy Khuê,"Nhà ngõ, hẻm",Đã có sổ,,6 phòng,51 m²,12.75 m,4 m,100 triệu/m²
4,8/5/2020,"Đường Kim Giang, Phường Kim Giang, Quận Thanh Xuân, Hà Nội",Quận Thanh Xuân,Phường Kim Giang,"Nhà ngõ, hẻm",,,4 phòng,36 m²,9 m,4 m,"86,11 triệu/m²"


👉 Tính số dòng và số cột và lưu vào 2 biến `num_rows` và `num_cols`.

In [219]:
num_rows, num_cols = df.shape
print(f'Number of rows: {num_rows}\nNumber of columns: {num_cols}')

Number of rows: 82496
Number of columns: 12


### 2. Liệt kê tên các thuộc tính

In [220]:
df.columns

Index(['Ngày', 'Địa chỉ', 'Quận', 'Huyện', 'Loại hình nhà ở',
       'Giấy tờ pháp lý', 'Số tầng', 'Số phòng ngủ', 'Diện tích', 'Dài',
       'Rộng', 'Giá/m2'],
      dtype='object')

### 3. Ý nghĩa các dòng dữ liệu

- Tập dữ liệu cung cấp thông tin cơ bản về các căn nhà tại Hà Nội được đăng bán.

- Mỗi dòng là thông tin của tập dữ liệu tập trung vào việc mô tả các chi tiết cơ bản của căn nhà như: địa chỉ, loại hình nhà ở, số tầng, số phòng ngủ, diện tích,... với mục đích để người mua xem xét xem liệu rằng căn nhà đó có phù hợp với nhu cầu sử dụng và tài chính của mình hay không.


### 4. Dữ liệu có các dòng bị lặp không?

👉 Ta kiểm tra xem có dòng nào bị lặp không bằng cách sử dụng các phương thức `duplicated()` và `any()` trên dataframe `df` và lưu kết quả vào biến `have_duplicated_rows`. Biến này sẽ có giá trị ***True*** nếu dữ liệu có các dòng bị lặp và có giá trị ***False*** nếu ngược lại.

In [221]:
have_duplicate_rows = df.duplicated().any()
have_duplicate_rows

True

Nhận xét: 

- Giá trị trả về là **True**, do đó ta khẳng định dữ liệu có các dòng bị trùng lặp.
- Nguyên nhân của sự trùng lặp này có thể là do:
    - Cùng 1 căn nhà cần bán nhưng người mô giới đã đăng thông tin nhiều lần
    - Các căn nhà là khác nhau, nhưng chúng lại sở hữu các thông tin hoàn toàn giống nhau giống nhau

👉 Ta kiểm tra xem có bao nhiêu dòng dữ liệu bị trùng lặp bằng phương thức `duplicated` và `sum`.

In [222]:
# Kiểm tra và đếm số dòng dữ liệu bị trùng lặp
so_dong_trung_lap = df.duplicated().sum()

print("Số dòng dữ liệu bị trùng lặp:", so_dong_trung_lap)

Số dòng dữ liệu bị trùng lặp: 815


Nhận xét: 
- Tồn tại 815 dòng dữ liệu trùng lặp trên tổng số 82497 dòng dữ liệu (~10%). 
- Có thể thấy có một số lượng khá lớn các dòng dữ liệu trùng lặp, điều này được đánh giá là không tốt nếu các dòng trùng lặp này thuộc nguyên nhân: cùng 1 căn nhà cần bán nhưng người mô giới đã đăng thông tin nhiều lần.

### 5. Kiểu dữ liệu của mỗi cột

 👉 Ta sử dụng phương thức dtypes trên dataframe `df` để xem kiểu dữ liệu của mỗi cột. Kết quả được lưu vào series `col_dtypes`; series này có index là tên các cột và giá trị là kiểu dữ liệu của các cột tương ứng.

In [223]:
col_dtype = df.dtypes
col_dtype

Ngày               object
Địa chỉ            object
Quận               object
Huyện              object
Loại hình nhà ở    object
Giấy tờ pháp lý    object
Số tầng            object
Số phòng ngủ       object
Diện tích          object
Dài                object
Rộng               object
Giá/m2             object
dtype: object

Nhận xét:
    
Về mặt kiểu dữ liệu, các thuộc tính đều có kiểu `object`. Nhưng xét thấy một số thuộc tính có kiểu dữ liệu chưa phù hợp như:

- Các cột: 'Diện tích', 'Giá/m2', 'Số phòng ngủ', 'Số tầng', 'Dài', 'Rộng' nên được đưa về kiểu dữ liệu numerical để tiếp tục xử lý. 
    - Về mặt thực tế những giá trị này là dạng số thực, và là những thuộc tính quan trọng liên quan đến giá căn hộ, do đó để thuận tiện cho việc áp dụng mô hình học máy thì nên đưa các cột này về dạng số.
- Cột: 'Ngày' ta nên chuyển về dạng datetime để phù hợp với tính chất dữ liệu hơn.
    
    

### 6. Thay đổi kiểu dữ liệu phù hợp cho các cột

**6.1 Chuyển dạng float**

👉 Lọc ra các thuộc tính dạng categorical

In [224]:
cat_cols = df.select_dtypes(exclude=['int32','int64','float32','float64'])
cat_cols.head()

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích,Dài,Rộng,Giá/m2
0,8/5/2020,"Đường Hoàng Quốc Việt, Phường Nghĩa Đô, Quận Cầu Giấy, Hà Nội",Quận Cầu Giấy,Phường Nghĩa Đô,"Nhà ngõ, hẻm",Đã có sổ,4.0,5 phòng,46 m²,,,"86,96 triệu/m²"
1,8/5/2020,"Đường Kim Giang, Phường Kim Giang, Quận Thanh Xuân, Hà Nội",Quận Thanh Xuân,Phường Kim Giang,"Nhà mặt phố, mặt tiền",,,3 phòng,37 m²,,,"116,22 triệu/m²"
2,8/5/2020,"phố minh khai, Phường Minh Khai, Quận Hai Bà Trưng, Hà Nội",Quận Hai Bà Trưng,Phường Minh Khai,"Nhà ngõ, hẻm",Đã có sổ,4.0,4 phòng,40 m²,10 m,4 m,65 triệu/m²
3,8/5/2020,"Đường Võng Thị, Phường Thụy Khuê, Quận Tây Hồ, Hà Nội",Quận Tây Hồ,Phường Thụy Khuê,"Nhà ngõ, hẻm",Đã có sổ,,6 phòng,51 m²,12.75 m,4 m,100 triệu/m²
4,8/5/2020,"Đường Kim Giang, Phường Kim Giang, Quận Thanh Xuân, Hà Nội",Quận Thanh Xuân,Phường Kim Giang,"Nhà ngõ, hẻm",,,4 phòng,36 m²,9 m,4 m,"86,11 triệu/m²"


👉 Xét giá trị có đơn vị 'đ/m²'

In [225]:
df.loc[df['Giá/m2'].str.contains(' đ/m²', na=False), 'Giá/m2'] 

93       247.787 đ/m²
174      1 đ/m²      
283      90.476 đ/m² 
338      178.571 đ/m²
351      125.000 đ/m²
621      75.471 đ/m² 
1280     84.375 đ/m² 
1377     122.857 đ/m²
1393     76.388 đ/m² 
1397     98.333 đ/m² 
1562     84.000 đ/m² 
1574     997.540 đ/m²
1583     410.280 đ/m²
1659     69.505 đ/m² 
1833     93.589 đ/m² 
2135     129.268 đ/m²
2325     777.777 đ/m²
2358     68.750 đ/m² 
2371     100.000 đ/m²
2580     88.333 đ/m² 
2662     68.750 đ/m² 
2853     92.307 đ/m² 
2945     78.000 đ/m² 
3360     135.000 đ/m²
3485     555.555 đ/m²
3655     107.142 đ/m²
3760     55.263 đ/m² 
3962     64.102 đ/m² 
4232     111.538 đ/m²
4378     75.000 đ/m² 
4417     85.714 đ/m² 
4485     70.000 đ/m² 
4543     95.000 đ/m² 
4748     708.333 đ/m²
4810     77.586 đ/m² 
4817     736.000 đ/m²
5147     917.652 đ/m²
5245     101.785 đ/m²
5282     2 đ/m²      
5593     833.333 đ/m²
5629     120.930 đ/m²
5630     73.529 đ/m² 
5646     92.857 đ/m² 
5971     94.000 đ/m² 
5981     250.000 đ/m²
6198     1

Nhận xét:

Có vẻ người nhập dữ liệu đã nhầm lẫn đơn vị tiền tệ hàng triệu sang hàng đồng, bởi lẻ giá trị một căn nhà nhà không thể nào rẻ ở mức đồng như các giá trị được liệt kê ở trên.

👉 Chuyển đơn vị 'đ/m²' thành 'triệu/m²'

In [226]:
df.loc[df['Giá/m2'].str.contains(' đ/m²', na=False), 'Giá/m2'] = df.loc[df['Giá/m2'].str.contains(' đ/m²', na=False), 'Giá/m2'].str.replace(' đ/m²',' triệu/m²')

👉 Chuyển các thuộc tính 'Số tầng', 'Số phòng ngủ', 'Diện tích', 'Giá/m2', 'Dài', 'Rộng' về dạng số.

In [227]:
#Đối với cột dữ liệu 'Số tầng' có tồn tại giá trị 'Nhiều hơn 10' và 'Số phòng ngủ' tồn tại giá trị 'nhiều hơn 10 phòng',
#Ta sẽ quy ước giá trị này sẽ mang giá trị số là 11

#Chuyển cột 'Số tầng'
floors = [str(cat_cols['Số tầng'][i]).split()[0] for i in range(len(cat_cols['Số tầng']))]
df['Số tầng'] = [f if f!='Nhiều' else '11' for f in floors]
df['Số tầng'] = df['Số tầng'].astype(float)


#Chuyển cột 'Số phòng ngủ'
rooms = [str(cat_cols['Số phòng ngủ'][i]).split()[0] for i in range(len(cat_cols['Số phòng ngủ']))]
df['Số phòng ngủ'] = [r if r!='nhiều' else '11' for r in rooms]
df['Số phòng ngủ'] = df['Số phòng ngủ'].astype(float)

#Chuyển cột 'Diện tích'
areas = [str(cat_cols['Diện tích'][i]).split()[0] for i in range(len(cat_cols['Diện tích']))]
df['Diện tích'] = areas
df['Diện tích'] = df['Diện tích'].astype(float)

#Chuyển cột 'Giá/m2'
df.loc[df['Giá/m2'].str.contains(' tỷ/m²', na=False), 'Giá/m2'] = df.loc[df['Giá/m2'].str.contains(' tỷ/m²', na=False), 'Giá/m2'].str.replace(' tỷ/m²','').str.replace('.','').str.replace(',','.').astype(float) * 1000
df.loc[df['Giá/m2'].str.contains(' triệu/m²', na=False), 'Giá/m2'] = df.loc[df['Giá/m2'].str.contains(' triệu/m²', na=False), 'Giá/m2'].str.replace(' triệu/m²','').str.replace(',','.').astype(float)
df['Giá/m2'] = df['Giá/m2'].astype(float)

#Chuyển cột 'Dài`
length = [str(cat_cols['Dài'][i]).split()[0] for i in range(len(cat_cols['Dài']))]
df['Dài'] = [f for f in length]
df['Dài'] = df['Dài'].astype(float)

#Chuyển cột 'Rộng`
width = [str(cat_cols['Rộng'][i]).split()[0] for i in range(len(cat_cols['Rộng']))]
df['Rộng'] = [f for f in width]
df['Rộng'] = df['Rộng'].astype(float)

**6.2 Chuyển về dạng datetime**

In [228]:
df['Ngày'] = pd.to_datetime(df['Ngày'], infer_datetime_format=True)

**6.3 Đổi tên thuộc tính**

In [229]:
df = df.rename(columns={'Diện tích': 'Diện tích (m2)', 'Giá/m2': 'Giá/m2 (triệu)', 'Dài': 'Dài (m)', 'Rộng': 'Rộng (m)'})

**6.4 Kết quả sau khi chuyển kiểu dữ liệu**

In [230]:
df.head(3)

Unnamed: 0,Ngày,Địa chỉ,Quận,Huyện,Loại hình nhà ở,Giấy tờ pháp lý,Số tầng,Số phòng ngủ,Diện tích (m2),Dài (m),Rộng (m),Giá/m2 (triệu)
0,2020-08-05,"Đường Hoàng Quốc Việt, Phường Nghĩa Đô, Quận Cầu Giấy, Hà Nội",Quận Cầu Giấy,Phường Nghĩa Đô,"Nhà ngõ, hẻm",Đã có sổ,4.0,5.0,46.0,,,86.96
1,2020-08-05,"Đường Kim Giang, Phường Kim Giang, Quận Thanh Xuân, Hà Nội",Quận Thanh Xuân,Phường Kim Giang,"Nhà mặt phố, mặt tiền",,,3.0,37.0,,,116.22
2,2020-08-05,"phố minh khai, Phường Minh Khai, Quận Hai Bà Trưng, Hà Nội",Quận Hai Bà Trưng,Phường Minh Khai,"Nhà ngõ, hẻm",Đã có sổ,4.0,4.0,40.0,10.0,4.0,65.0


In [231]:
col_dtype = df.dtypes
col_dtype

Ngày               datetime64[ns]
Địa chỉ            object        
Quận               object        
Huyện              object        
Loại hình nhà ở    object        
Giấy tờ pháp lý    object        
Số tầng            float64       
Số phòng ngủ       float64       
Diện tích (m2)     float64       
Dài (m)            float64       
Rộng (m)           float64       
Giá/m2 (triệu)     float64       
dtype: object

### 7. Thống kê mô tả của từng cột

In [232]:
df.describe()

Unnamed: 0,Số tầng,Số phòng ngủ,Diện tích (m2),Dài (m),Rộng (m),Giá/m2 (triệu)
count,36399.0,82458.0,82495.0,19827.0,35445.0,82484.0
mean,4.463062,3.881976,51.364438,89.75994,37.814743,9811.33
std,1.57331,1.498314,470.675198,6468.978073,3101.428641,2546428.0
min,1.0,1.0,1.0,1.0,1.0,1.0
25%,4.0,3.0,34.0,8.0,4.0,73.33
50%,5.0,4.0,40.0,10.0,4.0,90.0
75%,5.0,4.0,50.0,12.0,5.0,111.11
max,73.0,11.0,111411.0,900000.0,423432.0,728000000.0


In [233]:
df.shape

(82496, 12)

### 8. Xem xét sự phân bố giá trị của các cột dữ liệu dạng số

👉 Ta thấy sau các bước tiền xử lý ở trên có 6 cột dữ liệu kiểu số là: Giá/m2, Diện tích, Số tầng, Số phòng ngủ, Dài, Rộng.

👉 Thực hiện thống kê trên 6 cột này và lưu vào một dataframe với các dòng là đại diện cho các giá trị như sau:

- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu (missing_ratio).
- Giá trị min (min).
- Giá trị lower quartile (phân vị 25) (lower_quartile).
- Giá trị median (phân vị 50) (median).
- Giá trị upper quartile (phân vị 75) (upper_quartile).
- Giá trị max (max).

In [234]:
numeric_df = df.copy()
numeric_df = numeric_df[['Giá/m2 (triệu)', 'Số tầng', 'Số phòng ngủ', 'Diện tích (m2)', 'Dài (m)', 'Rộng (m)']]
columns = list(numeric_df.columns)
titles = ['missing_ratio', 'min', 'lower_quartile', 'median', 'upper_quartile', 'max']
arrays = numeric_df.to_numpy()
num_col_dict = {}
num_col_vals = []
for i in range(len(columns)):
    temp=[]
    temp.append(((sum(np.isnan(arrays[:,i]))/arrays.shape[0])*100).round(3))
    temp.append(np.nanmin(arrays[:,i],axis=0).round(1))
    temp.append(np.nanpercentile(arrays[:,i],25,axis=0).round(3))
    temp.append(np.nanpercentile(arrays[:,i],50,axis=0).round(3))
    temp.append(np.nanpercentile(arrays[:,i],75,axis=0).round(3))
    temp.append(np.nanmax(arrays[:,i],axis=0).round(3))
    num_col_vals.append(temp)
for i in range(len(columns)):
    num_col_dict[columns[i]]=num_col_vals[i]
    num_col_dict['titles']=titles
    
numeric_info_df = pd.DataFrame(num_col_dict).set_index('titles')
numeric_info_df

Unnamed: 0_level_0,Giá/m2 (triệu),Số tầng,Số phòng ngủ,Diện tích (m2),Dài (m),Rộng (m)
titles,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
missing_ratio,0.015,55.878,0.046,0.001,75.966,57.034
min,1.0,1.0,1.0,1.0,1.0,1.0
lower_quartile,73.33,4.0,3.0,34.0,8.0,4.0
median,90.0,5.0,4.0,40.0,10.0,4.0
upper_quartile,111.11,5.0,4.0,50.0,12.0,5.0
max,728000000.0,73.0,11.0,111411.0,900000.0,423432.0


### 9. Xem xét sự phân bố giá trị của các cột dữ liệu không phải dạng số

👉 Việc thực hiện thống kê sẽ không bao gồm cột 'Địa chỉ' và 'Huyện' do đã có cột 'Quận' làm đại diện tổng quát.

👉 Thực hiện thống kê và lưu vào một dataframe với các dòng có giá trị mang ý nghĩa như sau:

- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu (missing_ratio).
- Số lượng các giá trị khác nhau (không xét giá trị thiếu) (num_values).
- Tỉ lệ % (từ 0 đến 100) của mỗi giá trị được sort theo tỉ lệ % giảm dần (không xét giá trị thiếu, tỉ lệ là tỉ lệ so với số lượng các giá trị không thiếu): dùng dictionary để lưu, key là giá trị, value là tỉ lệ % (value_ratios).

In [235]:
pd.set_option('display.max_colwidth', -1)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

categorical_df = df[['Quận', 'Loại hình nhà ở', 'Giấy tờ pháp lý']]
col_names = list(categorical_df.columns)
titles = ["missing_ratio", "num_values", "value_ratios"]
values_list = []
dic = {}
for i in col_names:
    df_temp = categorical_df.copy()[[i]]
    size = len(df_temp)
    new = list(df_temp[i].values)
    df_temp[i] = new
    temp = []
    temp.append(((df_temp[i].isnull().sum()/size)*100).round(3))
    df_temp.dropna(inplace=True)
    vals = list(df_temp[i].values)
    num_vals = list(set(vals))
    temp.append(len(num_vals))
    temp2 = {}
    new = [(df_temp[i].value_counts()[j]/len(vals)*100).round(3) for j in num_vals]
    temp2 = {num_vals[j]:new[j] for j in range(len(num_vals))}
    temp2_sort = {k:v for k,v in sorted(temp2.items(), key= lambda item:item[1], reverse=True)}
    temp.append(temp2_sort)
    values_list.append(temp)
dic = {col_names[i]:values_list[i] for i in range(len(col_names))}
dic['titles'] = titles
categorical_info_df = pd.DataFrame(dic).set_index('titles')
categorical_info_df

Unnamed: 0_level_0,Quận,Loại hình nhà ở,Giấy tờ pháp lý
titles,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
missing_ratio,0.001,0.038,35.015
num_values,29,4,3
value_ratios,"{'Quận Đống Đa': 16.96, 'Quận Thanh Xuân': 15.709, 'Quận Hoàng Mai': 13.534, 'Quận Hai Bà Trưng': 12.823, 'Quận Hà Đông': 9.495, 'Quận Cầu Giấy': 8.009, 'Quận Ba Đình': 5.688, 'Quận Long Biên': 5.112, 'Quận Nam Từ Liêm': 3.864, 'Quận Tây Hồ': 3.576, 'Quận Bắc Từ Liêm': 1.862, 'Huyện Thanh Trì': 1.456, 'Quận Hoàn Kiếm': 0.64, 'Huyện Hoài Đức': 0.55, 'Huyện Gia Lâm': 0.329, 'Huyện Đông Anh': 0.118, 'Huyện Thanh Oai': 0.062, 'Huyện Sóc Sơn': 0.048, 'Huyện Quốc Oai': 0.029, 'Huyện Đan Phượng': 0.028, 'Huyện Chương Mỹ': 0.024, 'Thị xã Sơn Tây': 0.023, 'Huyện Thường Tín': 0.019, 'Huyện Thạch Thất': 0.017, 'Huyện Mê Linh': 0.013, 'Huyện Ba Vì': 0.007, 'Huyện Phúc Thọ': 0.002, 'Huyện Phú Xuyên': 0.001, 'Huyện Mỹ Đức': 0.001}","{'Nhà ngõ, hẻm': 75.835, 'Nhà mặt phố, mặt tiền': 20.73, 'Nhà phố liền kề': 2.281, 'Nhà biệt thự': 1.154}","{'Đã có sổ': 98.702, 'Đang chờ sổ': 0.664, 'Giấy tờ khác': 0.634}"


## III. Lưu dữ liệu sau tiền xử lý

In [236]:
from pathlib import Path
filepath = Path('house.csv')  
filepath.parent.mkdir(parents=True, exist_ok=True)  
df.to_csv(filepath, encoding='utf-8-sig')