In [None]:
import pandas as pd
import numpy as np
import re
import matplotlib.pyplot as plt
import seaborn as sns

# Chia Vị trí

In [1]:


# Load the Excel file
file_path = 'final_data 16.25.22.xlsx'
xls = pd.ExcelFile(file_path)

# Load the data from the 'chung_cu' sheet
df = pd.read_excel(file_path, sheet_name='chung_cu')

# Clean the data by converting all non-string values in the 'Vị trí' column to strings
df['Vị trí'] = df['Vị trí'].astype(str)

# Define a function to classify the locations into 'Hà Nội', 'Hồ Chí Minh', 'Other', and 'Unknown'
def classify_location(location):
    if pd.isna(location) or location.lower() == 'nan':
        return 'Unknown'
    elif 'Hà Nội' in location or 'Hà Nội' in location:
        return 'Hà Nội'
    elif 'Hồ Chí Minh' in location:
        return 'Hồ Chí Minh'
    else:
        return 'Other'

# Apply the classification function to the 'Vị trí' column
df['Classification'] = df['Vị trí'].apply(classify_location)

# Save the updated DataFrame to a new Excel file
output_file_path = 'updated_chung_cu_data.xlsx'
df.to_excel(output_file_path, index=False)

print(f"Updated file saved to {output_file_path}")


Updated file saved to updated_chung_cu_data.xlsx


In [2]:
# Đếm số lượng các giá trị trong cột 'Miền'
region_counts = df['Classification'].value_counts()

# Chuyển đổi kết quả đếm thành dataframe để dễ dàng xuất ra file Excel
region_counts_df = region_counts.reset_index()
region_counts_df.columns = ['Classification', 'Count']
region_counts_df


Unnamed: 0,Classification,Count
0,Hà Nội,1870
1,Other,1040
2,Hồ Chí Minh,1019
3,Unknown,252


# Sửa Giá

In [None]:
df = pd.read_excel('final_data_data_2_cuoi_cung_roi.xlsx')
df.head()

In [None]:
def  exchageData(giaca,dientich):
    if pd.isna(giaca):
        return giaca  # Giữ nguyên nếu giá trị là NaN
    if(giaca <1):
        if(dientich >= 60):
            return 10*giaca
        elif(giaca<0.8):
            return 10*giaca
        else:
            return giaca
    else:
        return giaca

In [None]:
df['Giá cả'] = df.apply(lambda row: exchageData(row['Giá cả'], row['Diện tích']), axis=1)

In [None]:
df['Giá cả']

In [None]:
df[df["Giá cả"]<1]["Diện tích"].hist() 

In [None]:
output_file = 'data_sua_gia_18_6_2024.xlsx'
df.to_excel(output_file, index=False)

# Sửa diện tích

In [None]:
df  = pd.read_excel('final_data.xlsx')
df.head(30)

In [None]:
# ham trich du tri so bo don vi
def extract_number(text):
    # Sử dụng biểu thức chính quy để tìm các số có thể có phần thập phân
    text = str(text)
    match = re.search(r'\d+(\.\d+)?', text)
    if match:
        return match.group(0)
    return None

- Bỏ tỷ sau giá cả

In [None]:
for i, element in enumerate(df["Giá cả"]):
    extracted_number = extract_number(element)
    if extracted_number is None:
        df.loc[i, "Giá cả"] = np.nan
    else:
        df.loc[i, "Giá cả"] = extracted_number

- Bỏ m2 trong diện tích 

In [None]:
for i, element in enumerate(df["Giá cả"]):
    extracted_number = extract_number(element)
    if extracted_number is None:
        df.loc[i, "Giá cả"] = np.nan
    else:
        df.loc[i, "Giá cả"] = extracted_number

- Chuyển đổi giá cả thành numeric

In [None]:
df["Giá cả"] = pd.to_numeric(df["Giá cả"], errors='coerce')

- Chuyển đổi số giá trị nhập sai thành đơn vị chuẩn tuân theo quy tắc 9000 thì chia cho 1000

In [None]:
def standardize_units(value):
    if pd.isna(value):
        return value  # Giữ nguyên nếu giá trị là NaN
    str_value = str(value)
    num_digits = len(str_value.replace('.', ''))  # Số chữ số trong giá trị
    if num_digits > 2 and value >= 10:
        return value / (10 ** (num_digits - 1))  # Chia giá trị cho 10^(số chữ số - 1)
    return value  # Giữ nguyên


In [None]:
df["Giá cả"] = df["Giá cả"].apply(standardize_units)

In [None]:
output_file = 'data_data_2.xlsx'
df.to_excel(output_file, index=False)

# Phòng ngủ, Phòng vệ sinh

In [None]:

import pandas as pd

# Đường dẫn đến tệp Excel
file_path = 'data_cleaned_vitri.xlsx'

# Đọc tệp Excel
data = pd.read_excel(file_path)

# Hàm để làm sạch dữ liệu và chỉ giữ lại số trong cột
def extract_number(text):
    try:
        # Nếu là số nguyên, trả về giá trị trực tiếp
        if isinstance(text, int):
            return text
        # Nếu là chuỗi, lọc và lấy số
        elif isinstance(text, str):
            numbers = ''.join(filter(str.isdigit, text))
            return int(numbers) if numbers else None
        # Nếu không là số hay chuỗi, trả về None
        else:
            return None
    except Exception as e:
        print(f"Error processing {text}: {e}")
        return None

# Áp dụng hàm để làm sạch dữ liệu
data['Số phòng ngủ'] = data['Số phòng ngủ'].apply(extract_number)
data['Số nhà vệ sinh'] = data['Số nhà vệ sinh'].apply(extract_number)

# Lọc dữ liệu để chỉ bao gồm cột 'Số phòng ngủ' và 'Số nhà vệ sinh'
filtered_data = data[['Số phòng ngủ', 'Số nhà vệ sinh']]

# Hiển thị dữ liệu đã làm sạch
print(filtered_data)

# Export the cleaned data to a new Excel file
output_file_path = 'filtered_data.xlsx'
filtered_data.to_excel(output_file_path, index=False)

output_file_path