In [191]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn
import re

In [192]:
data = pd.read_csv('raw_data.csv')
df = data.copy()

In [193]:
df.head()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
0,"Đường Hà Mục, Phường Hòa Thọ Đông, Quận Cẩm L...","5,15 tỷ",100 m2,Tây Nam,Nhà mặt tiền,---,5m,20m,4
1,"Đường Thi Sách, Phường Hòa Thuận Tây, Quận Hả...","4,1 tỷ",85 m2,_,Nhà mặt tiền,---,---,---,1
2,"Đường Ông Ích Khiêm, Phường Tam Thuận, Quận T...",11 tỷ,67 m2,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"3,8m",---,3
3,"Đường Núi Thành, Phường Hòa Cường Bắc, Quận H...","17,5 tỷ",137 m2,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"7,3m",---,3
4,"Đường Trương Văn Hiến, Phường Khuê Mỹ, Quận N...",7 tỷ,90 m2,Đông Nam,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,5m,18m,4


In [194]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14941 entries, 0 to 14940
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Address      14941 non-null  object
 1   Prices       14941 non-null  object
 2   Area         14941 non-null  object
 3   toFace       14941 non-null  object
 4   type         14941 non-null  object
 5   certificate  14941 non-null  object
 6   width        14941 non-null  object
 7   length       14941 non-null  object
 8   floors       14941 non-null  object
dtypes: object(9)
memory usage: 1.0+ MB


## Clean Data

### Prices

- Loại bỏ chữ tỷ trong cột prices
- Thay thế dấu ',' trong cột Prices thành dấu '.'
- Những cột nào định dạng sai không phải là số thì chuyển thành NaN

In [195]:
df['Prices'] = df['Prices'].apply(lambda x: x.strip(' tỷ ').replace(' ', ''))
df['Prices'] = df['Prices'].apply(lambda x: x.replace(',', '.'))
df.loc[:,'Prices'] = pd.to_numeric(df['Prices'], errors='coerce')

In [196]:
df.head()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
0,"Đường Hà Mục, Phường Hòa Thọ Đông, Quận Cẩm L...",5.15,100 m2,Tây Nam,Nhà mặt tiền,---,5m,20m,4
1,"Đường Thi Sách, Phường Hòa Thuận Tây, Quận Hả...",4.1,85 m2,_,Nhà mặt tiền,---,---,---,1
2,"Đường Ông Ích Khiêm, Phường Tam Thuận, Quận T...",11.0,67 m2,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"3,8m",---,3
3,"Đường Núi Thành, Phường Hòa Cường Bắc, Quận H...",17.5,137 m2,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"7,3m",---,3
4,"Đường Trương Văn Hiến, Phường Khuê Mỹ, Quận N...",7.0,90 m2,Đông Nam,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,5m,18m,4


### Area

- Xóa 'm2'
- Những biến Area nào không phải định dạng là số thì chuyển vè NaN

In [197]:
df['Area'] = df['Area'].apply(lambda x: x.strip(' m2 ').replace(' ', '').replace('KXĐ',''))
df.loc[:,'Area'] = pd.to_numeric(df['Area'], errors='coerce')

In [198]:
df.head()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
0,"Đường Hà Mục, Phường Hòa Thọ Đông, Quận Cẩm L...",5.15,100.0,Tây Nam,Nhà mặt tiền,---,5m,20m,4
1,"Đường Thi Sách, Phường Hòa Thuận Tây, Quận Hả...",4.1,85.0,_,Nhà mặt tiền,---,---,---,1
2,"Đường Ông Ích Khiêm, Phường Tam Thuận, Quận T...",11.0,67.0,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"3,8m",---,3
3,"Đường Núi Thành, Phường Hòa Cường Bắc, Quận H...",17.5,137.0,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"7,3m",---,3
4,"Đường Trương Văn Hiến, Phường Khuê Mỹ, Quận N...",7.0,90.0,Đông Nam,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,5m,18m,4


### toFace

In [199]:
df['toFace'].unique()

array(['Tây Nam', '_', 'Tây', 'Đông Nam', 'Đông', 'Tây Bắc', 'Bắc',
       'Đông Bắc', 'Nam'], dtype=object)

- Chuyển '_' về là 'Không'

In [200]:
df['toFace']=df['toFace'].apply(lambda x : x.replace('_', 'Không'))

In [201]:
df.head()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
0,"Đường Hà Mục, Phường Hòa Thọ Đông, Quận Cẩm L...",5.15,100.0,Tây Nam,Nhà mặt tiền,---,5m,20m,4
1,"Đường Thi Sách, Phường Hòa Thuận Tây, Quận Hả...",4.1,85.0,Không,Nhà mặt tiền,---,---,---,1
2,"Đường Ông Ích Khiêm, Phường Tam Thuận, Quận T...",11.0,67.0,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"3,8m",---,3
3,"Đường Núi Thành, Phường Hòa Cường Bắc, Quận H...",17.5,137.0,Tây,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,"7,3m",---,3
4,"Đường Trương Văn Hiến, Phường Khuê Mỹ, Quận N...",7.0,90.0,Đông Nam,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,5m,18m,4


### Type

In [202]:
df['type'].unique()

array(['Nhà mặt tiền', 'Nhà trong hẻm'], dtype=object)

### Certificate

Các giá trị của biến Certificate

In [203]:
df['certificate'].unique()

array(['---', 'Sổ hồng/ Sổ đỏ', 'Giấy tờ hợp lệ'], dtype=object)

Thay đổi giá trị '---' thành 'Không có'

Thay đổi giá trị 'Giấy tờ hợp lệ' thành 'Sổ hồng/ Sổ đỏ'

In [204]:
df["certificate"] = df["certificate"].apply(lambda x: 'Không có' if x == "---" else 'Giấy tờ hợp lệ')

In [205]:
df.head()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
0,"Đường Hà Mục, Phường Hòa Thọ Đông, Quận Cẩm L...",5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5m,20m,4
1,"Đường Thi Sách, Phường Hòa Thuận Tây, Quận Hả...",4.1,85.0,Không,Nhà mặt tiền,Không có,---,---,1
2,"Đường Ông Ích Khiêm, Phường Tam Thuận, Quận T...",11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,"3,8m",---,3
3,"Đường Núi Thành, Phường Hòa Cường Bắc, Quận H...",17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,"7,3m",---,3
4,"Đường Trương Văn Hiến, Phường Khuê Mỹ, Quận N...",7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5m,18m,4


### Width and Length

Loại bỏ các từ thừa

In [206]:
df['width'] = df['width'].apply(lambda x: x.strip(' m ').replace(' ', '').replace(',','.'))
df['width'] = df['width'].astype(str).apply(lambda x: re.sub(r'^\.', '', x)).apply(lambda x: re.sub(r'\D+', '.', x)).apply(lambda x: re.sub(r'\.$', '', x))

In [207]:
df['length'] = df['length'].apply(lambda x: x.strip(' m ').replace(' ', '').replace(',','.'))
df['length'] = df['length'].astype(str).apply(lambda x: re.sub(r'\.$', '', x)).apply(lambda x: re.sub(r'\.{2,}', '.', x))

Những giá trị không phải là số thì Chuyển thành NaN

In [208]:
df.loc[:,'width'] = pd.to_numeric(df['width'], errors='coerce')
df.loc[:,'length'] = pd.to_numeric(df['length'], errors='coerce')

In [209]:
df.head()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
0,"Đường Hà Mục, Phường Hòa Thọ Đông, Quận Cẩm L...",5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5.0,20,4
1,"Đường Thi Sách, Phường Hòa Thuận Tây, Quận Hả...",4.1,85.0,Không,Nhà mặt tiền,Không có,,---,1
2,"Đường Ông Ích Khiêm, Phường Tam Thuận, Quận T...",11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,3.8,---,3
3,"Đường Núi Thành, Phường Hòa Cường Bắc, Quận H...",17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,7.3,---,3
4,"Đường Trương Văn Hiến, Phường Khuê Mỹ, Quận N...",7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5.0,18,4


### Floors

Các giá trị của biến floors

In [210]:
df['floors'].unique()

array(['4', '1', '3', '2', '6', '---', '5', '8', '7', '10', '33', '9',
       '14', '11', '19', '34', '18', '123', '23', '15', '35', '25', '12',
       '17', '20', '28'], dtype=object)

Chuyển những giá trị '---' thành NaN

In [211]:
df.loc[:,'floors'] = pd.to_numeric(df['floors'], errors='coerce')

### Định dạng lại dữ liệu

In [212]:
df.head()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
0,"Đường Hà Mục, Phường Hòa Thọ Đông, Quận Cẩm L...",5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5.0,20,4.0
1,"Đường Thi Sách, Phường Hòa Thuận Tây, Quận Hả...",4.1,85.0,Không,Nhà mặt tiền,Không có,,---,1.0
2,"Đường Ông Ích Khiêm, Phường Tam Thuận, Quận T...",11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,3.8,---,3.0
3,"Đường Núi Thành, Phường Hòa Cường Bắc, Quận H...",17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,7.3,---,3.0
4,"Đường Trương Văn Hiến, Phường Khuê Mỹ, Quận N...",7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5.0,18,4.0


In [213]:
def convert(df, features,t):
    for feature in features:
        df[feature] = df[feature].astype(t)
features_int = ["floors"]
features_cat = ["type","certificate","toFace"]
features_float =["Prices","Area","width","length"]
convert(df,features_int,"Int64")
convert(df,features_cat,"category")
convert(df,features_float,"float64")

ValueError: could not convert string to float: ''

Trước khi định dạng

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14941 entries, 0 to 14940
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   Address      14941 non-null  object
 1   Prices       14941 non-null  object
 2   Area         14941 non-null  object
 3   toFace       14941 non-null  object
 4   type         14941 non-null  object
 5   certificate  14941 non-null  object
 6   width        14941 non-null  object
 7   length       14941 non-null  object
 8   floors       14941 non-null  object
dtypes: object(9)
memory usage: 1.0+ MB


In [None]:
data.describe()

Unnamed: 0,Address,Prices,Area,toFace,type,certificate,width,length,floors
count,14941,14941,14941,14941,14941,14941,14941,14941,14941
unique,3037,834,392,9,2,3,321,377,26
top,"Đường Tiểu La, Phường Hòa Cường Bắc, Quận Hải...","4,5 tỷ",100 m2,_,Nhà mặt tiền,Sổ hồng/ Sổ đỏ,5m,---,3
freq,150,257,1666,9169,10412,11358,5613,4091,5684


Sau khi định dạng 

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14941 entries, 0 to 14940
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   Address      14941 non-null  object  
 1   Prices       14875 non-null  float64 
 2   Area         14932 non-null  float64 
 3   toFace       14941 non-null  category
 4   type         14941 non-null  category
 5   certificate  14941 non-null  category
 6   width        12873 non-null  float64 
 7   length       10847 non-null  float64 
 8   floors       14586 non-null  Int64   
dtypes: Int64(1), category(3), float64(4), object(1)
memory usage: 759.5+ KB


In [None]:
df.describe()

Unnamed: 0,Prices,Area,width,length,floors
count,14875.0,14932.0,12873.0,10847.0,14586.0
mean,8.378236,86.394906,5.704583,18.159549,2.744344
std,11.268677,64.195018,5.118474,27.303068,1.995086
min,1.0,0.0,0.0,0.0,1.0
25%,3.6,60.0,4.5,14.0,2.0
50%,5.25,80.0,5.0,17.5,3.0
75%,8.8,100.0,5.5,20.0,3.0
max,315.0,950.0,420.0,2020.0,123.0


## Create new Feature

Tách trường Address thành:
- Street (Đường)
- Ward (Phường-Xã)
- District (Quận - Huyện)
- City (Thành Phố)

In [None]:
df[['Street','Ward','District','City','','','']] = df['Address'].str.split(', ', expand=True)

Loại bỏ các trường "City", "Address" và sắp xếp lại thứ tự các trường

In [None]:
df = df.drop(['City', 'Address', ''], axis=1)
df = df[['Street','Ward','District', 'Prices', 'Area', 'toFace', 'type', 'certificate', 'width', 'length', 'floors']]
df.head()

Unnamed: 0,Street,Ward,District,Prices,Area,toFace,type,certificate,width,length,floors
0,Đường Hà Mục,Phường Hòa Thọ Đông,Quận Cẩm Lệ,5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5.0,20.0,4
1,Đường Thi Sách,Phường Hòa Thuận Tây,Quận Hải Châu,4.1,85.0,Không,Nhà mặt tiền,Không có,,,1
2,Đường Ông Ích Khiêm,Phường Tam Thuận,Quận Thanh Khê,11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,3.8,,3
3,Đường Núi Thành,Phường Hòa Cường Bắc,Quận Hải Châu,17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,7.3,,3
4,Đường Trương Văn Hiến,Phường Khuê Mỹ,Quận Ngũ Hành Sơn,7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5.0,18.0,4


Chỉnh lại định dạng trường width:
- Có dấu chấm đầu tiên hoặc dấu chấm cuối thì loại bỏ dấu chấm đó(vd; .3.4 -> 3.4, 3.4. -> 3.4),
- Loại bỏ ký tự chữ nằm ở giữa 2 số (vd : 3m5 -> 3.5)

In [None]:
data['width'].unique()

array(['5m', '---', '3,8m', '7,3m', '7m', '5,2m', '6m', '20m', '7,1m',
       '8,9m', '10m', '3,5m', '17m', '4m', '4,3m', '9m', '6,5m', '4,5m',
       '4,4m', '8m', '4,7m', '6,2m', '15m', '3m', '21m', '4,87m', '11m',
       '3,65m', '13m', '9,8m', '5,3m', '9,5m', '12m', '9,4m', '5,5m',
       '3,99m', '5,9m', '4,37m', '7,79m', '4,2m', '30,4m', '6,6m', '3,7m',
       '8,6m', '4,6m', '8,5m', '7,5m', '52m', '5,4m', '7,9m', '7,6m',
       '6,3m', '12,5m', '6,25m', '3,6m', '50m', '4,1m', '5,37m', '5,8m',
       '3,2m', '7,4m', '5,1m', '4,25m', '4,10m', '5,75m', '5,83m', '9,7m',
       '6,15m', '9,6m', '5,6m', '11,8m', '4,75m', '5,13m', '4,9m', '7,8m',
       '10,5m', '8,3m', '4,65m', '4,41m', '5,7m', '8,1m', '5,22m', '6,7m',
       '4,12m', '18,5m', '18m', '13,5m', '14m', '11,07m', '11,2m', '7,7m',
       '12,75m', '4,26m', '5,86m', '5,93m', '5,38m', '11,6m', '5,68m',
       '4,15m', '5,45m', '8,8m', '14,3m', '7,2m', '8,4m', '4,06m', '3,3m',
       '6,1m', '6,8m', '4,77m', '5,08m', '6,35m',

Chuyển trường floors sang kiểu int

Xóa Những hàng có Area = Width = Length = 0

In [None]:
# zero_area_cols=df[(df.Area==0)].index
# df = df.drop(zero_area_cols)

Những hàng có Area !=0 và Width = Length = 0 

In [None]:
# df.loc[(df.width==0) & (df.length==0),['width','length']] = (df['Area'])/2
# df.head()

Unnamed: 0,Street,Ward,District,Prices,Area,toFace,type,certificate,width,length,floors
0,Đường Hà Mục,Phường Hòa Thọ Đông,Quận Cẩm Lệ,5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5.0,20.0,4
1,Đường Thi Sách,Phường Hòa Thuận Tây,Quận Hải Châu,4.1,85.0,Không,Nhà mặt tiền,Không có,42.5,42.5,1
2,Đường Ông Ích Khiêm,Phường Tam Thuận,Quận Thanh Khê,11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,3.8,0.0,3
3,Đường Núi Thành,Phường Hòa Cường Bắc,Quận Hải Châu,17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,7.3,0.0,3
4,Đường Trương Văn Hiến,Phường Khuê Mỹ,Quận Ngũ Hành Sơn,7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5.0,18.0,4


In [None]:
# df.loc[(df.width==0) & (df.length!=0),['width']] = (df['Area'])/(df['length'])
# df.head()

Unnamed: 0,Street,Ward,District,Prices,Area,toFace,type,certificate,width,length,floors
0,Đường Hà Mục,Phường Hòa Thọ Đông,Quận Cẩm Lệ,5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5.0,20.0,4
1,Đường Thi Sách,Phường Hòa Thuận Tây,Quận Hải Châu,4.1,85.0,Không,Nhà mặt tiền,Không có,42.5,42.5,1
2,Đường Ông Ích Khiêm,Phường Tam Thuận,Quận Thanh Khê,11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,3.8,0.0,3
3,Đường Núi Thành,Phường Hòa Cường Bắc,Quận Hải Châu,17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,7.3,0.0,3
4,Đường Trương Văn Hiến,Phường Khuê Mỹ,Quận Ngũ Hành Sơn,7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5.0,18.0,4


In [None]:
# df.loc[(df.width!=0) & (df.length==0),['length']] = (df['Area'])/(df['width'])
# df.head()

Unnamed: 0,Street,Ward,District,Prices,Area,toFace,type,certificate,width,length,floors
0,Đường Hà Mục,Phường Hòa Thọ Đông,Quận Cẩm Lệ,5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5.0,20.0,4
1,Đường Thi Sách,Phường Hòa Thuận Tây,Quận Hải Châu,4.1,85.0,Không,Nhà mặt tiền,Không có,42.5,42.5,1
2,Đường Ông Ích Khiêm,Phường Tam Thuận,Quận Thanh Khê,11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,3.8,17.631579,3
3,Đường Núi Thành,Phường Hòa Cường Bắc,Quận Hải Châu,17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,7.3,18.767123,3
4,Đường Trương Văn Hiến,Phường Khuê Mỹ,Quận Ngũ Hành Sơn,7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5.0,18.0,4


In [None]:
# mean_floors = int(df['floors'].mean())
# df.loc[(df.floors==0),'floors'] = mean_floors
# df

Unnamed: 0,Street,Ward,District,Prices,Area,toFace,type,certificate,width,length,floors
0,Đường Hà Mục,Phường Hòa Thọ Đông,Quận Cẩm Lệ,5.15,100.0,Tây Nam,Nhà mặt tiền,Không có,5.0,20.000000,4
1,Đường Thi Sách,Phường Hòa Thuận Tây,Quận Hải Châu,4.1,85.0,Không,Nhà mặt tiền,Không có,42.5,42.500000,1
2,Đường Ông Ích Khiêm,Phường Tam Thuận,Quận Thanh Khê,11.0,67.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,3.8,17.631579,3
3,Đường Núi Thành,Phường Hòa Cường Bắc,Quận Hải Châu,17.5,137.0,Tây,Nhà mặt tiền,Giấy tờ hợp lệ,7.3,18.767123,3
4,Đường Trương Văn Hiến,Phường Khuê Mỹ,Quận Ngũ Hành Sơn,7.0,90.0,Đông Nam,Nhà mặt tiền,Giấy tờ hợp lệ,5.0,18.000000,4
...,...,...,...,...,...,...,...,...,...,...,...
14936,Đường Nguyễn Thị Định,Phường An Hải Bắc,Quận Sơn Trà,9.5,90.0,Không,Nhà mặt tiền,Không có,45.0,45.000000,3
14937,300/22 Đường Hải Phòng,Phường Hải Châu I,Quận Hải Châu,2.85,50.0,Tây Nam,Nhà trong hẻm,Giấy tờ hợp lệ,5.0,10.000000,2
14938,Đường Ông Ích Khiêm,Phường Thanh Bình,Quận Hải Châu,4.35,57.0,Đông Bắc,Nhà trong hẻm,Không có,5.0,12.000000,3
14939,K814A/52 Đường Trần Cao Vân,Phường Thanh Khê Đông,Quận Thanh Khê,3.35,5.0,Tây,Nhà trong hẻm,Giấy tờ hợp lệ,4.5,12.500000,2


In [None]:
# df['District']= df['District'].str.lower()
# District = ['quận cẩm lệ', 'quận hải châu', 'quận thanh khê',
#        'quận ngũ hành sơn', 'quận sơn trà', 'quận liên chiểu','huyện hòa vang']
# df = df.loc[df['District'].isin(District)]
# df.loc[:,'District'] = df['District'].str.replace("quận ","")

In [None]:
# df.loc[:,'Ward'] = df['Ward'].str.replace("Phường ","")
# df.loc[:,'Street'] = df['Street'].str.replace("Đường ","")

In [None]:
# df.loc[:,'Prices'] = pd.to_numeric(df['Prices'], errors='coerce')
# mean_Prices = df['Prices'].mean()
# df.loc[(df.Prices.isnull()),'Prices']=mean_Prices
# df['Prices']=df['Prices'].astype(float)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Prices']=df['Prices'].astype(float)


In [None]:
# df.to_csv('clean_data.csv',index=False)

In [None]:
# df['Prices'].unique()

array([  5.15      ,   4.1       ,  11.        ,  17.5       ,
         7.        ,  26.        ,   5.4       ,  13.5       ,
        14.4       ,  15.75      ,  11.5       ,   7.7       ,
        10.5       ,  12.5       ,   6.1       ,   2.42      ,
        14.        ,  12.        ,   8.5       ,   3.35      ,
        25.        ,   2.3       ,   3.7       ,  14.5       ,
         3.2       ,   6.7       ,   6.35      ,   4.5       ,
         3.05      ,   2.5       ,   6.3       ,   5.1       ,
         2.35      ,   4.8       ,   3.9       ,   2.4       ,
         3.1       ,   6.9       ,  12.9       ,   9.5       ,
        18.        ,  24.9       ,   7.5       ,  17.9       ,
         5.5       ,   4.6       ,   3.75      ,   5.9       ,
        16.8       ,  15.        ,   5.2       ,   7.2       ,
         9.        ,  28.5       ,   1.5       ,   3.3       ,
         2.75      ,   5.3       ,   4.29      ,   1.95      ,
         3.15      ,  15.799     ,   6.2       ,   5.7 