## Table of content

1. [Assessment](#assessment) -> [Report summary](#assessment-report)
1. [Cleaning](#cleaning)

In [40]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt

from googletrans import Translator, constants # https://www.thepythoncode.com/article/translate-text-in-python
from slugify import slugify
import os

import sys

sys.path.append("../functions")
from address_extractor import get_detailed_address

%matplotlib inline

In [41]:
get_detailed_address("Dhaka, Dhaka, Rampura")

{'City': 'Dhaka', 'Area': 'Rampura', 'Address': ''}

In [2]:
# init the Google API translator
translator = Translator()

# translate a spanish text to english text (by default)
translation = translator.translate("Hola Mundo")
print(f"{translation.origin} ({translation.src}) --> {translation.text} ({translation.dest})")

Hola Mundo (es) --> Hello World (en)


In [3]:
translation2 = translator.translate("ফ্ল্যাটে উঠেও কিস্তি চালাতে পারবেন")
print(f"{translation2.origin} ({translation2.src}) --> {translation2.text} ({translation2.dest})")

ফ্ল্যাটে উঠেও কিস্তি চালাতে পারবেন (bn) --> You can pay installments even in the flat (en)


In [4]:
"""
Text translation: 
    - https://www.thepythoncode.com/article/translate-text-in-python
    - https://huggingface.co/course/chapter1/3?fw=pt
"""

'\nText translation: \n    - https://www.thepythoncode.com/article/translate-text-in-python\n    - https://huggingface.co/course/chapter1/3?fw=pt\n'

In [5]:
# CSV folders

raw_data_folder="../../../data/Raw_Data"
cleaned_data_folder="../../../data/CLeaned_Data"

bikrisohoj_folder= f"{raw_data_folder}/bikrisohoj_spider"
cleaned_bikrisohoj_folder= f"{cleaned_data_folder}/bikrisohoj"

<span id="bproperty-assessment"> </span>

## Assessing `bikrisohoj`

In [6]:
df=pd.read_csv(f"{bikrisohoj_folder}/mohammedadnan_bikrisohoj.csv")
df.head()

Unnamed: 0,Name,Location,Description,Ad posted time,Price,AD URL
0,ফ্ল্যাটে উঠেও কিস্তি চালাতে পারবেন,"Dhaka, Dhaka, Keraniganj",\n ...,26 Mar 2023 02:13 am,3150,https://www.bikrisohoj.com/details/%e0%a6%ab%e...
1,প্লটন থেকে ৪ কি.মি দূরত্বে কিস্তি প্রায় রেডি ফ...,"Dhaka, Dhaka, Keraniganj",\n ...,26 Mar 2023 02:21 am,3850,https://www.bikrisohoj.com/details/%e0%a6%aa%e...
2,Apartment for rent,"Dhaka, Dhaka, Uttara",\n ...,22 Mar 2023 10:42 pm,50000,https://www.bikrisohoj.com/details/apartment-f...
3,"A modern well decorated flat at Banasree,Rampu...","Dhaka, Dhaka, Rampura",\n ...,26 Mar 2023 02:21 am,12000000,https://www.bikrisohoj.com/details/a-modern-we...
4,ইন্ডাস্ট্রিয়াল সেড / INDUSTRIAL SHED FOR RENT,"Dhaka, Narayanganj",\n ...,26 Mar 2023 02:16 am,150000,https://www.bikrisohoj.com/details/%e0%a6%87%e...


`Name` has some samples not en English. Those samples should be translated to English. (quality issue)

In [7]:
df.shape

(940, 6)

In [8]:
df.loc[0]

Name                             ফ্ল্যাটে উঠেও কিস্তি চালাতে পারবেন
Location                                   Dhaka, Dhaka, Keraniganj
Description       \n                                            ...
Ad posted time                                26 Mar 2023 02:13 am 
Price                                                         3,150
AD URL            https://www.bikrisohoj.com/details/%e0%a6%ab%e...
Name: 0, dtype: object

In [9]:
df.loc[0,"Description"]

'\n                                            ## মতিঝিল থেকে মাত্র ৭ কিলোমিটার\n\n• সামনে প্রশস্ত রাস্তা\n\n## ১০০০, ১১৫০, ১২৫০ ও ১৪৫০ বর্গফুটের রেডি ফ্ল্যাট\n\n* ৩টি/৪টি বেড, ৩টি বাথ, ডাইনিং, ড্রইং ও বারান্দা সহ রেডি ফ্ল্যাট\n\n** প্রতি বর্গফুটের মূল্য মাত্র ৩১৫০/- টাকা ।\n\n## আপনি মাত্র ডাউন পেমেন্ট দিয়েই ফ্ল্যাটে উঠে যেতে পারবেন ।\n\nবাকি টাকা ২ বছরের কিস্তিতে পরিশোধ করার সুযোগ পাবেন (দীর্ঘমেয়াদী কিস্তির সুযোগ ও রয়েছে)। ফ্ল্যাট কেনার ইচ্ছা থাকলে সুযোগটি আপনিও নিতে পারেন ।\n\n## ফ্ল্যাটে ও ফ্ল্যাটের আশে পাশে নাগরিক সকল সুবিধা বিদ্যমান । তাই থাকার মত আবাসিক পরিবেশের জন্য আগে সরাসরি ফ্ল্যাটটি দেখুন ।\n\nতাই আর দেরি কেন বিস্তারিত তথ্যের জন্য আজই যোগাযোগ করুন >>>\nমোবাইল – 01855-646432\n– 01710-690820\n\nOnline Contact ( imo, WhatsApp, Viver ) – 01855-646432\nঅথবা\nআপনার মোবাইল নাম্বার দিয়ে ইনবক্স করুন, ধন্যবাদ ।\n\n### বি: দ্র: এছাড়াও আমাদের ছোট থেকে শুরু করে বিভিন্ন সাইজের রেডি ফ্ল্যাট আছে এবং বিভিন্ন সাইজের রেডি প্লট এককালিন ও সওজ কিস্তিতে বিক্রয় করি।                               

`Description` has samples that are not en English. Those samples should be translated to English. (quality issue)

In [10]:
slugify(df.loc[0,"Description"])

'mtijhil-theke-maatr-7-kilomittaar-saamne-prshst-raastaa-1000-1150-1250-o-1450-brgphutter-reddi-phlyaatt-3tti-4tti-bedd-3tti-baath-ddaainin-ddrin-o-baaraandaa-sh-reddi-phlyaatt-prti-brgphutter-muuly-maatr-3150-ttaakaa-aapni-maatr-ddaaun-pementt-diyei-phlyaatte-utthe-yete-paarben-baaki-ttaakaa-2-bchrer-kistite-prishodh-kraar-suyog-paaben-diirghmeyyaadii-kistir-suyog-o-ryyeche-phlyaatt-kenaar-icchaa-thaakle-suyogtti-aapnio-nite-paaren-phlyaatte-o-phlyaatter-aashe-paashe-naagrik-skl-subidhaa-bidymaan-taai-thaakaar-mt-aabaasik-pribesher-jny-aage-sraasri-phlyaatttti-dekhun-taai-aar-deri-ken-bistaarit-tthyer-jny-aaji-yogaayog-krun-mobaail-01855-646432-01710-690820-online-contact-imo-whatsapp-viver-01855-646432-athbaa-aapnaar-mobaail-naambaar-diyye-inbks-krun-dhnybaad-bi-dr-echaarraao-aamaader-chott-theke-shuru-kre-bibhinn-saaijer-reddi-phlyaatt-aache-ebn-bibhinn-saaijer-reddi-pltt-ekkaalin-o-soj-kistite-bikryy-kri'

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 940 entries, 0 to 939
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Name            940 non-null    object
 1   Location        940 non-null    object
 2   Description     940 non-null    object
 3   Ad posted time  940 non-null    object
 4   Price           940 non-null    object
 5   AD URL          940 non-null    object
dtypes: object(6)
memory usage: 44.2+ KB


* `Ad posted time` should be of type datetime, not str. (quality issue)
* `Price` should be of type float, not str. (quality issue)
* `location` should be splitted to `city` and `address`. (tidiness issue)
* Column names should become lowercase for consistency with the other datasets cleaned. (tidiness issue)

<span id="assessment-report"> </span>

#### Assessment report summary

##### Quality issues
1. `Name` has some samples not en English. Those samples should be translated to English
1. `Description` has samples that are not en English. Those samples should be translated to English. (quality issue)
1. `Ad posted time` should be of type datetime, not str.
1. `Price` should be of type float, not str.


##### Tidiness issues
1. `location` should be splitted to `city`, `locality`, and `address`. (tidiness issue)
1. Column names should become lowercase for consistency with the other datasets cleaned. (tidiness issue)
1. Column names should be reviewed to be made consistent with the names agreed with the other contributors. (tidiness issue)
1. Further informations should be extracted from translated `Name` and `Description` columns:
    * purpose: Sale/Rent
    * nature: Residential/Commercial
    * type: apartment/shop/...

<span id="cleaning"> </span>

## Cleaning

###  `Name` has some samples not en English ( [quality issues #1 & #2](#assessment-report) )

`Name` and `Description` have some samples not en English. Those samples should be translated to English.

In [12]:
df["Name"].head()

0                   ফ্ল্যাটে উঠেও কিস্তি চালাতে পারবেন
1    প্লটন থেকে ৪ কি.মি দূরত্বে কিস্তি প্রায় রেডি ফ...
2                                   Apartment for rent
3    A modern well decorated flat at Banasree,Rampu...
4        ইন্ডাস্ট্রিয়াল সেড / INDUSTRIAL SHED FOR RENT
Name: Name, dtype: object

In [13]:
df.loc[0,"Description"]

'\n                                            ## মতিঝিল থেকে মাত্র ৭ কিলোমিটার\n\n• সামনে প্রশস্ত রাস্তা\n\n## ১০০০, ১১৫০, ১২৫০ ও ১৪৫০ বর্গফুটের রেডি ফ্ল্যাট\n\n* ৩টি/৪টি বেড, ৩টি বাথ, ডাইনিং, ড্রইং ও বারান্দা সহ রেডি ফ্ল্যাট\n\n** প্রতি বর্গফুটের মূল্য মাত্র ৩১৫০/- টাকা ।\n\n## আপনি মাত্র ডাউন পেমেন্ট দিয়েই ফ্ল্যাটে উঠে যেতে পারবেন ।\n\nবাকি টাকা ২ বছরের কিস্তিতে পরিশোধ করার সুযোগ পাবেন (দীর্ঘমেয়াদী কিস্তির সুযোগ ও রয়েছে)। ফ্ল্যাট কেনার ইচ্ছা থাকলে সুযোগটি আপনিও নিতে পারেন ।\n\n## ফ্ল্যাটে ও ফ্ল্যাটের আশে পাশে নাগরিক সকল সুবিধা বিদ্যমান । তাই থাকার মত আবাসিক পরিবেশের জন্য আগে সরাসরি ফ্ল্যাটটি দেখুন ।\n\nতাই আর দেরি কেন বিস্তারিত তথ্যের জন্য আজই যোগাযোগ করুন >>>\nমোবাইল – 01855-646432\n– 01710-690820\n\nOnline Contact ( imo, WhatsApp, Viver ) – 01855-646432\nঅথবা\nআপনার মোবাইল নাম্বার দিয়ে ইনবক্স করুন, ধন্যবাদ ।\n\n### বি: দ্র: এছাড়াও আমাদের ছোট থেকে শুরু করে বিভিন্ন সাইজের রেডি ফ্ল্যাট আছে এবং বিভিন্ন সাইজের রেডি প্লট এককালিন ও সওজ কিস্তিতে বিক্রয় করি।                               

#### Define
- Convert `Name` and `Description` to english 

#### Code

In [14]:
# # init the Google API translator
# translator = Translator()


# # translate a spanish text to english text (by default)
# translation = translator.translate("Hola Mundo")
# print(translation)
# print(f"{translation.origin} ({translation.src}) --> {translation.text} ({translation.dest})")

In [15]:
# tr = translator.translate(df["Name"].to_list()) 
# print(f"{tr.origin} ({tr.src}) --> {tr.text} ({tr.dest})")

In [16]:
# tr = translator.translate(df["Name"].to_list())
# tr[:5]

In [17]:
# i = 0
# for t in tr:
#     print(f"{t.origin} ({t.src}) --> {t.text} ({t.dest})")
    
#     i+=1
#     if i==5:
#         break

In [18]:
"""
    Loop through the samples. For each one, translate Name and Location columns to English
"""
# init the Google API translator
translator = Translator()

for index, row in df.iterrows(): # loop through each sample
    
    # The code may take time, log in the console to keep track of things
    if index==0 or index%100==0:
        print(f"Currently processing sample {index}...")
        
    # retrieve the Name and Description
    name = df.loc[index, "Name"]
    description = df.loc[index, "Description"]
    
    # translate text
    translated_name_obj = translator.translate(name.strip(), src="bn", dest="en")
    translated_desc_obj = translator.translate(description.strip(), src="bn", dest="en")
    
    translated_name = translated_name_obj.text
    translated_desc = translated_desc_obj.text
#     translated_name = None
#     translated_desc = None
    
#     if translated_name_obj.dest == "en": # text succesfully translated to english
#         translated_name = translated_name_obj.text
#     else:
#         translated_name = "failed"
        
#     if translated_desc_obj.dest == "en" :  # text succesfully translated to english
#         translated_desc = translated_desc_obj.text
#     else:
#         translated_desc = "failed"
    
    # updating the relevant columns of the sample in the dataframe
    df.loc[index, "translated_name"] = translated_name
    df.loc[index, "translated_desc"] = translated_desc

print("Processing has come to an end")

Currently processing sample 0...
Currently processing sample 100...
Currently processing sample 200...
Currently processing sample 300...
Currently processing sample 400...
Currently processing sample 500...
Currently processing sample 600...
Currently processing sample 700...
Currently processing sample 800...
Currently processing sample 900...
Processing has come to an end


In [19]:
df.head(3).T

Unnamed: 0,0,1,2
Name,ফ্ল্যাটে উঠেও কিস্তি চালাতে পারবেন,প্লটন থেকে ৪ কি.মি দূরত্বে কিস্তি প্রায় রেডি ফ...,Apartment for rent
Location,"Dhaka, Dhaka, Keraniganj","Dhaka, Dhaka, Keraniganj","Dhaka, Dhaka, Uttara"
Description,\n ...,\n ...,\n ...
Ad posted time,26 Mar 2023 02:13 am,26 Mar 2023 02:21 am,22 Mar 2023 10:42 pm
Price,3150,3850,50000
AD URL,https://www.bikrisohoj.com/details/%e0%a6%ab%e...,https://www.bikrisohoj.com/details/%e0%a6%aa%e...,https://www.bikrisohoj.com/details/apartment-f...
translated_name,You can pay installments even in the flat,Kisthi is almost ready flat at a distance of 4...,Apartment for rent
translated_desc,## Only 7 km from Motijheel\n\n• Wide road ahe...,** Just less than 4 km from Platon\n\n#*# Addr...,Apartment for rent\n3 rooms\n2 bathrooms\n1 li...


In [20]:
df.sample(3).T

Unnamed: 0,85,705,311
Name,New 4 bedroom apartment rent in gulshan 2,Space rent,Residential land
Location,"Dhaka, Dhaka, Gulshan","Dhaka, Dhaka, Uttara","Rajshahi, Rajshahi"
Description,\n ...,\n ...,\n ...
Ad posted time,29 Mar 2022 10:07 pm,11 Oct 2019 07:43 am,28 May 2021 09:37 pm
Price,120000,50000,600000
AD URL,https://www.bikrisohoj.com/details/new-4-bedro...,https://www.bikrisohoj.com/details/space-rent-...,https://www.bikrisohoj.com/details/residential...
translated_name,New 4 Bedroom Apartment for Rent in Gulshan 2,Space rent,Residential land
translated_desc,The flat description below:\nSemi-furnished ap...,"Around 600 soft, 2nd floor","Kapasia, Katakhali, Rajshahi."


In [21]:
df.sample(3).T

Unnamed: 0,924,752,257
Name,জমির শেয়ার বিক্রয়,Exclusive Nourth Facing 3 Katha@Sector;15/B .U...,Apartment for sale(1100-1300 Sqft)Semi-Ready
Location,"Dhaka, Dhaka, Mohammadpur","Dhaka, Dhaka, Uttara","Dhaka, Dhaka, Keraniganj"
Description,\n ...,\n ...,\n ...
Ad posted time,04 Jun 2022 08:26 pm,22 Sep 2019 06:50 am,24 Aug 2021 10:19 pm
Price,1800000,2500000,4940000
AD URL,https://www.bikrisohoj.com/details/%e0%a6%9c%e...,https://www.bikrisohoj.com/details/exclusive-n...,https://www.bikrisohoj.com/details/apartment-f...
translated_name,Sale of land shares,EXCLUSIVE NORTH FUCKING 3 katha@sector;15/or ....,Apartment for sale (ga00-1300 scft) semi-ready
translated_desc,????????❤️স্বল্প মূল্যে জমির শেয়ার বিক্রয় চলছ...,Plot for sale!!! Plot for sale\r\nSector-15/B ...,Project Name- REON AROMA HOUSE\nPlot: 1216 & 1...


During assessment, sample 397 and 924 are found to not having their `Description` successfully translated.

In [22]:
df.loc[397]

Name                          LAND SHARE KHILGAON NONDIPARA FOR FLAT
Location                                                Dhaka, Dhaka
Description        \n                                            ...
Ad posted time                                 09 Feb 2021 09:34 pm 
Price                                                      3,200,000
AD URL             https://www.bikrisohoj.com/details/land-share-...
translated_name               Land Share Khilgaon Nandipara for Flat
translated_desc    আপনি জানেন কি ল্যান্ড শেয়ারে অতি কম খরচে স্বপ...
Name: 397, dtype: object

In [31]:
df.loc[924]

Name                                             জমির শেয়ার বিক্রয়
Location                                   Dhaka, Dhaka, Mohammadpur
Description        \n                                            ...
Ad posted time                                 04 Jun 2022 08:26 pm 
Price                                                      1,800,000
AD URL             https://www.bikrisohoj.com/details/%e0%a6%9c%e...
translated_name                                  Sale of land shares
translated_desc    ????????❤️স্বল্প মূল্যে জমির শেয়ার বিক্রয় চলছ...
Name: 924, dtype: object

In [23]:
df.loc[397,"Description"]

'\n                                            আপনি জানেন কি ল্যান্ড শেয়ারে অতি কম খরচে স্বপ্নময়ী ফ্ল্যাটের মালিক হওয়া সম্ভব?\r\n\r\n???? আমরা প্রচলিত বাজারমূল্য থেকে ৪০% কম মূল্যে যৌথভাবে নির্মাণ করছি আপনার স্বপ্নের ফ্ল্যাট।\r\n\r\n♥♥ব্যস্তময় জীবনে একটু প্রশান্তি এবং নিজের\r\n\r\nমত আজীবন আনন্দে সময় কাটানোর জন্য\r\n\r\n১০২ শতক জমির উপর আমরা নির্মাণ করতে যাচ্ছি ১০ তলা বিশিষ্ট একাধিক ভবন,\r\n\r\nআমাদের স্বপ্নের আবাসন-\r\n\r\n"#মাইলস্টোন_গ্রীন_টাওয়ার"\r\n\r\n"যেখানে আকাশ ছুঁয়ে দেয় হৃদয়ের সীমানা\r\n\r\nআর স্বপ্নরা মেঘের ডানায় উড়ে যায় নীলিমায়।"\r\n\r\n????বিশ্বমানের সুযোগ- সুবিধায় গড়ে উঠা এই প্রকল্পের অবস্থান-\r\n\r\nরাজধানী ঢাকার প্রান কেন্দ্র আমিন মোহাম্মাদের গ্রীন বনশ্রী প্রজেক্ট সংলগ্ন নন্দীপাড়া শেখের জায়গায় ৬০ ফিট পাকা রাস্তার সাথে....\r\n\r\nমাত্র ১১ লক্ষ টাকায় ক্রয়সূত্রে জমির মালিক হয়ে নির্মাণ খরচ কিস্তিতে পরিশোধ করে অতি অল্প টাকায় গড়ে তুলুন আপনার স্বপ্নের আবাসন।\r\n\r\n♦আপনারা জানেন রামপুরা ব্রীজ থেকে স্টাফ-কোয়ার্টার হয়ে ডেমরা পর্যন্ত চার লেন বিশিষ্ট রাস্তার কাজ ইতিমধ্যেই শুরু 

In [24]:
# # init the Google API translator
# translator = Translator()

# origin_text="\n                                            আপনি জানেন কি ল্যান্ড শেয়ারে অতি কম খরচে স্বপ্নময়ী ফ্ল্যাটের মালিক হওয়া সম্ভব?\r\n\r\n???? আমরা প্রচলিত বাজারমূল্য থেকে ৪০% কম মূল্যে যৌথভাবে নির্মাণ করছি আপনার স্বপ্নের ফ্ল্যাট।\r\n\r\n♥♥ব্যস্তময় জীবনে একটু প্রশান্তি এবং নিজের\r\n\r\nমত আজীবন আনন্দে সময় কাটানোর জন্য\r\n\r\n১০২ শতক জমির উপর আমরা নির্মাণ করতে যাচ্ছি ১০ তলা বিশিষ্ট একাধিক ভবন,\r\n\r\nআমাদের স্বপ্নের আবাসন-\r\n\r\n"#মাইলস্টোন_গ্রীন_টাওয়ার"\r\n\r\n"যেখানে আকাশ ছুঁয়ে দেয় হৃদয়ের সীমানা\r\n\r\nআর স্বপ্নরা মেঘের ডানায় উড়ে যায় নীলিমায়।"\r\n\r\n????বিশ্বমানের সুযোগ- সুবিধায় গড়ে উঠা এই প্রকল্পের অবস্থান-\r\n\r\nরাজধানী ঢাকার প্রান কেন্দ্র আমিন মোহাম্মাদের গ্রীন বনশ্রী প্রজেক্ট সংলগ্ন নন্দীপাড়া শেখের জায়গায় ৬০ ফিট পাকা রাস্তার সাথে....\r\n\r\nমাত্র ১১ লক্ষ টাকায় ক্রয়সূত্রে জমির মালিক হয়ে নির্মাণ খরচ কিস্তিতে পরিশোধ করে অতি অল্প টাকায় গড়ে তুলুন আপনার স্বপ্নের আবাসন।\r\n\r\n♦আপনারা জানেন রামপুরা ব্রীজ থেকে স্টাফ-কোয়ার্টার হয়ে ডেমরা পর্যন্ত চার লেন বিশিষ্ট রাস্তার কাজ ইতিমধ্যেই শুরু হয়েছে। এটা বাস্তবায়ন হলে রামপুরা ব্রীজ, হাতিরঝিল বা বিটিভি থেকে আমাদের প্রজেক্টে যেতে সময় লাগবে মাত্র ১০ মিনিট।\r\n\r\nঅন্যদিকে মতিঝিল থেকে বাসাবো, বৌদ্ধমন্দির, নন্দীপাড়া দিয়ে সময় লাগবে ১৫ মিনিট।\r\n\r\n♦প্রকল্পটি আফতাবনগর জহুরুল ইসলাম সিটি, বনশ্রী, আমিন মোহাম্মাদ ফাউন্ডেশনের গ্রীন মডেল টাউনের সন্নিকটে ও গ্রীন বনশ্রীর সাথে। অন্যদিকে রয়েছে আমুলিয়া মডেল টাউন। সবমিলে বর্তমান ও আগামীর পরিকল্পিত ঢাকার সবচেয়ে গুরত্বপূর্ণ অবস্থানে রয়েছে আমাদের কাংখিত স্বপ্নের আবাসন #মাইলস্টোন গ্রীন টাওয়ার।\r\n\r\n♦আমরা নির্ভেজাল জমি ক্রয় করে গ্রাহকদের সাথে নিয়ে বিল্ডিং নির্মাণ করি। যার কারনে প্রচলিত বাজার মূল্য থেকে আমাদের খরচ অনেক কম। এটা আমাদের ২৫ তম প্রজেক্ট। তাই, সরেজমিনে আমাদের প্রজেক্ট ভিজিট করে আমাদেরকে যাচাই করার জন্য বিনীত অনুরোধ করছি।\r\n\r\n♦♦আমাদের প্রকল্পে ১০০% মানসম্মত ও উন্নত মানের ম্যাটেরিয়ালস ব্যবহার করা হয়।\r\n\r\n♦♦প্রত্যেক শেয়ার সদস্যকে ১৩০০ বর্গফুট ফ্ল্যাটের সাথে একটি কার পার্কিং দেওয়া হবে। এখনই রেশিও অনুযায়ী জমির সাফকবলা রেজিষ্ট্রেশন দিয়ে দেওয়া হবে। বিল্ডিং নির্মানের টাকা ৩ বছর ব্যাপী কিস্তিতে পরিশোধ করা যাবে।\r\n\r\n♦♦আরো যা থাকবেঃ\r\n\r\n১. ০৩ টি বেডরুম\r\n\r\n২. ০১ টি ড্রয়িং রুম।\r\n\r\n৩. ০১ টি ডাইনিং রুম।\r\n\r\n৪. ০২ টি বেলকুনি।\r\n\r\n৫. ০৩ টি বাথরুম।\r\n\r\n৬.কিচেন।\r\n\r\nএই প্রকল্পের সুবিধা সমূহঃ\r\n\r\n০১. সুইমিং পুল।\r\n\r\n০২. জমির ৪০% উন্মুক্ত খোলামেলা জায়গায় সবুজের সমারহ।\r\n\r\n০৩. অত্যাধুনিক উপকরণে সজ্জিত জিমনেসিয়াম।\r\n\r\n০৪. বাচ্চাদের জন্য আধুনিক প্লে-গ্রাউন্ড।\r\n\r\n০৫. ইনডোর খেলার ব্যবস্থা।\r\n\r\n০৬. প্রকল্পের চারিদিকে রয়েছে জগিং ট্র্যাক।\r\n\r\n০৭. চোখ জুড়ানো ফুলের বাগান।\r\n\r\n০৮. বিশ্বমানের লিফটের ব্যবস্হা\r\n\r\n০৯. অতিথি কার পার্কিং সুবিধা।\r\n\r\n১০. সুপারশপ, রেষ্টুরেন্ট ও কনভেনশন হল।\r\n\r\n১১. প্রাথমিক স্বাস্থ্য সেবার জন্য মেডিক্যাল হেল্থ কেয়ার ক্যাম্প।\r\n\r\n১২. মসজিদ\r\n\r\n১৩. মিনারেল ওয়াটার প্লান্ট????\r\n\r\n১৪. বিশাল কমিউনিটি স্পেস\r\n\r\n১৫. ডেকোরেশন করা রিসিপশন সাথে গেস্টদের বসার জায়গাসহ বাথরুম।\r\n\r\n১৬. সিকিউরিটি রুম সহ সিকিউরিটি দের থাকার জায়গা, কিচেন ও বাথরুম।\r\n\r\n১৭. ড্রাইভার ওয়েটিং রুম।\r\n\r\n১৮. অগ্নি নিরাপত্তা ব্যবস্থা (অত্যাধুনিক পদ্ধতিতে)।\r\n\r\n১৯. ইন্টারকম সার্ভিস।\r\n\r\n২০. সিসি টিভি ও সিকিউরিটি দিয়ে ২৪ ঘন্টা সম্পূর্ণ নিরাপত্তা ব্যবস্থা।\r\n\r\nএছাড়াও মাইলস্টোন গ্রীন টাওয়ারে ওয়াই-ফাই সুবিধাসহ লাইব্রেরী, সেলুন, ????এটিএম বুথ, আধুনিক নিরাপত্তা তো থাকছেই......তাই, আপনার বুকিং নিশ্চিত করুন আজই...."

# # translate to english text (by default)
# translation = translator.translate(origin_text)
# print(f"{translation.origin} ({translation.src}) --> {translation.text} ({translation.dest})")

In [33]:
# # Check samples which translation have failed
# df[ (df["translated_desc"]=="failed") | (df["translated_name"]=="failed") ]

In [32]:
# # init the Google API translator
# translator = Translator()

# origin_text= df.loc[397,"Description"]

# # translate to english text (by default)
# translation = translator.translate(origin_text)
# print(f"{translation.origin} ({translation.src}) --> {translation.text} ({translation.dest})")

**Remark**: Not all content were successfully translated.

#### Testing

###  `Ad posted time` is of type str ( [quality issues #3](#assessment-report) )

`Ad posted time` should be of type datetime, not str.

#### Define
* Rename `Ad posted time` to `posted_time` (tidiness issue)
* Convert `Ad posted time` to datetime

#### Code

In [34]:
# Rename column
df.rename(columns={
    "Ad posted time":"posted_time"
}, inplace=True)

df.head()

Unnamed: 0,Name,Location,Description,posted_time,Price,AD URL,translated_name,translated_desc
0,ফ্ল্যাটে উঠেও কিস্তি চালাতে পারবেন,"Dhaka, Dhaka, Keraniganj",\n ...,26 Mar 2023 02:13 am,3150,https://www.bikrisohoj.com/details/%e0%a6%ab%e...,You can pay installments even in the flat,## Only 7 km from Motijheel\n\n• Wide road ahe...
1,প্লটন থেকে ৪ কি.মি দূরত্বে কিস্তি প্রায় রেডি ফ...,"Dhaka, Dhaka, Keraniganj",\n ...,26 Mar 2023 02:21 am,3850,https://www.bikrisohoj.com/details/%e0%a6%aa%e...,Kisthi is almost ready flat at a distance of 4...,** Just less than 4 km from Platon\n\n#*# Addr...
2,Apartment for rent,"Dhaka, Dhaka, Uttara",\n ...,22 Mar 2023 10:42 pm,50000,https://www.bikrisohoj.com/details/apartment-f...,Apartment for rent,Apartment for rent\n3 rooms\n2 bathrooms\n1 li...
3,"A modern well decorated flat at Banasree,Rampu...","Dhaka, Dhaka, Rampura",\n ...,26 Mar 2023 02:21 am,12000000,https://www.bikrisohoj.com/details/a-modern-we...,"A modern well decorated flat in Bansree, Rampu...","A well decorated, highly ventilated 1245 sq.ft..."
4,ইন্ডাস্ট্রিয়াল সেড / INDUSTRIAL SHED FOR RENT,"Dhaka, Narayanganj",\n ...,26 Mar 2023 02:16 am,150000,https://www.bikrisohoj.com/details/%e0%a6%87%e...,Industrial Shed / INDUSTRIAL SHED FOR RENT,Industrial Shed / INDUSTRIAL SHED FOR RENT\nAd...


In [35]:
# Coonverting from str to datetime
df["posted_time"] = pd.to_datetime(df["posted_time"])

### Testing

In [36]:
df.info() #["posted_time"].dtype

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 940 entries, 0 to 939
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Name             940 non-null    object        
 1   Location         940 non-null    object        
 2   Description      940 non-null    object        
 3   posted_time      940 non-null    datetime64[ns]
 4   Price            940 non-null    object        
 5   AD URL           940 non-null    object        
 6   translated_name  940 non-null    object        
 7   translated_desc  940 non-null    object        
dtypes: datetime64[ns](1), object(7)
memory usage: 58.9+ KB


### `Price` is of type str ( [quality issues #4](#assessment-report) )

`Price` should be of type float, not str. (quality issue)

#### Define
* Remove `,` from `Price`
* Convert `Price` from str to float

#### Code

In [37]:
df["Price"] = df["Price"].str.replace(",","")

df["Price"] = df["Price"].astype(float)
df["Price"].head()

0        3150.0
1        3850.0
2       50000.0
3    12000000.0
4      150000.0
Name: Price, dtype: float64

#### Testing

In [38]:
df["Price"].dtype

dtype('float64')

### Split `location` column content into adequate columns ( [tidiness issues #1](#assessment-report) )

 `location` should be splitted to `city`, `zone`, and `address`. (tidiness issue)

In [39]:
df["Location"]

0       Dhaka, Dhaka, Keraniganj
1       Dhaka, Dhaka, Keraniganj
2           Dhaka, Dhaka, Uttara
3          Dhaka, Dhaka, Rampura
4             Dhaka, Narayanganj
                 ...            
935         Dhaka, Dhaka, Uttara
936     Dhaka, Dhaka, Keraniganj
937           Dhaka, Narayanganj
938       Chittagong, Chattogram
939     Dhaka, Dhaka, Keraniganj
Name: Location, Length: 940, dtype: object

#### Define
* Retrieve the city, area, and address from each `location` through `get_detailed_address()`
* Update new columns (city, locality, address) based on values retrieve from `location`

In [45]:
df.shape

(940, 8)

#### Code

In [None]:
# # Retrieve city in location
# df["city"] = df["Location"].apply(lambda x: x.split(",")[0].strip() )

# # Retrieve address in location
# df["address"] = df["Location"].apply(lambda x: ",".join(x.split(",")[1:]).strip() )

In [44]:
# testing the get_detailed_address
get_detailed_address(df["Location"][0])

{'City': 'Dhaka', 'Area': 'Keraniganj', 'Address': ''}

In [48]:
# New code

"""
    Loop through `location` column, while splitting each location to city, zone, address and add them
        to the relevant column
"""

for index, row in df.iterrows(): # loop through each sample
    
    # The code may take time, log in the console to keep track of things
    if index==0 or index%100==0:
        print(f"Currently processing sample {index}...")
        
    # retrieve the location
    location = df.loc[index, "Location"]
    
    # split the location to dictionary with Area, City, Address as keys
    location_dict = get_detailed_address(location)
    
    city = location_dict.get("City", np.NaN)
    locality = location_dict.get("Area", np.NaN)
    address = location_dict.get("Address", np.NaN)
    

    # updating the relevant columns of the sample in the dataframe
    df.loc[index, "city"] = city
    df.loc[index, "locality"] = locality
    df.loc[index, "address"] = address

print("Processing has come to an end")

Currently processing sample 0...
Currently processing sample 100...
Currently processing sample 200...
Currently processing sample 300...
Currently processing sample 400...
Currently processing sample 500...
Currently processing sample 600...
Currently processing sample 700...
Currently processing sample 800...
Currently processing sample 900...
Processing has come to an end


In [49]:
# Checking the content of location, city, and address
df[ ["Location","city","locality","address"] ] 

Unnamed: 0,Location,city,locality,address
0,"Dhaka, Dhaka, Keraniganj",Dhaka,Keraniganj,
1,"Dhaka, Dhaka, Keraniganj",Dhaka,Keraniganj,
2,"Dhaka, Dhaka, Uttara",Dhaka,Uttara,
3,"Dhaka, Dhaka, Rampura",Dhaka,Rampura,
4,"Dhaka, Narayanganj",Dhaka,Narayanganj,
...,...,...,...,...
935,"Dhaka, Dhaka, Uttara",Dhaka,Uttara,
936,"Dhaka, Dhaka, Keraniganj",Dhaka,Keraniganj,
937,"Dhaka, Narayanganj",Dhaka,Narayanganj,
938,"Chittagong, Chattogram",Chattogram,,Chittagong


In [50]:
df.shape

(940, 11)

In [51]:
# Drop location column
df.drop(["Location"], axis=1, inplace=True)

df.shape

(940, 10)

### Column names should become lowercase  ( [tidiness issues #2](#assessment-report) )

Column names should become lowercase for consistency with the other datasets cleaned. (tidiness issue)

In [52]:
df.columns.to_list()

['Name',
 'Description',
 'posted_time',
 'Price',
 'AD URL',
 'translated_name',
 'translated_desc',
 'city',
 'locality',
 'address']

#### Define
* Make columns' name become lowercase

#### Code

In [56]:
df.columns = df.columns.str.lower()

#### Test

In [57]:
df.columns.to_list()

['name',
 'description',
 'posted_time',
 'price',
 'ad url',
 'translated_name',
 'translated_desc',
 'city',
 'locality',
 'address']

### Column names should be reviewed  ( [tidiness issues #3](#assessment-report) )

Column names should be reviewed to be made consistent with the names agreed with the other contributors. (tidiness issue)

In [55]:
df.columns.to_list()

['name',
 'description',
 'posted_time',
 'price',
 'ad url',
 'translated_name',
 'translated_desc',
 'city',
 'locality',
 'address']

#### Define
* rename `ad url` to `property_url`
* rename `translated_desc` to `property_description`

#### Code

In [59]:
df.rename(columns={
    "ad url":"property_url",
    "translated_desc": "property_description"
}, inplace=True)

#### Testing

In [62]:
df.columns.to_list()

['name',
 'description',
 'posted_time',
 'price',
 'property_url',
 'translated_name',
 'property_description',
 'city',
 'locality',
 'address']

### Column names should be reviewed  ( [tidiness issues #3](#assessment-report) )

Further informations should be extracted from `translated_name` and `property_description` columns:
* purpose: Sale/Rent
* nature: Residential/Commercial
* type: apartment/shop/...