# Project Overview
### (English)

#### This time I will make the data in the previous Notebook (data_kos_malang.csv) subject to a cleaning process, changing inappropriate formats, removing strange characters, etc.

# Ringkasan Project
### (Bahasa Indonesia)

#### Kali ini saya akan membuat data di Notebook sebelumnya (data_kos_malang.csv) dikenakan proses pembersihan, perubahan format yang tidak tepat, menghilangkan karakter karakter aneh dll.

In [1]:
import pandas as pd
import numpy as np

In [2]:
# load data
data = pd.read_csv('data/data_kos_malang.csv')
data.head()

Unnamed: 0,Nama Kos,Lokasi,Fasilitas,Harga,Peride Bayar
0,Kost Wisma Kencana Hidayah Lowokwaru Malang,Lowokwaru,WiFi ·Kasur ·Akses 24 Jam-4.1,Rp600.000,/bulan
1,Kost Omah Tipe 1 Lowokwaru Malang,Lowokwaru,K. Mandi Dalam ·WiFi ·Kloset Duduk ·Kasur ·Aks...,Rp950.000,/bulan
2,Kost Graha Kamila Tipe Standar Lowokwaru Malang,Lowokwaru,WiFi ·Kloset Duduk ·Kasur ·Akses 24 Jam,Rp1.000.000,/bulan
3,Kost Semanggi Lowokwaru Malang,Lowokwaru,Kasur,Rp500.000,/bulan
4,Kost CM6 Lowokwaru Malang,Lowokwaru,WiFi ·Kasur ·Akses 24 Jam,Rp950.000,/bulan


## Opening
#### The first step I will see is there any duplicate data (delete if any) and look at each column, how many percent of the data is missing there

## Pembukaan
#### Step pertama saya akan lihat apakah ada data (hapus jika ada) duplicat dan melihat setiap kolom ada berapa peresen data yang bolong disana

In [3]:
# check null
data.isna().sum()

Nama Kos        0
Lokasi          0
Fasilitas       0
Harga           0
Peride Bayar    0
dtype: int64

In [4]:
# check length rows
len(data)

1308

In [5]:
# duplicate data
data.duplicated().sum()

1068

In [6]:
data = data.drop_duplicates()
data.head()

Unnamed: 0,Nama Kos,Lokasi,Fasilitas,Harga,Peride Bayar
0,Kost Wisma Kencana Hidayah Lowokwaru Malang,Lowokwaru,WiFi ·Kasur ·Akses 24 Jam-4.1,Rp600.000,/bulan
1,Kost Omah Tipe 1 Lowokwaru Malang,Lowokwaru,K. Mandi Dalam ·WiFi ·Kloset Duduk ·Kasur ·Aks...,Rp950.000,/bulan
2,Kost Graha Kamila Tipe Standar Lowokwaru Malang,Lowokwaru,WiFi ·Kloset Duduk ·Kasur ·Akses 24 Jam,Rp1.000.000,/bulan
3,Kost Semanggi Lowokwaru Malang,Lowokwaru,Kasur,Rp500.000,/bulan
4,Kost CM6 Lowokwaru Malang,Lowokwaru,WiFi ·Kasur ·Akses 24 Jam,Rp950.000,/bulan


In [7]:
# check n unique each categorical colum
for i in ['Lokasi','Fasilitas','Peride Bayar']:
    print(i)
    print(data[i].nunique())
    print()

Lokasi
8

Fasilitas
50

Peride Bayar
1



In [8]:
# drop peride colum because just have a unique value
data.drop('Peride Bayar', axis=1, inplace=True)

## Colum "Nama Kos"
#### Here I found that all the data has a location affixed, for example "Kost Wisma Kencana Hidayah Lowokwaru Malang", the value "Lowokwaru Malang" is the name of the location of the boarding house, and we have to delete it because for our location data it has its own column.

## Kolom "Nama Kos"
#### Disini saya menemukan bahwa seluruh data memiliki imbuhan lokasi, contohnya "Kost Wisma Kencana Hidayah Lowokwaru Malang", value "Lowokwaru Malang" adalah nama lokasi dari kos tersebut, dan kita harus menghapusnya karena untuk data lokasi kita ada kolonya sendiri.

In [9]:
# check 5 first rows
data['Nama Kos']

0          Kost Wisma Kencana Hidayah Lowokwaru Malang
1                    Kost Omah Tipe 1 Lowokwaru Malang
2      Kost Graha Kamila Tipe Standar Lowokwaru Malang
3                       Kost Semanggi Lowokwaru Malang
4                            Kost CM6 Lowokwaru Malang
                            ...                       
334         Kost Syariah Kertosentono Lowokwaru Malang
335         Kost Candi Mendut Tipe A1 Lowokwaru Malang
336              Kost Borobudur Utara Lowokwaru Malang
337                 Kost CMG Tipe Vip Lowokwaru Malang
338          Kost Ilham Tipe Standard Lowokwaru Malang
Name: Nama Kos, Length: 240, dtype: object

In [10]:
# make function to cleaning data Nama Kos
def split_by_second_last_space(DATA):
    # list for new values
    new_values = []
    
    # looping each value
    for d in DATA:
        d_split = d.split(' ')
        d_clean = d_split[:-2]
        d_ready = ' '.join(d_clean)
        new_values.append(d_ready)
    return new_values

In [11]:
# change data
data['Nama Kos'] = split_by_second_last_space(data['Nama Kos'])
data['Nama Kos'].head(8)

0            Kost Wisma Kencana Hidayah
1                      Kost Omah Tipe 1
2        Kost Graha Kamila Tipe Standar
3                         Kost Semanggi
4                              Kost CM6
5               Kost Cozy Dozy 1 Tipe A
6             Kost Putra Cantewa Tipe B
7    Kost Bangkit Boarding House Tipe A
Name: Nama Kos, dtype: object

## Colum "Lokasi"
#### Actually there is nothing that needs to be changed, but I found that there is some data that has the word "District" added to it even though the location of the data is actually the same, for example "Lowokwaru District" & "Lowokwaru".
#### So here I will remove all values that have the word "District" so that these values are not considered different.

## Kolom "Lokasi"
#### Sebenarnya tidak ada yang perlu diubah, tetapi saya menemukan ada beberapa data yang berimbuhan kata "Kecamatan" padahal sebenarnya lokasi dari data tersebut sama, contoh "Kecamatan Lowokwaru" & "Lowokwaru".
#### Jadi disini saya akan menghilangkan semua value yang memiliki kata "Kecamatan" supaya value tersebut tidak dianggap berbeda.

In [12]:
# check 5 rows 
data['Lokasi']

0                Lowokwaru
1                Lowokwaru
2                Lowokwaru
3                Lowokwaru
4                Lowokwaru
              ...         
334    Kecamatan Lowokwaru
335              Lowokwaru
336    Kecamatan Lowokwaru
337              Lowokwaru
338              Lowokwaru
Name: Lokasi, Length: 240, dtype: object

In [13]:
# check unique values
data['Lokasi'].unique()

array(['Lowokwaru', 'Blimbing', 'Kecamatan Lowokwaru', 'Klojen', 'Sukun',
       'Kecamatan Klojen', 'Kecamatan Sukun', 'Kecamatan Blimbing'],
      dtype=object)

In [14]:
# edit data Lokasi
data['Lokasi'] = data['Lokasi'].str.replace('Kecamatan ','')
data['Lokasi'].unique()

array(['Lowokwaru', 'Blimbing', 'Klojen', 'Sukun'], dtype=object)

## Colum "Fasilitas"
#### This column is quite challenging, I found information that there were value ratings that were taken when scraping the previous data, and the rating data was entered into the facility column.
#### What's challenging about this is, not every row of data has rating data, so we have to be careful if we want to create a new column (Ratings).

## Kolom "Fasilitas"
#### Kolom yang ini cukup menantang, saya menemukan informasi bahwa ada ada value ratings yang ikut ke ambil waktu scraping data sebelumnya, dan data rating itu masuk ke kolom fasilitas
#### Yang menantang dari ini adalah, tidak setiap baris data ada data rating nya, jadi kita harus hati hati jika ingin membuat kolom baru (Ratings).

In [15]:
# check 5 first rows
data['Fasilitas'].head()

0                        WiFi ·Kasur ·Akses 24 Jam-4.1
1    K. Mandi Dalam ·WiFi ·Kloset Duduk ·Kasur ·Aks...
2              WiFi ·Kloset Duduk ·Kasur ·Akses 24 Jam
3                                                Kasur
4                            WiFi ·Kasur ·Akses 24 Jam
Name: Fasilitas, dtype: object

In [16]:
# check first data
data.loc[0,'Fasilitas']

'WiFi ·Kasur ·Akses 24 Jam-4.1'

In [17]:
# function for handle Fasilitas column
def handle_facilities_column(FASILITIES):
    # list for new values
    facilities = []
    ratings = []
    
    for F in FASILITIES:
        
        # split beetwen facilities and ratings
        d = F.split('-')
        
        # decision
        if len(d) != 1:
            f = d[0] # value of facility
            r = d[1] # value of rating
            facilities.append(f.replace(' ·',', '))
            ratings.append(r)
            
        else:
            facilities.append(F.replace(' ·',', '))
            ratings.append(np.nan)

    return facilities, ratings

In [18]:
# get data
facilities, ratings = handle_facilities_column(data['Fasilitas'])

In [19]:
# check values
print(facilities[:5])
print()
print(ratings[:5])

['WiFi, Kasur, Akses 24 Jam', 'K. Mandi Dalam, WiFi, Kloset Duduk, Kasur, Akses 24 Jam', 'WiFi, Kloset Duduk, Kasur, Akses 24 Jam', 'Kasur', 'WiFi, Kasur, Akses 24 Jam']

['4.1', nan, nan, nan, nan]


In [20]:
# check length
len(facilities), len(ratings)

(240, 240)

In [21]:
# change and insert colum
data['Fasilitas'] = facilities

data.insert(3,'Ratings', ratings)

In [22]:
data.head(10)

Unnamed: 0,Nama Kos,Lokasi,Fasilitas,Ratings,Harga
0,Kost Wisma Kencana Hidayah,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",4.1,Rp600.000
1,Kost Omah Tipe 1,Lowokwaru,"K. Mandi Dalam, WiFi, Kloset Duduk, Kasur, Aks...",,Rp950.000
2,Kost Graha Kamila Tipe Standar,Lowokwaru,"WiFi, Kloset Duduk, Kasur, Akses 24 Jam",,Rp1.000.000
3,Kost Semanggi,Lowokwaru,Kasur,,Rp500.000
4,Kost CM6,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",,Rp950.000
5,Kost Cozy Dozy 1 Tipe A,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",4.9,Rp500.000
6,Kost Putra Cantewa Tipe B,Lowokwaru,"K. Mandi Dalam, WiFi, Kasur, Akses 24 Jam",,Rp850.000
7,Kost Bangkit Boarding House Tipe A,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",,Rp650.000
8,Kost Bantaran IIID,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",5.0,Rp550.000
9,Kost Basecamp,Blimbing,"K. Mandi Dalam, WiFi, Kasur, Akses 24 Jam",4.1,Rp680.000


## Colum "Harga"
#### For this column, I plan to change its type to number (int), and before that I have to clean up elements that could interfere with the data type transformation process.

## Kolom "Harga"
#### Untuk kolom ini rencananya saya mau mengubah tipenya menjadi angka (int), dan sebelumnya saya harus melakukan pembersihan terhadap elemen elemen yang bisa mengganggu prooses transformasi tipe data itu.

In [23]:
# cleaning Harga
data['Harga'] = data['Harga'].str.replace('Rp','').str.replace('.','')

In [24]:
# check
data['Harga'].head

<bound method NDFrame.head of 0       600000
1       950000
2      1000000
3       500000
4       950000
        ...   
334     650000
335     900000
336     500000
337     900000
338     580000
Name: Harga, Length: 240, dtype: object>

## Last Step
#### 1. Change the data type of 2 columns, namely "Ratings" to float & "Price" to int.
#### 2. Changed the name of the "Price" column to "Price per Month" because all the cost data that I got was informed that the price was the price per month, which column we had dropped in the opening step.
#### 3. Save data named "data_kos_malang_clean.csv"

## Langkah Terakhir
#### 1. Mengubah tipe data dari 2 kolom, yaitu "Ratings" menjadi float & "Harga" menjadi int.
#### 2. Mengubah nama kolom "Harga" menjadi "Harga per Bulan" karena semua data kos yang saya dapatkan memperoleh informasi bahwa harga tersebut adalah harga per 1 bulan, yang kolomnya kita sudah drop di langkah pembukaan.
#### 3. Simpan data dengan nama "data_kos_malang_clean.csv"

In [25]:
# ratings
data['Ratings'] = data['Ratings'].astype('float')

In [26]:
# harga
data['Harga'] = data['Harga'].astype('int')

In [27]:
data.dtypes

Nama Kos      object
Lokasi        object
Fasilitas     object
Ratings      float64
Harga          int32
dtype: object

In [28]:
# rename column "Harga" to "Harga per Bulan"
data = data.rename(columns={'Harga' : 'Harga per Bulan'})

In [29]:
data

Unnamed: 0,Nama Kos,Lokasi,Fasilitas,Ratings,Harga per Bulan
0,Kost Wisma Kencana Hidayah,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",4.1,600000
1,Kost Omah Tipe 1,Lowokwaru,"K. Mandi Dalam, WiFi, Kloset Duduk, Kasur, Aks...",,950000
2,Kost Graha Kamila Tipe Standar,Lowokwaru,"WiFi, Kloset Duduk, Kasur, Akses 24 Jam",,1000000
3,Kost Semanggi,Lowokwaru,Kasur,,500000
4,Kost CM6,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",,950000
...,...,...,...,...,...
334,Kost Syariah Kertosentono,Lowokwaru,"WiFi, Kasur, Akses 24 Jam",,650000
335,Kost Candi Mendut Tipe A1,Lowokwaru,"K. Mandi Dalam, Kloset Duduk, Kasur, Akses 24 Jam",,900000
336,Kost Borobudur Utara,Lowokwaru,"WiFi, Kloset Duduk, Kasur, Akses 24 Jam",,500000
337,Kost CMG Tipe Vip,Lowokwaru,"K. Mandi Dalam, WiFi, Kloset Duduk, Kasur",,900000


In [30]:
data.to_csv('data/data_kos_malang_clean.csv',index=False)