# Apa itu Data Preparation atau Data Wrangling?
"Data preparation accounts for about 80% of the work of data scientists"

## [1] Pendahuluan
__"Data preparation accounts for about 80% of the work of data scientists"__

Kutipan di atas diambil dari salah satu artikel blog online Forbes berdasarkan hasil survey terhadap 80 orang data scientist yang dilakukan oleh salah satu provider data enrichment.

Selengkapnya dapat Anda lihat pada url berikut:

https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says

Masih dari link yang sama, berikut adalah pie chart yang merepresentasikan porsi dari pekerjaan data scientist. Proses data preparation di chart ini adalah Collecting data sets (19%) dan Cleaning and organizing data (60%).

![image.png](attachment:image.png)

Dengan demikian, keterampilan untuk melakukan data preparation atau saat ini sering disebut sebagai data wrangling adalah mutlak untuk seluruh data scientist dan data engineer.

__Lalu apa saja yang dilakukan di proses ini?__

Data wrangling adalah proses membaca data dari berbagai sumber dan merubah isi dan struktur sehingga dapat digunakan untuk analisa.

Data cleansing biasanya melibatkan isi yang perlu diubah karena kadang data dimasukkan dari sistem yang berbeda.Bertolak belakang dengan anggapan bahwa dengan sistem, data akan bersih dan standar. Pada kenyataannya, bisnis berkembang lebih cepat dibandingkan dengan pembuatan sistem sehingga banyak design dirubah di tengah jalan untuk mengakomodir hal ini, dan isi menjadi "berantakan". Penyebab utama lainnya tentunya adalah sistem entri data yang manual.

Contoh yang paling sering adalah informasi pelanggan (customer). Di satu sistem namanya boleh memasukkan gelar, dan di satu sistem tidak boleh… jadinya ada dua nama yang serupa tapi tak sama sebagai berikut: __"Agus Cahyono S.Kom."__ dan __"Cahyono, Agus"__.

Struktur perlu dirubah karena berbagai alasan, salah satu yang paling penting adalah tiap algoritma mensyaratkan struktur data yang berbeda dan optimal.

Sebagai contoh: transaksi penjualan untuk satu algoritma bisa menggunakan row-based transaction. Sedangkan algoritma lain harus menggunakan sparse-matrix.

Data wrangling adalah topik yang sangat besar, DQLab coba merancang materi ini dengan pembagian ke beberapa course,  artikel dan project – semuanya bisa diakses di satu platform yang sama.

Namun hampir sebagian besar proses data wrangling sehari-hari dengan R akan dicakup oleh course ini. Jika proses harus melibatkan tahapan yang lebih sulit dan tidak dicakup di dalam course ini juga akan diinformasikan lebih lanjut.

## [2] 3 Tahapan Penting dalam Pengolahan Data (3C)

1. __Capture__ : proses mengumpulkan data mentah.
2. __Clean__ : membersihkan dan merapikan data.
3. __Consume__ : visualisasi data yang telah dibersihkan yang biasanya berbentuk grafik/histrogram yang dikumpulkan pada sebuah data dashboard. Dengan data dashboard, kita dapat membaca dan memperoleh data dengan cepat dari data yang telah kita punya, misalnya kita bisa langsung mengetahui turunnya penjualan jenis produk A pada hari ini dibanding kemaren, meningkatnya jumlah pelanggan yang mendaftarkan diri menjadi member. 

Informasi selanjutnya dapat dianalisis lebih lanjut untuk mengetahui apakah ada peluang untuk berkembang, apakah ada tantangan yang harus dilalui, atau ancaman yang harus segera diatasi.

## [3] Dataset-dataset Yang Akan Digunakan
Untuk kepentingan penguasaan melalui praktek, sepanjang course ini kita akan bekerja dengan beberapa dataset berikut:
- Dataset kependudukan.dki dalam bentuk file teks (csv, tsv) dan dalam bentuk Excel. Semuanya dengan isi data yang sama, namun ketika menggunakan R untuk membaca, akan ditunjukkan karakteristik masing-masing yang perlu diperhatikan.
- Dataset pelanggan dalam bentuk file Excel, dimana kita akan melakukan beberapa proses pengolahan text dan tanggal di dataset ini.
- Dataset transaksi dalam bentuk database MySQL, dimana penguasaan skillset SQL yang diperlukan dapat dicapai.

Dataset ini akan dijelaskan lebih lanjut pada saat kita mulai mempraktekkan dataset ini.

## [4] Penutup
Data preparation atau data wrangling adalah proses yang memakan waktu dan tenaga paling besar bagi seorang data scientist, yaitu sampai 80 persen. Detilnya, pembacaan sumber data memakan waktu sampai 20 persen, dan mengorganisasikan dan membersihkan data memakan waktu sampai 60 persen.

Dengan demikian, skillset untuk data wrangling ini merupakan suatu yang mutlak dikuasai oleh para data scientist.

R menyediakan banyak function yang bisa digunakan untuk memudahkan Anda dalam menguasai skillset data wrangling ini.

Course ini akan mencakup cukup banyak praktek data wrangling sebagai bekal untuk mengolah data sehari-hari. Dimulai dari pemahaman mengenai konsep missing data (data yang kosong) dan factor sebagai tipe data yang penting, Anda akan diajak tahap demi tahap menguasai pengolahan teks, bekerja dengan tanggal, menggabungkan data, dan mentransformasi struktur data. 

# Missing Value in R
Bab ini akan memperkenalkan apa dan kenapa missing value. Pelajari mengenai representasi missing value ini dalam bentuk NA, NaN, NULL dengan variasi dan perilakunya dan bagaimana cara mengelola missng value di R.

## [1] Pendahuluan
Dalam perjalanan Anda sebagai data scientist ataupun data engineer, pasti akan menghadapi kolom dengan sebagian data tidak terisi atau kosong. Ini disebut dengan missing value atau nilai yang hilang.

Menyadari hal ini adalah satu tahap penting karena kita akan sadar bahwa hal tersebut adalah lumrah terjadi.

Tahap selanjutnya, kita perlu dua hal:
- Bagaimana missing value direpresentasikan, ini penting sehingga kita bisa identifikasi apakah nilai hilang karena dari awal memang ga ada, apakah karena operasi matematika, dan lain-lain.
- Dengan mengetahui representasi ini, kita dapat melakukan sesuatu terhadapnya. Atau singkat dapat dikelola (manage) dengan baik.

Kedua hal tersebut sangat penting terutama bagi Anda yang berangkat dari SQL ataupun bahasa programming lain, dimana ada satu reprentasi missing value saja, yaitu NULL.

Sepanjang bab ini kita akan membahas representasi yang bisa dianggap missing value yaitu NA, NULL dan NaN. Dan bagaimana kita melakukan banyak hal dengan missing value ini.

## [2] NA (Not Available)
NA adalah representasi utama dari missing value di R, dan merupakan suatu nilai atomik, artinya posisi NA sama dengan contoh nilai-nilai atomik bilangan seperti 1, 2 atau 100. Juga sama dengan contoh nilai karakter seperti "a", "b",  atau "g".

Karena angka dan karakter seperti contoh di atas sering disebut sebagai konstanta, maka NA adalah konstanta untuk _missing value_.

Dengan demikian, secara singkat NA adalah:
- Representasi _missing value_
- Merupakan konstanta atau nilai atomik

NA tidak bisa digunakan sebagai variable karena merupakan keyword, dan perhatikan penulisan NA dimana kedua karakter adalah huruf besar.

## [3] NA dan default type
Untuk menggunakan NA adalah sama dengan nilai konstanta lain, cukup mengetikkan NA.

Sebagai contoh, jika kita ketikkan NA di console maka akan muncul hasil berikut:

In [1]:
# Mengetik nilai NA
NA

NA ini secara default adalah representasi missing value untuk tipe data logical.

Ini kita bisa cek dengan perintah yang menggunakan function typeof, sebagai berikut.

In [2]:
# Menampilkan type dari NA dengan function typeof
typeof(NA)

Tentunya, NA adalah representasi missing value untuk seluruh tipe lain, tapi secara default adalah untuk logical dulu. Namun akan kita jelaskan lebih jauh di bagian lain pada bab ini.

## [4] Menggunakan function is.na
Pada saat kita membandingkan nilai atomik biasanya kita menggunakan operator ==, misalkan untuk periksa suatu variabel x yang bernilai 3 – yang sebelumnya kita juga telah memasukkan angka yang sama – kita bisa melakukan hal berikut.

In [3]:
x <- 3
x == 3

Maka hasil eksekusi perintah di atas akan menghasilkan nilai TRUE.

Nah, ini tidak berlaku untuk NA. Jadi jika nilai x kita isi dan cek dengan cara yang sama sebagai berikut.

In [4]:
x <- NA

#Pengecekan variable x dengan nilai NA menggunakan operator ==
x == NA

Hasil eksekusinya tidak akan menghasilkan TRUE, tapi tetap NA.

Pengecekan seperti ini tentunya tidak mungkin dilakukan jika kita menggunakan konstruksi percabangan keputusan seperti if ataupun konstruksi perulangan seperti while.

Nah, untuk mengatasi hal ini R menggunakan function bernama is.na dengan input berupa konstanta atau variabel. Mari kita ubah simbol == contoh di atas menggunakan function is.na seperti berikut.

In [5]:
x <- NA
#Pengecekan variable x dengan nilai NA menggunakan function is.na
is.na(x)

## [5] Variasi NA dan is.na
Seperti disebutkan sebelumnya, NA adalah merupakan nilai atomik dan konstanta, dan awalnya merupakan representasi missing value dari logical.

Apa artinya?

Ini jika dihubungkan dengan tipe data lain di R seperti vector – dimana isinya harus seragam tipe datanya – maka vector tersebut hanya boleh berisi nilai TRUE dan FALSE.

Sebagai perbandingan, mari kita lihat contoh pembuatan satu vector dengan isi campuran dari integer dan logical berikut.

In [6]:
c(1, 2, FALSE, 3)

Terlihat bahwa FALSE di atas dikonversi (beradaptasi) menjadi 0. Adaptasi ini juga disebut dengan coerce di dokumentasi R.

Lalu bagaimana dengan missing value NA?  

NA juga memiliki konstanta yang digunakan untuk beradaptasi, yaitu:
- NA_integer_ untuk representasi tipe data "integer"
- NA_real_ untuk representasi tipe data "double"
- NA_complex_ untuk representasi tipe data "complex"
- NA_character_ untuk representasi tipe data "character"

Dan semuanya memiliki nilai NA. Jika kita cek tipe data dari salah satu variasi missing value NA sebagai berikut

In [7]:
typeof(NA_real_)

Namun jika menggunakan is.na maka seluruhnya akan mengembalikan hasil TRUE.

In [8]:
typeof(NA_integer_)
typeof(NA_real_)
typeof(NA_complex_)
typeof(NA_character_)
is.na(NA_integer_)
is.na(NA_real_)
is.na(NA_complex_)
is.na(NA_character_)

## [6] Coercion pada Vector yang mengandung NA
Dengan adanya variasi NA yang dijelaskan pada content sebelumnya, R akan secara otomatis menggantikan NA yang secara default tipe data logical menjadi variasi tersebut.

Jadi jika kita mengetik hasil berikut.

In [9]:
c(1, 2, NA, 4, 5)

maka sebenarnya konstanta NA di atas akan diganti menjadi NA_real_. Namun tentunya ini ga akan terlihat, hanya terjadi sebagai proses di belakang layar oleh R.

In [10]:
#Membuat vector bernama isi.vector dengan isi bilangan, dimana salah satunya memiliki missing value
isi.vector <- c(1,2,3,NA,3,1)

#Mengecek keseluruhan tipe data dengan perulangan lapply dan typeof
lapply(isi.vector,typeof)

#Menggunakan is.na untuk mengecek keberadaan missing value dari tiap elemen pada vector 
is.na(isi.vector)

## [7] NULL
NULL adalah nilai yang banyak digunakan di bahasa pemrograman lain ataupun SQL (Structured Query Language) untuk merepresentasikan objek yang tidak ada atau null object (missing object) atau nilai yang tidak ada (missing value).

Di dalam R, missing value telah direpresentasikan dengan NA. Nah, untuk missing object inilah kita menggunakan NULL di R.

Atau lebih detilnya, NULL adalah suatu object khusus di R yang digunakan untuk merepresentasikan nilai atau object yang tidak terdefinisikan.

Untuk lebih jelasnya, kita akan melakukan praktek dan latihan yang berkaitan dengan NULL pada bagian berikutnya.

## [8] NULL dan Vector
Untuk memahami NULL, dan perbedaan dengan NA kita langsung mempraktekkannya dengan mengisi suatu vector dengan NULL.

Berikut adalah contoh variabel vector yang mengandung 7 elemen termasuk NA dan NULL.

In [11]:
isi.vector <- c(1, 2, 3, NA, 5, NULL, 7)

Jika kita menampilkan isinya, maka akan terlihat hasil sebagai berikut.

In [12]:
isi.vector

Terlihat dari tampilan, tidak ada NULL disana. Mari kita pastikan lagi dengan menghitung jumlah isi dari vector dengan function length.

In [13]:
length(isi.vector)

Hasilnya adalah 6, padahal kita memasukkan 7 elemen. Dengan demikian terlihat bahwa NULL memang mewakili undefined object dan tidak dianggap oleh vector. Dengan demikian tidak menjadi bagian dari vector.

## [9] Ringkasan Perbandingan NA dan NULL
Kita telah membahas mengenai NA dan NULL pada teks dan praktek sebelumnya. Untuk memudahkan pemahaman, berikut adalah rangkuman perbedaan terhadap keduanya.

|               |                   NA                    |                   NULL                  |
|:------------- | :-------------------------------------- | :-------------------------------------- |
| Apa itu? | Adalah sebuah konstanta (variable yang tidak bisa diubah lagi nilainya) sebagai indikator dari missing value | Sebuah object untuk merepresentasikan sesuatu yang "tidak terdefinisi" |
| Kata kunci | Indikator | tidak terdefinisi |
| Tipe | Logical | Object |
| Variasi | NA dapat berubah menjadi representasi variasi missing value dengan daftar berikut : <br>- NA_integer_ untuk tipe data "integer", <br>- NA_real_ untuk tipe data "double", NA_complex_ untuk tipe data "complex", <br>- NA_character_ untuk tipe data "character" | Tidak ada variasi |
| Contoh kasus ketika kita akan menemukan object ini? | Ketika kita membaca data yang tidak memiliki nilai | Ketika mengakses posisi index yang tidak terdapat pada suatu list |

Keterangan:
- Artinya NA adalah representasi missing value yang "masih" memiliki nilai logika – yang berfungsi sebagai indikator.
- NULL sendiri adalah objek tidak berbentuk, maka itu tidak terdefinisi dan panjangnya 0.

Salah satu operasi yang akan menghasilkan NULL adalah pada saat kita mengakses nama element yang tidak terdapat di dalam suatu list.

## [10] NULL dan List
Berbeda dengan vector, list akan menyimpan NULL apa adanya. Sebagai contoh, perintah berikut membuat list dengan 5 elemen dimana terdapat NULL dan NA di dalam list ini.

In [14]:
isi.list <- list(1, NULL, 3, NA, 5)

Jika kita tampilkan isinya, maka akan terlihat sebagai berikut.

In [15]:
isi.list

Terlihat dari tampilan, NULL diisi pada list di indeks kedua. Dan dengan demikian, jika dihitung jumlah elemennya akan mendapatkan hasil 5.

In [16]:
length(isi.list)

## [11] Inf untuk mewakili Infinite Number
Setelah mengenalkan NA dan NULL sebagai represntasi missing value dengan cukup detil pada bagian sebelumnya, sekarang kita masuk ke dua representasi angka yaitu __Inf__ dan __NaN__.

__Inf__ adalah singkatan dari infinite number atau representasi angka tidak terhingga. Semua pembagian angka bukan nol dengan nol adalah angka tidak terbatas, misalkan 1/0 atau -20/0.

Berikut adalah contoh operasi pembagian dengan 0 dan hasilnya di R.

In [17]:
5/0
-120/0

## [12] NaN (Not a Number)
NaN adalah representasi khusus untuk angka. Singkatan dari Not a Number, ini adalah representasi operasi matematika yang tidak bisa diwakili oleh angka apapun. Sering sekali bisa dianggap missing value tapi untuk hasil perhitungan.

Contoh perhitungan yang menghasilkan NaN adalah ketika angka 0 dibagi dengan 0. Ini tidak bisa dirasionalkan, sehingga NaN adalah representasi yang paling tepat.

Berikut adalah contoh perhitungan 0/0 di R dan hasilnya.

In [18]:
0/0

## [13] NaN dari hasil function log()
Perhitungan matematika lain yang juga menghasilkan NaN adalah nilai logaritma (log) dari bilangan negatif.

Berikut adalah contoh perhitungan logaritma dari dua bilangan, 100 dan -100 di R dan hasilnya.

In [19]:
log(100)
log(-100)

"NaNs produced"

## [14] Fungsi is.nan
Seperti halnya NA, jika kita membadingkan nilai NaN dengan menggunakan == maka hasilnya bukan TRUE/FALSE tapi menjadi NA, seperti pada contoh berikut.

In [20]:
NaN == NaN

Untuk membandingkan NaN kita bisa gunakan function is.nan, seperti pada contoh berikut.

In [21]:
is.nan(NaN)

In [22]:
#Buat variable contoh.nan
contoh.nan <- 0/0

#Periksa dengan function is.nan
is.nan(contoh.nan)

## [15] NaN dan is.na versus NA dan is.nan
Seluruh nilai NaN dapat diperiksa dengan fungsi is.na, sehingga hasilnya mengembalikan TRUE. Berikut adalah contohnya.

In [23]:
is.na(NaN)

Dengan demikian, secara umum pada R bisa dikatakan NaN juga adalah missing value.

Namun tidak sebaliknya, semua nilai NA tidak akan mengembalikan nilai TRUE jika diperiksa dengan fungsi is.nan.

In [24]:
is.nan(NA)

Dengan level yang jelas seperti ini, kita bisa memisahkan mana missing values dan kemudian mana saja bagian yang merupakan perhitungan yang menghasilkan angka yang tidak bisa didefinisikan (not a number).

## [16] Menghitung Jumlah Missing Values dari satu Vector
Setelah mengenal semua representasi missing value – dalam hal ini NA dan NaN – dan fungsi untuk mengidentifikasinya, kita dapat melakukan banyak hal.

Salah satunya adalah mengetahui jumlah missing value yang terdapat pada data kita. Akan banyak contoh pada bagian-bagian berikutnya, tapi untuk memulai kita gunakan contoh vector.

Untuk melakukan perhitungan banyaknya nilai missing value di vector, kita gunakan gabungan function sum dan is.na sebagai berikut:

sum(is.na( variable_vector ) == TRUE)

Penjelasan konstruksi tersebut adalah sebagai berikut.

|  Komponen  | Keterangan  |
| :--------- | :-----------|
| sum(…) | Function untuk menjumlahkan banyaknya elemen |
| is.na(…) == TRUE | Konstruksi untuk mengidentifikasi elemen mana yang merupakan missing value |
| variable_vector | Adalah variable yang isinya adalah vector dengan deklarasi c(…) |

In [25]:
# Membuat Vektor
isi.vector <- c(1,2,NA,4,5,NaN,6)
print(isi.vector)

# Melihat jumlah yang missing 
sum(is.na(isi.vector)==TRUE)

[1]   1   2  NA   4   5 NaN   6


## [17] Kesimpulan
Selamat, dengan telah melewati bab ini maka Anda telah menguasai dasar untuk mengenal dan menangani missing value.

Ini penting karena tanpa pengetahuan yang cukup mengenai missing value ini, Anda akan mengalami kesulitan ketika berhadapan dengan beragam jenis data dan proses perhitungan yang pada kenyataannya memang tidak rapi.

Mari kita rangkum apa yang telah Anda tempuh sejauh ini:
- Mengenal representasi missing value di R, yaitu NA (Not Available)
- NA dan variasinya (NA_integer_, NA_real_, NA_complex_, dan NA_character_)
- NULL sebagai representasi missing object
- Perilaku NA dan NULL untuk vector dan list
- NaN sebagai representasi missing value angka (Not a Number)
- Penggunaan function is.na dan is.nan

Dengan bekal materi tersebut, kita telah siap untuk mengolah data pada saat membaca berbagai variasi data yang memiliki missing value.

Namun sebelum itu kita perlu menguasai lagi satu struktur data penting di R, yaitu factor.

# Factor
Factor adalah suatu tipe variabel yang intensif digunakan di R – dengan demikian menjadi sangat penting untuk mempelajari Factor ini.

Walaupun awalnya kelihatan sederhana, namun Factor adalah salah satu bagian dari R yang paling sering ditanyakan. Penyebabnya karena fungsi analisa dan grafik yang banyak memanfaatkan factor dan kadang hasilnya tidak sesuai – contoh kasus dan solusinya termasuk yang akan dibahas pada bab ini.

## [1] Pendahuluan
Factor adalah suatu tipe variabel yang intensif digunakan di R – dengan demikian menjadi sangat penting untuk mempelajari Factor ini.

Walaupun awalnya kelihatan sederhana, namun Factor adalah salah satu bagian dari R yang paling sering ditanyakan. Penyebabnya karena fungsi analisa dan grafik yang banyak memanfaatkan factor dan kadang hasilnya tidak sesuai – contoh kasus dan solusinya termasuk yang akan dibahas pada bab ini.

Secara keseluruhan, berikut adalah apa yang akan Anda pelajari mengenai factor pada bab ini:
- Apa itu factor dan kenapa diperlukan?
- Kapan factor digunakan
- Cara membuat factor di R
- Bagaimana sebenarnya nilai disimpan di dalam factor
- Menggunakan function untuk merubah nilai factor
- Merubah pengurutan di factor

Dengan menguasai keterampilan menggunakan factor ini, Anda akan lebih siap untuk melakukan banyak hal di R.

## [2] Apa itu Factor?
Factor adalah suatu variable di R yang menyimpan daftar nilai-nilai kategori atau nominal.

Berikut adalah beberapa contoh daftar nilai kategori yang bisa disimpan dalam factor:
- Nama bulan: Januari, Februari, Maret.
- Jenis pakaian: Atasan, Jeans, Rok, Kaos.
- Satuan berat: kg, mg, ton, kwintal, dll.

Dengan demikian,  factor menyimpan nilai-nilai yang terbatas (diskrit). Nama bulan terdiri dari 12 nilai yaitu dari Januari s/d Desember.

Jika tidak terbatas atau kontinu, misalkan angka berat seperti 64.5 kg, 11.2 kg, 80.39 kg, dan seterusnya – maka ini tidak bisa digolongkan sebagai _factor_.

Karena sifat data dengan nilai terbatas ini, factor sering disebut juga sebagai _categorical variable_ atau variabel kategorik.

## [3] Kenapa Factor, dan Kapan Sebaiknya Digunakan?
Factor adalah variabel yang sangat penting untuk digunakan pada kasus analisa statistik, menggambar grafik (plotting), pemodelan regresi ataupun machine learning.

Sebagai contoh kasus, maka fungsi plotting pada library ggplot2 akan mampu mengambil variabel sebagai legend jika direpresentasikan sebagai factor.
![image.png](attachment:image.png)

Banyaknya function yang menggunakan factor dikarenakan dengan adanya factor ini maka nilai kategoris lebih mudah diolah dan dianalisa.

Kita sebaiknya menggunakan factor ketika kita ingin
- memastikan bahwa variable yang kita gunakan memiliki data terbatas (diskrit)
- dan menginformasikan kepastian ini kepada function atau model analisa yang kita gunakan

## [4] Membuat Factor di R
Factor dapat dibuat di R dengan function factor, dengan syntax paling sederhana sebagai berikut:

factor( x = vector)
<br>atau 
<br>factor(vector)

Sebagai contoh, untuk membuat factor dari tiga nama bulan pertama pada kalender kita gunakan perintah berikut:

In [26]:
factor(c("Jan","Feb","Mar"))

Terlihat ada dua hasil, yaitu nilai yang dimasukkan dan ada satu lagi output __Levels__. Berikut adalah penjelasan dari hasil di atas.

| Hasil | Keterangan |
| :---- | :--------- |
| [1] Jan Feb Mar | [1] adalah tampilan output dengan hasil tampilan dimulai pada indeks ke 1. __Jan Feb Mar__ adalah tampilan dari nilai factor |
| Levels: Feb Jan Mar | Levels: adalah atribut yang menempel pada setiap faktor dan berisi daftar diskrit dari variasi nilai-nilai yang terdapat pada faktor.<br><br>Untuk kasus ini terdapat tiga nilai variasi yaitu Feb Jan Mar – dan __kebetulan__ sama dengan jumlah nilai yang terdapat pada factor saat ini, tetapi dengan urutan yang berbeda dengan tampilan isian factor.<br><br>Pada levels, terlihat Feb dimulai duluan dibandingkan Jan karena secara urutan alfabet pertama pada Feb – yaitu F – lebih kecil dibandingkan alfabet pertama pada Jan – yaitu J. |

## [5] Atribut levels dan class pada Factor
Perbandingan yang kontras antara factor dengan vector atau data.frame adalah pada factor terdapat atribut tambahan, yaitu levels.

Atribut sendiri adalah variable yang melekat dan menjadi bagian dari objek atau variable lain.

Selain atribut levels, pada factor terdapat juga atribut class.

Untuk melihat seluruh atribut pada kita menggunakan function attributes, berikut adalah contoh penggunaannya.

> _attributes(variable)_

Dan nilai atribut tergantung penerapannya oleh R. Dan untuk levels, atributnya selalu bertipe karakter atau teks. Ini merupakan catatan penting yang sangat berguna dalam pemanfaatan factor lebih jauh.

In [27]:
#Variable factor bernama faktor.bulan dengan nilai teks "Jan", "Feb", dan "Mar"
faktor.bulan <- factor(c("Jan","Feb","Mar"))
attributes(faktor.bulan)

Perhatikan bahwa pada hasilnya terdapat dua atribut, yaitu __levels__ dan __class__ (ditandai dengan tanda \$ pada nama atribut di depannya) dengan nilai-nilai atributnya (perhatikan semua memiliki tanda kutip pada nilainya – yang menandakan nilainya berupa karakter atau teks).

Dan disini terlihat atribut class berisi "factor" – menandakan objek ini memang adalah sebuah factor.

## [6] Function levels dan class pada Factor
Atribut levels dan class dapat juga dilihat dengan function levels dan class dengan input berupa factor, dengan konstruksi sebagai berikut:

> levels(variable)
<br>class(variable)

In [28]:
#Variable factor bernama faktor.bulan dengan nilai teks "Jan", "Feb", dan "Mar"
faktor.bulan <- factor(c("Jan","Feb","Mar"))
levels(faktor.bulan)
class(faktor.bulan)

## [7] Perulangan Nilai pada Factor
Jika pada praktek sebelumnya, factor diisi dengan tiga contoh nilai nama bulan pertama yang tidak berulang. Pada praktek kali ini kita coba akan memasukkan nilai yang berulang, dimana "Jan" dan "Mar" akan dimasukkan berulang.

Berikut adalah contohnya:

In [29]:
factor(c("Jan","Feb","Mar","Jan","Mar","Jan"))

## [8] Bagaimana sebenarnya Factor disimpan?
Di "belakang layar", factor sebenarnya memiliki 2 bagian:
- Vector yang berisi nilai angka bulat (integer).
- Vector yang berisi nilai-nilai kategori, ini disimpan dalam atribut levels – isinya selalu bertipe character / teks.

Untuk penjelasannya, mari kita perhatikan ilustrasi dari perintah factor berikut:
> factor(c("Jan","Feb","Mar"))

Proses ini diilustrasikan pada gambar berikut. Untuk penjelasan, lihat paragraf setelah gambar ini.

![image.png](attachment:image.png)

Proses dari terjemahan perintah di atas :
1. R menerima perintah dengan function factor(c("Jan","Feb","Mar"))
2. R akan mencari variasi nilai (levels) dan diurutkan – dalam hal ini pengurutan alfabet – dan dipetakan berdasarkan index yang bernilai integer.<br>Disini nilai index 1 mewakili "Feb", 2 mewakili "Jan", dan 3 mewakili "Mar"
3. Dari levels, nilai-nilai "Jan", "Feb", "Mar" dicari nilai index-nya dan dimasukkan sebagai nilai-nilai pada factor ( 2, 1, 3 ).

Dan mari kita perhatikan satu lagi contoh ilustrasi dari pengembangan factor di atas :

![image.png](attachment:image.png)

> factor(c("Jan","Feb","Mar","Jan","Mar"))

Penjelasan dari proses di atas :
1. R menerima perintah dengan function factor(c("Jan","Feb","Mar","Jan","Mar"))
2. R akan mencari variasi nilai (levels) dan diurutkan – dalam hal ini pengurutan alfabet – dan dipetakan berdasarkan index yang bernilai integer. <br>Disini nilai index 1 mewakili "Feb", 2 mewakili "Jan", dan 3 mewakili "Mar"
3. Dari levels, nilai-nilai "Jan", "Feb", "Mar","Jan","Mar" dicari nilai index-nya dan dimasukkan sebagai nilai-nilai pada factor ( 2, 1, 3, 2, 3).

Dengan demikian, kita simpulkan kembali dari ilustrasi di atas bahwa nilai dari factor sebenarnya adalah nilai bilangan bulat (integer) dengan nilai-nilai kategoris disimpan pada atribut __levels__.

Praktek-praktek selanjutnya akan memperkuat pemahaman Anda tentang hal ini.

## [9] Penggunaan as.integer pada Factor
Untuk mengambil nilai-nilai index integer pada factor, kita bisa menggunakan function as.integer dengan syntax berikut.
> as.integer(variable factor)

In [30]:
#Buatlah factor dengan teks "Jan", "Feb", "Mar","Jan","Mar", dan "Jan"
factor.bulan <- factor(c("Jan","Feb","Mar","Jan","Mar","Jan"))
as.integer(factor.bulan)

## [10] Mengganti "Jan" menjadi "Januari"
Sering sekali nilai kategori tidak sesuai dengan yang kita inginkan, sebagai contoh kita ingin nilai "Jan" ditampilkan sebagai "Januari". Di factor, kita lakukan ini dengan mengganti nilai levels pada index yang kita inginkan.

Mari kita perhatikan contoh faktor berikut. Terdapat satu variabel factor.bulan dengan levels "Feb", "Jan", dan "Mar".

![image.png](attachment:image.png)

Jika kita ingin ganti "Jan" (posisi ke 2 pada levels) menjadi "Januari", maka perintah yang kita gunakan adalah :
> levels(factor.bulan)[2] <- "Januari"

Berikut adalah penjelasan konstruksi perintah di atas.

| Konstruksi | Keterangan |
| :--------- | :--------- |
| levels(…) | adalah fungsi untuk mengambil levels dari sebuah factor |
| factor.bulan | Variable factor |
| [2] | Posisi kedua – dalam hal ini posisi dari levels |
| <- | Operator assignment atau perintah untuk memasukkan data |
| "Januari" | Nilai yang akan dimasukkan ke levels posisi kedua |

In [31]:
#Buatlah factor dengan teks "Jan", "Feb", "Mar","Jan","Mar", dan "Jan"
factor.bulan <- factor(c("Jan","Feb","Mar","Jan","Mar","Jan"))
#Mengganti levels 
levels(factor.bulan)[2] <- "Januari"
levels(factor.bulan)[3] <- "Maret"
factor.bulan

## [11] Angka sebagai Kategori
Jika sebelumnya kita memasukkan teks sebagai nilai kategori pada saat mendefinisikan factor. Bagaimana dengan angka?

Jika angka dimasukkan ke dalam vector, tetap akan dikenal sebagai nilai kategoris dan dimasukkan ke dalam levels. Dan karena itu angka akan dikonversi menjadi teks.

In [32]:
#Buatlah factor bernama factor.umur dengan isi c(12, 35, 24, 12, 35, 37)
factor.umur <- factor(c(12, 35, 24, 12, 35, 37))
#Tampilkan variable factor.umur 
factor.umur

## [12] NA, NaN, NULL pada saat pembentukan Factor
NA, NULL dan NaN adalah tiga nilai khusus untuk merepresentasikan missing values atau nilai yang hilang di R.

Jika ketiganya dimasukkan ke dalam factor melalui deklarasi vector, maka prinsip berikut tetap berlaku :
- Na dan NaN akan menjadi bagian dari isi factor, NULL akan dihilangkan
- Hanya NaN yang akan dikenali sebagai levels

Sebagai contoh, jika kita membuat factor dengan nilai berikut.

In [33]:
#Buatlah variable factor.lokasi dengan isi berupa vector c("Bandung", "Jakarta", NA, "Jakarta", NaN, "Medan", NULL, NULL, "Bandung") 
factor.lokasi <- factor(c("Bandung", "Jakarta", NA, "Jakarta", NaN, "Medan", NULL, NULL, "Bandung"))
#Tampilkan factor.lokasi
factor.lokasi

Terlihat nilai NULL dibuang di tampilan isi factor, kemudian pada levels nilai NA juga dibuang.

## [13] Menghitung panjang Factor dengan length
Panjang factor dapat dihitung dengan menggunakan function length dengan syntax sederhana berikut.
> length(variable)

Hanya nilai NULL yang tidak terhitung sebagai bagian dari factor.

In [34]:
#Buatlah variable factor.lokasi dengan isi berupa vector c("Bandung", "Jakarta", NA, "Jakarta", NaN, "Medan", NULL, NULL, "Bandung") 
factor.lokasi <- factor(c("Bandung", "Jakarta", NA, "Jakarta", NaN, "Medan", NULL, NULL, "Bandung"))
#Tampilkan panjang dari variable factor.lokasi
length(factor.lokasi)

## [14] Menyusun levels dari awal
Sejauh ini factor yang kita buat seakan-akan hanya bisa dirubah isinya, namun bukan urutannya. Ini kita bisa kendalikan juga dengan memberikan nilai-nilai kategori sesuai urutan yang kita inginkan pada argumen levels di function factors.

> factor(…, levels = …)

Sebagai contoh, agar levels bernilai urut dari "Jan" s/d "Mar" maka pada saat membuat factor kita harus sisipkan argumen labels sebagai berikut :

> factor(…, levels = c("Jan","Feb","Mar")

Cobalah perhatikan contoh ilustrasi dari dua pembuatan factor, dengan dan tanpa argumen levels.

![image.png](attachment:image.png)


In [35]:
#Variable factor dengan isi vector c("Jan","Feb","Mar","Jan","Mar") 
factor(c("Jan","Feb","Mar","Jan","Mar"), levels = c("Jan","Feb","Mar"))

## [15] Kesimpulan
Factor adalah suatu tipe variabel yang intensif digunakan di R – dengan demikian menjadi sangat penting untuk mempelajari Factor ini.

Dari praktek keseluruhan yang telah dilakukan, kita telah mencapai tujuan untuk mempelajari factor dari aspek berikut :
- Apa itu factor dan kenapa diperlukan?
- Kapan factor digunakan
- Cara membuat factor di R
- Bagaimana sebenarnya nilai disimpan di dalam factor
- Menggunakan function untuk merubah nilai factor
- Merubah pengurutan di factor

Dengan menguasai keterampilan menggunakan factor ini, Anda sudah lebih siap untuk melakukan banyak hal di R.

In [36]:
saya = c(1:5)
saya

In [37]:
as.factor(saya)

# Reading from Text and Excel File
Setelah menguasai penanganan data dengan Factor dan missing values. Saatnya kita langsung membaca data asli untuk diolah.

Untuk pembacaan data pada course ini, DQLab membagi ke dalam dua bab. Bab ini dikhususkan untuk membaca data dari file teks dan Excel. Sedangkan di bab lain (pada Part 2) akan difokuskan untuk membaca dari database.

## [1] Pendahuluan
Setelah menguasai penanganan data dengan Factor dan missing values. Saatnya kita langsung membaca data asli untuk diolah.

Untuk pembacaan data pada course ini, DQLab membagi ke dalam dua bab. Bab ini dikhususkan untuk membaca data dari file teks dan Excel. Sedangkan di bab lain (pada Part 2) akan difokuskan untuk membaca dari database.

Kita akan gunakan satu dataset yang sama untuk bab ini, yaitu dataset Kependudukan Jakarta – ini dengan tujuan agar kita tidak bingung dengan banyaknya dataset.

Namun dataset ini akan datang dengan tiga variasi, yaitu :
- Teks file dengan format csv (comma separated value) dengan nama dkikepadatankelurahan2013.csv.
- Teks file dengan format tsv (tab separated value) dengan nama dkikepadatankelurahan2013.tsv.
- File Excel dengan format xlsx dengan nama dkikepadatankelurahan2013.xlsx.

Fokus untuk bab ini adalah membaca ketiga sumber data saja tanpa pengolahan lebih lanjut – agar materi bisa lebih terfokus.

Beberapa bagian dari bab ini hampir sama dari sisi function yang digunakan pada bab Introduction to R dan Data Visualization with ggplot2, namun lebih detil melihat struktur data hasil dari pembacaan file.

## [2] Dataset Kependudukan Jakarta
Dataset yang akan kita gunakan sepanjang praktek course ini adalah data wilayah dan kepadatan kependudukan pemerintah provinsi DKI Jakarta tahun 2013.  

DQLab sudah mengambil dan konversi file ini untuk digunakan dalam praktek kita.

Namun jika diinginkan, sumber dataset ini dapat didownload dari data.go.id dengan url lengkap berikut :
http://data.go.id/dataset/29fa341d-cfa4-4093-b06b-ab1c246d063a/resource/6b73cc66-7e1b-43da-9421-2770997e5242/download/dkikepadatankelurahan2013.xlsx

Data kependudukan dipilih karena hampir seluruh organisasi, termasuk bisnis dan institusi pemerintah memerlukan ini untuk mengambil keputusan strategik. Sebagai contoh, dimana saya perlu membuka toko atau kantor cabang? Produk apa yang bakal laku di area tersebut?

Kemudian struktur dari dataset ini perlu diolah lebih lanjut agar optimal. Atas dasar kedua alasan inilah, data kependudukan dipilih untuk course data wrangling with R.

Berikut adalah tampilan data kependudukan DKI Jakarta tersebut jika dibuka di aplikasi Notepad. Perhatikan tanda pemisah antar kolom adalah menggunakan koma.

![image.png](attachment:image.png)

Dan ini adalah tampilan jika data tersebut dibuka di aplikasi Excel.

![image.png](attachment:image.png)

Terlihat bahwa ada 12 kolom (header dengan huruf H s/d S) yang kosong. Ini akan terbaca sebagai missing value.

Data tersebut memiliki 25 variable kolom dengan penjelasan sebagai berikut :
- __TAHUN :__ Tahun
- __NAMA PROVINSI :__ Nama provinsi di DKI Jakarta, dan nilainya hanya ada satu
- __NAMA KABUPATEN/KOTA :__ Nama kabupaten/kota di DKI Jakarta
- __NAMA KECAMATAN :__ Nama kecamatan di DKI Jakarta
- __NAMA KELURAHAN :__ Nama kelurahan di DKI Jakarta
- __LUAS WILAYAH (KM2) :__ Luas wilayah (km persegi)
- __KEPADATAN (JIWA/KM2) :__ Kepadatan penduduk (jiwa/km2)
- __35-39 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 35-39 tahun
- __35-39 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 35-39 tahun
- __40-44 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 40-44 tahun
- __40-44 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 40-44 tahun
- __45-49 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 45-49 tahun
- __45-49 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 45-49 tahun
- __50-54 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 50-54 tahun
- __50-54 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 50-54 tahun
- __55-59 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 55-59 tahun
- __55-59 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 55-59 tahun
- __60-64 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 60-64 tahun
- __60-64 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 60-64 tahun
- __65-69 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 65-69 tahun
- __65-69 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 65-69 tahun
- __70-74 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur 70-74 tahun
- __70-74 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur 70-74 tahun
- __\>75 Laki-Laki :__ Jumlah penduduk laki-laki dengan rentang umur di atas 75  tahun
- __\>75 Perempuan :__ Jumlah penduduk perempuan dengan rentang umur di atas 75 tahun

Hampir seluruh kolom berisi nilai angka, kecuali empat kolom berikut: __NAMA PROVINSI, NAMA KABUPATEN/KOTA, NAMA KECAMATAN,__ dan __NAMA KELURAHAN__.

## [3] Membaca Dataset CSV
Untuk membaca file versi csv dari dataset kependudukan tersebut kita bisa gunakan function __read.csv__. Function ini akan membaca isi dari file teks tersebut menjadi data.frame di R.

File csv yang akan kita baca berlokasi di url berikut:

https://academy.dqlab.id/dataset/dkikepadatankelurahan2013.csv

Untuk membaca file tersebut kita gunakan function read.csv dengan perintah lengkap sebagai berikut.

penduduk.dki <- read.csv("https://academy.dqlab.id/dataset/dkikepadatankelurahan2013.csv", sep=",")


| Komponen | Deskripsi |
| :------- | :-------- |
| penduduk.dki | nama variable yang digunakan untuk menampung data dari contoh dataset |
| read.csv | function yang digunakan untuk membaca contoh dataset yang berupa file |
| https://academy.dqlab.id/dataset/customer_segments.txt | lokasi dataset yang terdapat di web DQLab. Jika lokasi file dan aplikasi R terdapat di komputer lokal Anda, maka gantilah dengan lokasi file di lokal. Misalkan c:\data\customer_segments.txt |
| sep="," | Parameter pemisah (separator) antar kolom data. Kita gunakan tanda koma untuk dataset penduduk DKI Jakarta. |

Jika terjadi error berikut, cobalah periksa kembali penulisan code – huruf besar, huruf kecil dan juga penulisan lokasi file – dengan teliti.

> Error in file(file, "rt") : cannot open the connection

Jika tidak terjadi error maka langkah selanjutnya adalah menampilkan isi data dengan mengetikkan nama variable pelanggan pada code editor sebagai berikut.

__penduduk.dki__

Hasil eksekusi perintah ini sebagian akan tampak sebagai berikut.

![image.png](attachment:image.png)

Terlihat isi data dari tujuh kolom pertama dan terdapat nomor baris pada tiap data yang ditampilkan.

In [38]:
# Membaca dataset dengan read.csv dan dimasukkan ke variable penduduk.dki
#penduduk.dki <- read.csv("https://academy.dqlab.id/dataset/dkikepadatankelurahan2013.csv", sep=",")
penduduk.dki <- read.csv("dkikepadatankelurahan2013.csv", sep=",")
penduduk.dki

TAHUN,NAMA.PROVINSI,NAMA.KABUPATEN.KOTA,NAMA.KECAMATAN,NAMA.KELURAHAN,LUAS.WILAYAH..KM2.,KEPADATAN..JIWA.KM2.,X,X.1,X.2,...,X55.59.Laki.Laki,X55.59.Perempuan,X60.64.Laki.Laki,X60.64.Perempuan,X65.69.Laki.Laki,X65.69.Perempuan,X70.74.Laki.Laki,X70.74.Perempuan,X.75.Laki.Laki,X.75..Perempuan
2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. PANGGANG,0.91,6779,,,,...,98,106,72,65,36,33,33,20,13,27
2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. KELAPA,3.76,1705,,,,...,30,39,29,24,12,21,13,5,5,8
2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU UTR,P. HARAPAN,3.59,628,,,,...,139,101,73,56,18,35,24,25,18,26
2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. UNTUNG JAWA,0.59,3625,,,,...,97,83,58,56,40,54,26,27,16,13
2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. TIDUNG,1.57,3084,,,,...,37,32,22,13,18,15,10,18,11,17
2013,PROVINSI DKI JAKARTA,KAB.ADM.KEP.SERIBU,KEP. SERIBU SLT,P. PARI,1.39,1968,,,,...,37,36,32,26,21,14,17,11,8,7
2013,PROVINSI DKI JAKARTA,JAKARTA PUSAT,GAMBIR,GAMBIR,2.58,1350,,,,...,108,90,88,42,68,34,37,32,34,23
2013,PROVINSI DKI JAKARTA,JAKARTA PUSAT,GAMBIR,CIDENG,1.26,14584,,,,...,614,537,555,343,413,215,259,142,214,165
2013,PROVINSI DKI JAKARTA,JAKARTA PUSAT,GAMBIR,PETOJO UTARA,1.12,18987,,,,...,680,510,544,421,398,235,241,132,215,159
2013,PROVINSI DKI JAKARTA,JAKARTA PUSAT,GAMBIR,PETOJO SELATAN,1.14,14465,,,,...,539,466,428,279,328,160,215,116,150,121


## [4] Profile Dataset dengan Function str
Adalah praktek yang sangat baik untuk mengenal atau melakukan profile tiap dataset yang sudah dibaca ke dalam R – dan secara sederhana di R dapat kita lakukan dengan perintah str.

Str akan menyajikan informasi tiap kolom dataset dalam format yang compact – satu baris informasi saja per row. Pendekatan singkat dan jelas ini membuat str menjadi function favorit dan efektif untuk mengenal data di tahap awal.

Syntaxnya juga cukup sederhana, cukup masukkan dataset ke dalam function ini seperti pada contoh berikut.

> str(penduduk.dki)

In [39]:
# Membaca dataset dengan read.csv dan dimasukkan ke variable penduduk.dki
#penduduk.dki <- read.csv("https://academy.dqlab.id/dataset/dkikepadatankelurahan2013.csv", sep=",")
penduduk.dki <- read.csv("dkikepadatankelurahan2013.csv", sep=",")
str(penduduk.dki)

'data.frame':	267 obs. of  37 variables:
 $ TAHUN               : int  2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
 $ NAMA.PROVINSI       : Factor w/ 1 level "PROVINSI DKI JAKARTA": 1 1 1 1 1 1 1 1 1 1 ...
 $ NAMA.KABUPATEN.KOTA : Factor w/ 6 levels "JAKARTA BARAT",..: 6 6 6 6 6 6 2 2 2 2 ...
 $ NAMA.KECAMATAN      : Factor w/ 44 levels "CAKUNG","CEMPAKA PUTIH",..: 22 22 22 21 21 21 9 9 9 9 ...
 $ NAMA.KELURAHAN      : Factor w/ 267 levels "ANCOL","ANGKE",..: 165 164 163 168 167 166 55 24 195 194 ...
 $ LUAS.WILAYAH..KM2.  : num  0.91 3.76 3.59 0.59 1.57 1.39 2.58 1.26 1.12 1.14 ...
 $ KEPADATAN..JIWA.KM2.: int  6779 1705 628 3625 3084 1968 1350 14584 18987 14465 ...
 $ X                   : logi  NA NA NA NA NA NA ...
 $ X.1                 : logi  NA NA NA NA NA NA ...
 $ X.2                 : logi  NA NA NA NA NA NA ...
 $ X.3                 : logi  NA NA NA NA NA NA ...
 $ X.4                 : logi  NA NA NA NA NA NA ...
 $ X.5                 : logi  NA NA NA NA NA NA 

Berikut adalah penjelasan dari beberapa hasil tersebut :
- 'data.frame': merupakan tipe data dari variable penduduk.dki.
- 267 obs: menunjukkan adanya 267 total baris data (row) dari dataset ini.
- 37 variables: menunjukkan adanya 37 kolom data pada dataset ini.

Untuk baris di bawahnya adalah penjelasan dari tiap kolom/variable data yang terdiri dari:
- Nama kolom
- Tipe data kolom
- Isi dari kolom tersebut
- Jika Factor maka ada tambahan indexnya

Berikut penjelasan hasil dalam bentuk ilustrasi dari 3 kolom, yaitu TAHUN, NAMA.KELURAHAN, dan X.

![image.png](attachment:image.png)

## [5] Profile Dataset dengan Function summary
Selain perintah str, kita dapat juga menggunakan function summary untuk melihat kondisi dataset kita dalam bentuk ringkasan yang lebih detil.

Sebagai contoh, untuk melihat summary dari variable penduduk.dki maka kita gunakan konstruksi berikut.

> summary(penduduk.dki)

Jika berjalan dengan lancar, maka outputnya akan terlihat hasilnya sebagai berikut.

Untuk angka, maka akan muncul statistik minimum, maximum, mean, meadian, 1st quantile, dan 3rd quantile. Sedangkan untuk nilai lain akan muncul jumlahnya di dataset.

In [40]:
# Membaca dataset dengan read.csv dan dimasukkan ke variable penduduk.dki
penduduk.dki <- read.csv("dkikepadatankelurahan2013.csv", sep=",")
summary(penduduk.dki)

     TAHUN                   NAMA.PROVINSI         NAMA.KABUPATEN.KOTA
 Min.   :2013   PROVINSI DKI JAKARTA:267   JAKARTA BARAT     :56      
 1st Qu.:2013                              JAKARTA PUSAT     :44      
 Median :2013                              JAKARTA SELATAN   :65      
 Mean   :2013                              JAKARTA TIMUR     :65      
 3rd Qu.:2013                              JAKARTA UTARA     :31      
 Max.   :2013                              KAB.ADM.KEP.SERIBU: 6      
                                                                      
        NAMA.KECAMATAN      NAMA.KELURAHAN LUAS.WILAYAH..KM2.
 TAMBORA       : 11    ANCOL       :  1    Min.   : 0.270    
 KEBAYORAN BARU: 10    ANGKE       :  1    1st Qu.: 0.965    
 CIPAYUNG      :  8    BALE KAMBANG:  1    Median : 1.800    
 JATINEGARA    :  8    BALI MESTER :  1    Mean   : 2.487    
 KEMAYORAN     :  8    BAMBU APUS  :  1    3rd Qu.: 3.315    
 SETIA BUDI    :  8    BANGKA      :  1    Max.   :13.070   

## [6] Menggunakan argumen check.names = FALSE
Jika kita perhatikan pada eksekusi read.csv dan hasilnya, terlihat ada kolom dengan prefix X – yaitu X, X.1, X.2, dan seterusnya. Ini terjadi karena read.csv mendeteksi ada nama kolom yang kosong dan lebih dari. Kondisi ini akan secara otomatis "diperbaiki" oleh function read.csv dengan menambahkan prefix X di depan kolom.

Jika kita tidak menginginkan hal tersebut, kita bisa tambahkan argumen check.names = FALSE pada statement read.csv sehingga konstruksinya menjadi:

> read.csv(…, …, check.names = FALSE)

In [41]:
# Membaca dataset dengan read.csv dan dimasukkan ke variable penduduk.dki
penduduk.dki <- read.csv("dkikepadatankelurahan2013.csv", sep=",",check.names = FALSE)
str(penduduk.dki)

'data.frame':	267 obs. of  37 variables:
 $ TAHUN               : int  2013 2013 2013 2013 2013 2013 2013 2013 2013 2013 ...
 $ NAMA PROVINSI       : Factor w/ 1 level "PROVINSI DKI JAKARTA": 1 1 1 1 1 1 1 1 1 1 ...
 $ NAMA KABUPATEN/KOTA : Factor w/ 6 levels "JAKARTA BARAT",..: 6 6 6 6 6 6 2 2 2 2 ...
 $ NAMA KECAMATAN      : Factor w/ 44 levels "CAKUNG","CEMPAKA PUTIH",..: 22 22 22 21 21 21 9 9 9 9 ...
 $ NAMA KELURAHAN      : Factor w/ 267 levels "ANCOL","ANGKE",..: 165 164 163 168 167 166 55 24 195 194 ...
 $ LUAS WILAYAH (KM2)  : num  0.91 3.76 3.59 0.59 1.57 1.39 2.58 1.26 1.12 1.14 ...
 $ KEPADATAN (JIWA/KM2): int  6779 1705 628 3625 3084 1968 1350 14584 18987 14465 ...
 $                     : logi  NA NA NA NA NA NA ...
 $                     : logi  NA NA NA NA NA NA ...
 $                     : logi  NA NA NA NA NA NA ...
 $                     : logi  NA NA NA NA NA NA ...
 $                     : logi  NA NA NA NA NA NA ...
 $                     : logi  NA NA NA NA NA NA 

Beberapa penjelasan terkait perbedaan hasil di atas dengan hasil pada praktek sebelumnya:
- Nama spasi tidak dijadikan titik.
- Nama yang kosong tidak diberi tanda X, ini akan menyulitkan ketika kita ingin mereferensikan nama kolom kosong tersebut.

## [7] Membaca Tab Separated Value (TSV)
Untuk membaca file versi tsv dimana pemisah antar field adalah karakter tabulasi (tab) dari dataset kependudukan tersebut kita tetap gunakan function read.csv.

Perbedaannya hanyalah di argumen separator dimana sebelumnya adalah tanda koma (,), maka untuk tsv perlu diganti menjadi backslash t (\t) sehingga sep="\t".

Jika berjalan lancar maka hasil outputnya akan terlihat seperti pada saat kita membaca file csv.

In [42]:
# Membaca dataset dengan read.csv dan dimasukkan ke variable penduduk.dki
penduduk.dki <- read.csv("dkikepadatankelurahan2013.tsv", sep="\t")
penduduk.dki

"cannot open file 'dkikepadatankelurahan2013.tsv': No such file or directory"

ERROR: Error in file(file, "rt"): cannot open the connection


## [8] Membaca Dataset File Excel dengan read.xlsx
Jika membaca file teks berformat csv dan tsv hampir sama, maka untuk membaca file versi Excel dari dataset kependudukan tersebut kita perlu gunakan function read.xlsx dari library lain yang bernama openxlsx.

Function ini akan membaca isi dari file Excel menjadi data.frame di R.

In [None]:
library(openxlsx)
# Membaca dataset dengan read.xlsx dan dimasukkan ke variable penduduk.dki
penduduk.dki.xlsx <- read.xlsx(xlsxFile="dkikepadatankelurahan2013.xlsx")
str(penduduk.dki.xlsx)

Terlihat perbedaan penting ketika kita membaca dengan read.xlsx dengan read.csv dan read.tsv secara default.

Beberapa diantaranya adalah sebagai berikut:
- Karakter non karakter dan spasi seperti garis miring dan tanda kurung tetap ditampilkan apa adanya. Sedangkan jika menggunakan read.csv dan read.tsv akan diganti menjadi tanda titik.

![image.png](attachment:image.png)

- Seluruh kolom akan diubah menjadi vector, sedangkan pada read.csv beberapa kolom akan menjadi factor.
- Vector teks yang berulang akan tetap dibiarkan apa adanya, tidak diubah menjadi factor. Ini akan mengakibatkan beberapa masalah, salah satunya adalah pada saat plotting data – yang akan kita lihat pada praktek berikutnya.
- Kolom kosong – dimana jika kita gunakan read.csv akan diisi dengan nama X, X.1, X.2, dan seterusnya – dihilangkan oleh fungsi read.xlsx ini.

![image.png](attachment:image.png)

## [9] Kesimpulan
Anda telah menyelesaikan bab tentang membaca sumber data dengan tiga format, yaitu:
- File teks berformat comma separated value (csv)
- File teks berformat tab separated value (tsv)
- File Excel berformat xlsx

Walaupun terlihat sederhana dan pendek dibanding bab lain, namun beberapa praktek pada bab ini memiliki metodologi dan fungsi penting yakni :
- Bagaimana kita melakukan profil dengan function str dari tiap kali pembacaan file.
- Dapat mengerti output yang dihasilkan oleh function str.
- Dengan demikian, kita menjadi aware atau lebih perhatian karena perilaku yang berbeda ketika menangani kolom kosong dan juga pada saat penamaan variable kolom.

Dengan menguasai praktek-praktek ini, Anda akan lebih siap untuk "memperbaiki" struktur dan isi file tersebut jika diperlukan.

# Structure Transformation
Bab ini membahas pengolahan data hasil pembacaan file seperti pemisahan, penggabungan kolom, dan normalisasi - sehingga lebih siap digunakan untuk tahap analisa

## [1] Pendahuluan
Pada bab sebelumnya, terlihat file teks dan Excel yang dibaca memiliki masalahnya sendiri-sendiri. Sebagai contoh, read.csv mengakomodir kolom-kolom kosong sehingga harus kita buang. Sedangkan read.xlsx tidak menghasilkan Factor sehingga kita perlu waktu dan tenaga tambahan untuk mengidentifikasi dan mengolah kolom yang bersifat kategorik tersebut dengan melakukan konversi kolom tersebut menjadi Factor.

Selain itu terlihat juga ada beberapa kolom yang harusnya bisa dijumlahkan menjadi satu kolom – yaitu kolom 35-39.Perempuan, 40-44.Perempuan, dan seterusnya – menjadi kolom jumlah. Kemudian informasi umur di nama kolom tersebut sebenarnya dapat kita pisahkan menjadi kolom tersendiri.

Perkenalan function dan latihan untuk transformasi struktur seperti ini akan dilakukan sepanjang bab ini.

## [2] Function names
Pada bab sebelumnya, kita menggunakan function str untuk melihat ringkasan dari struktur nama, tipe data, dan isi dari data.frame hasil pembacaan file.

Namun jika kita hanya ingin melihat nama-nama kolom saja, bisa menggunakan function bernama names, dengan konstruksi berikut.

> names(variable)

In [None]:
# Membaca dataset csv
penduduk.dki.csv <-read.csv("dkikepadatankelurahan2013.csv", sep=",")

# Menggunakan names untuk variable penduduk.dki.csv
names(penduduk.dki.csv)

## [3] Merubah Satu Nama Kolom
Function names ini juga bisa digunakan merubah nama kolom pada data.frame. Untuk merubahnya kita gunakan konstruksi berikut :
> names(variable)[posisi] <- "nama_baru"

Dengan posisi adalah nomor indeks dari posisi nama kolom yang ingin diubah. Berikut adalah contoh dimana kita merubah nama kolom dari TAHUN ke PERIODE (posisi 1) dari dataset kita.
>names(penduduk.dki.csv)[1] <- "PERIODE"

In [None]:
# Membaca dataset csv
penduduk.dki.csv <-read.csv("dkikepadatankelurahan2013.csv", sep=",")
names(penduduk.dki.csv)[1] <- "PERIODE"
names(penduduk.dki.csv)[2] <- "PROPINSI"
names(penduduk.dki.csv)

## [4] Merubah Sejumlah Nama Kolom
Perintah untuk merubah dua kolom pada praktek sebelumnya bisa disingkat dengan konstruksi berikut :
> names(variable)[c(rentang_posisi)] <- c("nama_baru_1", "nama_baru_2")

Dengan rentang_posisi adalah daftar nomor dari posisi indeks dari nama kolom yang ingin diubah. Berikut adalah contoh dimana kita merubah nama kolom dari TAHUN ke PERIODE (posisi 1) dari dataset kita.
> names(penduduk.dki.csv)[c(1:2)] <- c("PERIODE", "PROPINSI")

In [None]:
# Membaca dataset csv
penduduk.dki.csv <-read.csv("dkikepadatankelurahan2013.csv", sep=",")
names(penduduk.dki.csv)[c(1:2)] <- c("PERIODE","PROPINSI")
names(penduduk.dki.csv)

## [5] Membuang Kolom dengan Bantuan Operator %in%
Pada bab sebelumnya, data.frame hasil pembacaan read.csv memiliki kolom X, X.1, X.2, X.3 s/d kolom X.11 yang kosong semua dan sebenarnya tidak diperlukan.

Kita dapat menghilangkan kolom-kolom ini dengan contoh berikut:
> penduduk.dki.csv <- penduduk.dki.csv[,!names(penduduk.dki.csv) %in% c("X","X.1","X.2","X.3","X.4","X.5","X.6","X.7","X.8","X.9","X.10")]

Penjelasan tiap elemen dari perintah tersebut adalah sebagai berikut.

| Komponen | Deskripsi |
| :------- | :-------- |
| penduduk.dki.csv | Variable data frame dari hasil pembacaan dataset |
| [ , …] | Artinya data frame mengambil kolom ke … |
| ! | Tanda bukan |
| names(penduduk.dki.csv) | Daftar dari semua kolom dari variable penduduk.dki.csv |
| %in% | Operator untuk mengambil data dari vector setelahnya |
| c("X","X.1","X.2","X.3","X.4","X.5","X.6","X.7","X.8","X.9","X.10") | Vector dari nama semua kolom yang akan dibuang |

Atau terjemahan dari seluruh konstruksi tersebut adalah mengambil data dari data.frame penduduk.dki.csv dengan kolom-kolom yang tidak termasuk pada "X", "X.1", "X.2", "X.3", dan seterusnya sampai dengan "X.10".

In [None]:
# Membaca dataset csv
penduduk.dki.csv <-read.csv("dkikepadatankelurahan2013.csv", sep=",")

# Membuang kolom X, X.1, X.2 s/d X.11
penduduk.dki.csv <- penduduk.dki.csv[,!names(penduduk.dki.csv) %in% c("X", "X.1","X.2","X.3","X.4","X.5","X.6","X.7","X.8","X.9","X.10","X.11")]
names(penduduk.dki.csv)

## [6] Merubah Tipe Kolom menjadi Factor
Kita akan beralih sekarang ke dataset kependudukan DKI versi Excel, dimana terdapat perbedaan perilaku antara read.xlsx dan read.csv, yaitu secara default read.xlsx tidak mengkonversi kolom kategorik sebagai teks (character).

Untuk melakukan konversi sebagai factor, kita gunakan function as.factor. Berikut adalah konstruksi konversi dari satu kolom data.frame.
> as.factor(data.frame$namakolom)

Jika berjalan dengan lancar, maka hasilnya akan tampak sebagai berikut – perhatikan jika  NAMA.PROVINSI sudah bertipe Factor, sedangkan kolom lain seperti NAMA.KABUPATEN/KOTA yang harusnya bertipe Factor masih bertipe character (chr).

In [None]:
library(openxlsx)
# Membaca dataset dengan read.xlsx dan dimasukkan ke variable penduduk.dki
penduduk.dki.xlsx <- read.xlsx(xlsxFile="dkikepadatankelurahan2013.xlsx")
penduduk.dki.xlsx$NAMA.PROVINSI <- as.factor(penduduk.dki.xlsx$NAMA.PROVINSI)
str(penduduk.dki.xlsx)

## [7] Mengambil Kolom Laki.Laki / Perempuan dengan grep
Kalau kita perhatikan pada dataset kependudukan DKI, kolom-kolom untuk jumlah penduduk berdasarkan umur dan jenis kelamin bentuknya adalah seperti berikut.

![image.png](attachment:image.png)

Dengan ada pola nama seperti itu, kita bisa mengambil dengan function grep dengan syntax berikut.
> grep(pattern="pola", x = vector, ignore.case=TRUE)

Pola teks yang digunakan oleh grep adalah menggunakan regular expression (regex). Regex sendiri adalah konstruksi pola yang sangat komplit untuk mengolah teks, namun untuk case kita gunakan teks sederhana saja sebagai berikut:
- "laki-laki": untuk mengambil pola kolom yang mengandung teks Laki-Laki.
- "perempuan": untuk mengambil pola kolom yang mengandung teks "Perempuan".
- "(perempuan|laki-laki)": untuk mengambil pola kolom yang mengandung teks "Perempuan" ataupun "Laki-Laki".

Argumen x dimana kita memasukkan vector. Dan ignore.case = TRUE menyatakan bahwa pola yang kita tidak bersifat case sensitive – artinya huruf besar tidak dibedakan dari huruf kecil.

Function grep ini akan mengembalikan posisi-posisi indeks dari vector yang ditemukan polanya.

Sebagai contoh, untuk mengambil kolom yang mengandung "Perempuan" pada nama-nama kolom dari dataset kependudukan kita gunakan perintah berikut:
> grep(pattern="perempuan", x = names(penduduk.dki.xlsx), ignore.case=TRUE)

Ini akan menghasilkan vector berikut.
> [1]  9 11 13 15 17 19 21 23 25

In [None]:
library(openxlsx)
penduduk.dki.xlsx <- read.xlsx(xlsxFile="dkikepadatankelurahan2013.xlsx")

# Tampilkan nama-nama kolom yang mengandung kata "perempuan".
pola_nama_perempuan <- grep(pattern="perempuan", x = names(penduduk.dki.xlsx), ignore.case=TRUE)
print(pola_nama_perempuan)
names(penduduk.dki.xlsx[pola_nama_perempuan])

# Tampilkan nama-nama kolom yang mengandung kata "laki-laki"
pola_nama_laki_laki <- grep(pattern="laki-laki", x = names(penduduk.dki.xlsx), ignore.case=TRUE)
print(pola_nama_laki_laki)
names(penduduk.dki.xlsx[pola_nama_laki_laki])

## [8] Menambahkan kolom Penjumlahan
Kita dapat menambahkan kolom pada data.frame langsung dengan menggunakan simbol subscript $ diikuti dengan nama kolom baru yang kita kehendaki. Misalkan untuk membuat kolom PEREMPUAN35TAHUNKEATAS pada variable penduduk.dki.xlsx, kita bisa menuliskan :
> penduduk.dki.xlsx\$PEREMPUAN35TAHUNKEATAS

Kolom baru ini kita bisa isi, misalkan dengan penjumlahan dari kolom-kolom dari dataset itu sendiri meggunakan function rowSums dari kolom-kolom data.frame. Syntaxnya adalah sebagai berikut:
> rowSums(data.frame)

Sebagai contoh – menyambung dari praktek sebelumnya juga – untuk menjumlahkan kolom yang mengandung teks "perempuan" sebagai berikut:
> rowSums(penduduk.dki.xlsx[,grep(pattern="perempuan", x = names(penduduk.dki.xlsx), ignore.case=TRUE)])

Dan untuk menambahkan hasil penjumlahan ini ke kolom baru di atas, kita gabungkan perintahnya dalam bentuk sebagai berikut.
> penduduk.dki.xlsx$PEREMPUAN35TAHUNKEATAS <- rowSums(penduduk.dki.xlsx[grep(pattern="perempuan", x = names(penduduk.dki.xlsx), ignore.case=TRUE)])


In [None]:
library(openxlsx)
penduduk.dki.xlsx <- read.xlsx(xlsxFile="dkikepadatankelurahan2013.xlsx")

# Tampilkan nama-nama kolom yang mengandung kata "perempuan".
pola_nama_perempuan <- grep(pattern="perempuan", x = names(penduduk.dki.xlsx), ignore.case=TRUE)
penduduk.dki.xlsx$PEREMPUAN35TAHUNKEATAS <- rowSums(penduduk.dki.xlsx[pola_nama_perempuan])

In [None]:
str(penduduk.dki.xlsx)

## [9] Normalisasi Data dari Kolom ke Baris
Kalau kita perhatikan lima kolom data pada table berikut di bawah ini – yang diambil dari dataset kependudukan DKI – maka dua kolom terakhir (berwarna kuning dan hijau) sebenarnya mengandung tiga variable, yaitu: rentang umur, jenis kelamin, dan jumlah penduduk.

![image.png](attachment:image.png)

Dan dari sisi prinsip kerapian data, satu variable data harusnya masing-masing menempati satu kolom tersendiri. Dan berdasarkan prinsip tersebut, kolom "NAMA.KECAMATAN" dan "NAMA.KELURAHAN" yang berwarna biru sudah memenuhi persyaratan. Namun kolom "35-39.Laki-Laki" dan kolom "35-39.Perempuan"  tidak memenuhi persyaratan.  

Kita akan coba merapikan ini dengan dua tahap :
- Melakukan normalisasi kolom dari baris ke kolom
- Memisahkan kolom

Kita mulai dari tahap pertama pada praktek kali ini, dimana kita akan merubah struktur data di atas menjadi berikut.

![image.png](attachment:image.png)

Terlihat nama kolom "35-39.Laki-Laki" dan "35-39.Perempuan" dipivot menjadi nilai baris data di bawah kolom "DEMOGRAFIK".

Kemudian angka-angka jumlah penduduk yang tadinya di bawah kedua kolom tersebut sekarang ada di bawah kolom "JUMLAH".

Untuk melakukan transformasi struktur ini, kita akan gunakan function melt dari package reshape2. Berikut adalah contoh penggunaannya :
> melt(data=penduduk.dki.xlsx, id.vars=c( "NAMA.KECAMATAN", "NAMA.KELURAHAN"), measure.vars = c("35-39.Laki-Laki", "35-39.Perempuan"), variable.name = "DEMOGRAFIK", value.name="JUMLAH")

Penjelasan dari perintah tersebut adalah sebagai berikut :

| Elemen | Deskripsi |
| :----- | :-------- |
| melt | Function untuk melakukan transformasi dari kolom ke baris |
| data=penduduk.dki.xlsx | Argumen data yang diisi dengan variable penduduk.dki.xlsx, yaitu data frame hasil pembacaan dari file Excel data kependudukan DKI |
| id.vars= c( "NAMA.KECAMATAN", "NAMA.KELURAHAN") | Vector dari field-field kolom yang akan menjadi identitas – dimana field tidak akan mengalami transformasi tapi tetap diambil |
| measure.vars = c("35-39.Laki-Laki", "35-39.Perempuan") | Nama variable hasil transformasi |
| variable.name= "DEMOGRAFIK" | Nama variable untuk menampung nama kolom transformasi |
| value.name= "JUMLAH" | Nama variable untuk menampung isi data dari kolom transformasi |

In [None]:
library(openxlsx)
library(reshape2)
penduduk.dki.xlsx <- read.xlsx(xlsxFile="dkikepadatankelurahan2013.xlsx")

# Transformasi kolom dataset penduduk.dki.xlsx, disimpan ke variable penduduk.dki.transform
penduduk.dki.transform <- melt(data=penduduk.dki.xlsx, id.vars=c( "NAMA.KECAMATAN", "NAMA.KELURAHAN"), measure.vars = c("35-39.Laki-Laki", "35-39.Perempuan"), variable.name = "DEMOGRAFIK", value.name="JUMLAH")

# Menampilkan variable penduduk.dki.transform
penduduk.dki.transform

## [10] Split Fields
Pada praktek sebelumnya, kita telah melakukan transformasi data kolom ke baris seperti berikut.

![image.png](attachment:image.png)

Tahap selanjutnya adalah memisahkan kolom "DEMOGRAFIK" yang memiliki dua informasi ini menjadi dua kolom – yaitu "RENTANG UMUR" dan "JENIS KELAMIN".

![image.png](attachment:image.png)

Untuk mencapai tujuan ini, kita akan menggunakan tiga konstruksi perintah.

Perintah pertama adalah menggunakan function colsplit sebagai berikut.

> colsplit(penduduk.dki.transform$DEMOGRAFIK,"\\.",c("RENTANG.UMUR","JENIS.KELAMIN"))

Berikut adalah penjelasan dari perintah di atas.

| Komponen | Deskripsi |
| :------- | :-------- |
| colsplit | Function untuk memecah satu variable menjadi beberapa variable |
| "\\." | Karakter pemisah, dalam hal ini tanda titik (.). Khusus untuk tanda titik harus diisi dengan didahului backslash dua kali |
| c("RENTANG.UMUR", "JENIS.KELAMIN") | Vector yang berisi nama-nama variable baru hasil pemecahan variable |


Perintah kedua adalah perintah untuk memasukkan variable hasil pecahan ke dalam dua kolom di data.frame dengan cara berikut.

> penduduk.dki.transform[c("RENTANG.UMUR", "JENIS.KELAMIN")] <- …

Berikut adalah penjelasan dari perintah di atas.

| Komponen | Deskripsi |
| :------- | :-------- |
| penduduk.dki.transform | Artinya data frame mengambil kolom ke … |
| […] | Simbol karakter untuk index |
| c("RENTANG.UMUR", "JENIS.KELAMIN") | Vector yang berisi nama-nama variable baru |


Dan perintah ketiga adalah menghilangkan kolom DEMOGRAFIK dari data frame sebagai berikut.

> penduduk.dki.transform$DEMOGRAFIK <- NULL

Dengan memasukkan NULL maka kolom akan DEMOGRAFIK akan dihilangkan dari data.frame penduduk.dki.transform.

In [None]:
library(openxlsx)
library(reshape2)
penduduk.dki.xlsx <- read.xlsx(xlsxFile="dkikepadatankelurahan2013.xlsx")
penduduk.dki.transform <- melt(data=penduduk.dki.xlsx, id.vars=c( "NAMA.KECAMATAN", "NAMA.KELURAHAN"), measure.vars = c("35-39.Laki-Laki", "35-39.Perempuan"), variable.name = "DEMOGRAFIK", value.name="JUMLAH") 

# Memecah isi kolom DEMOGRAFIK menjadi "RENTANG.UMUR" dan "JENIS.KELAMIN"
penduduk.dki.transform[c("RENTANG.UMUR", "JENIS.KELAMIN")]  <- colsplit(penduduk.dki.transform$DEMOGRAFIK,"\\.",c("RENTANG.UMUR","JENIS.KELAMIN"))
penduduk.dki.transform$DEMOGRAFIK <- NULL
penduduk.dki.transform

## [11] Kesimpulan
Pada bab ini Anda telah mempelajari bagaimana merubah struktur suatu data.frame sehingga nantinya akan lebih mudah untuk diolah pada proses berikutnya.

Operasi perubahan itu antara lain adalah:
- Merubah nama satu dan beberapa kolom
- Membuang kolom
- Merubah tipe kolom
- Mengambil kolom dengan pola tertentu
- Menambah kolom
- Normalisasi atau transpose data
- Memecah data dengan split data

Kami sarankan agar Anda sering melakukan latihan untuk hal ini. Sehingga pada saat masuk ke materi Part 2 dari data wrangling akan lebih lancar.

# Penutup Data Wrangling Part 1
Penutup Data Wrangling Part 1

## [1] Penutup - Part 1
Selamat, Anda telah menuntaskan bagian pertama dari course Data Wrangling with R yang mempelajari dan mempraktekkan materi berikut:
- Missing Value.
- Struktur data kategori bernama Factor.
- Membaca file-file teks dan Excel – yang paling banyak ditemui sehari-hari.
- Melakukan perubahan struktur data sehingga cocok digunakan lebih lanjut.

## [2] What Next?
Setelah course Part 1 ini selesai, maka fokus selanjutnya pada Part 2 adalah melakukan transformasi isi dimana kita perlu bekerja dengan teks, tanggal, angka, dan missing value.

Selain itu, pada Part 2 juga akan dipraktekkan metode pembacaan data dari database, enrichment dan pencarian data duplikat.