
# Data Wrangling

## Apa itu Data Wrangling?
- Disebut juga dengan *Data Munging*
- Proses untuk mentransformasi data mentah menjadi format yang diinginkan.
- Transformasi tersebut termasuk membersihkan, menstrukturkan, dan mengubah format data.
- Setelah data ditransformasi menjadi bentuk yang sesuai, maka dapat dilakukan proses lebih lanjut seperti:
    - Analisis data
    - Agregasi data
    - Visualisasi data
    - Membuat model statistik/prediksi
    - dll

## Data Wrangling dalam Python
Pada pertemuan sebelumnya telah dibahas struktur data dasar pada Python seperti:
* Tuple
* List
* Set
* Dictionary

**Contoh Tuple dan List**

In [1]:
tuple_1 = ('mangga','jeruk','nanas','apel','salak')
print(tuple_1)

('mangga', 'jeruk', 'nanas', 'apel', 'salak')


In [2]:
nested_list = [[2, 5, 4],[3, 4, 7],[8, 2, 7]]
print(nested_list)

[[2, 5, 4], [3, 4, 7], [8, 2, 7]]


**Contoh Set dan Dictionary**

In [3]:
set_1 = {1,3,4,4,5,4,7,7,6,5,2}
print(set_1)

{1, 2, 3, 4, 5, 6, 7}


In [4]:
dict_1 = {'Budi':{'IPA':80, 'IPS':90}, 'Tono':{'IPA':95, 'IPS':77}}
print(dict_1)

{'Budi': {'IPA': 80, 'IPS': 90}, 'Tono': {'IPA': 95, 'IPS': 77}}


### Permasalahan

Dengan tipe struktur data di atas, kita sudah bisa memanipulasi data. Namun, bagaimana jika data yang dianalisis berbentuk tabular seperti ini?

<img src="https://d13ot9o61jdzpp.cloudfront.net/images/tabular_data_1_the_perfect_format.png" alt="Drawing" width= 500px;/>

<small>[Source](https://d13ot9o61jdzpp.cloudfront.net/images/tabular_data_1_the_perfect_format.png)</small>

Data tabular seperti itu seringkali disimpan dalam format `.xlsx` atau `.csv`. Sehingga akan cukup sulit jika kita ingin mengolah data tersebut kedalam struktur data dasar. Walaupun secara praktek sebenarnya dapat dilakukan.

### Pandas
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png" alt="Drawing" width= 300px;/>

<small>[Source](https://upload.wikimedia.org/wikipedia/commons/thumb/e/ed/Pandas_logo.svg/1200px-Pandas_logo.svg.png)</small>

Untuk mempermudah kita untuk menganalisis data maka kita dapat menggunakan `library` tambahan di dalam Python yang disebut dengan **Pandas**.
* Library ini dibuat khusus untuk kebutuhan manipulasi data dan analisis data pada Python.
* Pandas bersifat _open-source_, sehingga dapat diunduh dengan bebas.

#### Menggunakan Pandas

* Sebelum menggunakan pandas, maka kita harus memastikan di dalam sistem kita sudah terinstall pandas.
* Jika belum, maka dapat digunakan perintah `pip install pandas` pada terminal / command prompt.
* Untuk menggunakan pandas, langkah pertama yang dilakukan adalah dengan _import_ library pandas.

In [5]:
import pandas as pd

* Pada perintah diatas kita mengimport `pandas` sebagai `pd`.
* Yang berarti untuk selanjutnya kita dapat memanggil `pandas` dengan `pd`.

#### Struktur Data Pandas

* Sebelum masuk lebih jauh, akan dikenalkan dulu tipe struktur data pada `pandas`.
* Jika Python memiliki struktur data seperti `tuple`,`list`,`dictionary`, dll.
* Maka Pandas memiliki dua tipe struktur data utama yang bernama `Series` dan `DataFrame`

##### Series

* Series adalah struktur data satu dimensi pada Pandas.
* Jika diibaratkan, Series adalah `list` satu dimensi pada Python.
* Kita dapat membuat `Series` dari `list` sederhana.

In [6]:
list_city = ['Bern','Zurich','Lausanne','Geneva','Basel']

In [7]:
series_city = pd.Series(list_city)

print(series_city)

0        Bern
1      Zurich
2    Lausanne
3      Geneva
4       Basel
dtype: object


In [8]:
list_number = [1,3,5,7,9,11]
series_number = pd.Series(list_number)

print(series_number)

0     1
1     3
2     5
3     7
4     9
5    11
dtype: int64


In [9]:
type(series_city)

pandas.core.series.Series

* Series pada pandas terdiri dari beberapa komponen.
* Angka di sebelah kiri merupakan index dari suatu nilai.
* Komponen di sebelah kanan adalah nilai dari Series.
* Di bagian bawah terdapat informasi tipe data yang digunakan.

##### DataFrame

* DataFrame adalah struktur data yang merepresentasikan data tabular.
* Konsepnya sama dengan spreadsheet pada Microsoft Excel.
* Dapat memiliki tipe elemen yang berbeda di dalamnya.
* Bentuk paling sederhana dari `DataFrame` dapat dibuat dari `dictionary` 

In [10]:
data = {'state':['Ohio','Nevada','Washington','Texas','Texas','California'],
        'year':[2000,2001,2002,2004,2006,2003],
        'pop':[1.5,1.7,1.6,1.8,2.1,2.5]}

In [11]:
type(data)

dict

In [12]:
df_data = pd.DataFrame(data)

print(df_data)

        state  year  pop
0        Ohio  2000  1.5
1      Nevada  2001  1.7
2  Washington  2002  1.6
3       Texas  2004  1.8
4       Texas  2006  2.1
5  California  2003  2.5


In [13]:
df_data

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Nevada,2001,1.7
2,Washington,2002,1.6
3,Texas,2004,1.8
4,Texas,2006,2.1
5,California,2003,2.5


In [14]:
type(df_data)

pandas.core.frame.DataFrame

**Cara lain mendefinisikan pandas:**

In [15]:
data = [
    {'state': 'Ohio', 'year': 2000, 'pop': 1.5},
    {'state': 'Nevada', 'year': 2001, 'pop': 1.7},
    {'state': 'Washington', 'year': 2002, 'pop': 1.8},
    {'state': 'Texas', 'year': 2004, 'pop': 1.8},
    {'state': 'Texas', 'year': 2006, 'pop': 2.1},
    {'state': 'California', 'year': 2003, 'pop': 2.5}
]

In [16]:
type(data)

list

In [17]:
df_data = pd.DataFrame(data)

print(df_data)

        state  year  pop
0        Ohio  2000  1.5
1      Nevada  2001  1.7
2  Washington  2002  1.8
3       Texas  2004  1.8
4       Texas  2006  2.1
5  California  2003  2.5


In [18]:
df_data

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Nevada,2001,1.7
2,Washington,2002,1.8
3,Texas,2004,1.8
4,Texas,2006,2.1
5,California,2003,2.5


* DataFrame terdiri dari beberapa komponen.
* Kolom paling kiri merupakan indeks dari data.
* Di bagian atas merupakan nama dari tiap-tiap kolom.
* Di bagian tengah adalah data yang dimasukkan.

### Note

* Masih banyak detil yang dapat dipelajari dari kedua objek tersebut.
* Detil lebih lanjut akan dipelajari pada kelas Data Wrangling