# 2. Tidying data for analysis

Pelajari tentang prinsip-prinsip *tidy* data (data yang rapi), dan yang lebih penting, mengapa Anda harus memperhatikannya dan bagaimana mereka membuat analisis data lebih efisien. Anda akan memperoleh pengalaman langsung dengan membentuk kembali dan merapikan data menggunakan teknik seperti *pivoting* dan *melting*.

## Tidy Data

### Recognizing tidy data

Agar data rapi, harus memiliki:
* Setiap kolom mengandung tepat satu variabel.
* Setiap baris berisi tepat satu pengamatan.

Namun, apa yang merupakan pengamatan unik tergantung pada kasus penggunaan Anda. Sebagai seorang ilmuwan data, Anda akan menjumpai data yang direpresentasikan dalam berbagai cara yang berbeda, sehingga penting untuk dapat memahami dan menggambarkan struktur data Anda.

Dalam latihan ini, dua contoh dataset telah dimuat sebelumnya ke dalam DataFrames `df1` dan `df2`. Mereka berisi data yang sama, tetapi disusun dengan cara yang berbeda. Tugas Anda adalah untuk mengeksplorasi ini lebih lanjut dalam Shell IPython dan menjawab pertanyaan di bawah ini.

Catatan sebelum melanjutkan. Di sisa kursus ini, Anda akan sering diminta untuk menjelajahi struktur DataFrames di IPython Shell sebelum melakukan operasi yang berbeda pada mereka. Melakukan hal ini tidak hanya akan memperkuat pemahaman Anda tentang konsep pembersihan data yang dicakup dalam kursus ini, tetapi juga akan membantu Anda menyadari dan memanfaatkan hubungan antara bekerja di Shell dan dalam skrip.

Manakah dari pernyataan berikut ini yang benar?

**Answer** : Dalam kedua set data, Date mengidentifikasi setiap pengamatan.

**Note** : Kedua format rapi karena berbagai alasan, satu fokus pada pengukuran sensor individu, dan yang lainnya fokus pada pengukuran harian. Ketika Anda mendapatkan data ke dalam format yang rapi, lebih mudah untuk mengubahnya menjadi apa pun yang sesuai dengan kebutuhan Anda.

### Reshaping your data using melt

Melting data adalah proses mengubah kolom data Anda menjadi baris data. Pertimbangkan DataFrames dari latihan sebelumnya. Dalam DataFrame yang rapi, variabel `Ozone`, `Solar.R`, `Wind`, dan `Temp` masing-masing memiliki kolom sendiri. Namun, jika Anda ingin variabel-variabel ini berada di baris, Anda bisa melelehkan (*melt*) DataFrame. Namun, dengan melakukan itu, Anda akan membuat data berantakan! Hal ini penting untuk diingat: Bergantung pada bagaimana data Anda diwakili, Anda harus membentuk kembali secara berbeda (mis., Ini dapat memudahkan untuk memplot nilai).

Dalam latihan ini, Anda akan berlatih melting DataFrame menggunakan `pd.melt()`. Ada dua parameter yang harus Anda perhatikan: `id_vars` dan `value_vars`. `id_vars` mewakili kolom data yang Anda tidak ingin meleleh (mis., Tetap dalam bentuk saat ini), sedangkan `value_vars` mewakili kolom yang ingin Anda cairkan ke dalam baris. Secara default, jika `value_vars` tidak disediakan, semua kolom yang tidak disetel dalam `id_vars` akan dilebur. Ini bisa menghemat sedikit pengetikan, tergantung pada jumlah kolom yang perlu dilebur.

DataFrame (tidy) `airquality` telah dimuat sebelumnya. Tugas Anda adalah mencairkan kolom `Ozone`, `Solar.R`, `Wind`, dan `Temp` menjadi baris. Kemudian di bab ini, Anda akan belajar cara mengembalikan DataFrame yang meleleh ini ke bentuk yang rapi.

In [1]:
import pandas as pd

url = 'https://assets.datacamp.com/production/repositories/666/datasets/c16448e3f4219f900f540c455fdf87b0f3da70e0/airquality.csv'
airquality = pd.read_csv(url)

In [3]:
airquality.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp,Month,Day
0,41.0,190.0,7.4,67,5,1
1,36.0,118.0,8.0,72,5,2
2,12.0,149.0,12.6,74,5,3
3,18.0,313.0,11.5,62,5,4
4,,,14.3,56,5,5


In [4]:
# Print the head of airquality
print(airquality.head())

# Melt airquality: airquality_melt
airquality_melt = pd.melt(airquality, id_vars=['Month', 'Day'])

# Print the head of airquality_melt
print(airquality_melt.head())

   Ozone  Solar.R  Wind  Temp  Month  Day
0   41.0    190.0   7.4    67      5    1
1   36.0    118.0   8.0    72      5    2
2   12.0    149.0  12.6    74      5    3
3   18.0    313.0  11.5    62      5    4
4    NaN      NaN  14.3    56      5    5
   Month  Day variable  value
0      5    1    Ozone   41.0
1      5    2    Ozone   36.0
2      5    3    Ozone   12.0
3      5    4    Ozone   18.0
4      5    5    Ozone    NaN


### Customizing melted data

Saat melting DataFrames, akan lebih baik memiliki nama kolom yang lebih bermakna daripada `variable` dan `value` (nama default yang digunakan oleh `pd.melt()`).

Nama default mungkin berfungsi dalam situasi tertentu, tetapi yang terbaik adalah selalu memiliki data yang cukup jelas.

Anda bisa mengganti nama kolom `variable` dengan menetapkan argumen ke parameter `var_name`, dan kolom `value` dengan menentukan argumen ke parameter `value_name`. Anda sekarang akan berlatih melakukan hal ini dengan tepat. 

In [5]:
# Print the head of airquality
print(airquality.head())

# Melt airquality: airquality_melt
airquality_melt = pd.melt(airquality, id_vars=['Month', 'Day'], var_name='measurement', value_name='reading')

# Print the head of airquality_melt
print(airquality_melt.head())

   Ozone  Solar.R  Wind  Temp  Month  Day
0   41.0    190.0   7.4    67      5    1
1   36.0    118.0   8.0    72      5    2
2   12.0    149.0  12.6    74      5    3
3   18.0    313.0  11.5    62      5    4
4    NaN      NaN  14.3    56      5    5
   Month  Day measurement  reading
0      5    1       Ozone     41.0
1      5    2       Ozone     36.0
2      5    3       Ozone     12.0
3      5    4       Ozone     18.0
4      5    5       Ozone      NaN


## Pivoting data

Pivoting data adalah kebalikan dari melting. Ingat bentuk rapi yang ada di dataFrame `airquality` sebelum Anda mencairkannya? Anda sekarang akan mulai memutar kembali ke bentuk itu menggunakan metode `.pivot_table()`!

Sementara melting mengambil satu set kolom dan mengubahnya menjadi satu kolom, pivoting akan membuat kolom baru untuk setiap nilai unik dalam kolom yang ditentukan.

`.pivot_table()` memiliki parameter `index` yang dapat Anda gunakan untuk menentukan kolom yang tidak ingin Anda pivotasikan: Ini mirip dengan parameter `id_vars` dari `pd.melt()`. Dua parameter lain yang harus Anda tentukan adalah `columns` (nama kolom yang ingin Anda pivot), dan `values` (nilai yang akan digunakan ketika kolom di pivot).

In [6]:
# Print the head of airquality_melt
print(airquality_melt.head())

# Pivot airquality_melt: airquality_pivot
airquality_pivot = airquality_melt.pivot_table(index=['Month', 'Day'], columns='measurement', values='reading')

# Print the head of airquality_pivot
print(airquality_pivot.head())

   Month  Day measurement  reading
0      5    1       Ozone     41.0
1      5    2       Ozone     36.0
2      5    3       Ozone     12.0
3      5    4       Ozone     18.0
4      5    5       Ozone      NaN
measurement  Ozone  Solar.R  Temp  Wind
Month Day                              
5     1       41.0    190.0  67.0   7.4
      2       36.0    118.0  72.0   8.0
      3       12.0    149.0  74.0  12.6
      4       18.0    313.0  62.0  11.5
      5        NaN      NaN  56.0  14.3


**Note** : Perhatikan bahwa DataFrame yang di pivoted tidak benar-benar terlihat seperti DataFrame asli. Dalam latihan berikutnya, Anda akan mengubah DataFrame yang di pivoted ini menjadi bentuk aslinya.

### Resetting the index of a DataFrame

Setelah mem pivot `airquality_melt` pada latihan sebelumnya, Anda tidak cukup mendapatkan kembali DataFrame asli.

Apa yang Anda dapatkan sebagai gantinya adalah DataFrame pandas dengan [indeks hierarkis (juga dikenal sebagai MultiIndex)](http://pandas.pydata.org/pandas-docs/stable/advanced.html).

Indeks hirarkis dibahas secara mendalam dalam [Manipulating DataFrames with pandas](https://www.datacamp.com/courses/manipulating-dataframes-with-pandas). Intinya, mereka memungkinkan Anda untuk mengelompokkan kolom atau baris dengan variabel lain - dalam hal ini, menurut `'Month'` dan juga `'Day'`.

Ada metode yang sangat sederhana yang dapat Anda gunakan untuk mendapatkan kembali DataFrame asli dari DataFrame yang di pivot: `.reset_index()`.

In [7]:
# Print the index of airquality_pivot
print(airquality_pivot.index)

# Reset the index of airquality_pivot: airquality_pivot_reset
airquality_pivot_reset = airquality_pivot.reset_index()

# Print the new index of airquality_pivot_reset
print(airquality_pivot_reset.index)

# Print the head of airquality_pivot_reset
print(airquality_pivot_reset.head())

MultiIndex([(5,  1),
            (5,  2),
            (5,  3),
            (5,  4),
            (5,  5),
            (5,  6),
            (5,  7),
            (5,  8),
            (5,  9),
            (5, 10),
            ...
            (9, 21),
            (9, 22),
            (9, 23),
            (9, 24),
            (9, 25),
            (9, 26),
            (9, 27),
            (9, 28),
            (9, 29),
            (9, 30)],
           names=['Month', 'Day'], length=153)
RangeIndex(start=0, stop=153, step=1)
measurement  Month  Day  Ozone  Solar.R  Temp  Wind
0                5    1   41.0    190.0  67.0   7.4
1                5    2   36.0    118.0  72.0   8.0
2                5    3   12.0    149.0  74.0  12.6
3                5    4   18.0    313.0  62.0  11.5
4                5    5    NaN      NaN  56.0  14.3


### Pivoting duplicate values

Sejauh ini, Anda telah menggunakan metode `.pivot_table()` ketika ada beberapa nilai `index` yang ingin Anda pertahankan konstan selama pivot. Dalam video, Dan menunjukkan kepada Anda bagaimana Anda juga dapat menggunakan tabel pivot untuk menangani nilai duplikat dengan menyediakan fungsi agregasi melalui parameter `aggfunc`. Di sini, Anda akan menggabungkan kedua penggunaan tabel pivot ini.

Katakanlah metode pengumpulan data Anda secara tidak sengaja menggandakan dataset Anda. Dataset semacam itu, di mana setiap baris diduplikasi, telah dimuat sebagai `airquality_dup`. Selain itu, dataFrame `airquality_melt` dari latihan sebelumnya telah dimuat. Jelajahi bentuk mereka di Shell IPython dengan mengakses atribut `.shape` untuk mengonfirmasi baris duplikat yang ada di `airquality_dup`.

Anda akan melihat bahwa dengan menggunakan `.pivot_table()` dan parameter `aggfunc`, Anda tidak hanya dapat membentuk kembali data Anda, tetapi juga menghapus duplikat. Akhirnya, Anda kemudian bisa meratakan kolom DataFrame yang di pivot menggunakan `.reset_index()`.

In [None]:
# Pivot table the airquality_dup: airquality_pivot
airquality_pivot = airquality_dup.pivot_table(index=['Month', 'Day'], columns='measurement', values='reading', aggfunc=np.mean)

# Print the head of airquality_pivot before reset_index
print(airquality_pivot.head())

# Reset the index of airquality_pivot
airquality_pivot = airquality_pivot.reset_index()

# Print the head of airquality_pivot
print(airquality_pivot.head())

# Print the head of airquality
print(airquality.head())

**Note** : Fungsi agregasi default yang digunakan oleh `.pivot_table()` adalah `np.mean()`. Jadi Anda bisa memutar nilai duplikat dalam DataFrame ini bahkan tanpa secara eksplisit menentukan parameter `aggfunc`.

## Beyond melt() and pivot()

### Splitting a column with .str

Dataset yang Anda lihat dalam video, yang terdiri dari jumlah kasus TB berdasarkan country, year, gender, dan age_group, telah dimuat sebelumnya ke dalam DataFrame sebagai `tb`.

Dalam latihan ini, Anda akan merapikan kolom `'m014'`, yang mewakili laki-laki berusia 0-14 tahun. Untuk menguraikan nilai ini, Anda perlu mengekstraksi huruf pertama ke kolom baru untuk `gender`, dan sisanya ke kolom untuk `age_group`. Di sini, karena Anda dapat mem-parsing nilai berdasarkan posisi, Anda dapat mengambil keuntungan dari penguraian string pandas dengan menggunakan atribut `str` dari kolom tipe `object`.

Mulailah dengan mencetak kolom `tb` di IPython Shell menggunakan atribut `.columns`, dan perhatikan kolom yang bermasalah.

In [8]:
url = 'https://assets.datacamp.com/production/repositories/666/datasets/cf05b5e01009dd5d61d7db5ac5fb790042e7fd09/tb.csv'
tb = pd.read_csv(url)

In [10]:
print(tb.columns)
print(tb.shape)

Index(['country', 'year', 'm014', 'm1524', 'm2534', 'm3544', 'm4554', 'm5564',
       'm65', 'mu', 'f014', 'f1524', 'f2534', 'f3544', 'f4554', 'f5564', 'f65',
       'fu'],
      dtype='object')
(201, 18)


In [12]:
# Melt tb: tb_melt
tb_melt = pd.melt(tb, id_vars=['country', 'year'])

# Create the 'gender' column
tb_melt['gender'] = tb_melt.variable.str[0]

# Create the 'age_group' column
tb_melt['age_group'] = tb_melt.variable.str[1:]

# Print the head of tb_melt
print(tb_melt.head())
print(tb_melt.shape)

  country  year variable  value gender age_group
0      AD  2000     m014    0.0      m       014
1      AE  2000     m014    2.0      m       014
2      AF  2000     m014   52.0      m       014
3      AG  2000     m014    0.0      m       014
4      AL  2000     m014    2.0      m       014
(3216, 6)


**Note** : Perhatikan kolom `'gender'` dan `'age_group'` baru yang Anda buat. Sangat penting untuk dapat memecah kolom sesuai kebutuhan sehingga Anda dapat mengakses data yang relevan dengan pertanyaan Anda.

### Splitting a column with .split() and .get()

Cara umum lain **beberapa variabel disimpan dalam kolom** adalah dengan pembatas (*delimiter*). Anda akan belajar cara menangani kasus-kasus seperti ini dalam latihan ini, menggunakan [dataset yang terdiri dari kasus Ebola dan jumlah kematian menurut negara bagian dan negara](https://data.humdata.org/dataset/ebola-cases-2014). Ini telah dimuat sebelumnya ke dalam DataFrame sebagai `ebola`.

Cetak kolom `ebola` di Shell IPython menggunakan `ebola.columns`. Perhatikan bahwa data memiliki nama kolom seperti `Cases_Guinea` dan `Deaths_Guinea`. Di sini, garis bawah `_` berfungsi sebagai pembatas antara bagian pertama (kasus atau kematian), dan bagian kedua (negara).

Kali ini, Anda tidak dapat langsung mengiris variabel dengan posisi seperti pada latihan sebelumnya. Anda sekarang perlu menggunakan metode string bawaan Python yang disebut `.split()`. Secara default, metode ini akan membagi string menjadi beberapa bagian yang dipisahkan oleh spasi. Namun, dalam hal ini Anda ingin membaginya dengan garis bawah. Anda dapat melakukan ini di '`Cases_Guinea'`, misalnya, menggunakan `'Cases_Guinea'.split ('_')`, yang mengembalikan list `['Cases','Guinea']`.

Tantangan berikutnya adalah mengekstrak elemen pertama dari list ini dan menetapkannya ke variabel `type`, dan elemen kedua list ke variabel `country`. Anda dapat melakukannya dengan mengakses atribut `str` kolom dan menggunakan metode `.get()` untuk mengambil indeks `0` atau `1`, tergantung pada bagian yang Anda inginkan.

In [14]:
url_ebola = 'https://assets.datacamp.com/production/repositories/666/datasets/6da83b3d2017245217d35989960184234a6c4e7f/ebola.csv'
ebola = pd.read_csv(url_ebola)
ebola.head()

Unnamed: 0,Date,Day,Cases_Guinea,Cases_Liberia,Cases_SierraLeone,Cases_Nigeria,Cases_Senegal,Cases_UnitedStates,Cases_Spain,Cases_Mali,Deaths_Guinea,Deaths_Liberia,Deaths_SierraLeone,Deaths_Nigeria,Deaths_Senegal,Deaths_UnitedStates,Deaths_Spain,Deaths_Mali
0,1/5/2015,289,2776.0,,10030.0,,,,,,1786.0,,2977.0,,,,,
1,1/4/2015,288,2775.0,,9780.0,,,,,,1781.0,,2943.0,,,,,
2,1/3/2015,287,2769.0,8166.0,9722.0,,,,,,1767.0,3496.0,2915.0,,,,,
3,1/2/2015,286,,8157.0,,,,,,,,3496.0,,,,,,
4,12/31/2014,284,2730.0,8115.0,9633.0,,,,,,1739.0,3471.0,2827.0,,,,,


In [17]:
ebola.columns

Index(['Date', 'Day', 'Cases_Guinea', 'Cases_Liberia', 'Cases_SierraLeone',
       'Cases_Nigeria', 'Cases_Senegal', 'Cases_UnitedStates', 'Cases_Spain',
       'Cases_Mali', 'Deaths_Guinea', 'Deaths_Liberia', 'Deaths_SierraLeone',
       'Deaths_Nigeria', 'Deaths_Senegal', 'Deaths_UnitedStates',
       'Deaths_Spain', 'Deaths_Mali'],
      dtype='object')

In [15]:
# Melt ebola: ebola_melt
ebola_melt = pd.melt(ebola, id_vars=['Date', 'Day'], var_name='type_country', value_name='counts')

# Create the 'str_split' column
ebola_melt['str_split'] = ebola_melt['type_country'].str.split('_')

# Create the 'type' column
ebola_melt['type'] = ebola_melt.str_split.str.get(0)

# Create the 'country' column
ebola_melt['country'] = ebola_melt.str_split.str.get(1)

# Print the head of ebola_melt
print(ebola_melt.head())

         Date  Day  type_country  counts        str_split   type country
0    1/5/2015  289  Cases_Guinea  2776.0  [Cases, Guinea]  Cases  Guinea
1    1/4/2015  288  Cases_Guinea  2775.0  [Cases, Guinea]  Cases  Guinea
2    1/3/2015  287  Cases_Guinea  2769.0  [Cases, Guinea]  Cases  Guinea
3    1/2/2015  286  Cases_Guinea     NaN  [Cases, Guinea]  Cases  Guinea
4  12/31/2014  284  Cases_Guinea  2730.0  [Cases, Guinea]  Cases  Guinea
