# Reshaping, Group By Aggregation, and Pandas Visualization

Pada bagian ini Anda akan diperkenalkan dengan struktur dataframe MultiIndex dan bagaimana cara untuk melakukan reshaping sebuah dataframe. Selain itu, Anda akan diperkenalkan dengan salah satu metode untuk melakukan agregasi yaitu `groupby()`. Method groupby ini memiliki beberapa kesamaan dengan method `crosstab()` dan `pivot_table()`, akan tetapi groupby memiliki kelebihan dimana dataframe hasil agregasinya akan lebih rapi(tidy) dibandingkan crosstab() maupun pivot_table(). Di akhir sesi, Anda akan diperkenalkan dengan method visualisasi dasar dari package Pandas yaitu `plot()`.

## Reshaping 
Reshaping merupakan sebuah teknik untuk mengubah bentuk data yang kita punya. Jika Anda pernah mengenal istilah dataframe dengan bentuk wide format dan long format, disinilah letak reshaping akan dibutuhkan. Lalu apa perbedaan di antara kedua bentuk data tersebut? Apakah ada kebutuhan khusus kapan kita bekerja dengan data yang memiliki bentuk wide maupun long format? Perhatikan contoh di bawah ini.

In [1]:
import pandas as pd

In [8]:
traffic = pd.read_pickle("data_input/traffic.pkl")
traffic

Unnamed: 0_level_0,Bounce Rate,Bounce Rate,Bounce Rate,Sessions,Sessions,Sessions,Total Visitors,Total Visitors,Total Visitors
Device Category,desktop,mobile,tablet,desktop,mobile,tablet,desktop,mobile,tablet
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
2019-06-01,41.455099,64.46271,20.012573,337.921687,582.246269,115.878788,314.909639,477.708955,115.878788
2019-06-02,32.372644,46.659636,44.833929,320.876543,916.636364,132.492308,305.611111,741.89899,131.892308
2019-06-03,28.904192,43.962397,85.697323,821.010471,891.81761,270.419355,744.17801,695.792453,115.870968
2019-06-04,38.309282,57.369383,22.644138,1006.187097,837.184211,154.6,908.735484,684.184211,64.477778
2019-06-05,52.500556,59.07478,22.220044,871.426136,647.034091,141.804598,788.664773,519.465909,128.896552
2019-06-06,49.33443,46.404598,18.00451,794.953216,572.264706,100.564286,699.555556,462.694118,85.135714
2019-06-07,39.676456,18.300918,11.164204,911.410072,573.933824,103.160494,790.964029,481.845588,103.160494
2019-06-08,17.311701,60.238653,71.426596,253.587786,434.396226,270.692308,215.206107,377.484277,232.0
2019-06-09,55.998428,40.22275,67.926808,248.651316,678.524272,113.076923,235.914474,565.883495,75.846154
2019-06-10,26.180226,57.754588,50.0,985.912162,682.203252,38.958333,891.054054,546.373984,38.958333


Data di atas merupakan data traffic sebuah website. Data tersebut dikumpulkan berdasarkan jenis device yaitu traffic pada desktop, mobile device, dan tablet. Analisis traffic website umum dilakukan dengan tujuan untuk mengevaluasi apakah website yang dibangun sudah sesuai dengan kebutuhan user/pengguna website. Selain itu, analisis traffic website diperlukan untuk melihat kekurangan dari website yang harus segera di perbaiki, mengukur efisiensi, dana melihat perubahan strategis yang dilakukan perusahaan. Dalam melakukan analisis terhadap traffic sebuah website, kita akan melihat beberapa parameter yang paling umum digunakan yaitu bounce rate, session, dan total visitor. Bounce rate adalah persentase pengunjung yang langsung meninggalkan website setelah membuka satu halaman saja [Google Analytics](https://support.google.com/analytics/answer/1009409?hl=id). Pendapat lain mengatakan bahwa bounce rate adalah keadaan dimana setelah pengunjung membuka sebuah halaman website, ia tidak melakukan tindakan apapun di halaman tersebut. Semakin tinggi nilai bounce rate menandakan ada yang salah dengan strategi website yang dijalankan. 

Session adalah kumpulan interaksi pengguna dengan situs Anda dalam jangka waktu tertentu.

In [3]:
traffic.shape

(30, 9)

In [4]:
traffic.describe()

Unnamed: 0_level_0,Bounce Rate,Bounce Rate,Bounce Rate,Sessions,Sessions,Sessions,Total Visitors,Total Visitors,Total Visitors
Device Category,desktop,mobile,tablet,desktop,mobile,tablet,desktop,mobile,tablet
count,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0,30.0
mean,38.897161,50.197218,39.593025,678.898501,703.962615,109.77337,596.99829,573.647213,90.057711
std,11.605089,10.107346,22.766674,304.59855,171.638263,56.97621,266.389044,128.975121,38.241764
min,11.92265,18.300918,0.0,210.684211,434.396226,38.958333,192.315789,377.484277,38.958333
25%,32.378219,46.194556,22.326067,332.066359,576.011935,68.860054,307.935743,476.373667,63.672709
50%,39.267727,49.436731,44.499784,793.246979,666.174927,101.282143,704.488058,546.454434,75.658371
75%,48.669033,57.658287,53.706913,918.105069,851.380958,120.735931,792.436659,683.053252,115.876833
max,57.027557,64.46271,85.697323,1136.516949,1148.252747,270.692308,1037.466102,904.153846,232.0


Data `traffic.pkl` adalah data analisis kunjungan sebuah website. Saat kita menganalisa traffic kunjuan sebuah website maka kita kaan menemukan 3 variabel utama di dalamanya yaitu Bounce rate, Session, dan jumlah pengunjung(visitor). Bounce rate adalah kondisi dimana seorang pengunjung website hanya mengunjungi satu halaman website saja dan cenderung tidak tertarik untuk mengunjungi halaman website lainnya. Selain itu menurut Google Analytics bounce rate adalah persentase pengunjung yang langsung meninggalkan website setelah membuka satu halaman saja. Pengunjung hanya membuka satu halaman website tanpa melakukan tindakan apa pun. Ini artinya semakin besar nilai bounce rate maka ada kemungkinan yang salah dengan website yang kita miliki. 

In [36]:
ntraf = pd.read_csv("data_input/la-traffic.csv", index_col='Date')
ntraf.head()

Unnamed: 0_level_0,Device Category,Browser,Total Visitors,Sessions,Bounce Rate
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019-06-01,desktop,Firefox,38,38,0.0
2019-06-01,mobile,Android Webview,38,38,100.0
2019-06-01,mobile,Chrome,77,77,49.3506
2019-06-01,desktop,Chrome,997,1073,24.9767
2019-06-01,desktop,Edge,115,115,66.9565


In [37]:
ntraf.Browser.unique()

array(['Firefox', 'Android Webview', 'Chrome', 'Edge',
       'Internet Explorer', 'Safari', 'Safari (in-app)',
       'Samsung Internet', 'Amazon Silk', 'Opera',
       'Mozilla Compatible Agent', 'Android Browser', 'Opera Mini',
       "'Mozilla", 'YaBrowser'], dtype=object)

In [4]:
ntraf.drop(columns='Browser', axis=1, inplace=True)

In [5]:
ntraf

Unnamed: 0,Date,Device Category,Total Visitors,Sessions,Bounce Rate
0,2019-06-01,desktop,38,38,0.0
1,2019-06-01,mobile,38,38,100.0
2,2019-06-01,mobile,77,77,49.3506
3,2019-06-01,desktop,997,1073,24.9767
4,2019-06-01,desktop,115,115,66.9565


In [38]:
browser_type = ['desktop']

In [39]:
new_ntraf = ntraf[(ntraf['Device Category'].isin(browser_type))]
new_ntraf.shape

(3254, 5)

In [34]:
new_ntraf = new_ntraf.drop_duplicates(keep='last')
new_ntraf.shape

(1314, 6)

In [40]:
group_traf = new_ntraf.groupby(['Date','Browser']).agg({
    'Total Visitors' : 'sum',
    'Sessions' : 'sum',
    'Bounce Rate' : 'mean'
})
group_traf.unstack()

Unnamed: 0_level_0,Total Visitors,Total Visitors,Total Visitors,Total Visitors,Total Visitors,Total Visitors,Total Visitors,Total Visitors,Total Visitors,Sessions,Sessions,Sessions,Bounce Rate,Bounce Rate,Bounce Rate,Bounce Rate,Bounce Rate,Bounce Rate,Bounce Rate,Bounce Rate,Bounce Rate
Browser,'Mozilla,Chrome,Edge,Firefox,Internet Explorer,Mozilla Compatible Agent,Opera,Safari,YaBrowser,'Mozilla,...,YaBrowser,'Mozilla,Chrome,Edge,Firefox,Internet Explorer,Mozilla Compatible Agent,Opera,Safari,YaBrowser
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2019-06-01,,33126.0,3822.0,5134.0,3822.0,,,6371.0,,,...,,,25.002118,66.719667,48.567735,33.410955,,,33.359485,
2019-06-02,,29697.0,4943.0,2473.0,2473.0,,,9923.0,,,...,,,42.671821,0.0,0.0,50.101469,,,67.665188,
2019-06-03,,85666.0,14406.0,7261.0,21591.0,,1201.0,12013.0,,,...,,,42.575859,37.257713,15.420816,36.900687,,0.0,40.366822,
2019-06-04,,94302.0,5833.0,9348.0,20900.0,,,10471.0,,,...,,,38.901061,38.726361,36.294258,29.241732,,,48.382997,
2019-06-05,,91657.0,11207.0,6762.0,12329.0,2242.0,,14608.0,,,...,,,48.07155,29.99911,48.333397,42.858097,100.0,,46.037603,
2019-06-06,,77335.0,7576.0,10861.0,15151.0,,1087.0,7614.0,,,...,,,46.525917,37.507264,37.131579,19.998754,,100.0,55.170748,
2019-06-07,,78476.0,6301.0,4175.0,13608.0,,,7384.0,,,...,,,42.225832,19.722343,75.018156,38.565321,,,24.112832,
2019-06-08,,19100.0,2011.0,1049.0,2011.0,,,4021.0,,,...,,,28.571442,0.0,0.0,33.509885,,,25.143012,
2019-06-09,,22277.0,1934.0,2902.0,1934.0,,973.0,5839.0,,,...,,,38.423323,33.52854,66.64388,50.311712,,100.0,48.101977,
2019-06-10,,80228.0,10252.0,5608.0,19071.0,,935.0,15782.0,,,...,,,32.534212,24.015108,42.652672,15.363616,,0.0,42.105554,
