<img src="https://github.com/BenedictusAryo/documents_assets/raw/master/New%20CourseMap/exercise_assets/makeailogo_hitam.png" alt="make-ai_logo" height="200" width="300" align="left">
<span><br><br><br></span>

___

# Mengolah data excel menggunakan Pandas
##### Benedict Aryo
Read on Medium : https://medium.com/make-ai-data-stories/mengolah-data-excel-menggunakan-pandas-5812f9acd79a

![](https://cdn-images-1.medium.com/max/1200/1*x6fsGcClyEMsGy2bnCsHgA.jpeg)

Jika teman-teman sedang mempelajari Data Science dengan Python, pasti teman-teman sudah akrab dengan pandas. Pandas (Python for Data Analysis) yakni library atau package yang umum digunakan untuk melakukan data analisis, termasuk diantaranya adalah membaca file data seperti Excel. Artikel ini dibuat untuk teman-teman yang sedang mempelajari Data Science, khususnya Exploratory Data Analysis.

Pada artikel ini, kita akan menggunakan data dari [Badan Pusat Statistik Nasional](https://bps.go.id/) . Badan Pusat Statistik adalah Lembaga Pemerintah Non Kementerian yang menyediakan kebutuhan data bagi pemerintah dan masyarakat. Data ini didapatkan dari sensus atau survey yang dilakukan sendiri dan juga dari departemen atau lembaga pemerintahan lainnya sebagai data sekunder.

Sebagai Latihan, kita akan menggunakan data "Rata‑Rata Pengeluaran per Kapita Sebulan di Daerah Perkotaan dan Perdesaan Menurut Provinsi dan Kelompok Barang" yang bisa teman-teman akses [disini](https://www.bps.go.id/statictable/2014/09/08/945/rata-rata-pengeluaran-per-kapita-sebulan-di-daerah-perkotaan-dan-perdesaan-menurut-provinsi-dan-kelompok-barang-rupiah-2011-2018.html).

Artikel ini menggunakan data update terakhir tanggal 08 Juli 2019. Pada halaman BPS tersebut, juga terdapat tombol untuk [mengunduh file data yang berbentuk excel](https://www.bps.go.id/statictable/download.html?nrbvfeve=OTQ1&sdfs=ldjfdifsdjkfahi&zxcv=L3dlYnNpdGU%3D&xzmn=aHR0cHM6Ly93d3cuYnBzLmdvLmlkL3N0YXRpY3RhYmxlLzIwMTQvMDkvMDgvOTQ1L3JhdGEtcmF0YS1wZW5nZWx1YXJhbi1wZXIta2FwaXRhLXNlYnVsYW4tZGktZGFlcmFoLXBlcmtvdGFhbi1kYW4tcGVyZGVzYWFuLW1lbnVydXQtcHJvdmluc2ktZGFuLWtlbG9tcG9rLWJhcmFuZy0tcnVwaWFoLS0tMjAxMS0yMDE4Lmh0bWw%3D&twoadfnoarfeauf=MjAxOS0wNy0xNSAxMDo1MjozMg%3D%3D).

<img src="https://cdn-images-1.medium.com/max/1200/1*OnAgjL7qIetcjqKYB4wa5Q.png" height="400" width="600" align="center">

Data tersebut membagi jenis pengeluaran per kapita *(dalam rupiah)* kedalam dua kategori, yakni **Makanan** dan **Non makanan** berikut dengan jumlahnya. Dari data tersebut kita mendapatkan data 8 tahun yakni dari tahun 2011 hingga tahun 2018. Terdapat 35 baris data yang terdiri dari 34 provinsi di Indonesia ditambah dengan Total rata-rata dari Indonesia secara keseluruhan. Apabila kita perhatikan, selain keterangan sumber data, terdapat catatan khusus, yakni "*1) Data masih bergabung dengan Provinsi Kalimantan Timur*".

<img src="https://cdn-images-1.medium.com/max/800/1*6zwjPXnhHVLx8oL2TNSzGw.png" height="500" width="700" align="center">

Dari data tersebut kita mengetahui bahwa data pengeluaran per kapita Provinsi Kalimantan Utara, pada tahun 2011 hingga 2014 masih bergabung dengan Provinsi Kalimantan Timur. Apabila kita telusuri di pencarian Web, **Provinsi Kalimantan Utara memang merupakan Provinsi baru yang berdiri pada tahun 2013** setelah disahkan oleh *Undang-undang Nomor 20 Tahun 2012*.

<img src="https://cdn-images-1.medium.com/max/1200/1*slt76woyXr8CR3fIz2tBNw.png" height="400" width="500" align="center">

Sehingga sangat wajar apabila data pengeluaran per kapita dari BPS baru terdapat pada tahun 2015. Yang menjadi masalah ialah data excel tersebut menggunakan karakter string " - " sebagai pengganti pada data Kalimantan Utara tahun 2011–2014 yang nantinya akan memengaruhi tipe data saat kita baca menggunakan pandas.
Kita akan menggunakan Jupyter Notebook sebagai lembar kerja kita. Seperti pada umumnya kita terlebih dahulu mengimpor package pandas yang umumnya kita singkat dengan pd. Sedikit tambahan agar tampilan angka koma atau float format pada tabel pandas terlihat rapi, kita akan gunakan `pd.set_option('float_format', '{:f}'.format)`.

In [1]:
import pandas as pd
pd.set_option('float_format', '{:f}'.format)

Untuk teman-teman yang sudah pernah menggunakan pandas, tentu telah mengetahui bahwa untuk membaca excel kita dapat menggunakan fungsi `read_excel()` pada pandas. Namun, apabila kita gunakan langsung fungsi tersebut maka kita akan mendapatkan tampilan data yang sedikit berantakan.

In [None]:
konsumsi_perkapita = pd.read_excel('indo_05_20.xls')
konsumsi_perkapita

Tentunya kita harus memiliki strategi ketika membaca data excel seperti data di atas. Seperti yang terlah kita lihat pada tampilan web maupun excel ketika membaca data tersebut ada beberapa point yang dapat kita catat, yakni :
* Terdapat judul data pada baris pertama
* Tabel dimulai pada baris ketiga
* Data Provinsi sebagai Index baris
* Terdapat multilevel columns dengan format "**merge&center**"
* Data Provinsi Kalimantan Utara berisi karakter string " - " pada tahun 2011 -2014
* Terdapat 6 baris catatan kaki yang berjarak 1 baris setelah data

<img src="https://cdn-images-1.medium.com/max/1200/1*J_F0xmVHQrGgqRxIaSTodQ.png" height="500" width="600" align="center">

<img src="https://cdn-images-1.medium.com/max/1200/1*eO4K9oDGQM8NH5eCrvIytg.png" height="500" width="600" align="center">

Apabila kita membaca dokumentasi pandas pada bagian keterangan fungsi `read_excel()` yang bisa teman-teman lihat [disini](https://medium.com/r/?url=https%3A%2F%2Fpandas.pydata.org%2Fpandas-docs%2Fstable%2Freference%2Fapi%2Fpandas.read_excel.html).

<img src="https://cdn-images-1.medium.com/max/800/1*Xzb4B3l1KT7y_0qG5usjyg.png" height="500" width="600" align="center">

Dari dokumentasi fungsi pandas.read_excel() tersebut kita akan menggunakan beberapa parameter tambahan untuk mengatasi permasalahan data di atas, yakni :
* `skiprows=1` untuk mengabaikan baris judul di data
* `header=[1, 2]` berupa list karena kita memiliki *multilevel columns* yakni Kategori (Makanan/NonMakanan) serta tahun data diperoleh
* `index_col=0` untuk *membuat kolom Provinsi menjadi index* agar lebih mudah diolah dan dilakukan analisa
* `skipfooter=7` untuk mengabaikan catatan kaki yang terdapat pada akhir baris data

Dengan menggunakan parameter-parameter tersebut, kita dapat membaca tabel data excel tersebut dengan lebih rapi.

In [2]:
konsumsi_perkapita = pd.read_excel('indo_05_20.xls', skiprows=1, header=[1, 2], index_col=0, skipfooter=7)
konsumsi_perkapita

Provinsi,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah
Unnamed: 0_level_1,2011,2012,2013,2014,2015,2016,2017,2018,2011,2012,...,2017,2018,2011,2012,2013,2014,2015,2016,2017,2018
Aceh,329257,356132,371838,406835,415354,451 952,529161.554079,547668.075277,224798,227968,...,373833.038175,426149.272206,554055,584100,627381,679850,752118,808 094,902994.592254,973817.347483
Sumatera Utara,316343,344467,363363,398932,414566,472 220,522766.380161,554754.2315,248222,254593,...,387051.283103,446955.123099,564565,599060,656133,699267,775189,853 756,909817.663264,1001709.354599
Sumatera Barat,358338,390870,419853,461404,472428,537 236,584045.241832,604871.24478,282009,290521,...,469758.240634,543759.42229,640348,681391,757809,812980,894703,985 025,1053803.482466,1148630.0
Riau,385949,432511,468503,481965,495322,556 747,603401.298422,599873.401548,368685,404040,...,517536.342157,587899.360779,754634,836550,879801,915106,1005509,1 084 765,1120937.640579,1187772.0
Jambi,324197,336737,377133,403659,428457,464 381,538359.984626,555989.048493,262589,286641,...,430864.637142,496432.457824,586786,623378,682409,721001,840696,904 289,969224.621768,1052421.0
Sumatera Selatan,300453,308027,353213,390807,379945,446 364,507672.99794,503297.45351,218859,290035,...,417173.807327,466781.095366,519312,598062,643332,730600,731429,839 712,924846.805267,970078.0
Bengkulu,294975,330123,348161,384146,413263,447 384,523328.712028,548879.179035,237717,235436,...,467579.852186,558899.07742,532692,565559,654451,705831,811077,894 794,990908.564213,1107778.256455
Lampung,261519,283870,314408,340844,382368,412 617,467939.94272,478451.882872,228662,233840,...,381353.496679,444185.787758,490180,517710,573634,628510,741206,789 061,849293.439398,922637.67063
Kepulauan Bangka Belitung,391606,418496,491121,551960,578812,596 381,721045.302847,710401.166515,345039,400200,...,639949.010325,709094.024436,736645,818697,939726,1047711,1118101,1 211 879,1360994.313171,1419495.190951
Kepulauan Riau,431248,470371,508569,574814,602071,681 525,759543.857137,747943.575951,473543,527422,...,805333.638528,826447.935384,904790,997793,1100265,1271562,1344712,1 465 121,1564877.495665,1574391.511335


Selanjutnya adalah mengganti karakter string " - " pada provinsi Kalimantan Utara dengan Nilai NaN (Not a Number) menggunakan library **Numpy**. 

Pada kasus ini, Saya pribadi menghindari mengganti karakter `" - "` tersebut dengan nilai 0, karena Seperti dijelaskan pada catatan kaki, sebelum tahun 2015 data Kalimantan Utara masih bergabung dengan data Provinsi Kalimantan Timur, namun juga tidak bisa dikatakan bahwa sebelum tahun 2015 data Provinsi Kalimantan Utara adalah sama dengan data Provinsi Kalimantan Timur karena memang Provinsi tersebut belum terbentuk. Sehingga pada kasus ini saya akan menggunakan nilai `NaN` sebagai pengganti karakter string `" - "` dari data BPS tersebut.

In [3]:
# Using numpy.nan to replace "-" at Kalimantan Utara data
import numpy as np

konsumsi_perkapita.replace('-', np.nan, inplace=True)
konsumsi_perkapita.tail(13)

Provinsi,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah
Unnamed: 0_level_1,2011,2012,2013,2014,2015,2016,2017,2018,2011,2012,...,2017,2018,2011,2012,2013,2014,2015,2016,2017,2018
Kalimantan Timur,405490.0,450614.0,477325.0,516036.0,549351,587 920,663534.506556,702905.180323,488554.0,498538.0,...,780393.366687,857449.307156,894044.0,949152.0,1065917.0,1127400.0,1193642,1 296 926,1443927.873243,1560354.487479
Kalimantan Utara 1),,,,,511272,549 467,667279.699231,671612.167842,,,...,636486.136148,742960.643292,,,,,1044605,1 157 774,1303765.835379,1414572.811134
Sulawesi Utara,306126.0,344033.0,379814.0,395996.0,426278,484 938,594832.561971,560514.334508,311543.0,342066.0,...,511880.271181,601014.128937,617669.0,686099.0,755755.0,795035.0,820426,957 458,1106712.833153,1161528.463445
Sulawesi Tengah,287260.0,313730.0,320823.0,360961.0,383546,420 182,480987.344995,474810.778605,251815.0,270612.0,...,437362.070959,465823.527807,539076.0,584341.0,648554.0,700073.0,760612,842 912,918349.415954,940635.0
Sulawesi Selatan,260240.0,286410.0,302903.0,330220.0,359187,407 389,450618.063971,495464.537655,246083.0,266914.0,...,477290.327484,520779.038794,506323.0,553324.0,599462.0,644298.0,746767,859 529,927908.391455,1016243.576449
Sulawesi Tenggara,240739.0,271348.0,284683.0,291923.0,329208,371 733,409856.805043,457496.656768,239546.0,260151.0,...,443862.72104,512252.729906,480285.0,531498.0,566489.0,600621.0,673488,806 568,853719.526083,969750.0
Gorontalo,256106.0,269533.0,276334.0,338353.0,326512,380 934,441998.958462,423925.986223,260141.0,272686.0,...,456383.552636,475801.889627,516247.0,542220.0,580271.0,644011.0,667401,774 525,898382.511097,899727.87585
Sulawesi Barat,225501.0,236901.0,278355.0,280751.0,330890,357 586,393942.699286,433929.170457,156289.0,180012.0,...,328683.050959,385717.195148,381790.0,416912.0,476458.0,518724.0,615491,685 941,722625.750245,819646.365605
Maluku,283407.0,320271.0,336750.0,388284.0,420732,431 484,485032.585466,491426.440381,281304.0,276893.0,...,418826.717379,474411.169731,564711.0,597163.0,649515.0,748665.0,794355,846 106,903859.302846,965837.0
Maluku Utara,281916.0,286031.0,337639.0,367971.0,421216,413 580,486734.449738,502810.203249,247990.0,276389.0,...,440060.241883,503588.162587,529906.0,562421.0,608016.0,702390.0,789896,809 371,926794.691621,1006398.365836


Kita juga dapat mengganti nama index dari '**Kalimantan Utara 1)**' menjadi '**Kalimantan Utara**' dengan fungsi `.rename()` kemudian kita masukkan parameter `index={'Kalimantan Utara 1)' : 'Kalimantan Utara'}` yang berupa dictionary dan jangan lupa kita gunakan juga parameter `inplace=True` untuk membuat keluaran dari perintah `.rename()` langsung mengganti object data tabel kita.

In [4]:
konsumsi_perkapita.rename(index={'Kalimantan Utara 1)':'Kalimantan Utara'}, inplace=True)
konsumsi_perkapita.tail(12)

Provinsi,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah
Unnamed: 0_level_1,2011,2012,2013,2014,2015,2016,2017,2018,2011,2012,...,2017,2018,2011,2012,2013,2014,2015,2016,2017,2018
Kalimantan Utara,,,,,511272,549 467,667279.699231,671612.167842,,,...,636486.136148,742960.643292,,,,,1044605,1 157 774,1303765.835379,1414572.811134
Sulawesi Utara,306126.0,344033.0,379814.0,395996.0,426278,484 938,594832.561971,560514.334508,311543.0,342066.0,...,511880.271181,601014.128937,617669.0,686099.0,755755.0,795035.0,820426,957 458,1106712.833153,1161528.463445
Sulawesi Tengah,287260.0,313730.0,320823.0,360961.0,383546,420 182,480987.344995,474810.778605,251815.0,270612.0,...,437362.070959,465823.527807,539076.0,584341.0,648554.0,700073.0,760612,842 912,918349.415954,940635.0
Sulawesi Selatan,260240.0,286410.0,302903.0,330220.0,359187,407 389,450618.063971,495464.537655,246083.0,266914.0,...,477290.327484,520779.038794,506323.0,553324.0,599462.0,644298.0,746767,859 529,927908.391455,1016243.576449
Sulawesi Tenggara,240739.0,271348.0,284683.0,291923.0,329208,371 733,409856.805043,457496.656768,239546.0,260151.0,...,443862.72104,512252.729906,480285.0,531498.0,566489.0,600621.0,673488,806 568,853719.526083,969750.0
Gorontalo,256106.0,269533.0,276334.0,338353.0,326512,380 934,441998.958462,423925.986223,260141.0,272686.0,...,456383.552636,475801.889627,516247.0,542220.0,580271.0,644011.0,667401,774 525,898382.511097,899727.87585
Sulawesi Barat,225501.0,236901.0,278355.0,280751.0,330890,357 586,393942.699286,433929.170457,156289.0,180012.0,...,328683.050959,385717.195148,381790.0,416912.0,476458.0,518724.0,615491,685 941,722625.750245,819646.365605
Maluku,283407.0,320271.0,336750.0,388284.0,420732,431 484,485032.585466,491426.440381,281304.0,276893.0,...,418826.717379,474411.169731,564711.0,597163.0,649515.0,748665.0,794355,846 106,903859.302846,965837.0
Maluku Utara,281916.0,286031.0,337639.0,367971.0,421216,413 580,486734.449738,502810.203249,247990.0,276389.0,...,440060.241883,503588.162587,529906.0,562421.0,608016.0,702390.0,789896,809 371,926794.691621,1006398.365836
Papua Barat,367893.0,354867.0,416901.0,445820.0,512796,482 624,551032.098615,614330.227397,382488.0,345772.0,...,570859.837008,631186.812261,750381.0,700639.0,806825.0,902298.0,1030232,1 009 401,1121891.935623,1245517.039658


Kemudian kita juga harus memperhatikan _datatype_ dari tiap tiap kolom pada tabel data kita dengan menggunakan fungsi `.info()`


In [8]:
konsumsi_perkapita.info()

<class 'pandas.core.frame.DataFrame'>
Index: 35 entries, Aceh to Indonesia
Data columns (total 24 columns):
(Makanan, 2011)       34 non-null float64
(Makanan, 2012)       34 non-null float64
(Makanan, 2013)       34 non-null float64
(Makanan, 2014)       34 non-null float64
(Makanan, 2015)       35 non-null int64
(Makanan, 2016)       35 non-null object
(Makanan, 2017)       35 non-null float64
(Makanan, 2018)       35 non-null float64
(Nonmakanan, 2011)    34 non-null float64
(Nonmakanan, 2012)    34 non-null float64
(Nonmakanan, 2013)    34 non-null float64
(Nonmakanan, 2014)    34 non-null float64
(Nonmakanan, 2015)    35 non-null int64
(Nonmakanan, 2016)    35 non-null object
(Nonmakanan, 2017)    35 non-null float64
(Nonmakanan, 2018)    35 non-null float64
(Jumlah, 2011)        34 non-null float64
(Jumlah, 2012)        34 non-null float64
(Jumlah, 2013)        34 non-null float64
(Jumlah, 2014)        34 non-null float64
(Jumlah, 2015)        35 non-null int64
(Jumlah, 2016)    

<img src="https://cdn-images-1.medium.com/max/800/1*Rq2DkrWd1a9IpWxvMwa4ng.png" height="500" width="600" align="center">

Kita dapat melihat bahwa data pada tahun 2016, baik pada kategori Makanan, Nonmakanan maupun Jumlah, terbaca sebagai object string.

Untuk menyelidikinya lebih lanjut, kita dapat menlihat sample data pada tahun 2016 dengan menggunakan perintah `tabel[index_col_lvl1, index_col_lvl2].values`

In [9]:
konsumsi_perkapita['Makanan', 2016].values

array(['451 952 ', '472 220 ', '537 236 ', '556 747 ', '464 381 ',
       '446 364 ', '447 384 ', '412 617 ', '596 381 ', '681 525 ',
       '692 207 ', '477 814 ', '371 605 ', '434 004 ', '427 191 ',
       '532 389 ', '465 993 ', '410 112 ', '312 312 ', '451 222 ',
       '546 306 ', '531 127 ', '587 920 ', '549 467 ', '484 938 ',
       '420 182 ', '407 389 ', '371 733 ', '380 934 ', '357 586 ',
       '431 484 ', '413 580 ', '482 624 ', '524 592 ', '460 639'],
      dtype=object)

In [10]:
konsumsi_perkapita['Nonmakanan', 2016].values

array(['356 142', '381 537', '447 789', '528 018', '439 908', '393 348',
       '447 410', '376 444', '615 498', '783 597', '1 184 441', '506 063',
       '385 115', '636 958', '443 221', '602 867', '633 569', '350 529',
       '264 315', '409 006', '498 464', '516 120', '709 006', '608 307',
       '472 520', '422 730', '452 140', '434 835', '393 591', '328 356',
       '414 623', '395 791', '526 777', '411 795', '485 619'],
      dtype=object)

<img src="https://cdn-images-1.medium.com/max/800/1*Rq2DkrWd1a9IpWxvMwa4ng.png" height="500" width="600" align="center">

Nah, kita kini mengetahui bahwa kemungkinan terdapat kesalahan pada input data yang mengakibatkan data pada tahun 2016 terdeteksi sebagai object string. Untuk mengatasinya kita dapat membuat fungsi berulang (`for` loop) dari setiap data pada kolom tersebut menjadi karakter angka, atau pada kasus ini kita akan menjadikannya tipe data *float*.

Fungsi yang akan kita buat harus mengeluarkan _output_ berupa _list data yang telah berbentuk float_ karenanya kita membuat list kosong terlebih dahulu bernama `output_list`. Ada dua parameter yang dibutuhkan oleh fungsi ini, yakni `tabel_data` dan `multi_kolom` (_Karena data kita memiliki multilevel columns_) yang hendak kita rubah dari _string menjadi float_.

Secara umum, ada 2 step yang kita lakukan dalam processing data ini, pertama adalah `.strip()` yakni menghilangkan spasi pada awal dan akhir seperti yang terlihat pada data kategori 'Makanan', kemudian kita gunakan fungsi `.replace()` yang menghilangkan spasi pada tengah-tengah angka pemisah ribuan. Perintah tersebut dilakukan berulang pada setiap baris data pada tabel kolom tersebut.

In [5]:
def object_to_float(table, column_list):
    '''
    Replace string datatype from `table` in `column_list` 
    into float
    
    Parameters:
    -----------
    table : dataframe
    column_list : multi index columns
    '''
    output_list = []
    for string in table[column_list].tolist():
        float_data = float(string.strip().replace(' ',''))
        output_list.append(float_data)
    return output_list


Untuk mengaplikasikan fungsi tersebut, kita dapat juga menggunakan perulangan untuk setiap kolom kategori pada tahun 2016 dengan terlebih dahulu menyimpannya kedalam sebuah list. Perulangan sebanyak tiga kali tersebut akan mengganti data pada tiap-tiap kolom dengan keluaran dari fungsi `object_to_float` yang telah kita buat sebelumnya.

In [6]:
string_cols_list = [('Makanan', 2016), ('Nonmakanan', 2016), ('Jumlah', 2016)]

for string_col in string_cols_list:
    konsumsi_perkapita[string_col] = object_to_float(konsumsi_perkapita, string_col)

Setelah selesai, kita dapat melihat bahwa tipe data kita sudah berganti dengan kembali melihat dari fungsi `.info()`

In [7]:
konsumsi_perkapita.info()

<class 'pandas.core.frame.DataFrame'>
Index: 35 entries, Aceh to Indonesia
Data columns (total 24 columns):
(Makanan, 2011)       34 non-null float64
(Makanan, 2012)       34 non-null float64
(Makanan, 2013)       34 non-null float64
(Makanan, 2014)       34 non-null float64
(Makanan, 2015)       35 non-null int64
(Makanan, 2016)       35 non-null float64
(Makanan, 2017)       35 non-null float64
(Makanan, 2018)       35 non-null float64
(Nonmakanan, 2011)    34 non-null float64
(Nonmakanan, 2012)    34 non-null float64
(Nonmakanan, 2013)    34 non-null float64
(Nonmakanan, 2014)    34 non-null float64
(Nonmakanan, 2015)    35 non-null int64
(Nonmakanan, 2016)    35 non-null float64
(Nonmakanan, 2017)    35 non-null float64
(Nonmakanan, 2018)    35 non-null float64
(Jumlah, 2011)        34 non-null float64
(Jumlah, 2012)        34 non-null float64
(Jumlah, 2013)        34 non-null float64
(Jumlah, 2014)        34 non-null float64
(Jumlah, 2015)        35 non-null int64
(Jumlah, 2016)  

Atau juga dengan melihat sample 5 baris pertama dari tabel data dengan fungsi `.head()`

In [14]:
konsumsi_perkapita.head()

Provinsi,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Makanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Nonmakanan,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah
Unnamed: 0_level_1,2011,2012,2013,2014,2015,2016,2017,2018,2011,2012,...,2017,2018,2011,2012,2013,2014,2015,2016,2017,2018
Aceh,329257.0,356132.0,371838.0,406835.0,415354,451952.0,529161.554079,547668.075277,224798.0,227968.0,...,373833.038175,426149.272206,554055.0,584100.0,627381.0,679850.0,752118,808094.0,902994.592254,973817.347483
Sumatera Utara,316343.0,344467.0,363363.0,398932.0,414566,472220.0,522766.380161,554754.2315,248222.0,254593.0,...,387051.283103,446955.123099,564565.0,599060.0,656133.0,699267.0,775189,853756.0,909817.663264,1001709.354599
Sumatera Barat,358338.0,390870.0,419853.0,461404.0,472428,537236.0,584045.241832,604871.24478,282009.0,290521.0,...,469758.240634,543759.42229,640348.0,681391.0,757809.0,812980.0,894703,985025.0,1053803.482466,1148630.0
Riau,385949.0,432511.0,468503.0,481965.0,495322,556747.0,603401.298422,599873.401548,368685.0,404040.0,...,517536.342157,587899.360779,754634.0,836550.0,879801.0,915106.0,1005509,1084765.0,1120937.640579,1187772.0
Jambi,324197.0,336737.0,377133.0,403659.0,428457,464381.0,538359.984626,555989.048493,262589.0,286641.0,...,430864.637142,496432.457824,586786.0,623378.0,682409.0,721001.0,840696,904289.0,969224.621768,1052421.0


---

Kini data telah siap untuk teman-teman analisis. Semoga teknik yang dibahas pada artike ini dapat membantu kamu untuk mengolah data tabel terutama berupa file excel. Pada artikel selanjutnya, kita akan membahas tentang Exploratory Data Analysis tentang data yang sama kita gunakan pada latihan di artikel ini, jangan lupa untuk claps dan follow yah.

Tertarik untuk mempelajari Data Science? Kamu bisa mempelajari materi ini lebih lanjut melalui [Make-AI, Data Science Online Course](https://medium.com/r/?url=https%3A%2F%2Fmake-ai.id%2F%3Futm_source%3Dmedium%26utm_medium%3Dartikel%26utm_campaign%3Dexcelpandas).


---

### Sumber Pustaka :
1. Badan Pusat Statistik
2. Data Rata‑Rata Pengeluaran per Kapita Sebulan di Daerah Perkotaan dan Perdesaan Menurut Provinsi dan Kelompok Barang (rupiah), 2011–2018
3. Provinsi Kalimantan Utara
4. Pandas Read Excel Documentation