Tutorial ini menggunakan tools <a href="https://colab.research.google.com//">**Google Colab**</a>

## Apa itu Pandas ?

__Pandas__ adalah salah satu <i>library</i> Python yang digunakan dalam mengolah data, baik itu berupa dataframe maupun series

In [None]:
# Import pandas

import pandas as pd

## Dataframe dan Series

__Dataframe__ dan __Series__ merupakan dua jenis objek di Pandas untuk menyimpan data secara terstruktur. 

__Series__ adalah suatu objek __satu dimensi__ untuk menyimpan berbagai jenis tipe data seperti integer, string, float, dan sebagainya.

__Dataframe__ adalah suatu objek __dua dimensi__ untuk menyimpan data secara terstruktur. Dataframe memiliki format baris dan kolom sehingga dia memiliki dua indeks, yaitu indeks baris dan indeks kolom. Data dalam satu kolom harus memiliki tipe data yang sama, namun bisa berbeda antarkolom-nya.

### Membuat series

Untuk membuat series terlebih dulu membuat sebuah list misalnya list <code>buah</code>

In [None]:
# Membuat list buah

buah = ['jeruk', 'melon', 'pisang', 'semangka', 'apel']

Kemudian buat series <code>s</code> dari list <code>buah</code>

In [None]:
# Membuat series dari list buah

a = pd.Series(buah, index=[1, 2, 3, 4, 5])
a

1       jeruk
2       melon
3      pisang
4    semangka
5        apel
dtype: object

Jika tidak diberi parameter __index__, secara otomatis indeks akan dimulai dari __0__. 

In [None]:
# Membuat series dengan indeks default

b = pd.Series(buah)
b

0       jeruk
1       melon
2      pisang
3    semangka
4        apel
dtype: object

Indeks pada series juga bisa berupa non-numerik seperti string atau karakter.

In [None]:
# Membuat series dengan indeks berupa string/karakter

c = pd.Series(buah, index=['A', 'B', 'C', 'D', 'E'])
c

A       jeruk
B       melon
C      pisang
D    semangka
E        apel
dtype: object

PENTING !!! : jumlah indeks dan elemen pada series harus sama. Jika berbeda, maka akan terjadi <i>ValueError</i>.

### Membuat dataframe

TIPS: Membuat dataframe akan lebih mudah dan rapi dengan membuat dictionary terlebih dahulu. Misalnya dictionary <code>dic</code> yang menampung data __ID__, __Name__, dan __Gender__.

In [None]:
# Membuat dictionary

dic = {'ID': [110, 276, 298, 312, 501, 529],
       'Name': ['Mark', 'Michelle', 'Alina', 'Noah', 'Justin', 'Sherin'], 
       'Gender': ['Male', 'Female', 'Female', 'Male', 'Male', 'Female'], 
       }

Selanjutnya buat dataframe <code>df_x</code> dari dictionary <code>dic</code>

In [None]:
# Membuat dataframe

df_x = pd.DataFrame(dic)
df_x

Unnamed: 0,ID,Name,Gender
0,110,Mark,Male
1,276,Michelle,Female
2,298,Alina,Female
3,312,Noah,Male
4,501,Justin,Male
5,529,Sherin,Female


## Load data

Membuat dataframe dengan cara memuat data yang sudah ada, misalnya data yang berekstensi __.csv__, __.xlsx__, __.data__, dan lain sebagainya. Untuk me-<i>load</i> data CSV, menggunakan <i>method</i> <code>read_csv()</code>, sedangkan untuk data EXCEL,  menggunakan <code>read_excel()</code>.

Sebagai contoh, tampilkan data dari <i>file</i> <code>austin_weather.csv</code>.



<i>File</i> <code>austin_weather.csv</code> berada pada folder <code>datasets_py</code>, jadi nama folder harus diikutsertakan juga agar Python dapat menemukannya. Dan jangan lupa juga dimount caranya ikuti code di bawah ini



In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [None]:
%cd /content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py/

/content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py


In [None]:
# Load data CSV

df = pd.read_csv('austin_weather.csv')
df

Unnamed: 0,Date,TempHighF,TempAvgF,TempLowF,DewPointHighF,DewPointAvgF,DewPointLowF,HumidityHighPercent,HumidityAvgPercent,HumidityLowPercent,...,SeaLevelPressureAvgInches,SeaLevelPressureLowInches,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH,PrecipitationSumInches,Events
0,2013-12-21,74,60,45,67,49,43,93,75,57,...,29.68,29.59,10,7,2,20,4,31,0.46,"Rain , Thunderstorm"
1,2013-12-22,56,48,39,43,36,28,93,68,43,...,30.13,29.87,10,10,5,16,6,25,0,
2,2013-12-23,58,45,32,31,27,23,76,52,27,...,30.49,30.41,10,10,10,8,3,12,0,
3,2013-12-24,61,46,31,36,28,21,89,56,22,...,30.45,30.3,10,10,7,12,4,20,0,
4,2013-12-25,58,50,41,44,40,36,86,71,56,...,30.33,30.27,10,10,7,10,2,16,T,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1314,2017-07-27,103,89,75,71,67,61,82,54,25,...,29.97,29.88,10,10,10,12,5,21,0,
1315,2017-07-28,105,91,76,71,64,55,87,54,20,...,29.9,29.81,10,10,10,14,5,20,0,
1316,2017-07-29,107,92,77,72,64,55,82,51,19,...,29.86,29.79,10,10,10,12,4,17,0,
1317,2017-07-30,106,93,79,70,68,63,69,48,27,...,29.91,29.87,10,10,10,13,4,20,0,


### Menampilkan data teratas

Menampilkan beberapa data yang terletak di awal menggunakan <i>method</i> <code>head()</code>.

In [None]:
# Menampilkan data teratas

df.head()

Unnamed: 0,Date,TempHighF,TempAvgF,TempLowF,DewPointHighF,DewPointAvgF,DewPointLowF,HumidityHighPercent,HumidityAvgPercent,HumidityLowPercent,...,SeaLevelPressureAvgInches,SeaLevelPressureLowInches,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH,PrecipitationSumInches,Events
0,2013-12-21,74,60,45,67,49,43,93,75,57,...,29.68,29.59,10,7,2,20,4,31,0.46,"Rain , Thunderstorm"
1,2013-12-22,56,48,39,43,36,28,93,68,43,...,30.13,29.87,10,10,5,16,6,25,0,
2,2013-12-23,58,45,32,31,27,23,76,52,27,...,30.49,30.41,10,10,10,8,3,12,0,
3,2013-12-24,61,46,31,36,28,21,89,56,22,...,30.45,30.3,10,10,7,12,4,20,0,
4,2013-12-25,58,50,41,44,40,36,86,71,56,...,30.33,30.27,10,10,7,10,2,16,T,


<i>default</i> data yang akan ditampilkan adalah __5__ data teratas seperti pada output di atas. Sekarang coba memasukkan sebuah bilangan integer di dalam tanda kurung.

In [None]:
# Menampilkan 10 data teratas

df.head(10)

Unnamed: 0,Date,TempHighF,TempAvgF,TempLowF,DewPointHighF,DewPointAvgF,DewPointLowF,HumidityHighPercent,HumidityAvgPercent,HumidityLowPercent,...,SeaLevelPressureAvgInches,SeaLevelPressureLowInches,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH,PrecipitationSumInches,Events
0,2013-12-21,74,60,45,67,49,43,93,75,57,...,29.68,29.59,10,7,2,20,4,31,0.46,"Rain , Thunderstorm"
1,2013-12-22,56,48,39,43,36,28,93,68,43,...,30.13,29.87,10,10,5,16,6,25,0,
2,2013-12-23,58,45,32,31,27,23,76,52,27,...,30.49,30.41,10,10,10,8,3,12,0,
3,2013-12-24,61,46,31,36,28,21,89,56,22,...,30.45,30.3,10,10,7,12,4,20,0,
4,2013-12-25,58,50,41,44,40,36,86,71,56,...,30.33,30.27,10,10,7,10,2,16,T,
5,2013-12-26,57,48,39,39,36,33,79,63,47,...,30.4,30.34,10,9,7,12,3,17,0,
6,2013-12-27,60,53,45,41,39,37,83,65,47,...,30.39,30.34,10,9,7,7,1,11,T,
7,2013-12-28,62,51,40,43,39,33,92,64,36,...,30.17,30.04,10,10,7,10,2,14,T,
8,2013-12-29,64,50,36,49,41,28,92,76,60,...,30.1,29.99,10,10,4,17,5,24,0,
9,2013-12-30,44,40,35,31,26,21,75,60,45,...,30.33,30.26,10,10,10,13,5,21,0,


In [None]:
# Menampilkan 3 data teratas

df.head(3)

Unnamed: 0,Date,TempHighF,TempAvgF,TempLowF,DewPointHighF,DewPointAvgF,DewPointLowF,HumidityHighPercent,HumidityAvgPercent,HumidityLowPercent,...,SeaLevelPressureAvgInches,SeaLevelPressureLowInches,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH,PrecipitationSumInches,Events
0,2013-12-21,74,60,45,67,49,43,93,75,57,...,29.68,29.59,10,7,2,20,4,31,0.46,"Rain , Thunderstorm"
1,2013-12-22,56,48,39,43,36,28,93,68,43,...,30.13,29.87,10,10,5,16,6,25,0.0,
2,2013-12-23,58,45,32,31,27,23,76,52,27,...,30.49,30.41,10,10,10,8,3,12,0.0,


Menampilkan beberapa data teratas dapat memperlihatkan gambaran singkat tentang struktur dataset tersebut.

### Menampilkan data terbawah

Menampilkan data terbawah dengan <i>method</i> <code>tail()</code>. <i>Default</i> dari metode <code>tail()</code> ini juga sama seperti <code>head()</code> yaitu __5__.

In [None]:
# Menampilkan data terbawah

df.tail()

Unnamed: 0,Date,TempHighF,TempAvgF,TempLowF,DewPointHighF,DewPointAvgF,DewPointLowF,HumidityHighPercent,HumidityAvgPercent,HumidityLowPercent,...,SeaLevelPressureAvgInches,SeaLevelPressureLowInches,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH,PrecipitationSumInches,Events
1314,2017-07-27,103,89,75,71,67,61,82,54,25,...,29.97,29.88,10,10,10,12,5,21,0,
1315,2017-07-28,105,91,76,71,64,55,87,54,20,...,29.9,29.81,10,10,10,14,5,20,0,
1316,2017-07-29,107,92,77,72,64,55,82,51,19,...,29.86,29.79,10,10,10,12,4,17,0,
1317,2017-07-30,106,93,79,70,68,63,69,48,27,...,29.91,29.87,10,10,10,13,4,20,0,
1318,2017-07-31,99,88,77,66,61,54,64,43,22,...,29.97,29.91,10,10,10,12,4,20,0,


Coba dengan memasukan nilai integer ke dalam kurung 10 dan 3 data terbawah.

In [None]:
# Menampilkan 10 data terbawah

df.tail(10)

Unnamed: 0,Date,TempHighF,TempAvgF,TempLowF,DewPointHighF,DewPointAvgF,DewPointLowF,HumidityHighPercent,HumidityAvgPercent,HumidityLowPercent,...,SeaLevelPressureAvgInches,SeaLevelPressureLowInches,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH,PrecipitationSumInches,Events
1309,2017-07-22,103,90,77,74,68,61,88,58,27,...,29.9,29.81,10,10,10,13,6,22,0,
1310,2017-07-23,103,90,77,74,71,66,85,58,31,...,29.88,29.82,10,10,2,13,4,24,0.04,"Rain , Thunderstorm"
1311,2017-07-24,102,89,76,75,71,56,91,60,29,...,29.95,29.89,10,10,9,13,3,19,0.01,"Rain , Thunderstorm"
1312,2017-07-25,103,91,78,75,71,63,91,61,31,...,30.03,29.95,10,10,9,15,7,24,0,
1313,2017-07-26,103,91,78,75,70,61,91,58,25,...,30.03,29.93,10,10,10,15,6,27,T,
1314,2017-07-27,103,89,75,71,67,61,82,54,25,...,29.97,29.88,10,10,10,12,5,21,0,
1315,2017-07-28,105,91,76,71,64,55,87,54,20,...,29.9,29.81,10,10,10,14,5,20,0,
1316,2017-07-29,107,92,77,72,64,55,82,51,19,...,29.86,29.79,10,10,10,12,4,17,0,
1317,2017-07-30,106,93,79,70,68,63,69,48,27,...,29.91,29.87,10,10,10,13,4,20,0,
1318,2017-07-31,99,88,77,66,61,54,64,43,22,...,29.97,29.91,10,10,10,12,4,20,0,


In [None]:
# Menampilkan 3 data terbawah

df.tail(3)

Unnamed: 0,Date,TempHighF,TempAvgF,TempLowF,DewPointHighF,DewPointAvgF,DewPointLowF,HumidityHighPercent,HumidityAvgPercent,HumidityLowPercent,...,SeaLevelPressureAvgInches,SeaLevelPressureLowInches,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH,PrecipitationSumInches,Events
1316,2017-07-29,107,92,77,72,64,55,82,51,19,...,29.86,29.79,10,10,10,12,4,17,0,
1317,2017-07-30,106,93,79,70,68,63,69,48,27,...,29.91,29.87,10,10,10,13,4,20,0,
1318,2017-07-31,99,88,77,66,61,54,64,43,22,...,29.97,29.91,10,10,10,12,4,20,0,


### Menampilkan info dan deskriptif statistik data

Melihat info singkat tentang masing-masing kolom dengan <i>method</i> <code>info()</code>.

In [None]:
# Melihat info singkat masing-masing kolom

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1319 entries, 0 to 1318
Data columns (total 21 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Date                        1319 non-null   object
 1   TempHighF                   1319 non-null   int64 
 2   TempAvgF                    1319 non-null   int64 
 3   TempLowF                    1319 non-null   int64 
 4   DewPointHighF               1319 non-null   object
 5   DewPointAvgF                1319 non-null   object
 6   DewPointLowF                1319 non-null   object
 7   HumidityHighPercent         1319 non-null   object
 8   HumidityAvgPercent          1319 non-null   object
 9   HumidityLowPercent          1319 non-null   object
 10  SeaLevelPressureHighInches  1319 non-null   object
 11  SeaLevelPressureAvgInches   1319 non-null   object
 12  SeaLevelPressureLowInches   1319 non-null   object
 13  VisibilityHighMiles         1319 non-null   obje

Melihat gambaran tentang deskriptif statistik dataframe menggunakan metode <code>describe()</code>.

In [None]:
# Melihat deskriptif statistik

df.describe()

Unnamed: 0,TempHighF,TempAvgF,TempLowF
count,1319.0,1319.0,1319.0
mean,80.862775,70.642911,59.902957
std,14.766523,14.045904,14.190648
min,32.0,29.0,19.0
25%,72.0,62.0,49.0
50%,83.0,73.0,63.0
75%,92.0,83.0,73.0
max,107.0,93.0,81.0


Penjelasan singkat

* __count__ : jumlah data yang ada 
* __mean__ : nilai rata-rata 
* __std__ : standar deviasi
* __min__ : nilai minimum
* __25%__ : nilai kuartil 1 (Q1)
* __50%__ : nilai kuartil 2 (Q2) atau median
* __75%__ : nilai kuartil 3 (Q3)
* __max__ : nilai maksimum

Dari output <code>describe()</code> di atas, hanya terlihat tiga kolom yaitu __TempHighF, TempAvgF,__ dan __TempLowF,__ padahal seperti yang kita tahu ada __21__ kolom. Mengapa hanya 3 yang muncul saat menampilkan deskriptif statistiknya?

Jika dilihat output sebelumnya, yakni output dari <code>info()</code>, terlihat bahwa hanya kolom __TempHighF, TempAvgF,__ dan __TempLowF__ yang bertipe __int64__, selebihnya bertipe __object__. Nah, jadi apa maksudnya?

<i>Method</i> <code>describe()</code> hanya akan menampilkan kolom yang bertipe numerik, baik itu __int64__ atau __float64__, karena outputnya adalah perhitungan statistik. Tipe __object__ berarti kolom tersebut terdeteksi sebagai __string__ meskipun sebenarnya isinya adalah angka-angka. Oleh karena itu, kolom lainnya tidak terdeteksi.

## Mengakses data

Untuk melihat data kolom tertentu, dengan cara menuliskan nama dataframe yang disertai nama kolom yang diletakkan pada tanda kurung siku <code>[]</code>. Cara ini akan menampilkan data kolom tersebut sebagai __Series__. Perhatikan contoh berikut.

Misalnya ingin menampilkan kolom __TempLowF__.

In [None]:
# Menampilkan kolom TempLowF sebagai Series

a = df['TempLowF']
a

0       45
1       39
2       32
3       31
4       41
        ..
1314    75
1315    76
1316    77
1317    79
1318    77
Name: TempLowF, Length: 1319, dtype: int64

Menampilkan beberapa kolom sekaligus dengan cara menuliskan nama-nama kolom di dalam kurung siku ganda setelah nama dataframe. Perhatikan contoh berikut.

In [None]:
# Menampilkan beberapa kolom

b = df[['Date', 'TempAvgF', 'HumidityAvgPercent', 'WindAvgMPH']]
b

Unnamed: 0,Date,TempAvgF,HumidityAvgPercent,WindAvgMPH
0,2013-12-21,60,75,4
1,2013-12-22,48,68,6
2,2013-12-23,45,52,3
3,2013-12-24,46,56,4
4,2013-12-25,50,71,2
...,...,...,...,...
1314,2017-07-27,89,54,5
1315,2017-07-28,91,54,5
1316,2017-07-29,92,51,4
1317,2017-07-30,93,48,4


Menampilkan data teratas saja dari gabungan kolom pilihan di atas, kita dapat dengan mudah menambahkan <code>.head()</code> di belakangnya seperti di bawah ini.

In [None]:
# Menampilkan data teratas dari beberapa kolom

df[['Date', 'TempAvgF', 'HumidityAvgPercent', 'WindAvgMPH']].head()

Unnamed: 0,Date,TempAvgF,HumidityAvgPercent,WindAvgMPH
0,2013-12-21,60,75,4
1,2013-12-22,48,68,6
2,2013-12-23,45,52,3
3,2013-12-24,46,56,4
4,2013-12-25,50,71,2


### Mengakses data tertentu berdasarkan indeks

Mengakses data tertentu pada dataframe menggunakan indeks dengan atribut <code>iloc</code>. Cara ini mengharuskan untuk mengetahui ada pada indeks berapa data tersebut, baik indeks barisnya maupun indeks kolomnya. 

Misalnya, menampilkan angka __48__ di kolom __TempAvgF__ baris ke-2. Pada dataframe <code>df</code> indeks baris ke-2 adalah __1,__ dan indeks kolom __TempAvgF__ adalah __2__, maka kita dapat menuliskan kodenya seperti ini.

In [None]:
# Menampilkan data pada indeks baris 1 kolom 2

df.iloc[1,2]

48



Coba contoh lainnya.

In [None]:
# Menampilkan data pada indeks baris 872 kolom 16

df.iloc[872, 16]

'18'

In [None]:
# Menampilkan data pada indeks baris 1199 kolom 8

df.iloc[1199, 8]

'58'

### Mengakses data tertentu berdasarkan nama kolom

Selain menggunakan indeks, dapat juga menggunakan nama kolom untuk mendapatkan data pada posisi tertentu dengan atribut <code>loc</code>. Perhatikan contoh berikut.

In [None]:
# Menampilkan data baris 0 kolom TempAvgF 

df.loc[0, 'TempAvgF']

60

Contoh lainnya.

In [None]:
# Menampilkan data baris 100 kolom Date

df.loc[100, 'Date']

'2014-03-31'

In [None]:
# Menampilkan data baris 1287 kolom WindHighMPH

df.loc[1287, 'WindHighMPH']

'16'

### Slicing

Melakukan <i>slicing</i>, baik berdasarkan indeks maupun nama kolom. Perhatikan contoh di bawah ini.

In [None]:
# Slicing dataframe

df.iloc[0:6, 2:5]

Unnamed: 0,TempAvgF,TempLowF,DewPointHighF
0,60,45,67
1,48,39,43
2,45,32,31
3,46,31,36
4,50,41,44
5,48,39,39


In [None]:
# Slicing dataframe

df.loc[795:800, 'VisibilityHighMiles':'WindGustMPH']

Unnamed: 0,VisibilityHighMiles,VisibilityAvgMiles,VisibilityLowMiles,WindHighMPH,WindAvgMPH,WindGustMPH
795,10,10,10,18,7,28
796,10,10,10,13,5,19
797,10,10,10,10,3,16
798,10,10,10,14,5,21
799,10,10,10,13,7,23
800,10,10,10,13,6,22




---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


