In [1]:
import pandas as pd

## Membuat Dataframe

Untuk membuat data frame, kita perlu membuat dictionary dengan key berupa nama kolom dan berisi array dari data yang ada. Sebagai contoh, perhatikan potongan kode berikut:

In [2]:
input_data = {}
input_data['A'] = [0 for i in range(5)]
input_data['B'] = [0 for i in range(5)]

for i in range(5):
    input_data['A'][i] = input('Nilai A untuk data ke-' + str(i + 1) + ': ')
for i in range(5):
    input_data['B'][i] = input('Nilai B untuk data ke-' + str(i + 1) + ': ')

df = pd.DataFrame(data=input_data)
print(df)

## Membaca dan Menulis Data

Untuk membaca data csv, kita dapat menggunakan method `read_csv`.
Untuk membaca data excel, kita dapat menggunakan method `read_excel`.
Untuk menulis data, baik ke csv maupun excel, perhatikan contoh berikut:

In [None]:
# pandas akan membaca file tingkatinflasi20082013.csv
# yang ada di folder yang sama dengan tempat kode python ini disimpan
df = pd.read_csv("tingkatinflasi20082013.csv")
df

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
0,2008,Kota Bandung,10.23
1,2008,Prov. Jawa Barat,11.11
2,2008,Nasional,11.06
3,2009,Kota Bandung,2.11
4,2009,Prov. Jawa Barat,2.02
5,2009,Nasional,2.78
6,2010,Kota Bandung,4.53
7,2010,Prov. Jawa Barat,6.62
8,2010,Nasional,6.96
9,2011,Kota Bandung,2.75


In [None]:
# pandas akan membaca file data.xlsx yang ada di D:/,
# lalu meload data yang ada di sheet bernama "Sheet 1"
df = pd.read_excel("D:/data.xlsx", sheet_name="Sheet 1")
df

In [None]:
# pandas akan menulis data ke file data_out.csv yang ada di folder sama dengan file notebook ini
df.to_csv("data_out.csv")

In [None]:
# pandas akan menulis data ke D:/data_out.xlsx di sheet bernama "Sheet 1" dan "Sheet 2"
writer = pd.ExcelWriter("data_out.xlsx")
df.to_excel(writer, "Sheet1")
df.to_excel(writer, "Sheet2")
writer.save()

## Mengakses Data

In [None]:
# mengambil data ke-5
df.loc[4]

Tahun                          2009
Cakupan            Prov. Jawa Barat
Tingkat_Inflasi                2.02
Name: 4, dtype: object

In [None]:
# mengambil data ke-5 hingga 7
df[4:7]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
4,2009,Prov. Jawa Barat,2.02
5,2009,Nasional,2.78
6,2010,Kota Bandung,4.53


In [None]:
# mengambil data ke-17 hingga akhir
df[16:]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
16,2013,Prov. Jawa Barat,9.15
17,2013,Nasional,8.38


In [None]:
# mengambil 5 data pertama
df[:5]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
0,2008,Kota Bandung,10.23
1,2008,Prov. Jawa Barat,11.11
2,2008,Nasional,11.06
3,2009,Kota Bandung,2.11
4,2009,Prov. Jawa Barat,2.02


In [None]:
# melihat panjang data
len(df)

18

In [None]:
# mengambil nilai "Cakupan" dari data ke-2
df.loc[1, "Cakupan"]

'Prov. Jawa Barat'

Selain itu, kita bisa mengakses data berdasar kriteria. Perhatikan contoh berikut:

In [None]:
# mengambil data tahun 2012
df.loc[df["Tahun"] == 2012]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
12,2012,Kota Bandung,4.02
13,2012,Prov. Jawa Barat,3.86
14,2012,Nasional,4.3


In [None]:
# mengambil data Kota Bandung sebelum tahun 2012
df.loc[(df["Cakupan"] == "Kota Bandung") & (df["Tahun"] < 2012)]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
0,2008,Kota Bandung,10.23
3,2009,Kota Bandung,2.11
6,2010,Kota Bandung,4.53
9,2011,Kota Bandung,2.75


In [None]:
# mengambil data dengan tingkat inflasi di atas 10 atau di bawah 3
df.loc[(df["Tingkat_Inflasi"] > 10) | (df["Tingkat_Inflasi"] < 3)]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
0,2008,Kota Bandung,10.23
1,2008,Prov. Jawa Barat,11.11
2,2008,Nasional,11.06
3,2009,Kota Bandung,2.11
4,2009,Prov. Jawa Barat,2.02
5,2009,Nasional,2.78
9,2011,Kota Bandung,2.75


## Mengambil Ekstremum

In [None]:
# Mengambil data dengan inflasi maksimum
imax = df["Tingkat_Inflasi"].idxmax()
df[imax:imax + 1]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
1,2008,Prov. Jawa Barat,11.11


In [None]:
# Mengambil data dengan inflasi minimum
imin = df["Tingkat_Inflasi"].idxmin()
df[imin:imin + 1]

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
4,2009,Prov. Jawa Barat,2.02


## Mengurutkan Data

Data dapat diurutkan secara tidak menurun (ascending) tidak menaik (descending).

In [None]:
# Mengurutkan data berdasar tingkat inflasi, ascending
df.sort_values(["Tingkat_Inflasi"], ascending=[1])

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
4,2009,Prov. Jawa Barat,2.02
3,2009,Kota Bandung,2.11
9,2011,Kota Bandung,2.75
5,2009,Nasional,2.78
10,2011,Prov. Jawa Barat,3.1
11,2011,Nasional,3.79
13,2012,Prov. Jawa Barat,3.86
12,2012,Kota Bandung,4.02
14,2012,Nasional,4.3
6,2010,Kota Bandung,4.53


In [None]:
# Mengurutkan data berdasar tahun ascending, lalu tingkat inflasi descending
df.sort_values(["Tahun", "Tingkat_Inflasi"], ascending=[1, 0])

Unnamed: 0,Tahun,Cakupan,Tingkat_Inflasi
1,2008,Prov. Jawa Barat,11.11
2,2008,Nasional,11.06
0,2008,Kota Bandung,10.23
5,2009,Nasional,2.78
3,2009,Kota Bandung,2.11
4,2009,Prov. Jawa Barat,2.02
8,2010,Nasional,6.96
7,2010,Prov. Jawa Barat,6.62
6,2010,Kota Bandung,4.53
11,2011,Nasional,3.79


## Tabel Frekuensi

Kita dapat membuat tabel frekuensi. Tabel frekuensi berdasar kolom X artinya kita mendaftar semua kemungkinan nilai di kolom X secara unik, lalu menghitung berapa kali nilai itu muncul.

In [None]:
# Mendaftar kemunculan tiap tahun pada data
df["Tahun"].value_counts()

2013    3
2012    3
2011    3
2010    3
2009    3
2008    3
Name: Tahun, dtype: int64

## Menentukan Range

In [None]:
# Mengambil nilai minimum dan maximum tiap kolom
minimum = df.min()
maximum = df.max()

In [None]:
# Menuliskan range tingkat inflasi
maximum["Tingkat_Inflasi"]

11.11

In [None]:
minimum["Tingkat_Inflasi"]

2.02

## Statistik Sederhana

In [None]:
df.describe()

Unnamed: 0,Tahun,Tingkat_Inflasi
count,18.0,18.0
mean,2010.5,5.818889
std,1.757338,3.148673
min,2008.0,2.02
25%,2009.0,3.2725
50%,2010.5,4.415
75%,2012.0,8.2775
max,2013.0,11.11


Dari data di atas, kita bisa melihat ada 18 data.
Rata-rata tingkat inflasi adalah 5.8189.
Standar deviasi dari tingkat inflasi adalah 3.1487.
Tingkat inflasi minimum adalah 2.02 dan maksimumnya 11.11.
Tingkat inflasi jugamemiliki kuartil bawah 3.273, kuartil tengah 4.4150, dan kuartil atas 8.2775.

Kita dapat juga mengambil statistik satu per satu:

In [None]:
df.mean()

Tahun              2010.500000
Tingkat_Inflasi       5.818889
dtype: float64

In [None]:
# nilai rata-rata tingkat inflasi
df["Tingkat_Inflasi"].mean()

5.818888888888889

In [None]:
# nilai standar deviasi dari tingkat inflasi
df["Tingkat_Inflasi"].std()

3.148672715491568

## Koefisien Korelasi

Dua kolom pada data yang sama bisa memiliki korelasi. Tingkat korelasi ini kita sebut sebagai koefisien korelasi. Cara memaknai koefisien korelasi adalah sebagai berikut:

* Semakin mendekati 0, semakin dua kolom tidak berkorelasi.
* Semakin mendekati 1, semakin dua kolom berbanding lurus.
* Semakin mendekati -1, semakin dua kolom berbanding terbalik.

Berikt ini adalah contoh bila kita ingin melihat korelasi tahun dengan tingkat inflasi:

In [None]:
df["Tingkat_Inflasi"].corr(df["Tahun"])

-0.14436706812989372