In [1]:
import pandas as pd
import numpy as np

## Series

Pandas memiliki dua struktur data, Series dan Dataframe. Series bentuknya seperti kolom di excel, pada dasarnya adalah daftar semuanya bertipe sama. Dan cara dasar untuk membuat objek series adalah di bawah ini:

In [2]:
pd.Series?

In [3]:
s = pd.Series(
        np.random.randn(5), 
        index=['a', 'b', 'c', 'd', 'e'], 
        name='example')

s

a   -1.696578
b    2.276266
c   -0.940576
d    0.924874
e   -0.705075
Name: example, dtype: float64

Ada cara lain untuk membuat series (seperti pada dictionary). Tetapi pada dasarnya series memiliki tiga bagian penting:

1. Data
2. Indeks
3. Nama

Data tersebut dapat berupa daftar data, atau satu instance yang disebarkan, seperti di bawah ini:

In [4]:
pd.Series(5, index=['a', 'b', 'c', 'd', 'e'])

a    5
b    5
c    5
d    5
e    5
dtype: int64

Ada berbagai cara untuk mengindeks Series:

In [5]:
s[0]

-1.6965779761238415

In [6]:
s[:3]

a   -1.696578
b    2.276266
c   -0.940576
Name: example, dtype: float64

In [7]:
s[[4, 3, 1]]

e   -0.705075
d    0.924874
b    2.276266
Name: example, dtype: float64

In [8]:
s.values

array([-1.69657798,  2.27626649, -0.94057602,  0.92487389, -0.7050746 ])

In [9]:
s['e'] = 500
s

a     -1.696578
b      2.276266
c     -0.940576
d      0.924874
e    500.000000
Name: example, dtype: float64

Sebenarnya operasi diatas dapat dilakukan dengan NumPy.
Jadi saya akan memberikan beberapa operasi yang mungkin nantinya akan sering anda gunakan.

In [10]:
s[[True, True, False, False, True]]

a     -1.696578
b      2.276266
e    500.000000
Name: example, dtype: float64

In [11]:
# atau yang seringkali dilakukan
s[s > 0], s > 0

(b      2.276266
 d      0.924874
 e    500.000000
 Name: example, dtype: float64,
 a    False
 b     True
 c    False
 d     True
 e     True
 Name: example, dtype: bool)

In [12]:
# selain itu, anda bisa melakukan mutasi seperti ini
s[s < 0] *= -1

In [13]:
s

a      1.696578
b      2.276266
c      0.940576
d      0.924874
e    500.000000
Name: example, dtype: float64

Tapi satu hal yang sangat berguna tentang series adalah anda dapat melakukan operasi vektor (perhitungan cepat pada semua yang ada di keseluruhan series) pada series tersebut.

In [14]:
s > 0

a    True
b    True
c    True
d    True
e    True
Name: example, dtype: bool

In [15]:
s + s

a       3.393156
b       4.552533
c       1.881152
d       1.849748
e    1000.000000
Name: example, dtype: float64

In [16]:
np.exp(s)

a     5.455247e+00
b     9.740247e+00
c     2.561456e+00
d     2.521550e+00
e    1.403592e+217
Name: example, dtype: float64

In [17]:
s.mean()

101.16765887551958

In [18]:
# berhati-hatilah dengan beberapa operasi
# jika indeks tidak cocok, anda akan mendapatkan NaN
s + s[s > 0]

a       3.393156
b       4.552533
c       1.881152
d       1.849748
e    1000.000000
Name: example, dtype: float64

## DataFrames

Series memang bagus, tetapi ada struktur data lain yaitu dataframes. DataFrames seperti seluruh spreadsheet pada excel! Mungkin bisa anda tebak, DataFrames adalah daftar dari series, masing-masing dengan nama dan indeks yang sama. Jadi, cara mudah untuk membuat kerangka data adalah membuatnya dengan dictionary of series/lists:

In [19]:
d = {'one' : pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two' : pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [20]:
# sebenarnya bisa juga dengan menggunakan np array dan skalar

d = {'one' : 'Hellow',
    'two' : np.array([1., 2., 3., 4.])}

df = pd.DataFrame(d)
df

Unnamed: 0,one,two
0,Hellow,1.0
1,Hellow,2.0
2,Hellow,3.0
3,Hellow,4.0


Anda selalu dapat mengubah nilai indeks atau kolom nanti:

In [21]:
df.columns = ['1', '2']
df.index = ['a', 'b', 'c', 'd']
df

Unnamed: 0,1,2
a,Hellow,1.0
b,Hellow,2.0
c,Hellow,3.0
d,Hellow,4.0


Dataframe pada dasarnya hanyalah dictionary of columns/series, jadi Anda dapat menggunakan sebagian besar teknik yang sama dengan yang Anda gunakan untuk series pada dataframe.

Salah satunya seperti ini:

In [22]:
d = {'one' : 'Hellow',
    'two' : np.array([1., 2., 3., 4.])}

df = pd.DataFrame(d)
df.index = ['a', 'b', 'c', 'd']

# gives you back a named series
df['one']

a    Hellow
b    Hellow
c    Hellow
d    Hellow
Name: one, dtype: object

Anda tentu saja dapat menghapus dan membuat kolom baru, dengan broadcast juga

In [23]:
del df['one']

In [24]:
df['three'] = df['two'] + df['two']
df['four'] = 'four'
df['five'] = df['four'][:2]

In [25]:
df

Unnamed: 0,two,three,four,five
a,1.0,2.0,four,four
b,2.0,4.0,four,four
c,3.0,6.0,four,
d,4.0,8.0,four,


Selanjutnya mari kita bahas pengindeksan dan pemilihan dengan dataframe. Pada dasarnya ada 4 cara untuk melakukannya:

In [26]:
# menampilkan sebuah kolom
df['two']

a    1.0
b    2.0
c    3.0
d    4.0
Name: two, dtype: float64

In [27]:
df[['five', 'two']]

Unnamed: 0,five,two
a,four,1.0
b,four,2.0
c,,3.0
d,,4.0


In [28]:
# memilih berdasarkan indeks dan nama kolom
df.loc['a', 'two']

1.0

In [29]:
df.loc['d':'a':-1, 'two':'three']

Unnamed: 0,two,three
d,4.0,8.0
c,3.0,6.0
b,2.0,4.0
a,1.0,2.0


In [30]:
# pilih baris dan kolom berdasarkan urutannya
df.iloc[1:3, 0]

b    2.0
c    3.0
Name: two, dtype: float64

In [31]:
df.iloc[1:3]

Unnamed: 0,two,three,four,five
b,2.0,4.0,four,four
c,3.0,6.0,four,


## DataFrame Functions

Yang paling berguna adalah fungsi penyalinan

In [32]:
df.copy()

Unnamed: 0,two,three,four,five
a,1.0,2.0,four,four
b,2.0,4.0,four,four
c,3.0,6.0,four,
d,4.0,8.0,four,


fungsi astype mengubah tipe kolom =

In [33]:
df.two.astype(np.int32)

a    1
b    2
c    3
d    4
Name: two, dtype: int32

Hal berikutnya yang sangat sering digunakan adalah kemampuan transpose dataframe:

In [34]:
df.T

Unnamed: 0,a,b,c,d
two,1.0,2.0,3.0,4.0
three,2.0,4.0,6.0,8.0
four,four,four,four,four
five,four,four,,


Ini menempatkan baris sebagai kolom dan kolom sebagai baris. Ini bisa menjadi cara yang baik untuk melakukan operasi baris.

In [35]:
df.head(2)

Unnamed: 0,two,three,four,five
a,1.0,2.0,four,four
b,2.0,4.0,four,four


In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, a to d
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   two     4 non-null      float64
 1   three   4 non-null      float64
 2   four    4 non-null      object 
 3   five    2 non-null      object 
dtypes: float64(2), object(2)
memory usage: 332.0+ bytes


In [37]:
df.describe(include='all')

Unnamed: 0,two,three,four,five
count,4.0,4.0,4,2
unique,,,1,1
top,,,four,four
freq,,,4,2
mean,2.5,5.0,,
std,1.290994,2.581989,,
min,1.0,2.0,,
25%,1.75,3.5,,
50%,2.5,5.0,,
75%,3.25,6.5,,


Anda akan melihat bahwa ketika jumlah kolom terlalu banyak, tampilan menjadi berantakan:

In [38]:
for i in range(20):
    df[i] = i
    
df.head()

Unnamed: 0,two,three,four,five,0,1,2,3,4,5,...,10,11,12,13,14,15,16,17,18,19
a,1.0,2.0,four,four,0,1,2,3,4,5,...,10,11,12,13,14,15,16,17,18,19
b,2.0,4.0,four,four,0,1,2,3,4,5,...,10,11,12,13,14,15,16,17,18,19
c,3.0,6.0,four,,0,1,2,3,4,5,...,10,11,12,13,14,15,16,17,18,19
d,4.0,8.0,four,,0,1,2,3,4,5,...,10,11,12,13,14,15,16,17,18,19


In [39]:
#transposing helps
df.head().T

Unnamed: 0,a,b,c,d
two,1.0,2.0,3.0,4.0
three,2.0,4.0,6.0,8.0
four,four,four,four,four
five,four,four,,
0,0,0,0,0
1,1,1,1,1
2,2,2,2,2
3,3,3,3,3
4,4,4,4,4
5,5,5,5,5


Terkadang ini juga akan terpotong. Untuk melihat lebih banyak, Anda selalu dapat mengubah opsi tampilan di bawah (selalu ada banyak opsi di pandas, Anda dapat memeriksa semuanya [di sini](https://pandas.pydata.org/pandas-docs/stable/options.html) atau dengan `pd.set_option?`):

In [40]:
pd.set_option('display.max_rows', 100)
pd.set_option('display.precision', 7)