In [1]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

In [2]:
dframe = DataFrame(np.arange(12).reshape(3,4),
                  index=['NY','LA','SF'],
                  columns=['A','B','C','D'])
dframe

Unnamed: 0,A,B,C,D
NY,0,1,2,3
LA,4,5,6,7
SF,8,9,10,11


In [3]:
#merubah bentuk huruf dari index menjadi huruf kecil
dframe.index = dframe.index.map(str.lower)
dframe

Unnamed: 0,A,B,C,D
ny,0,1,2,3
la,4,5,6,7
sf,8,9,10,11


In [4]:
#kita bisa juga menggunakan method rename
#mengubah huruf di index menjadi kapital dan mengubah huruf di kolom menjadi huruf kecil
dframe.rename(index=str.title, columns=str.lower)

Unnamed: 0,a,b,c,d
Ny,0,1,2,3
La,4,5,6,7
Sf,8,9,10,11


In [5]:
#mengubah nama dari index dengan menggunakan rename
dframe.rename(index={'ny': 'NEW YORK'},
             columns={'A': 'ALPHA'})

Unnamed: 0,ALPHA,B,C,D
NEW YORK,0,1,2,3
la,4,5,6,7
sf,8,9,10,11


In [6]:
#mengubah perubahan di atas menjadi lebih permanen
#menggunakan parameter inplace
dframe.rename(index={'ny': 'NEW YORK'},
             columns={'A': 'ALPHA'}, inplace=True)
dframe

Unnamed: 0,ALPHA,B,C,D
NEW YORK,0,1,2,3
la,4,5,6,7
sf,8,9,10,11


## Binning

In [7]:
years = [1990,1991,1992,2008,2012,2015,1987,1969,2013,2008,1999]

In [8]:
#membagi tahun tersebut berdasarkan dekade
decade_bins = [1960,1970,1980,1990,2000,2010,2020]

In [9]:
#membuat category object untuk melakukan binning (?)
decade_cat = pd.cut(years, decade_bins)

In [10]:
#menampilkan kategori yang kita miliki 
decade_cat

[(1980, 1990], (1990, 2000], (1990, 2000], (2000, 2010], (2010, 2020], ..., (1980, 1990], (1960, 1970], (2010, 2020], (2000, 2010], (1990, 2000]]
Length: 11
Categories (6, interval[int64]): [(1960, 1970] < (1970, 1980] < (1980, 1990] < (1990, 2000] < (2000, 2010] < (2010, 2020]]

In [11]:
#kita memiliki enam kategori
#menampilkan index dari setiap kategori
decade_cat.categories

IntervalIndex([(1960, 1970], (1970, 1980], (1980, 1990], (1990, 2000], (2000, 2010], (2010, 2020]],
              closed='right',
              dtype='interval[int64]')

In [12]:
#meliaht jumlah value dari setiap kategori
#contohnya pada kategori 2010-2020 punya tiga value, yaitu 2012, 2013, dan 2015
#tidak ada value 1970-1980 
pd.value_counts(decade_cat)

(2010, 2020]    3
(1990, 2000]    3
(2000, 2010]    2
(1980, 1990]    2
(1960, 1970]    1
(1970, 1980]    0
dtype: int64

In [13]:
#membagi dua kategori itu lagi menjadi dua
pd.cut(years,2,precision=1)

[(1969.0, 1992.0], (1969.0, 1992.0], (1969.0, 1992.0], (1992.0, 2015.0], (1992.0, 2015.0], ..., (1969.0, 1992.0], (1969.0, 1992.0], (1992.0, 2015.0], (1992.0, 2015.0], (1992.0, 2015.0]]
Length: 11
Categories (2, interval[float64]): [(1969.0, 1992.0] < (1992.0, 2015.0]]

In [14]:
#maish belum begitu mengerti precision kegunaannya untuk apa 
pd.cut(years,2,precision=7)

[(1968.954, 1992.0], (1968.954, 1992.0], (1968.954, 1992.0], (1992.0, 2015.0], (1992.0, 2015.0], ..., (1968.954, 1992.0], (1968.954, 1992.0], (1992.0, 2015.0], (1992.0, 2015.0], (1992.0, 2015.0]]
Length: 11
Categories (2, interval[float64]): [(1968.954, 1992.0] < (1992.0, 2015.0]]

In [15]:
#pasangan tanda kurung dan kurung siku menandakan bahwa kurung siku itu icluded. jadi misal: (1968, 2015] artinya 2015 included
#apakah 1968 juga ikut? sepertinya tidak

In [16]:
#3 artinya kategori years akan dibagi menjadi tiga
pd.cut(years,3,precision=1)

[(1984.3, 1999.7], (1984.3, 1999.7], (1984.3, 1999.7], (1999.7, 2015.0], (1999.7, 2015.0], ..., (1984.3, 1999.7], (1969.0, 1984.3], (1999.7, 2015.0], (1999.7, 2015.0], (1984.3, 1999.7]]
Length: 11
Categories (3, interval[float64]): [(1969.0, 1984.3] < (1984.3, 1999.7] < (1999.7, 2015.0]]

## Outliers

In [17]:
#PERLU BACA LAGI SOAL .SEED()
#di sini: sharpsightlabs.com/blog/numpy-random-seed/
np.random.seed(12345)

In [18]:
dframe2 = DataFrame(np.random.randn(1000,4))

In [19]:
dframe2.head()

Unnamed: 0,0,1,2,3
0,-0.204708,0.478943,-0.519439,-0.55573
1,1.965781,1.393406,0.092908,0.281746
2,0.769023,1.246435,1.007189,-1.296221
3,0.274992,0.228913,1.352917,0.886429
4,-2.001637,-0.371843,1.669025,-0.43857


In [20]:
dframe2.tail()

Unnamed: 0,0,1,2,3
995,1.089085,0.251232,-1.451985,1.653126
996,-0.478509,-0.010663,-1.060881,-1.50287
997,-1.946267,1.013592,0.037333,0.133304
998,-1.293122,-0.322542,-0.78296,-0.30334
999,0.089987,0.292291,1.177706,0.882755


In [21]:
dframe2.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.067684,0.067924,0.025598,-0.002298
std,0.998035,0.992106,1.006835,0.996794
min,-3.428254,-3.548824,-3.184377,-3.745356
25%,-0.77489,-0.591841,-0.641675,-0.644144
50%,-0.116401,0.101143,0.002073,-0.013611
75%,0.616366,0.780282,0.680391,0.654328
max,3.366626,2.653656,3.260383,3.927528


In [22]:
col = dframe2[0]

In [23]:
col.head()

0   -0.204708
1    1.965781
2    0.769023
3    0.274992
4   -2.001637
Name: 0, dtype: float64

In [24]:
#melihat nilai absolut dari kolom yang lebih besar dari tiga
col[np.abs(col)>3]

523   -3.428254
900    3.366626
Name: 0, dtype: float64

In [25]:
#mengembalikan index di mana dalam index tersebut ada kolom yang nilai angka absolutnya lebih besar daripada tiga
#memang ada yang nilainya kurang dari 3, tapi di satu index itu ada pula yang nilainya lebih besar dari tiga

#method any sebelumnya pernah kita pelajari (any-all)
#any return True jika salah satu dari nlai bernilai True
#all return False jika salah satu dari nilai bernilai False 

#ASUMSI: jika any(2) berarti melihat nilai index yang didalamnya ada dua hyang bernilai 3
#sejauh ini tidak ada yang seperti itu, tapi patut untuk dicoba lagi di kemudian hari
dframe2[(np.abs(dframe2)>3).any(1)]

Unnamed: 0,0,1,2,3
5,-0.539741,0.476985,3.248944,-1.021228
97,-0.774363,0.552936,0.106061,3.927528
102,-0.655054,-0.56523,3.176873,0.959533
305,-2.315555,0.457246,-0.025907,-3.399312
324,0.050188,1.951312,3.260383,0.963301
400,0.146326,0.508391,-0.196713,-3.745356
499,-0.293333,-0.242459,-3.05699,1.918403
523,-3.428254,-0.296336,-0.439938,-0.867165
586,0.275144,1.179227,-3.184377,1.369891
808,-0.362528,-3.548824,1.553205,-2.186301


In [32]:
#akan return error, IndexError (Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match)
#dframe2[(np.abs(dframe2)>3).all()]

  """Entry point for launching an IPython kernel.


IndexingError: Unalignable boolean Series provided as indexer (index of the boolean Series and of the indexed object do not match

In [26]:
#kalau tanpa any cuma mengembalikkan nilai NaN yang angkanya kurang dari tiga
dframe2[np.abs(dframe2)>3]

Unnamed: 0,0,1,2,3
0,,,,
1,,,,
2,,,,
3,,,,
4,,,,
5,,,3.248944,
6,,,,
7,,,,
8,,,,
9,,,,


In [27]:
#mengubah semua nilai yang lebih dari tiga koma dengan nilai -3 atau 3 
#cara mengubah pendefinisiannya mungkin adalah dengan mencocokkan kolom dan index yang ada (melihat koordinat)
dframe2[np.abs(dframe2)>3] = np.sign(dframe2) * 3

In [28]:
dframe2.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.067623,0.068473,0.025153,-0.002081
std,0.995485,0.990253,1.003977,0.989736
min,-3.0,-3.0,-3.0,-3.0
25%,-0.77489,-0.591841,-0.641675,-0.644144
50%,-0.116401,0.101143,0.002073,-0.013611
75%,0.616366,0.780282,0.680391,0.654328
max,3.0,2.653656,3.0,3.0


In [29]:
#penggunaan sign

In [30]:
#cuma menampilkan nilai satu, karena mungkin cuma mau melihat tanda dari dframe ybs 
np.sign(dframe2).head()

Unnamed: 0,0,1,2,3
0,-1.0,1.0,-1.0,-1.0
1,1.0,1.0,1.0,1.0
2,1.0,1.0,1.0,-1.0
3,1.0,1.0,1.0,1.0
4,-1.0,-1.0,1.0,-1.0


In [31]:
dframe2.head()

Unnamed: 0,0,1,2,3
0,-0.204708,0.478943,-0.519439,-0.55573
1,1.965781,1.393406,0.092908,0.281746
2,0.769023,1.246435,1.007189,-1.296221
3,0.274992,0.228913,1.352917,0.886429
4,-2.001637,-0.371843,1.669025,-0.43857


## Permutation

In [33]:
dframe3 = DataFrame(np.arange(16).reshape(4,4))

In [34]:
blender = np.random.permutation(4)

In [35]:
#belum begitu mengerti maksud dari permutation di sini apa
blender

array([1, 3, 2, 0])

In [37]:
dframe3

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11
3,12,13,14,15


In [38]:
#mengubah bentuk index tersebut dibuat sesuai dengan blender, jadi index yang pertama adalah index 1, kedua adalah 3, dst dst
dframe3.take(blender)

Unnamed: 0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
2,8,9,10,11
0,0,1,2,3


In [39]:
#bagaimana kalau yang mau diubah adalah kolom? 
#ternyata bisa dengan menggunakan axis
dframe3.take(blender, axis=1)

Unnamed: 0,1,3,2,0
0,1,3,2,0
1,5,7,6,4
2,9,11,10,8
3,13,15,14,12


In [40]:
#menggunakan permutasi dengan replacement

In [41]:
box = np.array([1,2,3])

In [45]:
#melakukan random dari 0 sampai dengan index ke-dua sebanyak 10 kali 
shaker = np.random.randint(0, len(box), size=10)

In [46]:
#shake pertama dapat 2, kemudian 0, kemudian 2, dst
shaker

array([2, 0, 2, 0, 0, 2, 1, 1, 2, 1])

In [48]:
hand_grabs = box.take(shaker)

#agak self-explenatory sebenernya, cuma shaker sebenernya cuma mengambil index, sementara valuenya adalah objek dari method take
#dalam hal ini valuenya adalah box, dengan nilai 1 sbg index 0, 2 sbg index 1, 3 sbg index 2
hand_grabs

array([3, 1, 3, 1, 1, 3, 2, 2, 3, 2])