# Pandas

Pandas adalah library yang ditulis dalam bahasa python yang berguna untuk manipulasi dan analisis data (dataframe).  Dalam dataframe tersebut juga terdapat tools untuk memanipulasi data: reshaping, merging, sorting, slicing, dll.

Dalam modul ini akan dibahas mengenai cara penggunaan pandas DataFrames.

### Instalasi

Instalasi menggunakan python pip jika sudah memiliki python

```
pip install pandas
```

### Importing Pandas

In [1]:
# import python library
import pandas as pd

### Membaca dataset

In [33]:
# baca dataset

df = pd.read_csv("Iris.csv")

Selain csv pandas juga memiliki banyak tipe data set yang bisa di pakai. Beberapa contoh:

```python
pd.read_excel('myfile.xlsx',sheet_name='Sheet1', index_col=None, na_values=['NA'])
pd.read_stata('myfile.dta')
pd.read_sas('myfile.sas7bdat')
pd.read_hdf('myfile.h5','df')
```

Pada umumnya dataset sering ditemui dalam bentuk csv tetapi pembacaan dataset disesuaikan dengan tipe dataset.


[Dokumentasi pandas.read_](https://pandas.pydata.org/pandas-docs/stable/search.html?q=read_ "Dokumentasi Pandas")

### Membaca Dataframes

Untuk melihat hasil dataframe menggunakan:

Code | Fungsi
--- | :---
`df` | Membaca secara singkat dataframe
`df.head()` | Membaca 5 row pertama
`df.head(n)` | Membaca n-row pertama
`df.tail()` | Membaca 5 row terakhir
`df.tail(n)` | Membaca n-row terakhir 

In [3]:
# membaca df secara singkat
df

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,Iris-virginica
146,147,6.3,2.5,5.0,1.9,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


### Mengenai Dataset

![iris](https://miro.medium.com/max/1000/1*Hh53mOF4Xy4eORjLilKOwA.png "Iris flowers")

Kolom pada tabel:

Kolom | Keterangan
--- | :---
Id | Identifier unik indeks
SepalLengthCm | Panjang sepal bunga dalam cm
SepalWidthCm | Lebar sepal bunga dalam cm
PetalLengthCm | Panjang petal bunga dalam cm
PetalWidthCm | Lebar petal bunga dalam cm
Species | Spesies bunga

In [4]:
# membaca 5 row pertama
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [5]:
# membaca 3 row terakhir
df.tail(3)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica
149,150,5.9,3.0,5.1,1.8,Iris-virginica


### Tipe data dalam Dataframes

Tipe data dikelompokan untuk setiap kolom dalam dataframe

Pandas Type | Native Python Type | Deskripsi
--- | --- | :---
object | string | Tipe paling umum, akan di assign jika dalam kolom terdapat string dan angka
int64 | int | Karakter Numerik, 64 adalah alokasi memori untuk karakter tersebut
float64 | float | Karakter Numerik dengan desimal
datetime64 | datetime module | Menyimpan data waktu

In [6]:
# mengecek tipe data semua kolom dalam dataframe
df.dtypes

Id                 int64
SepalLengthCm    float64
SepalWidthCm     float64
PetalLengthCm    float64
PetalWidthCm     float64
Species           object
dtype: object

In [7]:
# mengecek tipe data untuk kolom tertentu
df[['SepalLengthCm']].dtypes

SepalLengthCm    float64
dtype: object

### Attribut Dataframes

Attribut untuk objek dataframe

df attribute | Deskripsi
--- | :---
`dtypes` | List tipe data dalam kolom
`columns` | List nama-nama kolom
`axes` | List label row dan nama kolom
`ndim` | Jumlah dimensi dataframe
`size` | Jumlah elemen dataframe
`shape` | Return tuple yang merepresentasikan dimensi
`values` | Return representasi data dalam numpy array

In [8]:
# mendapatkan dimensi dataframe

df.shape

(150, 6)

In [9]:
# Mendapatkan values dalam numpy array
df.values

array([[1, 5.1, 3.5, 1.4, 0.2, 'Iris-setosa'],
       [2, 4.9, 3.0, 1.4, 0.2, 'Iris-setosa'],
       [3, 4.7, 3.2, 1.3, 0.2, 'Iris-setosa'],
       [4, 4.6, 3.1, 1.5, 0.2, 'Iris-setosa'],
       [5, 5.0, 3.6, 1.4, 0.2, 'Iris-setosa'],
       [6, 5.4, 3.9, 1.7, 0.4, 'Iris-setosa'],
       [7, 4.6, 3.4, 1.4, 0.3, 'Iris-setosa'],
       [8, 5.0, 3.4, 1.5, 0.2, 'Iris-setosa'],
       [9, 4.4, 2.9, 1.4, 0.2, 'Iris-setosa'],
       [10, 4.9, 3.1, 1.5, 0.1, 'Iris-setosa'],
       [11, 5.4, 3.7, 1.5, 0.2, 'Iris-setosa'],
       [12, 4.8, 3.4, 1.6, 0.2, 'Iris-setosa'],
       [13, 4.8, 3.0, 1.4, 0.1, 'Iris-setosa'],
       [14, 4.3, 3.0, 1.1, 0.1, 'Iris-setosa'],
       [15, 5.8, 4.0, 1.2, 0.2, 'Iris-setosa'],
       [16, 5.7, 4.4, 1.5, 0.4, 'Iris-setosa'],
       [17, 5.4, 3.9, 1.3, 0.4, 'Iris-setosa'],
       [18, 5.1, 3.5, 1.4, 0.3, 'Iris-setosa'],
       [19, 5.7, 3.8, 1.7, 0.3, 'Iris-setosa'],
       [20, 5.1, 3.8, 1.5, 0.3, 'Iris-setosa'],
       [21, 5.4, 3.4, 1.7, 0.2, 'Iris-setosa'],
 

### Method Dataframes

Method dalam objek dataframe

df method | deskripsi
--- | :---
`head(n)`, `tail(n)` |  n row pertama/terakhir
`max()`, `min()` | return nilai max/min untuk numeric column
`mean()` | return mean untuk numeric column
`median()` | return median untuk numeric column
`describe()` | generate statistik deskriptif (untuk numeric column)
`sample(n)` | return random sample dalam dataframe
`isna()` | mengecek missing values, return boolean
`dropna()` | drop row dengan missing values

In [10]:
# statistik deskriptif untuk semua kolom

df.describe()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0,150.0
mean,75.5,5.843333,3.054,3.758667,1.198667
std,43.445368,0.828066,0.433594,1.76442,0.763161
min,1.0,4.3,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


In [11]:
# mengambil random sample

df.sample(5)

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
52,53,6.9,3.1,4.9,1.5,Iris-versicolor
44,45,5.1,3.8,1.9,0.4,Iris-setosa
70,71,5.9,3.2,4.8,1.8,Iris-versicolor
13,14,4.3,3.0,1.1,0.1,Iris-setosa


In [12]:
# rata rata dari 50 row pertama
df.head(50).values

array([[1, 5.1, 3.5, 1.4, 0.2, 'Iris-setosa'],
       [2, 4.9, 3.0, 1.4, 0.2, 'Iris-setosa'],
       [3, 4.7, 3.2, 1.3, 0.2, 'Iris-setosa'],
       [4, 4.6, 3.1, 1.5, 0.2, 'Iris-setosa'],
       [5, 5.0, 3.6, 1.4, 0.2, 'Iris-setosa'],
       [6, 5.4, 3.9, 1.7, 0.4, 'Iris-setosa'],
       [7, 4.6, 3.4, 1.4, 0.3, 'Iris-setosa'],
       [8, 5.0, 3.4, 1.5, 0.2, 'Iris-setosa'],
       [9, 4.4, 2.9, 1.4, 0.2, 'Iris-setosa'],
       [10, 4.9, 3.1, 1.5, 0.1, 'Iris-setosa'],
       [11, 5.4, 3.7, 1.5, 0.2, 'Iris-setosa'],
       [12, 4.8, 3.4, 1.6, 0.2, 'Iris-setosa'],
       [13, 4.8, 3.0, 1.4, 0.1, 'Iris-setosa'],
       [14, 4.3, 3.0, 1.1, 0.1, 'Iris-setosa'],
       [15, 5.8, 4.0, 1.2, 0.2, 'Iris-setosa'],
       [16, 5.7, 4.4, 1.5, 0.4, 'Iris-setosa'],
       [17, 5.4, 3.9, 1.3, 0.4, 'Iris-setosa'],
       [18, 5.1, 3.5, 1.4, 0.3, 'Iris-setosa'],
       [19, 5.7, 3.8, 1.7, 0.3, 'Iris-setosa'],
       [20, 5.1, 3.8, 1.5, 0.3, 'Iris-setosa'],
       [21, 5.4, 3.4, 1.7, 0.2, 'Iris-setosa'],
 

### Dataframes dan Series

Perlu diketahui Dataframe (`Pandas.DataFrame`) adalah sebuah koleksi dari Series (`Pandas.Series`). Setiap kolom dalam sebuah dataframe adalah sebuah objek series.



[geeks4geeks pandas series](https://www.geeksforgeeks.org/python-pandas-series/ "pandas series di g4g")

[Dokumentasi pandas.Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html "Dokumentasi Pandas Series")

[Dokumentasi pandas.DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html "Dokumentasi Pandas DataFrame")

### Dataframes: Subset

Memilih subset dalam bentuk series: `df['nama_kolom]`

Memilih subset dalam bentuk DataFrame: `df[['nama_kolom']]`

In [13]:
# memilih hanya kolom species

df[['Species']]

Unnamed: 0,Species
0,Iris-setosa
1,Iris-setosa
2,Iris-setosa
3,Iris-setosa
4,Iris-setosa
...,...
145,Iris-virginica
146,Iris-virginica
147,Iris-virginica
148,Iris-virginica


In [14]:
# memilih beberapa kolom dalam dataframe

df[['Species', 'PetalLengthCm', 'PetalWidthCm']]

Unnamed: 0,Species,PetalLengthCm,PetalWidthCm
0,Iris-setosa,1.4,0.2
1,Iris-setosa,1.4,0.2
2,Iris-setosa,1.3,0.2
3,Iris-setosa,1.5,0.2
4,Iris-setosa,1.4,0.2
...,...,...,...
145,Iris-virginica,5.2,2.3
146,Iris-virginica,5.0,1.9
147,Iris-virginica,5.2,2.0
148,Iris-virginica,5.4,2.3


In [15]:
# mencari mean dari kolom PetalLength dan PetalWidth

df[['PetalLengthCm', 'PetalWidthCm']].mean()

PetalLengthCm    3.758667
PetalWidthCm     1.198667
dtype: float64

### DataFrames: Group By

Dengan menggunakan group by kita dapat:
- memisah data berdasarkan kriteria tertentu
- menghitung statistik dalam masing-masing kelompok

In [16]:
# menghitung mean untuk setiap species

df_species = df.groupby(['Species'])
df_species.mean()

Unnamed: 0_level_0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
Species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Iris-setosa,25.5,5.006,3.418,1.464,0.244
Iris-versicolor,75.5,5.936,2.77,4.26,1.326
Iris-virginica,125.5,6.588,2.974,5.552,2.026


In [17]:
# group by lebih dari satu kolom

df_mall = pd.read_csv('Mall_Customers.csv')
df_mall

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40
...,...,...,...,...,...
195,196,Female,35,120,79
196,197,Female,45,126,28
197,198,Male,32,126,74
198,199,Male,32,137,18


In [18]:
pd.set_option('display.max_rows', None)

df_mall.groupby(['Gender', 'Age']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,CustomerID,Annual Income (k$),Spending Score (1-100)
Gender,Age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,18,115.0,65.0,48.0
Female,19,114.0,64.0,52.0
Female,20,21.5,26.5,40.5
Female,21,64.75,44.75,63.25
Female,22,47.0,37.0,65.5
Female,23,57.833333,41.5,63.333333
Female,24,30.0,29.5,71.0
Female,25,133.0,72.0,34.0
Female,27,90.25,56.0,59.25
Female,28,143.0,76.0,40.0


In [19]:
pd.set_option('display.max_rows', 10)

### DataFrames: Filtering

Saat melakukan subset, kita dapat menambahkan boolean indexing atau disebut filtering.

Boolean operator | Deskripsi
--- | :---
`>` | Lebih besar dari
`>=` | Lebih besar sama dengan
`<` | Kurang dari
`<=` | Kurang dari sama dengan
`==` | Sama dengan
`!=` | Tidak sama dengan

In [20]:
# mendapatkan row dengan PetalLength > 5 cm

df[ df['PetalLengthCm'] > 5.0 ]

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
83,84,6.0,2.7,5.1,1.6,Iris-versicolor
100,101,6.3,3.3,6.0,2.5,Iris-virginica
101,102,5.8,2.7,5.1,1.9,Iris-virginica
102,103,7.1,3.0,5.9,2.1,Iris-virginica
103,104,6.3,2.9,5.6,1.8,Iris-virginica
...,...,...,...,...,...,...
144,145,6.7,3.3,5.7,2.5,Iris-virginica
145,146,6.7,3.0,5.2,2.3,Iris-virginica
147,148,6.5,3.0,5.2,2.0,Iris-virginica
148,149,6.2,3.4,5.4,2.3,Iris-virginica


### DataFrames: Slicing

Terdapat beberapa cara untuk melakukan subset pada DataFrame:
- satu atau lebih kolom
- satu atau lebih row
- subset dari row dan kolom

dimana row dan kolom dapat di subset berdasarkan posisi dan label masing-masing.

Jika hanya membutuhkan subset satu kolom dapat menggunakan satu pasang kurung siku `[ ]`, tetapi akan menghasilkan object `Series`.

```python
df['Species'] # return object Pandas.Series

df[['Species']] # return object Pandas.DataFrame
```

Untuk memilih lebih dari satu kolom harus menggunakan `[[ ]]`.

```python
df[['Species', 'PetalLengthCm', 'PetalWidthCm']]
```

In [21]:
df[['Species', 'PetalLengthCm', 'PetalWidthCm']]

Unnamed: 0,Species,PetalLengthCm,PetalWidthCm
0,Iris-setosa,1.4,0.2
1,Iris-setosa,1.4,0.2
2,Iris-setosa,1.3,0.2
3,Iris-setosa,1.5,0.2
4,Iris-setosa,1.4,0.2
...,...,...,...
145,Iris-virginica,5.2,2.3
146,Iris-virginica,5.0,1.9
147,Iris-virginica,5.2,2.0
148,Iris-virginica,5.4,2.3


Jika untuk memilih row, method `head()` dan `tail()` tidak memungkinkan untuk mendapat hasil yang sesuai, bisa memilih row berdasarkan posisi index dalam DataFrame.

```python
df[10:20]
```

`10:20` berarti memilih row dimulai dari index ke-10 sampai ke-19

In [22]:
df[10:20]

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
10,11,5.4,3.7,1.5,0.2,Iris-setosa
11,12,4.8,3.4,1.6,0.2,Iris-setosa
12,13,4.8,3.0,1.4,0.1,Iris-setosa
13,14,4.3,3.0,1.1,0.1,Iris-setosa
14,15,5.8,4.0,1.2,0.2,Iris-setosa
15,16,5.7,4.4,1.5,0.4,Iris-setosa
16,17,5.4,3.9,1.3,0.4,Iris-setosa
17,18,5.1,3.5,1.4,0.3,Iris-setosa
18,19,5.7,3.8,1.7,0.3,Iris-setosa
19,20,5.1,3.8,1.5,0.3,Iris-setosa


### DataFrames: loc method

`df.loc[...]` metode ini digunakan untuk melakukan subset pada row dan column sekaligus berdasarkan dari label mereka.

sebagai contoh:
```python
df.loc[11:20, ['Species', 'PetalLengthCm', 'PetalWidthCm']]
```

- Argumen 1: `11:20` untuk menentukan posisi row dari index row
- Argumen 2: `['Species', 'PetalLengthCm', 'PetalWidthCm']` untuk menentukan kolom dari nama kolom

In [23]:
# contoh penggunaan loc

df.loc[11:20, ['Species', 'PetalLengthCm', 'PetalWidthCm']]

Unnamed: 0,Species,PetalLengthCm,PetalWidthCm
11,Iris-setosa,1.6,0.2
12,Iris-setosa,1.4,0.1
13,Iris-setosa,1.1,0.1
14,Iris-setosa,1.2,0.2
15,Iris-setosa,1.5,0.4
16,Iris-setosa,1.3,0.4
17,Iris-setosa,1.4,0.3
18,Iris-setosa,1.7,0.3
19,Iris-setosa,1.5,0.3
20,Iris-setosa,1.7,0.2


### DataFrames: iloc method

Mirip dengan method sebelumnya, method `df.iloc[...]` digunakan untuk melakukan subset pada row dan column namun berdasarkan posisi mereka.

sebagai contoh:
```python
df.iloc[11:20, [5, 4, 3]]
```

- Argumen 1: `11:20` untuk menentukan posisi row dari index row
- Argumen 2: `[5, 4, 3]` untuk menentukan kolom berdasarkan index kolom (dimulai dari 0)

In [24]:
# contoh penggunaan iloc

df.iloc[11:20, [5, 4, 3]]

Unnamed: 0,Species,PetalWidthCm,PetalLengthCm
11,Iris-setosa,0.2,1.6
12,Iris-setosa,0.1,1.4
13,Iris-setosa,0.1,1.1
14,Iris-setosa,0.2,1.2
15,Iris-setosa,0.4,1.5
16,Iris-setosa,0.4,1.3
17,Iris-setosa,0.3,1.4
18,Iris-setosa,0.3,1.7
19,Iris-setosa,0.3,1.5


#### Contoh lain menggunakan iloc

```python
df.iloc[0]  # mengambil row pertama
df.iloc[i]  # mengambil row ke-(i+1)
df.iloc[-1] # mengambil row terakhir
```

```python
df.iloc[:, 0]  # mengambil kolom pertama
df.iloc[:, -1] # mengambil kolom terakhir
```

```python
df.iloc[0:7]      # mengambil 7 row pertama
df.iloc[:, 0:2]   # mengambil 2 kolom pertama
df.iloc[1:3, 0:2] # mengambil row 2 sampai 3 pada 2 kolom pertama
df.iloc[[0, 5], [1, 3]]  # row 1 dan row 6 pada kolom 2 dan 4
```

### Dataframes: sorting

Data dalam dataframe dapat di sorting menggunakan:

```python
df.sort_values(by='nama_kolom')
```

secara default sort nya adalah ascending, untuk mengubah sorting nya dengan menambahkan kwarg `ascending=False`:

```python
df_mall.sort_values(by='Age', ascending=False)
```

In [25]:
# contoh sorting

df_mall.sort_values(by='Age', ascending=False)

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
70,71,Male,70,49,55
60,61,Male,70,46,56
57,58,Male,69,44,46
90,91,Female,68,59,55
67,68,Female,68,48,48
...,...,...,...,...,...
0,1,Male,19,15,39
33,34,Male,18,33,92
65,66,Male,18,48,59
91,92,Male,18,59,41


Sorting juga dapat dilakukan pada lebih dari 1 kolom

```python
df_mall.sort_values(by=['Gender', 'Age'], ascending=[True, False])
```

In [26]:
# contoh sorting

df_mall.sort_values(by=['Gender', 'Age'], ascending=[True, False])

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
67,68,Female,68,48,48
90,91,Female,68,59,55
62,63,Female,67,47,52
106,107,Female,66,63,50
40,41,Female,65,38,35
...,...,...,...,...,...
138,139,Male,19,74,10
162,163,Male,19,81,5
33,34,Male,18,33,92
65,66,Male,18,48,59


### DataFrame: Missing Values

Dalam python, Missing Values ditandai sebagai NaN yaitu Not a Number.

In [27]:
# contoh NaN values

df_wine = pd.read_csv('Wine_Quality.csv') # membaca dataset

df_wine[df_wine.isna().any(axis=1)] # menampilkan row dengan minimal 1 NaN values

Unnamed: 0,type,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
17,white,,0.660,0.48,1.2,0.029,29.0,75.0,0.98920,3.33,0.39,12.8,8
33,white,6.2,0.120,0.34,,0.045,43.0,117.0,0.99390,3.42,0.51,9.0,6
54,white,6.8,0.200,0.59,0.9,0.147,38.0,132.0,0.99300,,0.38,9.1,6
86,white,7.2,,0.63,11.0,0.044,55.0,156.0,0.99740,3.09,0.44,8.7,6
98,white,9.8,0.360,0.46,10.5,,4.0,83.0,0.99560,2.89,0.30,10.1,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6321,red,6.4,0.530,0.09,3.9,0.123,14.0,31.0,0.99680,3.50,,11.0,4
6428,red,,0.440,0.09,2.2,0.063,9.0,18.0,0.99444,,0.69,11.3,6
6429,red,,0.705,0.10,2.8,0.081,13.0,28.0,0.99631,,0.66,10.2,5
6486,red,7.2,,0.33,2.5,0.068,34.0,102.0,0.99414,3.27,0.78,12.8,6


Method yang berhubungan dengan handling missing values

df method | deskripsi
--- | :---
`isnull()`, `isna()` | return True jika NaN
`notnull()`, `notna()` | return True jika bukan NaN
`fillna(n)` | Replace Nan dengan n
`dropna()` | drop NaN
`dropna(how='all')` | drop row jika hanya berisi NaN
`dropna(axis=1, how='all')` | drop column jika hanya berisi NaN
`dropna(axis=0, how='any')` | drop column jika memiliki minimal satu NaN value
`dropna(thresh=n)` | drop row jika memiliki minimal n-NaN value


In [28]:
# contoh menghapus row dengan NaN

df_wine.isna().sum()

type                 0
fixed acidity       10
volatile acidity     8
citric acid          3
residual sugar       2
                    ..
density              0
pH                   9
sulphates            4
alcohol              0
quality              0
Length: 13, dtype: int64

In [29]:
# contoh menghapus row dengan NaN

df_wine_dropna = df_wine.dropna(axis = 0, how ='any')
df_wine_dropna.isna().sum()

type                0
fixed acidity       0
volatile acidity    0
citric acid         0
residual sugar      0
                   ..
density             0
pH                  0
sulphates           0
alcohol             0
quality             0
Length: 13, dtype: int64

### Dataframes: Aggregation Methods

Method aggregasi dalam DataFrame

df method | Deskripsi
--- | :---
`describe` | Statistic Deskriptif (count, mean, std, min, quantiles, max)
`min`, `max` | Nilai minimum dan maksimum
`mean`, `median`, `mode` | Rata-rata, median, dan modus
`var`, `std` | Variansi dan standar deviasi
`sem` | standard error of mean
`skew` | sample skewness
`kurt` | kurtosis


In [30]:
# contoh penggunaan banyak agregasi

df[ ['PetalWidthCm', 'PetalLengthCm'] ].agg(['min', 'max', 'mean'])

Unnamed: 0,PetalWidthCm,PetalLengthCm
min,0.1,1.0
max,2.5,6.9
mean,1.198667,3.758667


###### akhir dari modul