
![image.png](attachment:image.png)

#### Oleh: Reza Rizky Pratama & Bakhtiar Amaludin
#### MoF-DAC


## Pandas ? 🐼

Pandas adalah sebuah library di Python yang menyediakan struktur data dan analisis data yang mudah digunakan. Pandas biasa digunakan untuk membuat tabel, mengubah dimensi data, mengecek data, dan lain sebagainya.

## Memahami Pandas:
1. Data Frame and Series
2. Selecting and Filtering Data
3. Sorting Data
4. Summarize Data
5. Iterating Through Data
6. Visualization
7. Saving Data


## 1. Data Frame and Series

DataFrame adalah struktur data 2 dimensi yang berbentuk tabular (mempunyai baris dan kolom) pada Pandas

Series adalah struktur data 1 dimensi yang berbentuk tabular (mempunyai baris dan kolom) pada Pandas

![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)

## Dataframe Axis

A DataFrame object has two axes: “axis 0” and “axis 1”. “axis 0” represents rows and “axis 1” represents columns.

Series object has only one axis, so this parameter always equals 0 for it. 


Now it’s clear that Series and DataFrame share the same direction for “axis 0” – it goes along rows direction.

![image-2.png](attachment:image-2.png)

## Import Pandas


Untuk menggunakan pandas kita menggunakan statement

```python
import pandas as pd
```

In [None]:
import pandas as pd

## Memuat Data ke DataFrame

Beberapa cara untuk memuat dataset ke dalam dataframe

```python
dataframe = pd.read_csv(filename) 

dataframe = pd.read_excel(filename) 

dataframe = pd.read_json(json_string) 

dataframe = pd.read_html(url) 

dataframe = pd.DataFrame(dict)
```

## Peek your Data 👀

```head()``` dan ```tail()``` mengakses baris awal dan akhir DataFrame


```sample()``` memilih data secara acak

```nlargest(n, value)``` Memilih beberapa data teratas yang sudah diurutkan

```nsmallest(n, value)``` Memilih beberapa data terbawah yang sudah diurutkan

##  Informasi DataFrame ℹ️ 

```python
    dataframe.columns # daftar kolom pada dataframe 
    
    dataframe.info() # informasi dataframe, kolom tipe data dsb.
    
    dataframe.shape() # dimensi dataframe
    
    dataframe.size() # jumlah data pada dataframe
    
```

#### Hint for Class/Function 

Use:
```python 
help(type(dataframe.columns))
```

## Dataframe Index

- RangeIndex
- CategoricalIndex
- DatetimeIndex
- dsb

### Change DataFrame index

```python
dataframe.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
```



## 2. Selecting and Filtering Data

### Akses Kolom

Caranya adalah:
``` python
dataframe['student']
```

``` python
dataframe.student
```



### Menggunakan .loc
Memilih baris atau kolom dengan label tertentu dari index.

```dataframe1.loc["Mike", "year"]```

```dataframe1.loc["Mike":"Rohan", "year":"marks"]```




### Menggunakan .iloc
Memilih baris atau kolom dengan label tertentu dari posisi index (integers).

```dataframe1.iloc[2,0]```

```dataframe1.iloc[1:2,0]```


### Filtering Data

Banyak cara melakukian filter, salah satunya menggunakan conditional

```dataframe1[conditional]```

![image.png](attachment:image.png)

Bisa juga menggunakan query. Contohnya:

```df.query('5000 < total_rooms < 5500')[:5]```


## 3. Sorting Data

Untuk melakukan sorting data pada DataFrame:

1. Hanya satu kolom:

    ```dataframe.sort_values(by='', ascending=False)```


2. Beberapa kolom:

    ```df.sort_values(["b", "c"], ascending = (False, True))```

## 4. Summarization

![image.png](attachment:image.png)

## 5. Visualization

- Bar Plot
- Histogram
- BoxPlot
- Scatter

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.random.rand(10,4),columns=['a','b','c','d'])
df.plot.bar()


In [None]:
df = pd.DataFrame({'a':np.random.randn(1000)+1,'b':np.random.randn(1000),'c':
np.random.randn(1000) - 1}, columns=['a', 'b', 'c'])

In [None]:
df = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
df.plot.box()

In [None]:
df = pd.DataFrame(np.random.rand(50, 4), columns=['a', 'b', 'c', 'd'])
df.plot.scatter(x='a', y='b')

## 6. Saving Data

Untuk menyimpan dataframe kita ke sebuah file dapa digunakan beberapa fungsi seperti

``` python
dataframe.to_csv()
dataframe.to_excel()
```

## Tambahan: Pandas Support Libraries

### PandasGUI
PandasGUI is suitable for in-depth analysis with manual drag-and-drop capability.

### Pandas-profilling
Pandas Profiling suitable for a quick analysis generation for a single variable,

### SweetViz
Sweetviz suitable for analysis between dataset and to the target feature,


In [None]:
# Pandas GUI
df = pd.read_csv('prosperity.csv')

from pandasgui import show
show(df)

In [None]:
# Pandas profiling


from pandas_profiling import ProfileReport
prof = ProfileReport(df)
prof.to_file(output_file='output.html')

In [None]:
## Sweet Viz
import sweetviz as sv

my_report = sv.analyze(df)
my_report.show_html() 

##  SUPLEMEN MATERI 

- Video Youtube MOFDAC
- https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
- https://www.enthought.com/wp-content/uploads/Enthought-Python-Pandas-Cheat-Sheets-1-8-v1.0.2.pdf

In [1]:
from IPython.display import HTML

HTML('<iframe width="560" height="315" src="https://www.youtube.com/embed/u-uFTfjJN54" title="YouTube video player" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>')

