# **Module Pandas (Panel Data / Python Data Analysis)**
Module dari luar python dan harus diinstall terlebih dahulu pip install pandas. Module ini membantu kita dalam hal memanage data, memanipulasi data, dll. Module ini lebih kompleks dari pada csv biasa

link documentation pandas : https://pandas.pydata.org/docs/reference/io.html.

Every single colomn is a Series (1-dimensional) kinda like a list sementara DataFrame (2-dimensional) adalah gabungan dari beberapa series

<hr></hr>

## **Pembacaan dan Penulisan data**
Pandas menyediakan fungsi-fungsi untuk membaca dan menulis data dari berbagai format file, seperti CSV, Excel, dan XML.
Contoh:
- `pd.read_csv()`: Membaca data dari file CSV.
- `pd.read_excel()`: Membaca data dari file Excel.
- `pd.read_xml()`: Membaca data dari file XML.

In [1]:
import pandas as pd
data = pd.read_csv("wd_for_notes.csv")
# pd.read_excel()
# pd.read_xml()
data

Unnamed: 0,day,temp,condition
0,Monday,12,Sunny
1,Tuesday,14,Rain
2,Wednesday,15,Rain
3,Thursday,14,Cloudy
4,Friday,21,Sunny
5,Saturday,22,Sunny
6,Sunday,24,Sunny


Data diatas berupada DataFrame 

Selain bisa membaca, kita juga bisa membuat csv menggunakan pandas
list -> dictionary -> dataframe -> to_csv()
- `to_csv()`: Membaca data dari file XML.

In [None]:
student_scores_dict = {
"students" : ["Amy", "James", "Angela"],
"scores" : [76,65,56] }

data = pd.DataFrame(student_scores_dict) # jadiin dataframe dulu baru bisa jadi file baru
data.to_csv("path/to/file/new_data.csv") # ini akan membuat file baru dengan data yang sudah kita buat dari python

<hr></hr>

## **Operasi Dasar**
### Mengakses kolom
`data['temp']` atau `data.temp`hanya mengakses kolom temp dan typenya disini berubah menjadi series

In [6]:
data['temp']

0    12
1    14
2    15
3    14
4    21
5    22
6    24
Name: temp, dtype: int64

### Mengecek ada yang bolong (Missing Values and Junk Data)
`df.isna()` method untuk memberi tahu apakah ada cell yang memiliki data NaN (Not A Number) values. dan ktia bisa menghapusnya dengan `df.dropna()` 

### Menggunakan kondisi
`Monday = data[data.day == "Monday"]` hanya mengeluarkan baris dimana kita sudah menspesifikasikan harinya.

In [12]:
Monday = data[data.day == "Monday"]
print(Monday)
type(Monday)

      day  temp condition
0  Monday    12     Sunny


pandas.core.frame.DataFrame

Typenya disini tetap DataFrame karena tetap berupa gabungan dari beberapa series.

### Menggunakan `DataFrame.loc` dan `DataFrame.iloc`
dataframe yang lebih kompleks dapat menggunakan syntax ini
- loc digunakan ketika kita mengambil by label 
- iloc digunakan ketika kita mengambil by index

> index akan dibahas dibagian lainnya pada dokumen ini.

In [16]:
import pandas as pd
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
                  index=['cobra', 'viper', 'sidewinder'],
                  columns=['max_speed', 'shield'])
print(df.iloc[1])
print(df.loc['viper'])

max_speed    4
shield       5
Name: viper, dtype: int64
max_speed    4
shield       5
Name: viper, dtype: int64


### Konversi Data
- `to_dict()` karena kita sudah membaca csv menggunakan pandas kita dapat mengconvertnya menjadi DataFrame -> dictionary menggunakan to_dict() 
- `to_list()` dari Series -> list 
    

In [24]:
data_dict = data.to_dict() 
print(data_dict)

{'day': {0: 'Monday', 1: 'Tuesday', 2: 'Wednesday', 3: 'Thursday', 4: 'Friday', 5: 'Saturday', 6: 'Sunday'}, 'temp': {0: 12, 1: 14, 2: 15, 3: 14, 4: 21, 5: 22, 6: 24}, 'condition': {0: 'Sunny', 1: 'Rain', 2: 'Rain', 3: 'Cloudy', 4: 'Sunny', 5: 'Sunny', 6: 'Sunny'}}


kita bisa customized bagaimana keyvalue pairnya dengan menggunakan orient pilihannya: 'dict', 'list', 'series', 'split', 'records', 'index'
                    

In [25]:
data_dict = data.to_dict(orient="index") 
print(data_dict)

{0: {'day': 'Monday', 'temp': 12, 'condition': 'Sunny'}, 1: {'day': 'Tuesday', 'temp': 14, 'condition': 'Rain'}, 2: {'day': 'Wednesday', 'temp': 15, 'condition': 'Rain'}, 3: {'day': 'Thursday', 'temp': 14, 'condition': 'Cloudy'}, 4: {'day': 'Friday', 'temp': 21, 'condition': 'Sunny'}, 5: {'day': 'Saturday', 'temp': 22, 'condition': 'Sunny'}, 6: {'day': 'Sunday', 'temp': 24, 'condition': 'Sunny'}}


In [4]:
temp_list = data["temp"].to_list()
print(temp_list)

[12, 14, 15, 14, 21, 22, 24]


<hr></hr>

## **Pemrosesan Data**

### Indexing

In [34]:
people = {
    "first": ["Corey", 'Jane', 'John'], 
    "last": ["Schafer", 'Doe', 'Doe'], 
    "email": ["CoreyMSchafer@gmail.com", 'JaneDoe@email.com', 'JohnDoe@email.com']
}

In [32]:
import pandas as pd 
df = pd.DataFrame(people)
print(df)
print("\n")
print(df.iloc[1])
print(df.index)

   first     last                    email
0  Corey  Schafer  CoreyMSchafer@gmail.com
1   Jane      Doe        JaneDoe@email.com
2   John      Doe        JohnDoe@email.com


first                 Jane
last                   Doe
email    JaneDoe@email.com
Name: 1, dtype: object
RangeIndex(start=0, stop=3, step=1)


In [38]:
dfic = pd.DataFrame(people) # ini kita ganti indexnya menjadi email unique, ic = index change
dfic.set_index('email', inplace=True)
dfic.sort_index() # mengurutkan indexnya
print(dfic)
print("\n")
print(dfic.iloc[1])
print(dfic.index)

                         first     last
email                                  
CoreyMSchafer@gmail.com  Corey  Schafer
JaneDoe@email.com         Jane      Doe
JohnDoe@email.com         John      Doe


first    Jane
last      Doe
Name: JaneDoe@email.com, dtype: object
Index(['CoreyMSchafer@gmail.com', 'JaneDoe@email.com', 'JohnDoe@email.com'], dtype='object', name='email')


Bisa kita lihat diatas ini setelah kita menjadi email, kolom email sudah tidak dianggap menjadi kolom lagi melainkan menjadi index -> menggantikan angka RangeIndex. Ini akan mempermudah kita ketika kita ingin mengecek/mangakses suatu kolom. Contohnya seperti dibawah ini

In [36]:
dfic.loc["CoreyMSchafer@gmail.com"]

first      Corey
last     Schafer
Name: CoreyMSchafer@gmail.com, dtype: object

> Hal yang perlu kita perhatikan adalah index ini pada dasarnya adalah angka/range yang mana angka tersebut adalah unique dan pasti berbeda tiap barisnya, ketika kita menggantinya dengan index yang kita ingini hati hati karena pandas mengizinkan kita memiliki index yang sama.

### Menambah atau menghapus kolom
- belum ada pembahasan

<hr></hr>

## **Statistic Using Pandas**
### Menghitung (harus series)

In [3]:
Mean = data["temp"].mean()
Median = data["temp"].median()
Mode = data["temp"].mode()
Max = data["temp"].max()
Std = data["temp"].std()
print(Mean)
print(Median)
print(Mode)
print(Max)
print(Std)

17.428571428571427
15.0
0    14
Name: temp, dtype: int64
24
4.7559486560567095


### Menghitung 'Banyak'nya data dalam kolom tersebut
tanpa kita perlu menggunakan module counter, ataupun membuat function loop sendiri. Pandas bisa memberikan 'n' atau jumlah data dari suatu kolom

In [3]:
data.temp.value_counts()

temp
14    2
12    1
15    1
21    1
22    1
24    1
Name: count, dtype: int64

### Menghitung korelasi antar kolom.
 -
### Menghitung statistik deskriptif.
 -

<hr></hr>

## **Visualisasi Data**
- belum ada pembahasan