## Import Library



In [None]:
import pandas as pd 

---
---
# 1. Import Dataset

Pandas memiliki function yang disiapkan untuk mengimport berbagai jenis file.

- Untuk `csv` dan `txt` digunakan `read_csv`
- Untuk `sqlite` digunakan `read_sql`
- Untuk `xlsx` digunakan `read_excel`

### A. CSV File

In [None]:
data_csv = pd.read_csv("hr_data.csv")

In [None]:
data_csv.head()

### B. Problem
- Agar data yang kita miliki lebih mudah untuk dibaca, `sep` akan sama dengan `";"`.



In [None]:
data_csv = pd.read_csv("hr_data.csv", sep=";")
data_csv.head()  

### C. Excel

Untuk data Excel, kita hanya mengganti function `read_csv` menjadi `read_excel` untuk Excel.



In [None]:
data_excel = pd.read_excel("hr_data.xlsx")
data_excel.head()

### D. SQL 

Untuk data SQL, kita mengganti function `read_csv` menjadi `read_sql`.



In [None]:
import sqlite3

In [None]:
con = sqlite3.connect("./database.sqlite") # buka koneksi untuk akses path  h sql file
data_sql = pd.read_sql("SELECT * from Match", con)

In [None]:
data_sql.head(3)

### E. Export to CSV



In [None]:
data_csv.to_csv("data_hr_from_python.csv", sep=',')

---
# 2. DataFrame dan Series

---
### A.Bentuk Data

Berikut adalah beberapa cara mengubah bentuk data. 
* `Series` adalah data satu kolom.
* `Dataframe` adalah data dalam tabel



In [None]:
data_csv.head(10)

In [None]:
type(data_csv)

In [None]:
data_csv["satisfaction_level"].head()

In [None]:
type(data_csv["satisfaction_level"])

### B. Menampilkan semua judul kolom



In [None]:
data_hr = data_csv

In [None]:
data_hr.columns

**Latihan**

1. dari `data_sql` coba tampilkan seluruh kolom dari data



In [None]:
data_sql.head()

In [None]:
data_sql.columns

### C. Selecting Variables 

1. Sebelumnya, hanya ditampilkan data secara utuh. Namun kita juga bisa fokus pada suatu kolom saja dengan menggunakan `['nama_kolom']`



In [None]:
data_hr["satisfaction_level"].head()

In [None]:
data_hr.satisfaction_level.head()

2. Tidak hanya terbatas satu kolom, namun juga dapat memilih beberapa kolom dengan menggunakan `list` seperti `["satisfaction_level", "Work_accident"]`



In [None]:
data_hr[["satisfaction_level", "Work_accident"]].head() # Selecting Multiple Variables

In [None]:
type(data_hr[["satisfaction_level", "Work_accident"]])

**Latihan**

1. dari `data_hr` coba tampilkan kolom `number_project` saja



In [None]:
data_hr["number_project"]

2. Dari `data_hr` coba tampilkan kolom `salary` dan `division` 



In [None]:
data_hr[["number_project", "salary"]]

In [None]:
data_hr.columns

### D. Mengubah nama kolom sales menjadi department



In [None]:
data_hr.columns

In [None]:
data_hr.columns = ['satisfaction_level', 'last_evaluation',
                   'number_project', 'average_montly_hours',
                   'time_spend_company', 'Work_accident', 'left',
                   'promotion_last_5years', 'department', 'salary']

In [None]:
data_hr.rename(columns = {"salary" : "gaji"})

In [None]:
data_hr.head()

**Latihan**

1. dari `data_sql` coba ganti nama kolom `team_1` menjadi `team_pertama`



In [None]:
data_sql.head()

In [None]:
data_sql.rename(columns = {"Team_1" : "Team_Pertama"}, inplace = True)

---
### E. Join 2 variables



In [None]:
data_hr.columns

In [None]:
data_hr["satisfaction_level"].head()

In [None]:
data_hr["last_evaluation"].head()

In [None]:
a = data_hr["satisfaction_level"]
b = data_hr["last_evaluation"]

In [None]:
c = pd.concat([a, b], axis = 1)

In [None]:
c

---
---
# 3. Melihat Data "Keseluruhan"

### A. Melihat Informasi Keseluruhan



In [None]:
data_hr.info()

### B. Melihat komponen statistik dasar



In [None]:
data_hr.describe()

**Latihan**

1. dari `data_sql` coba tampilkan deskripsi dan info nya.


In [None]:
data_sql.describe()