**LearnPy: Python for Data Analyst**

* Author : Team Algoritma
* Developed by [Algoritma](https://algorit.ma)'s product division and instructors team

---

# Pengetahuan Dasar Python

Hi *future Data Analyst*!! Pada notebook ini kita akan membahas mengenai analisis data menggunakan bahasa pemrograman Python menggunakan salah satu module yang cukup powerfull yaitu `pandas`. Namun sebelum itu kita akan membahas beberapa hal terlebih dahulu sebelum masuk ke pengenalan kita terhadap `pandas`.

## Virtual Environtment

Virtual environtment merupakan alat yang digunakan untuk menyimpan dependensi dari suatu library atau module yang diperlukan ketika mengerjakan suatu project tertentu. Beberapa project tertentu membutuhkan dependency python yang berbeda, oleh karena itu cukup menyulitkan jika kita membuat virtual environtment. 

Beberapa hal yang perlu dipersiapkan dalam membuat virtual environtment yaitu:
- sudah memiliki Anaconda Navigator/Miniconda
- menggunakan CLI (command line interface) sebagai alat untuk membuat, memanage, dan mengaktifkan virtual environtment

Ketika kita sudah memiliki Anaconda Navigator, biasanya tersedia CLI bawaan dari Anaconda Navigator yaitu Anaconda Prompt. Kita akan coba membuat suatu virtual environtment menggunakan Anaconda Prompt. Setelah dibuka Anaconda Prompt, biasanya langsung muncul tampilan sebagai berikut.

![](img/base.PNG)

Saat pertama kali kita membuka Anaconda Prompt, kita akan diberikan informasi bahwa kita masih didalam environtment `base` atau environtment secara general. Untuk bisa membuat virtual environtment, kita bisa menggunakan code berikut.
    
    
    conda create --name mynewenv python=3.7
    

![](img/create-new.PNG)

Tujuan dari kita menuliskan `python=3.7` agar python yang terinstall pada virtual environtment yang kita buat adalah python dengan versi 3.7. Inilah salah satu keuntungan yang kita peroleh dengan membuat virtual environtment, kita dapat mengatur versi python yang kita inginkan sesuai kebutuhan dari project yang ingin kita buat. 
Selanjutnya akan muncul beberapa dependency library yang minta untuk di install saat membuat virtual environtment baru. Kita bisa mengetikkan huruf `y` untuk melanjutkan proses pembuatan virtual environtment yang baru.

![](img/dependency.PNG)

Setelah virtual environtment yang baru kita buat sudah selesai, kita bisa mengaktifkan environtment yang sudah kita buat dengan code berikut.

```dash
conda activate mynewenv
```
Kita dapat melihat beberapa module yang sudah terinstall pada virtual environtment yang kita buat dengan menggunakan code berikut.

```dash
conda list
```

![](img/conda-list.PNG)

## Install Kernel pada Virtual Environtment

Kernel merupakan suatu penghubung antara environtment dengan setiap project yang kita gunakan. Jika dimisalkan sebuah rumah yang memiliki ruangan, kernel merupakan pintu penghubung yang bisa digunakan untuk bisa mengakses ruangan tersebut. Secara default apabila kita tidak melakukan install kernel pada environtment yang kita buat maka kernelnya adalah `Python 3`. Namun apabila kita menggunakan kernel yang sudah kita buat untuk masing-masing environtment yang kita miliki maka nama kernelnya akan menyerupai nama environtment yang sudah kita buat. 

Kita dapat melakukan install kernel untuk environtment yang sudah kita buat yaitu `mynewenv` dengan cara sebagai berikut.

- Pastikan sudah memiliki `ipykernel` pada environtment terlebih dahulu, apabila belum bisa lakukan installasi `ipykernel` dengan cara berikut:

``` dash
conda install ipykernel # menggunakan conda
pip install ipykernel # menggunakan pip
```

- Setelah terinstall, maka kita lakukan pengaktifan `ipykernel` pada environtment kita yaitu `mynewenv` :

```dash
python -m ipykernel install --user --name mynewenv`
```

Setelah sukses melakukan penginstallan akan ada status pada CLI sebagaimana gambar dibawah ini dengan begitu maka install kernel untuk environtment yang kita gunakan sudah selesai. 

![](img/ipykernel-installed.png)

Kita bisa melanjutkan dengan membuka python kita menggunakan IDE yang kita miliki yaitu bisa melalui Jupyter Notebook, Jupyter Lab, atau IDE yang lain. Jika ingin menggunakan IDE Jupyter Notebook, maka cukup gunakan code `jupyter notebook` dan apabila menggunakan IDE Jupyter Lab gunakan code `jupyter lab` pada CLI. 

Sebelum mengenal lebih jauh beberapa keguanaan yang bisa kita dapatkan dari module `pandas`, kita akan coba mengenal beberapa object di python.

# Struktur Data pada Python

Dalam python sendiri terdapat sebuah struktur data, dimana struktur data ini biasanya disusun berdasarkan satu dimensi atau dua dimensi. Terdapat beberapa struktur data pada python diantaranya yaitu :
- list
- tuple
- dictionary

## List

List adalah suatu struktur data pada python yang tersusun secara satu dimensi dimana nilai dari dari anggotanya bisa kita ganti. List secara umum bisa disebut sebagai "array" pada python. List dapat dibuat dengan menggunakan tanda bracket atau `[..,..,..]`. Perhatikan list dibawah ini.

In [1]:
list_angka = [1,2,3,4,5,6,7,8,9]
print(list_angka)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


List bisa kita ganti nilai pada anggotanya dengan melakukan inspek urutan pada struktur list. Misalnya kita ingin mecoba mengganti nilai 6 pada object `list_angka` diatas menjadi 10. Kita harus tahu terlebih dahulu nilai 6 pada `list_angka` terdapat pada urutan ke berapa. Pada python, index suatu data dimulai dari angka 0, sehingga kita bisa melakukan inspek urutan data dengan cara $index = data_i-1$. Selanjutnya untuk melakukan inspek salah satu nilai pada list dapat menggunakan `nama_object[index]`.

In [2]:
list_angka[5]

6

In [3]:
list_angka[5]=10

In [4]:
print(list_angka)

[1, 2, 3, 4, 5, 10, 7, 8, 9]


## Tuple

Tuple adalah suatu struktur data pada python yang tersusun satu dimensi hanya saja nilai dari anggotanya konstan dan tidak dapat diubah. Untuk dapat membuat suatu tuple bisa menggunakan tanda kurung atau `(..,..,..)` atau tanpa tanda kurung. Perhatikan contoh tuple dibawah ini.

In [7]:
tuple_object = ('Learn', 'Python', 2020) 
tuple_object

('Learn', 'Python', 2020)

In [8]:
tuple_object2 = 'list', 'tuple', 'dictionary'
print(tuple_object2)

('list', 'tuple', 'dictionary')


Tuple biasanya lebih mudah dikenal sebagai object string, dimana hanya berisi sederet informasi yang memiliki satu dimensi. Untuk mengakses index tertentu pada tuple dapat menggunakan `nama_object[]` seperti pada list dan apabila kita ingin mengetahui suatu nilai pada tuple terdapat pada index ke berapa, maka kita bisa gunakan `nama_object.index()`.

In [10]:
tuple_object[2]

2020

In [14]:
tuple_object2.index('tuple')

1

Selain itu, jika kita memiliki lebih dari 1 nilai pada object tuple yang kita miliki, kita bisa melakukan slicing pada object tuple kita dengan menggunakan `tuple[]` dan memasukkan urutan nilai yang ingin dimasukkan.

**Ingat!!** Pada python untuk urutan angka dimulai dari angka 0.

In [18]:
print(tuple_object[0])
print(tuple_object2[1:3])

Learn
('tuple', 'dictionary')


Nilai dari tuple juga tidak bisa kita ubah semau kita. Apabila kita mengubah nilainya, maka akan ada error yang dimunculkan dari python.

In [20]:
tuple_object[1] = 100
print(tuple_object[1])

TypeError: 'tuple' object does not support item assignment

## Dictionary

Dictionary adalah suatu struktur data pada python yang terdiri dari *key* dan *value* dimana *key* bisa kita tentukan sendiri beserta *value* bisa kita ubah nilainya. *Key* pada dictionary memiliki maksud suatu index sedangkan *value* adalah nilai dari index pada struktur data dictionary. Setiap satu *key* pasti memiliki satu *value*. Dalam pembuatan dictionary kita bisa menggunakan tanda kurung kurawal atau `{key:value}`. Perhatikan dictionary dibawah ini.

In [23]:
dict_object = {1:'merah', 2:8, 3:'hijau', 4:10, 5:'hitam', 'apel':9}
dict_object

{1: 'merah', 2: 8, 3: 'hijau', 4: 10, 5: 'hitam', 'apel': 9}

Untuk bisa melakukan inspek elemen pada dictionary kita bisa gunakan `nama_object[key]` seperti pada list dan tuple. 

In [24]:
print(dict_object[5])
print(dict_object['apel'])

hitam
9


Untuk bisa mengubah nilai atau *value* kita bisa mengakses berdasarkan *key* yang ingin kita ubah. Misalnya disini kita coba ubah *value* pada *key* apel yang tadinya 9 menjadi kata "fuji".

In [27]:
dict_object['apel'] = 'fuji'
print(dict_object)

{1: 'merah', 2: 8, 3: 'hijau', 4: 10, 5: 'hitam', 'apel': 'fuji'}


## Quiz 1

1. Berdasarkan pilihan dibawah ini, manakah struktur data yang bisa kita tentukan index dan nilainya?
    - [ ] list
    - [ ] tuple
    - [ ] dictionary

---

2. Jika ada struktur data dibawah ini.

```py
object1 = [1,45,23,12,45,2,3,4,67,23]
```
Termasuk apakah `object1` diatas?

- [ ] list
- [ ] tuple
- [ ] dictionary

---

3. Manakah dari pilihan dibawah ini yang tidak menghasilkan error?
    - [ ] `object1 = (1,2,3,4,5,6)
      object1[3] = 9
      print(object1)`
    - [ ] `object1 = {'angka':1, 'bulan':03, 'tahun': 2020, 'lokasi': 'jakarta'}
      object1 = {'angka':1, 'angka':4, 'angka':10, 'bulan':03, 'tahun': 2020, 'tahun1': 2019, 'tahun': 2021, 'lokasi': 'jakarta'}`
    - [ ] `object1 = [1,2,3,4,5,6]
      object1.index(3)`
    - [ ] `object1 = [1,2,3,4,5,6]
      object1.index(0)`
     
---

4. Berapakah nilai yang dihasilkan dari code dibawah ini?

```py
angka = {1:10, 2:20, 3:30, 4:40, 5:50, 6:60, 6:90, 7:70, 8:80, 8:88, 9:90}
print(angka[1], angka[6], angka[8])
```

- [ ] 10, 50, 88
- [ ] 10, 60, 88
- [ ] 10, 90, 88
- [ ] 10, 90, 80

# Module `pandas`

Selanjutnya kita akan coba mengeksplorasi module `pandas` untuk keperluan analisis data. Untuk dapat menggunakan module tersebut, kita harus melakukan import module terlebih dahulu. Untuk melakukan import module cukup menggunakan code `import`.

In [1]:
import pandas as pd
print(pd.__version__)

1.0.3


## Data Frame 

Kita akan coba untuk melakukan exploratory data menggunakan data turnover suatu perusahaan. Untuk melihat datanya kita harus mengimport data turnover tersebut yang tersimpan dengan nama file `turnover_balance.csv`. Data ini menunjukkan suatu record history karyawan pada perusahaan tertentu yang mengalami turnover berdasarkan beberapa atribut-atribut penunjangnya yaitu `satisfaction_level`, `last_evaluation`, `number_project`, `average_monthly_hours`, `time_spend_company`, `Work_accident`, `promotion_last_5years`, `division`, dan `salary`. Berikut data turnover tersebut :

In [2]:
turnover = pd.read_csv("data_input/turnover_balance.csv")
turnover.head()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,division,salary,left
0,0.82,0.68,3,140,2,0,0,sales,low,0
1,0.79,0.67,5,156,2,0,0,product_mng,low,0
2,0.73,0.95,3,149,2,0,0,support,low,0
3,0.92,0.78,3,218,3,0,0,technical,low,0
4,0.69,1.0,5,237,3,0,0,technical,high,0


Berdasarkan data `turnover` diatas, berikut ini adalah glimpse dari setiap variabelnya :

* `satisfaction_level` : tingkat kepuasan karyawan bekerja di suatu perusahaan
* `last_evaluation` : tingkat kepuasan karyawan pada evaluasi terakhir
* `number_project` : banyaknya project yang telah diterima karyawan
* `average_monthly_hours` : rata-rata jam kerja per bulan
* `time_spend_company` : lama waktu bekerja dalam perusahaan (tahun)
* `Work_accident` : ada tidaknya kecelakaan kerja, 0 = tidak ada, 1 = ada
* `promotion_last_5years` : pernah mendapatkan promoksi dalam 5 tahun terakhir, 0 = tidak, 1 = ya
* `division` : nama departemen atau divisi
* `salary` : tingkat pendapatan, dibagi menjadi low, medium dan high
* `left` : data history karyawan resign, 0 = tidak, 1 = ya

Sebelum melangkah pada hal-hal yang rumit, kita akan coba untuk mengulik dari hal yang sederhana terlebih dahulu.

## Tipe-tipe Data 

Sebagai seorang data analyst, kita harus mengetahui terlebih dahulu tipe-tipe data yang akan kita analisis. Pada python, ketika kita bekerja menggunakan module `pandas` untuk melakukan pengecekan tipe data pada data yang digunakan, kita bisa menggunakan `dtypes`. Nilai yang akan dikeluarkan oleh `dtypes` adalah sebuah series yang berisi tipe data setiap variabel pada suatu data frame.

In [4]:
turnover.dtypes

satisfaction_level       float64
last_evaluation          float64
number_project             int64
average_montly_hours       int64
time_spend_company         int64
Work_accident              int64
promotion_last_5years      int64
division                  object
salary                    object
left                       int64
dtype: object

Tipe-tipe data yang terdapat pada Python umumnya adalah:

* **float** : tipe data yang berisi angka kontinu
* **int** : tipe data yang berisi angka bulat
* **object** : tipe data yang berisi alphabetic, seperti nama, alamat, dst
* **bool** : tipe data yang berisi TRUE atau FALSE
* **str** : tipe data yang berisi text

### Tipe Data Categorical dan Numerical 

Ada beberapa tipe data yang cukup spesial seperti tipe data **categoric**. Tipe data categoric merupakan tipe data yang mirip dengan tipe data object, perbedaannya yaitu pada memori yang disimpan. Jika pada tipe data object maka untuk setiap karakter yang ada akan tersimpan pada suatu memori dengan id yang berbeda dengan karakter yang lain. Hal ini akan menyebabkan memori menyimpan terlalu banyak informasi terlebih apabila karakter yang ada pada data yang kita miliki terdapat pengulangan. Tentunya akan sangat memakan memori yang banyak. Oleh karena itu ada tipe data spesial yaitu **categoric** yang dapat kita gunakan untuk menyimpan memori data dengan lebih efisien. Cara kerja dari tipe data categoric yaitu akan menyimpan informasi dari suatu karakter yang unik dan akan disimpan dengan id tertentu sesuai dengan berapa banyak karakter unik yang muncul. 

Dalam beberapa kondisi, tipe data pada suatu kolom atau variabel sangatlah penting untuk diperhatikan. Hal ini akan mempermudah seorang data analyst mengetahui data apa yang sedang dia kerjakan. Selain itu juga ketika akan membuat suatu report, variabel tertentu dapat diinterpretasikan dengan baik menggunakan pengukuran statistik ataupun berupa visualisasi. Oleh karena itu, ketika tipe data dalam data frame ada yang tidak sesuai, kita perlu menyesuaikan agar data dapat direpresentasikan dengan baik. 

Pada course material, telah dibahas bagaimana mengubah tipe data pada suatu data frame. Untuk melakukan perubahan tipe data, kita bisa menggunakan fungsi `astype()` pada kolom yang ingin kita ubah.

**Knowledge check:**

Sebelum kita akan mengalisis kolom manakah yang belum sesuai, kita cek terlebih dahulu tipe data dari masing-masing kolom pada object `turnover` yang kita miliki.

In [None]:
## your code here


**Latihan!**

Jika kita perhatikan berdasarkan gloosary dari masing-masing kolom pada data `turnover` dan tipe datanya, bisakah Anda temukan kolom mana saja yang harus diubah dalam bentuk `category`? 

Jika sudah menemukannya, Anda dapat mengubahnya menggunakan fungsi `astype('category')` dan jangan lupa simpan kembali agar data `turnover` sudah memiliki tipe data yang tepat untuk masing-masing kolomnya.

In [7]:
## your code here


Lakukan pengecekan ulang mengenai tipe data yang sudah diubah, apakah sudah terubah dengan baik dengan menggunakan `dtypes` atribut.

In [7]:
## your code here


### Quiz 2

Jika diketahui data sebagai berikut.

In [4]:
import pandas as pd

In [3]:
toko = pd.DataFrame({
    'jenis' : ['Sepatu', 'Sandal', 'Baju', 'Tas'],
    'warna' : ['Hitam', 'Merah', 'Biru', 'Pink'],
    'harga' : [1300000, 56000, 85000, 100000],
    'diskon' : [0.2, 0, 0, 0.1],
    'stok' : [59, 100, 200, 50],
    'penjualan_mingguan' : [6, 50, 150, 40]
})
toko

Unnamed: 0,jenis,warna,harga,diskon,stok,penjualan_mingguan
0,Sepatu,Hitam,1300000,0.2,59,6
1,Sandal,Merah,56000,0.0,100,50
2,Baju,Biru,85000,0.0,200,150
3,Tas,Pink,100000,0.1,50,40


1. Jika Fafilia adalah seorang data analyst pada toko tersebuut, dia diminta untuk melakukan analisis terhadap data toko tersebut. Manakah dari kolom yang tersedia termasuk `category` atau `object`?
    - [ ] jenis dan harga
    - [ ] warna dan stok
    - [ ] jenis dan warna
    - [ ] warna dan diskon
  
---

2. Manakah kolom yang termasuk `integer`?
    - [ ] diskon
    - [ ] stok
    - [ ] jenis
    - [ ] warna

---

3. Manakah yang termasuk tipe data `float` pada data toko diatas?
    - [ ] diskon
    - [ ] stok
    - [ ] jenis
    - [ ] penjualan_mingguan

## Eksplorasi Data

Selain mengetahui tipe data, terkadang kita juga perlu melakukan eksplorasi lebih lanjut mengenai data yang kita gunakan. Beberapa hal yang bisa kita lakukan dalam melakukan eksplorasi data adalah sebagai berikut :

- `.head()` dan `.tail()` : untuk menampilkan 5 data paling awal dan 5 data paling akhir
- `.dtypes` : untuk mengecek tipe data
- `.shape` : untuk mengetahui ukuran data tabel berdasarkan informasi baris dan kolomnya
- `.size` : untuk mengetahui besarnya data tabel berdasarkan informasi baris dikali kolom
- `.axes` : untuk mengetahui infomasi index names atau column names
- `.describe()` : untuk mengetahui summary singkat dari data 

Untuk melakukan inspek kolom yang kita perlukan, kita bisa menggunakan `df['namakolom']` jika hanya satu kolom atau dengan menggunakan `df[['kolom1','kolom2',...]]`. Misalkan kita ingin menampilkan 5 data pertama dari kolom `division`, `salary`, dan `left`.

In [3]:
turnover = pd.read_csv("data_input/turnover_balance.csv")
turnover.head()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,division,salary,left
0,0.82,0.68,3,140,2,0,0,sales,low,0
1,0.79,0.67,5,156,2,0,0,product_mng,low,0
2,0.73,0.95,3,149,2,0,0,support,low,0
3,0.92,0.78,3,218,3,0,0,technical,low,0
4,0.69,1.0,5,237,3,0,0,technical,high,0


In [8]:
turnover[['division', 'salary', 'left']].head()

Unnamed: 0,division,salary,left
0,sales,low,0
1,product_mng,low,0
2,support,low,0
3,technical,low,0
4,technical,high,0


Kita bisa lakukan pengecekan berapa banyak data yang tersedia pada `turnover` data dengan menggunakan `.shape` atau `.size`.

In [9]:
turnover.shape

(7142, 10)

In [11]:
turnover.size

71420

Untuk bisa melakukan inspek nama kolom kita bisa menggunakan atribut `.axes[1]` sedangkan untuk melakukan inspek nama index bisa menggunakan atribut `.axes[0]`.

In [13]:
turnover.axes[1]

Index(['satisfaction_level', 'last_evaluation', 'number_project',
       'average_montly_hours', 'time_spend_company', 'Work_accident',
       'promotion_last_5years', 'division', 'salary', 'left'],
      dtype='object')

Kita juga bisa menghitung banyaknya kolom yang ada pada suatu dataframe dengan menggunakan method `len()` dengan diikuti `df.axes[]`. Misalnya kita ingin menghitung banyaknya kolom pada dataframe `turnover`.

In [4]:
len(turnover.axes[1])

10

Terkadang kita juga membutuhkan informasi singkat dari rangkuman dari data yang kita miliki, kita bisa menggunakan `.describe()` untuk mendapatkan informasi dari rangkuman data kita.

In [14]:
turnover.describe()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,left
count,7142.0,7142.0,7142.0,7142.0,7142.0,7142.0,7142.0,7142.0
mean,0.552569,0.715819,3.818818,203.366144,3.616074,0.108793,0.016802,0.5
std,0.265043,0.18112,1.458167,54.195166,1.318875,0.311401,0.128538,0.500035
min,0.09,0.36,2.0,97.0,2.0,0.0,0.0,0.0
25%,0.38,0.54,2.0,151.0,3.0,0.0,0.0,0.0
50%,0.56,0.73,4.0,205.0,3.0,0.0,0.0,0.5
75%,0.78,0.88,5.0,252.0,4.0,0.0,0.0,1.0
max,1.0,1.0,7.0,310.0,10.0,1.0,1.0,1.0


Informasi yang dikeluarkan oleh `.describe()` adalah 8 pengukuran deskriptif statistik berupa:
- Count
- Mean
- Standard Deviation
- Minimum Value
- 25th Percentile (Q1)
- 50th Percentile (Q2/Median)
- 75th Percentile (Q3)
- Maximum Value

Secara default, summary yang dikeluarkan oleh `.describe()` adalah summary dari kolom yang memiliki tipe data numeric. Apabila kita ingin menginputkan tipe data tertentu pada saat melakukan describe maka kita bisa gunakan parameter `include` untuk mendefinisikan tipe data yang akan dideskripsikan. 

Sebagai contoh disini kita akan coba menggunakan describe untuk tipe data object dan numeric.

In [19]:
turnover.describe(include = ['object', 'int64', 'float64'])

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,division,salary,left
count,7142.0,7142.0,7142.0,7142.0,7142.0,7142.0,7142.0,7142,7142,7142.0
unique,,,,,,,,10,3,
top,,,,,,,,sales,low,
freq,,,,,,,,1997,3773,
mean,0.552569,0.715819,3.818818,203.366144,3.616074,0.108793,0.016802,,,0.5
std,0.265043,0.18112,1.458167,54.195166,1.318875,0.311401,0.128538,,,0.500035
min,0.09,0.36,2.0,97.0,2.0,0.0,0.0,,,0.0
25%,0.38,0.54,2.0,151.0,3.0,0.0,0.0,,,0.0
50%,0.56,0.73,4.0,205.0,3.0,0.0,0.0,,,0.5
75%,0.78,0.88,5.0,252.0,4.0,0.0,0.0,,,1.0


Selain menggunakan `.describe()`, kita juga bisa menggunakan fungsi deksriptif statistik lain jika kita hanya ingin menampilkan spesifik nilai. Beberapa fungsi deskriptif statistik lain yang bisa digunakan yaitu:
- `.mean()` : menampilkan rata-rata
- `.sum()` : mendapatkan total nilai
- `.min()` dan `.max()` : mendapatkan nilai terkecil dan terbesar
- `.median()` : mendapatkan nilai tengah
- `.quantile()` : mendapatkan nilai quartile dari data, secara default akan memunculkan nilai median


> **!!!** Sedikit tips, kita bisa gunakan method `.info()` untuk menampilkan struktur suatu dataframe baik berupa banyaknya baris dan kolom, tipe data untuk masing-masing kolom, dan besarngya data yang kita gunakan.

In [6]:
turnover.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7142 entries, 0 to 7141
Data columns (total 10 columns):
satisfaction_level       7142 non-null float64
last_evaluation          7142 non-null float64
number_project           7142 non-null int64
average_montly_hours     7142 non-null int64
time_spend_company       7142 non-null int64
Work_accident            7142 non-null int64
promotion_last_5years    7142 non-null int64
division                 7142 non-null object
salary                   7142 non-null object
left                     7142 non-null int64
dtypes: float64(2), int64(6), object(2)
memory usage: 558.1+ KB


Sebagai data analyst, berdasarkan data yang kita miliki, kita ingin mencoba mencari tahu berapa besar rata-rata jam kerja bulanan dan rata-rata lama bekerja di perusahaan. Untuk mengetahui nilai rata-rata pada suatu series bisa menggunakan `.mean()`.

In [27]:
turnover["average_montly_hours"].mean()

203.36614393727248

Berdasarkan data yang ada, diketahui bahwa rata-rata pekerja yang ada yaitu sebesar 203 jam per bulan. Atau jika dikonversikan ke dalam hari yaitu rata-rata jam kerjanya sebesar 10 jam per hari.

In [6]:
turnover["time_spend_company"].mean()

3.6160739288714647

Berdasarkan data yang ada, diketahui bahwa rata-rata lama bekerja dalam suatu perusahaan yaitu 3.6 tahun. 

Sebelumnya, kita sudah memiliki data `turnover` dengan tipe data untuk masing-maisng kolom sebagai berikut.

In [9]:
turnover.dtypes

satisfaction_level       float64
last_evaluation          float64
number_project             int64
average_montly_hours       int64
time_spend_company         int64
Work_accident              int64
promotion_last_5years      int64
division                  object
salary                    object
left                       int64
dtype: object

Pada part sebelumnya kita sudah mencoba untuk mengubah kolom `division` dan `salary` tipe data object menjadi `category` dengan menggunakan method `astype()`. Jika kita perhatikan sekali lagi pada data `turnover`, masih terdapat beberapa kolom yang belum tepat tipe datanya berdasarkan informasi pada kolom tersebut. Oleh karena itu, coba ubah beberapa kolom yang seharusnya `category` dari kolom yang ada.

In [10]:
turnover.head()

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,division,salary,left
0,0.82,0.68,3,140,2,0,0,sales,low,0
1,0.79,0.67,5,156,2,0,0,product_mng,low,0
2,0.73,0.95,3,149,2,0,0,support,low,0
3,0.92,0.78,3,218,3,0,0,technical,low,0
4,0.69,1.0,5,237,3,0,0,technical,high,0


In [11]:
## your code here



### Quiz 3

Berdasarkan data `turnover` yang kita miliki, jawablah beberapa pertanyaan berikut ini.

1. Method apakah yang bisa kita gunakan untuk mendapatkan informasi tipe data, banyaknya kolom dan baris, serta nama-nama kolom dari dataframe `turnover`?
    - [ ] `.describe()`
    - [ ] `.head()`
    - [ ] `.info()`
    - [ ] `.shape`

---

2. Berapakah rata-rata `satisfaction_level` yang diberikan oleh seluruh karyawan pada data `turnover`?
    - [ ] 0.55
    - [ ] 0.56
    - [ ] 1.0
    - [ ] 0.78

---

3. Jika kita ingin mengetahui nilai quartile ke-3 dari kolom yang memiliki tipe data numeric, manakah code dibawah ini yang tepat?
    - [ ] `turnover.quantile(0.25)`
    - [ ] `turnover.quantile(0.75)`
    - [ ] `turnover.quantile(0.75, numeric_only=True)`

## Indexing dan Subsetting  

Jika berbicara mengenai analisis data, terkadang kita juga melakukan slicing atau subsetting pada data-data dengan kondisi tertentu. Secara umum apabila kita ingin melakukan subsetting dan indexing pada dataframe pada python yang disupport oleh `pandas`, kita bisa menggunakan beberapa cara berikut:

- `df[start:end]` : untuk melakukan subset berdasarkan index baris tertentu secara terurut
- `.loc[]` : untuk melakukan subset pada nama baris atau nama kolom tertentu
- `.iloc[]` : untuk melakukan subset menggunakan index baris atau kolom tertentu
- `df['column_name']` : untuk melakukan subset berdasarkan nama kolom tertentu
- `select_dtypes()` : untuk melakukan subset berdasarkan tipe data tertentu
- `.drop()` : untuk menghilangkan nilai tertentu

Beberapa cara diatas dapat digunakan sesuai dengan kondisi-kondisi tertentu. Beberapa sudah banyak dijelaskan pada course material **Python for Data Analyst**. 

Sebagai contoh misalnya kita hanya tertarik pada tipe data object pada data `turnover` untuk kita buat summary nya. Kita bisa menggunakan `select_dtypes()` untuk memilih tipe data yang kita inginkan.

In [5]:
turnover = pd.read_csv("data_input/turnover_balance.csv")

In [4]:
turnover.select_dtypes('object').describe()

Unnamed: 0,division,salary
count,7142,7142
unique,10,3
top,sales,low
freq,1997,3773


Misalnya kita ingin melakukan subset data ke-8 hingga ke-15 pada kolom 'average_montly_hours' dan 'time_spend_company' dimana jika dalam index pada data karena python memiliki index yang berawal dari angka 0 maka kita ingin mengambil data index ke-7 hingga ke-14. 

Urutan nilai pada python akan diawali dengan index ke 0 hingga index-1, jadi apabila kita menuliskan urutan index ke-7 hingga ke-14, maka yang akan muncul adalah data dari index ke-7 hingga ke-13.

Oleh karena itu apabila kita ingin melakukan subset untuk data ke-8 hingga ke-15 maka kita tulis indexnya dari 7 hingga 15.

In [9]:
turnover[7:15]

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,division,salary,left
7,0.51,0.73,4,229,3,0,0,sales,low,0
8,0.88,0.99,3,190,5,0,0,technical,high,0
9,0.76,0.85,3,192,3,0,0,marketing,low,0
10,0.55,0.55,4,257,3,0,0,product_mng,low,0
11,0.43,0.46,2,186,2,0,0,product_mng,low,0
12,0.8,0.87,5,251,3,0,0,sales,medium,0
13,0.64,0.67,5,167,2,0,0,sales,low,0
14,0.84,0.37,5,186,2,0,0,technical,medium,0


In [10]:
turnover[7:15].loc[:,['average_montly_hours','time_spend_company']]

Unnamed: 0,average_montly_hours,time_spend_company
7,229,3
8,190,5
9,192,3
10,257,3
11,186,2
12,251,3
13,167,2
14,186,2


Penggunaan code diatas akan sama dengan code dibawah ini jika kita menerapkan penggunaan `loc[]` dan `iloc[]`.

In [19]:
turnover.iloc[7:16,:].loc[:,['average_montly_hours','time_spend_company']]

Unnamed: 0,average_montly_hours,time_spend_company
7,229,3
8,190,5
9,192,3
10,257,3
11,186,2
12,251,3
13,167,2
14,186,2
15,224,2


Kebalikan dari `loc[]` dan `iloc[]`, `drop()` dapat kita gunakan untuk menghapus nilai tertentu pada data. 

Misalnya kita ingin menghapus kolom 'average_montly_hours' dan 'time_spend_company' pada data `turnover`.

In [11]:
turnover.drop([ 'average_montly_hours','time_spend_company'], axis=1)

Unnamed: 0,satisfaction_level,last_evaluation,number_project,Work_accident,promotion_last_5years,division,salary,left
0,0.82,0.68,3,0,0,sales,low,0
1,0.79,0.67,5,0,0,product_mng,low,0
2,0.73,0.95,3,0,0,support,low,0
3,0.92,0.78,3,0,0,technical,low,0
4,0.69,1.00,5,0,0,technical,high,0
...,...,...,...,...,...,...,...,...
7137,0.11,0.89,6,0,0,sales,medium,1
7138,0.77,0.87,4,0,0,sales,low,1
7139,0.79,1.00,4,1,0,management,medium,1
7140,0.88,0.97,4,1,0,IT,low,1


Tujuan penggunaan parameter `axis = 1` adalah agar dalam memberikan perintah `drop()` langsung tertuju pada kolom. 
Jadi apabila kita ingin menghapus baris tertentu kita bisa gunakan `axis = 0`, dimana secara default method `drop()` menggunakan `axis = 0`.

In [22]:
turnover.drop([7,8,9,10,11,12,13,14,15]).head(15)

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,division,salary,left
0,0.82,0.68,3,140,2,0,0,sales,low,0
1,0.79,0.67,5,156,2,0,0,product_mng,low,0
2,0.73,0.95,3,149,2,0,0,support,low,0
3,0.92,0.78,3,218,3,0,0,technical,low,0
4,0.69,1.0,5,237,3,0,0,technical,high,0
5,0.98,0.97,3,209,3,0,0,support,low,0
6,0.52,0.9,4,285,2,0,0,hr,low,0
16,0.68,0.97,3,250,3,1,0,product_mng,medium,0
17,0.47,0.46,2,152,2,0,0,IT,medium,0
18,0.8,0.62,3,191,3,0,0,support,medium,0


### Kondisional Subset 

Selain melakukan subsetting berdasarkan nama baris dan kolomnya, kita juga bisa melakukan subsetting berdasarkan kondisi tertentu. Untuk melakukan subsetting dengan kondisi tertentu ada beberapa **logical operator** yang bisa kita gunakan yaitu sebagai berikut.

- `==` sama dengan
- `!=` tidak sama dengan
- `>` lebih besar
- `<` lebih kecil
- `>=` lebih besar sama dengan
- `<=` lebih kecil sama dengan
- `&` AND
- `|` OR


Misalkan disini kita ingin mencari tahu berapa banyak karyawan yang berada pada divisi sales.

In [23]:
turnover[turnover['division'] == 'sales']

Unnamed: 0,satisfaction_level,last_evaluation,number_project,average_montly_hours,time_spend_company,Work_accident,promotion_last_5years,division,salary,left
0,0.82,0.68,3,140,2,0,0,sales,low,0
7,0.51,0.73,4,229,3,0,0,sales,low,0
12,0.80,0.87,5,251,3,0,0,sales,medium,0
13,0.64,0.67,5,167,2,0,0,sales,low,0
19,0.58,0.43,6,132,3,0,0,sales,low,0
...,...,...,...,...,...,...,...,...,...,...
7128,0.74,1.00,5,275,5,0,0,sales,low,1
7133,0.09,0.77,6,282,5,0,0,sales,medium,1
7134,0.39,0.57,2,127,3,0,0,sales,low,1
7137,0.11,0.89,6,301,4,0,0,sales,medium,1


Jika kondisinya lebih dari satu, maka kita harus memisahkan setiap kondisi dengan tanda kurung `()`. Misal kita ingin tahu yang termasuk divisi sales dan time_spend_company nya lebih dari 3 tahun.

In [29]:
turnover[['division', 'salary']] = turnover[['division', 'salary']].astype('category')
turnover['division'].cat.categories

Index(['IT', 'RandD', 'accounting', 'hr', 'management', 'marketing',
       'product_mng', 'sales', 'support', 'technical'],
      dtype='object')

### Quiz 4

Berdasarkan data `turnover` coba lakukan subsetting dan jawablah pertanyaan dibawah ini.

1. Berapa banyak karyawan  yang memberikan penilaian satisfaction_level lebih dari 0.8?
2. Katakanlah kita sedang di posisi HR yang ingin melakukan analisis terhadap karyawan yang memberikan satisfaction_level kurang dari 0.5, tingkat salary yang rendah dan memiliki status left 0. Berapa banyak karyawan yang harus diperhatikan oleh HR?
3. Sebagai seorang HR, kita ingin coba menerapkan beberapa treatment khusus bagi karyawan yang berada pada divisi HR  yang tidak mendapatkan promosi selama 5 tahun belakang (`promotion_last_5years`) dan memiliki tingka salary yang rendah. Berapa banyak karyawan yang perlu perhatian lebih oleh HR?

In [30]:
## your code here


# Task

Selamat!! Anda sudah selesai mempelajari beberapa pemahaman dasar dalam melakukan analisis data menggunakan `pandas`. Sebagai bentuk Anda dalam mempelajari pemahaman dasar menggunakan `pandas`, kita akan coba berikan beberapa soal untuk menguji pemahaman Anda mengenai beberapa materi diatas. 

Pada folder data_input terdapat file .csv dengan nama handphone.csv. Lakukan import data `handphone.csv` menggunakan `pd.read_csv()` dengan menambahkan parameter `encoding='unicode_escape'`. Setelah berhasil terbaca datanya, kerjakanlah beberapa soal dibawah ini. 

Data `handphone.csv` merupakan data penjualan handphone dari beberapa seller yang dipromosikan di suatu e-commerce di Indonesia. Berikut ini beberapa penjelasan untuk masing-masing kolomnya.
- `product_title` : nama produk yang di promosikan di laman e-commerce
- `location` : lokasi seller
- `account_seller` : nama akun seller
- `price` : harga produk
- `review` : total review yang diberikan untuk produk yang dijual seller
- `installment` : besarnya cicilan yang harus dibayarkan (jika menggunakan metode cicilan untuk membayar)
- `rating` : rating untuk produk yang dijual oleh seller
- `brand_hp` : brand handphone yang dijual

In [1]:
import pandas as pd

In [2]:
hp = pd.read_csv("data_input/handphone.csv", encoding='unicode_escape')

In [5]:
hp.head(10)

Unnamed: 0,product_title,location,account_seller,price,review,installment,rating,brand_hp
0,Ken Mobile R7710 Grey,Jakarta,KEN Mobile,199000.0,432,8292.0,4.7,ken
1,OPPO A3s Smartphone AI Beauty 2.0 Camera 2GB/1...,Tangerang,OPPO OFFICIAL STORE,1699000.0,144,70792.0,4.8,oppo
2,Asus Zenfone 5 ZE620KL 4/64 GARANSI RESMI ASUS,Jakarta,Cellular Mas,2830000.0,454,117917.0,4.9,asus
3,OPPO A3s Smartphone AI Beauty 2.0 Camera 2GB/1...,Tangerang,OPPO OFFICIAL STORE,1699000.0,195,70792.0,4.8,oppo
4,Sony Xperia Z4 Compact Docomo Seken,Kab. Tangerang,Five star cellular,530000.0,711,22084.0,4.6,sony


In [4]:
hp.dtypes

product_title      object
location           object
account_seller     object
price             float64
review              int64
installment       float64
rating            float64
brand_hp           object
dtype: object

In [7]:
hp['location'] = hp['location'].astype('category')

1. Adakah tipe data yang belum sesuai dari kolom pada data tersebut? Jika ada, ubahlah kedalam tipe data yang sesuai.

In [34]:
## your code here


In [9]:
hp['location'].value_counts()

Jakarta          2723
Surabaya          359
Tangerang         156
Bandung           154
Medan             153
                 ... 
Kab. Kediri         1
Kab. Boyolali       1
Kab. Karawang       1
Kab. Cilacap        1
Balikpapan          1
Name: location, Length: 97, dtype: int64

---

2. Dimanakah lokasi seller terbanyak yang menjual handphone?
    - [ ] Tangerang
    - [ ] Yogyakarta
    - [ ] Jakarta
    - [ ] Bekasi

---

3. Berapa banyak seller yang mempromosikan handphone di e-commerce tersebut yang berlokasi di Jakarta?
    - [ ] 4920
    - [ ] 116
    - [ ] 156
    - [ ] 2723

---

4. Berapakah rata-rata rating yang diberikan oleh pembeli untuk seller 'OPPO OFFICIAL STORE'?
    - [ ] 4.88
    - [ ] 4.71
    - [ ] 4.59
    - [ ] 4.63

---

5. Berapakah rata-rata harga handphone dengan brand oppo yang dijual oleh 'OPPO OFFICIAL STORE'?
    - [ ] Rp 1.799.000
    - [ ] Rp 3.141.307
    - [ ] Rp 4.049.450
    - [ ] Rp 1.913.800

---

6. Berapakah rating terendah yang diberikan oleh pembeli kepada 'OPPO OFFICIAL STORE'? 
    - [ ] 4.5
    - [ ] 3.5
    - [ ] 4.6
    - [ ] 4.8
    
---

7. Berapakah produk yang memiliki rating kurang dari 4?
    - [ ] 18
    - [ ] 14
    - [ ] 218
    - [ ] 15

---

8. Brand handphone apakah yang paling banyak dipromosikan melalui e-commerce tersebut?
    - [ ] oppo
    - [ ] apple
    - [ ] xiaomi
    - [ ] asus

---

9. Seller manakah yang memberikan installment paling rendah dari produk yang dipasarkan? Silahkan pilih lebih dari 1 jawaban dibawah ini.
    - [ ] Shopuz ID
    - [ ] enterphone2
    - [ ] Kelontong Unik
    - [ ] ERAFONE

In [6]:
hp[hp['installment'] == hp['installment'].min()]['account_seller']

484     enterphone2
3579      Shopyz ID
Name: account_seller, dtype: object