# **Week #2 - Pandas Data Structures & Data Selection**

Intro to Data Engineering Course - Sekolah Engineer - Pacmann Academy

**Outline**

1. Review:
    - Pandas Data Structure
    - Data Selection
2. Case Study 1: Sales Product
3. Case Study 2: IMDB Movies
4. Case Study 3: Rental DVD Case
5. Case Study 4: Discount Games Listing

In [None]:
import pandas as pd

# <font color='blue'>Review
---

## Pandas Data Structure
---

### Intro to Data Wrangling

- Data Wrangling adalah sebuah proses ***cleaning, structuring, dan transforming*** raw data menjadi bentuk yang layak untuk dianalisa atau kebutuhan yang lain
- Goals dari Data Wrangling adalah membuat data kita menjadi ***accurate dan reliable***
- Data Wrangling merupakan salah satu bagian **Transform** dari ETL Pipeline
- Task yang umum dilakukan pada proses Data Wrangling:
  - **Understand Data**
  - **Cleaning Data**
  - **Data Filtering**
  - **Data Mapping**
  - **Transforming Data**
  - **Data Aggregation**
  - **Joining Data**

### Read Data

- Untuk melakukan proses read data atau proses data wrangling, kita membutuhkan library `pandas`

**Syntax**

```python
import pandas as pd
```

- Tetapi juga ada kemungkinan data yang akan ditemui pada Industri nanti bisa berbentuk
    - **Database**
    - **JSON**
    - **API**

- Karena data yang ingin dilakukan proses Data Wrangling bisa dalam bentuk berbagai format file, oleh karena itu harus diubah menjadi bentuk yang bisa dimengerti oleh `pandas`.

- Struktur data yang dimengerti oleh `pandas` adalah:
    - **Series**
    - **Dataframe**

- Selain itu, pada pandas kita bisa membaca data dengan format:
    - **File**
    - **API / JSON**
    - **Database**

### Select Data

- Pada proses data wrangling, biasanya kita tidak membutuhkan semua kolom untuk dianalisa

- Pada pandas kita bisa:
    - **Memilih spesifik kolom**
    - **Memilih beberapa kolom**

- Untuk memilih spesifik kolom pada pandas, kita bisa menggunakan **dua metode**:
    - Mengembalikan dalam bentuk `Series` dengan menggunakan **one squared bracket** `[nama_kolom]`
    - Mengembalikan dalam bentuk `DataFrame` dengan menggunakan **two squared bracket** `[[nama_kolom]]`

### Filter Data

- Pada pandas, kita bisa melakukan proses filter untuk mengambil data yang **memiliki nilai spesifik** atau **berdasarkan kondisi yang ditentukan**

- Untuk melakukan filter data pada pandas, kita menggunakan konsep **comparison operators** pada Python

- Pada pandas juga bisa melakukan filter dengan beberapa kondisi secara sekaligus, cukup menggunakan konsep boolean logic seperti **and (`&`)** dan **or (`|`)**

- Untuk melakukan filter data dengan nilai spesifik di pandas kita cukup menggunakan syntax berikut

**Syntax**

```python
# read data
data = pd.read_csv(filename)

# filter nilai spesifik
filter_data = data[data[nama_kolom] == value]

# filter beberapa kondisi secara sekaligus
filter_data = data[(data[nama_kolom_1] == value_1) & (data[nama_kolom_2] == value_2)]
```

- Untuk melakukan filter data berdasarkan kondisi yang ditentukan, kita cukup menggunakan syntax berikut

**Syntax**

```python
# read data
data = pd.read_csv(filename)

# filter berdasarkan kondisi yang ditentukan
filtered_data = data[data[nama_kolom] > value]

# filter beberapa kondisi secara sekaligus
filtered_data = data[(data[nama_kolom_1] != value_1) & (data[nama_kolom_2] >= value_2)]
```

- Setelah filtering data, kita juga bisa melakukan proses select data untuk mengambil beberapa kolom saja yang dibutuhkan

**Syntax**

```python
# read data
data = pd.read_csv(filename)

# filter data
data[data[filter_process]][[selected_cols_1, selected_cols_2, selected_cols_n]]
```



## Data Selection

### Data Slicing

- Untuk melakukan Data Slicing, kita bisa menerapakan konsep **indexing dan slicing** yang ada di Python `[start_index:end_index]`
- Untuk melakukan slicing ini, kita bisa mengambil data berdasarkan **index rows ataupun column**
- Untuk mengakses data menggunakan index, ada dua cara yang disediakan oleh pandas:
    - `.iloc[]` = mengakses berdasarkan **urutan posisi index**
    - `.loc[]` = mengakses berdasarkan **label** (nama columns atau nama index) yang ada di rows / columns


### Casting Data

- Ada beberapa tipe data yang biasa kita temui:
    - `object`
    - `float`
    - `int`
    - `datetime`
- Tetapi, kadang kita harus mengubah tipe data pada kolom tertentu untuk kebutuhan analisa atau untuk membetulkan suatu kolom menjadi tipe data yang benar
- Semisal, ingin mengubah suatu data `integer` menjadi `float`, mengubah `object` menjadi `integer`
- Proses tersebut dinamakan **casting data type**
- Untuk melakukannya cukup menggunakan function `astype()`

**Syntax**

```python
# casting column
data[cols] = data[cols].astype(data_type)

# say we want to convert to float
data[cols] = data[cols].astype("float")
```

### Export Data

- Setelah mengolah data kita seperti slicing dan filter data, kita bisa **menyimpan hasilnya** ke dalam sebuah file atau database baru
- Pandas menyediakan beberapa function:
    - `to_csv()` = mengubah DataFrame / Series ke dalam bentuk `csv`
    - `to_sql()` = memasukkan DataFrame / Series ke dalam database  
    
    - `to_excel()` = mengubah DataFrame / Series ke dalam bentuk `xlsx`
    - dsb
- Proses ini umumnya disebut sebagai **export data**

# <font color='blue'>1. Study Case 1: Sales Product
---

## **1**
---

Read `sales_data_2019.csv` dataset menggunakan pandas

In [None]:
import pandas as pd

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data = pd.read_csv("sales_data_2019.csv")

sales_data
```

</details>

---

## **2**
---

### **2a**
---

- Hilangkan kolom `Order ID` dari data sales tersebut
- Atur ulang urutan dari kolom tersebut menjadi berikut:
    - `Order Date`
    - `Product`
    - `Quantity Ordered`
    - `Price Each`
    - `Purchase Address`

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
ORDERED_COLS = ["Order Date", "Product", "Quantity Ordered",
                "Price Each", "Purchase Address"]

sales_data = sales_data[ORDERED_COLS]

sales_data
```

</details>

---

### **2b**
---

- Lakukan proses slicing data dimulai dari index `150` sampai dengan `4213`

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data = sales_data[150:4214]

sales_data
```

</details>

---

## **3**
---

- Lalu, lakukan proses filtering data sesuai dengan ketentuan berikut:
    - Jumlah dari barang yang di order lebih dari `2` atau
    - Harga dari masing - masing barang adalah lebih dari sama dengan `125`

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data = sales_data[(sales_data["Quantity Ordered"] > 2) | \
                        (sales_data["Price Each"] >= 125)]

sales_data
```

</details>

---

## **4**
---

- Export data menjadi bentuk file csv dengan nama `new_sales_data.csv`
- Lalu, ketika export data jangan simpan index dari data sebelumnya

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data.to_csv("new_sales_data.csv", index = False)
```

</details>

---

- Baca data baru `new_sales_data.csv`

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
data = pd.read_csv("new_sales_data.csv")

data
```

</details>

---

# <font color='blue'>2. Study Case 2: IMDB Movies
---

## **1**
---

- Read `IMDB_Movies.csv` dataset
- Data tersebut berisi tentang informasi mengenai film - film yang ada di website [IMDB](https://www.imdb.com/)

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
imdb_data = pd.read_csv("IMDB_Movies.csv")

imdb_data.head()
```

</details>

---

Cek shape dari data yang dimiliki

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
data_shape = imdb_data.shape

print(f"IMDB data memiliki shape: {data_shape}")
```

</details>

---

## **2**
---

### **2a**
---

- Pilihlah kolom - kolom berikut:
    - `movie_title`
    - `title_year`
    - `genres`
    - `duration`
    - `director_name`
    - `imdb_score`

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
SELECTED_COLS = ["movie_title", "title_year", "genres",
                 "duration", "director_name", "imdb_score"]

imdb_data = imdb_data[SELECTED_COLS]

imdb_data
```

</details>

---

### **2b**
---

- Setelah itu, lakukan proses filter data yang dimana memiliki skor IMDB lebih dari sama dengan `6.5`

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
imdb_data = imdb_data[imdb_data["imdb_score"] >= 6.5]

imdb_data
```

</details>

---

## **3**
---

- Lakukan proses untuk menghitung tiap Director sudah membuat berapa film berdasarkan data terakhir

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
imdb_data["director_name"].value_counts()
```

</details>

---

# <font color='blue'>3. Study Case 3: Rental DVD Case
---

Source Data: https://mysqlcode.com/load-sample-database-postgresql/

## **1**
---

- Diberikan file `pagila.tar`, restore file tersebut ke database bernama `pagila`

## **2**
---

### **2a**
---

- Buatlah koneksi untuk menghubungkan database `pagila` menggunakan pandas

In [5]:
from sqlalchemy import create_engine

In [15]:
# your answer here
# 'jenis_db://username:password@host:port/db_name'
conn = create_engine('postgresql://postgres:aku@localhost:5432/db_panglia')

In [7]:
conn

Engine(postgresql://postgres:***@localhost:5432/db_panglia)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# create connection with postgres
conn = create_engine("postgresql://postgres:cobapassword@localhost/pagila")
```

</details>

---

### **2b**
---

- Query seluruh data yang ada di table `film`
- Setelah itu, masukkan ke dalam DataFrame

In [16]:
# your answer here
query = """
    with test as (
    SELECT * FROM film
    )
    SELECT * FROM film
"""
df_film = pd.read_sql(sql = query,
                      con = conn)
df_film.head()

Unnamed: 0,film_id,title,description,release_year,language_id,rental_duration,rental_rate,length,replacement_cost,rating,last_update,special_features,fulltext
0,133,Chamber Italian,A Fateful Reflection of a Moose And a Husband ...,2006,1,7,4.99,117,14.99,NC-17,2013-05-26 14:50:58.951,[Trailers],'chamber':1 'fate':4 'husband':11 'italian':2 ...
1,384,Grosse Wonderful,A Epic Drama of a Cat And a Explorer who must ...,2006,1,5,4.99,49,19.99,R,2013-05-26 14:50:58.951,[Behind the Scenes],'australia':18 'cat':8 'drama':5 'epic':4 'exp...
2,8,Airport Pollock,A Epic Tale of a Moose And a Girl who must Con...,2006,1,6,4.99,54,15.99,R,2013-05-26 14:50:58.951,[Trailers],'airport':1 'ancient':18 'confront':14 'epic':...
3,98,Bright Encounters,A Fateful Yarn of a Lumberjack And a Feminist ...,2006,1,4,4.99,73,12.99,PG-13,2013-05-26 14:50:58.951,[Trailers],'boat':20 'bright':1 'conquer':14 'encount':2 ...
4,1,Academy Dinosaur,A Epic Drama of a Feminist And a Mad Scientist...,2006,1,6,0.99,86,20.99,PG,2013-05-26 14:50:58.951,"[Deleted Scenes, Behind the Scenes]",'academi':1 'battl':15 'canadian':20 'dinosaur...


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
query = "SELECT * FROM film"

rental_data = pd.read_sql(sql = query, con = conn)

rental_data
```

</details>

---

## **3**
---

- Langkah selanjutnya adalah select kolom - kolom berikut:
    - `film_id`
    - `title`
    - `release_year`
    - `rental_rate`
    - `length`
    - `rating`
    - `last_update`

In [17]:
# your answer here
SELECTED_COLUMN = ['film_id', 'title', 'release_year','rental_rate','length', 'rating', 'last_update']

df_film_filter = df_film[SELECTED_COLUMN]
df_film_filter.head()

Unnamed: 0,film_id,title,release_year,rental_rate,length,rating,last_update
0,133,Chamber Italian,2006,4.99,117,NC-17,2013-05-26 14:50:58.951
1,384,Grosse Wonderful,2006,4.99,49,R,2013-05-26 14:50:58.951
2,8,Airport Pollock,2006,4.99,54,R,2013-05-26 14:50:58.951
3,98,Bright Encounters,2006,4.99,73,PG-13,2013-05-26 14:50:58.951
4,1,Academy Dinosaur,2006,0.99,86,PG,2013-05-26 14:50:58.951


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
SELECTED_COLS = ["film_id", "title", "release_year", "rental_rate",
                 "length", "rating", "last_update"]

rental_data = rental_data[SELECTED_COLS]

rental_data
```

</details>

---

## **4**
---

### **4a**
---

- Sebelum melakukan filter data, coba cek bagaimana value yang ada di kolom `rating`

In [18]:
# your answer here
df_film_filter['rating'].unique()

array(['NC-17', 'R', 'PG-13', 'PG', 'G'], dtype=object)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
rental_data["rating"].value_counts()
```

</details>

---

### **4b**
---

- Berdasarkan data tersebut, lakukanlah filter data yang dimana rating memiliki value `PG` dan memiliki durasi yang lebih dari sama dengan `90`

In [19]:
# your answer here
cond_1 = df_film_filter['rating'].str.contains('PG')

cond_1

0      False
1      False
2      False
3       True
4       True
       ...  
995    False
996    False
997    False
998    False
999    False
Name: rating, Length: 1000, dtype: bool

In [20]:
cond_2 = df_film_filter['length'] >= 90

cond_2

0       True
1      False
2      False
3      False
4      False
       ...  
995     True
996     True
997     True
998     True
999    False
Name: length, Length: 1000, dtype: bool

In [34]:
df_film_filter =  df_film_filter[(df_film_filter['rating'].str.contains('PG')) &\
                                  (df_film_filter['length'] >= 90)]
# df_film_filter = df_film_filter.reset_index()

df_film_filter = df_film_filter.drop(10, axis=0)
# tampilkan index 10 sd 20
df_film_filter.iloc[10:21]

Unnamed: 0,film_id,title,release_year,rental_rate,length,rating,last_update
11,265,Dying Maker,2006,4.99,168,PG,2013-05-26 14:50:58.951
12,44,Attacks Hate,2006,4.99,113,PG-13,2013-05-26 14:50:58.951
13,48,Backlash Undefeated,2006,4.99,118,PG-13,2013-05-26 14:50:58.951
14,57,Basic Easy,2006,2.99,90,PG-13,2013-05-26 14:50:58.951
15,64,Beethoven Exorcist,2006,0.99,151,PG-13,2013-05-26 14:50:58.951
16,65,Behavior Runaway,2006,4.99,100,PG,2013-05-26 14:50:58.951
17,71,Bilko Anonymous,2006,4.99,100,PG-13,2013-05-26 14:50:58.951
18,72,Bill Others,2006,2.99,93,PG,2013-05-26 14:50:58.951
19,73,Bingo Talented,2006,2.99,150,PG-13,2013-05-26 14:50:58.951
20,74,Birch Antitrust,2006,4.99,162,PG,2013-05-26 14:50:58.951


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
rental_data = rental_data[(rental_data["rating"] == "PG") & \
                          (rental_data["length"] >= 90)]

rental_data
```

</details>

---

## **5**
---

- Simpan data terbaru tersebut ke file baru dengan nama `new_rental_data.csv` tanpa menggunakan index dari data sebelumnya

In [35]:
# your answer here
df_film_filter.to_csv('./data/new_film.csv', index=False)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
rental_data.to_csv("new_rental_data.csv", index = False)
```

</details>

---

- Read data terbaru tersebut untuk mengecek apakah sudah berhasil tersimpan atau tidak

In [36]:
# your answer here
df_film_new = pd.read_csv('./data/new_film.csv')
df_film_new

Unnamed: 0,film_id,title,release_year,rental_rate,length,rating,last_update
0,6,Agent Truman,2006,2.99,169,PG,2013-05-26 14:50:58.951
1,9,Alabama Devil,2006,2.99,114,PG-13,2013-05-26 14:50:58.951
2,12,Alaska Phantom,2006,0.99,136,PG,2013-05-26 14:50:58.951
3,13,Ali Forever,2006,4.99,150,PG,2013-05-26 14:50:58.951
4,19,Amadeus Holy,2006,0.99,113,PG,2013-05-26 14:50:58.951
...,...,...,...,...,...,...,...
287,987,Words Hunter,2006,2.99,116,PG,2013-05-26 14:50:58.951
288,990,World Leathernecks,2006,0.99,171,PG-13,2013-05-26 14:50:58.951
289,991,Worst Banger,2006,2.99,185,PG,2013-05-26 14:50:58.951
290,993,Wrong Behavior,2006,2.99,178,PG-13,2013-05-26 14:50:58.951


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
new_data = pd.read_csv("new_rental_data.csv")

new_data
```

</details>

---

# <font color='blue'>4. Study Case 4: Discount Games Listing
---

## **1**
---

### **1a**
---

- Diberikan sebuah data API yang berisikan tentang list game apa saja yang sedang diskon saat ini `https://www.cheapshark.com/api/1.0/deals?upperPrice=30&pageSize=1000`
- Cek status code dari API tersebut

In [37]:
import requests
import pandas as pd

In [38]:
# your answer here
response = requests.get('https://www.cheapshark.com/api/1.0/deals?upperPrice=30&pageSize=1000')

In [39]:
response.status_code

200

In [42]:
resp_json = response.json()

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
resp = requests.get("https://www.cheapshark.com/api/1.0/deals?upperPrice=30&pageSize=1000")

resp.status_code
```

</details>

---

### **1b**
---

- Ubah data API tersebut menjadi bentuk **JSON**

In [None]:
# your answer here
resp_json = response.json()

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
raw_data = resp.json()

raw_data
```

</details>

---

### **1c**
---

- Ubah data JSON tersebut menjadi bentuk DataFrame dengan menggunakan `pandas`
- Setelah itu tampilkan data yang sudah diconvert menjadi DataFrame

In [44]:
# your answer here
df_trans = pd.DataFrame(resp_json)
df_trans.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   internalName        60 non-null     object
 1   title               60 non-null     object
 2   metacriticLink      6 non-null      object
 3   dealID              60 non-null     object
 4   storeID             60 non-null     object
 5   gameID              60 non-null     object
 6   salePrice           60 non-null     object
 7   normalPrice         60 non-null     object
 8   isOnSale            60 non-null     object
 9   savings             60 non-null     object
 10  metacriticScore     60 non-null     object
 11  steamRatingText     7 non-null      object
 12  steamRatingPercent  60 non-null     object
 13  steamRatingCount    60 non-null     object
 14  steamAppID          7 non-null      object
 15  releaseDate         60 non-null     int64 
 16  lastChange          60 non-n

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data = pd.DataFrame(raw_data)

game_data.head()
```

</details>

---

### **1d**
---

- Cek summary data dan cek shape dari data yang dimiliki

In [45]:
# your answer here
df_trans.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 19 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   internalName        60 non-null     object
 1   title               60 non-null     object
 2   metacriticLink      6 non-null      object
 3   dealID              60 non-null     object
 4   storeID             60 non-null     object
 5   gameID              60 non-null     object
 6   salePrice           60 non-null     object
 7   normalPrice         60 non-null     object
 8   isOnSale            60 non-null     object
 9   savings             60 non-null     object
 10  metacriticScore     60 non-null     object
 11  steamRatingText     7 non-null      object
 12  steamRatingPercent  60 non-null     object
 13  steamRatingCount    60 non-null     object
 14  steamAppID          7 non-null      object
 15  releaseDate         60 non-null     int64 
 16  lastChange          60 non-n

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data.info()
```

</details>

---

In [46]:
# your answer here
df_trans.shape

(60, 19)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
data_shape = game_data.shape

print(f"Data Game Listing yang dimiliki memiliki shape {data_shape}")
```

</details>

---

## **2**
---

### **2a**
---

- Lakukan proses select data dengan kolom berikut:
    - `title`
    - `storeID`
    - `gameID`
    - `salePrice`
    - `normalPrice`
    - `steamRatingText`
    - `steamRatingCount`
    - `releaseDate`
    - `lastChange`

- Simpan ke dalam variable baru

In [62]:
# your answer here
SELECTED_COLS = ["title", "storeID", "gameID", "salePrice", "normalPrice",
                 "steamRatingText", "steamRatingCount", "releaseDate", "lastChange"]

df_trans_filter = df_trans[SELECTED_COLS]
df_trans_filter.head()

Unnamed: 0,title,storeID,gameID,salePrice,normalPrice,steamRatingText,steamRatingCount,releaseDate,lastChange
0,Need for Speed Unbound,8,251767,4.89,69.99,Mixed,31573,1669939200,1732125448
1,Beholder,25,158740,0.0,13.99,Very Positive,19151,1478649600,1732208505
2,Sid Meiers Civilization VI: Platinum Edition,21,206126,6.99,79.99,,0,0,1732467072
3,Strange Brigade - Deluxe Edition,3,186386,6.0,79.99,,0,0,1732286677
4,GRID Legends: Deluxe Edition,25,238027,15.99,79.99,,0,1717632000,1732034533


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
SELECTED_COLS = ["title", "storeID", "gameID", "salePrice", "normalPrice",
                 "steamRatingText", "steamRatingCount", "releaseDate", "lastChange"]

game_data = game_data[SELECTED_COLS]

game_data
```

</details>

---

### **2b**
---

- Lakukan process slicing data yang dimulai dari index `1` sampai index ke `40`
- Setelah itu simpan ke dalam variable baru

In [63]:
# your answer here
# cara 1
df_trans_filter = df_trans_filter.loc[0:40]

#cara 2
df_trans_filter = df_trans_filter.iloc[0:41]
df_trans_filter.head()

Unnamed: 0,title,storeID,gameID,salePrice,normalPrice,steamRatingText,steamRatingCount,releaseDate,lastChange
0,Need for Speed Unbound,8,251767,4.89,69.99,Mixed,31573,1669939200,1732125448
1,Beholder,25,158740,0.0,13.99,Very Positive,19151,1478649600,1732208505
2,Sid Meiers Civilization VI: Platinum Edition,21,206126,6.99,79.99,,0,0,1732467072
3,Strange Brigade - Deluxe Edition,3,186386,6.0,79.99,,0,0,1732286677
4,GRID Legends: Deluxe Edition,25,238027,15.99,79.99,,0,1717632000,1732034533


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data = game_data[1:41]

game_data
```

</details>

---

### **2c**
---

- Lakukan proses rename column seperti berikut:
    - `storeID`: `store_id`
    - `gameID`: `game_id`
    - `salePrice`: `sale_price`
    - `normalPrice`: `normal_price`
    - `steamRatingText`: `steam_rating_text`
    - `steamRatingCount`: `steam_rating_count`
    - `releaseDate`: `release_date`
    - `lastChange`: `last_change`

In [64]:
# your answer here
rename_column = {
    'storeID':'store_id',
    'gameID':'game_id',
    'salePrice': 'sale_price',
    'normalPrice':'normal_price',
    'steamRatingText':"steam_rating_text",
    'steamRatingCount':'steam_rating_count',
    'releaseDate':'release_date',
    'lastChange':'last_change'
}
df_trans_filter = df_trans_filter.rename(columns=rename_column)
df_trans_filter.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   title               41 non-null     object
 1   store_id            41 non-null     object
 2   game_id             41 non-null     object
 3   sale_price          41 non-null     object
 4   normal_price        41 non-null     object
 5   steam_rating_text   7 non-null      object
 6   steam_rating_count  41 non-null     object
 7   release_date        41 non-null     int64 
 8   last_change         41 non-null     int64 
dtypes: int64(2), object(7)
memory usage: 3.0+ KB


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
RENAME_COLUMNS = {
    "storeID": "store_id",
    "gameID": "game_id",
    "salePrice": "sale_price",
    "normalPrice": "normal_price",
    "steamRatingText": "steam_rating_text",
    "steamRatingCount": "steam_rating_count",
    "releaseDate": "release_date",
    "lastChange": "last_change"
}

game_data = game_data.rename(columns = RENAME_COLUMNS)

game_data
```

</details>

---

### **2d**
---

- Terdapat datetime data pada kolom `release_date` dan `last_change`
- Jika dilihat, data tersebut dalam format **Unix Epoch** atau **Unix Time**

<center>

<img src="https://www.researchgate.net/profile/Youssef-Iraqi-2/publication/348760440/figure/fig5/AS:984164266438656@1611654454716/Unix-Epoch-Time-format-and-corresponding-time-and-date.png" width=300px;>

[img source](https://www.researchgate.net/profile/Youssef-Iraqi-2/publication/348760440/figure/fig5/AS:984164266438656@1611654454716/Unix-Epoch-Time-format-and-corresponding-time-and-date.png)

</center>

- Ubahlah data tersebut menjadi bentuk timestamp
- Untuk mengubahnya kita membutuhkan function **`pd.to_datetime()`**, untuk detail nya bisa langsung mengecek [dokumentasi pandas](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)

In [88]:
# your answer here
df_trans_filter['release_date'] = pd.to_datetime(df_trans_filter['release_date'], unit='s')
df_trans_filter['last_change'] = pd.to_datetime(df_trans_filter['last_change'], unit='s')


In [70]:
df_trans_filter['release_date'] = pd.to_datetime(df_trans_filter['release_date'],format='%Y%m%d')

In [72]:
df_trans_filter['date_new'] = df_trans_filter['release_date'].dt.strftime("%m/%d/%Y")

In [73]:
df_trans_filter.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   title               41 non-null     object        
 1   store_id            41 non-null     object        
 2   game_id             41 non-null     object        
 3   sale_price          41 non-null     object        
 4   normal_price        41 non-null     object        
 5   steam_rating_text   7 non-null      object        
 6   steam_rating_count  41 non-null     object        
 7   release_date        41 non-null     datetime64[ns]
 8   last_change         41 non-null     int64         
 9   date_new            41 non-null     object        
dtypes: datetime64[ns](1), int64(1), object(8)
memory usage: 3.3+ KB


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data["release_date"] = pd.to_datetime(game_data["release_date"], unit='s')

game_data["release_date"]
```

</details>

---

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data["last_change"] = pd.to_datetime(game_data["last_change"], unit='s')

game_data["last_change"]
```

</details>

---

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data[["release_date", "last_change"]]
```

</details>

---

### **2e**
---

- Casting data type `sale_price` dan `normal_price` dari `object` menjadi `float`

In [79]:
# check data type
df_trans_filter['sale_price'] = df_trans_filter['sale_price'].astype(float)
df_trans_filter['normal_price'] = df_trans_filter['normal_price'].astype(float)

In [80]:
# your answer here
df_trans_filter.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   title               41 non-null     object        
 1   store_id            41 non-null     object        
 2   game_id             41 non-null     object        
 3   sale_price          41 non-null     float64       
 4   normal_price        41 non-null     float64       
 5   steam_rating_text   7 non-null      object        
 6   steam_rating_count  41 non-null     object        
 7   release_date        41 non-null     datetime64[ns]
 8   last_change         41 non-null     int64         
 9   date_new            41 non-null     object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(6)
memory usage: 3.3+ KB


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
CASTING_COLUMNS = {
    "sale_price": "float",
    "normal_price": "float"
}

game_data = game_data.astype(CASTING_COLUMNS)

game_data
```

</details>

---

### **3**
---

- Lakukan proses filter yang game memiliki rating `Mostly Positive` dan memiliki harga diskon kurang dari sama dengan `25.5`

In [81]:
# your answer here
cond_1 = df_trans_filter['steam_rating_text'] == 'Mostly Positive'
cond_2 = df_trans_filter['sale_price'] <= 25.5

df_trans_filter = df_trans_filter[cond_1 & cond_2]
df_trans_filter.head()

Unnamed: 0,title,store_id,game_id,sale_price,normal_price,steam_rating_text,steam_rating_count,release_date,last_change,date_new
13,The Incredible Adventures of Van Helsing Antho...,27,165849,6.42,74.99,Mostly Positive,12344,1970-01-01,1732152353,01/01/1970
14,The Incredible Adventures of Van Helsing Antho...,24,165849,7.5,74.99,Mostly Positive,12344,1970-01-01,1732309194,01/01/1970
25,The Incredible Adventures of Van Helsing Antho...,21,165849,7.49,74.99,Mostly Positive,12344,1970-01-01,1732152189,01/01/1970
27,The Incredible Adventures of Van Helsing Antho...,23,165849,7.5,74.99,Mostly Positive,12344,1970-01-01,1732150304,01/01/1970
28,The Incredible Adventures of Van Helsing Antho...,33,165849,7.5,74.99,Mostly Positive,12344,1970-01-01,1732154893,01/01/1970


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data = game_data[(game_data["steam_rating_text"] == "Mostly Positive") & \
                      (game_data["sale_price"] <= 25.5)]

game_data
```

</details>

---

### **4**
---

- Buatlah table PostgreSQL baru dengan nama `games_listing` dengan schema berikut

```sql
CREATE TABLE public.games_listing (
	title varchar NULL,
	store_id int NULL,
	game_id int NULL,
	sale_price numeric NULL,
	normal_price numeric NULL,
	steam_rating_text varchar NULL,
	steam_rating_count int NULL,
	release_date timestamp NULL,
	last_change timestamp NULL
);
```

### **4a**
---

In [92]:
df_trans_filter

Unnamed: 0,title,store_id,game_id,sale_price,normal_price,steam_rating_text,steam_rating_count,release_date,last_change
13,The Incredible Adventures of Van Helsing Antho...,27,165849,6.42,74.99,Mostly Positive,12344,1970-01-01,1970-01-01
14,The Incredible Adventures of Van Helsing Antho...,24,165849,7.5,74.99,Mostly Positive,12344,1970-01-01,1970-01-01
25,The Incredible Adventures of Van Helsing Antho...,21,165849,7.49,74.99,Mostly Positive,12344,1970-01-01,1970-01-01
27,The Incredible Adventures of Van Helsing Antho...,23,165849,7.5,74.99,Mostly Positive,12344,1970-01-01,1970-01-01
28,The Incredible Adventures of Van Helsing Antho...,33,165849,7.5,74.99,Mostly Positive,12344,1970-01-01,1970-01-01


- Buatlah koneksi untuk menyambungkan database dengan pandas

In [82]:
from sqlalchemy import create_engine

In [83]:
# your answer here
con = create_engine('postgresql://postgres:aku@localhost:5432/db_panglia')

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# create connection with postgres
conn = create_engine("postgresql://postgres:cobapassword@localhost/data-wrangling")
```

</details>

---

- Masukkan data terakhir ke dalam table `games_listing`

In [91]:
# your answer here
df_trans_filter.to_sql(
    name = 'games_listing',
    con=con,
    index=False,
    if_exists='append'
)

5

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data.to_sql(name = "games_listing", con = conn,
                 if_exists = "append", index = False)
```

</details>

---

- Sekarang cek apakah data sudah masuk ke dalam database dengan menggunakan pandas

In [None]:
# your answer here
...

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
query = "SELECT * FROM games_listing"

new_data = pd.read_sql(sql = query, con = conn)

new_data
```

</details>

---