# **Week #2 - Pandas Data Structures & Data Selection**

Intro to Data Engineering Course - Sekolah Engineer - Pacmann Academy

**Outline**

1. Review:
    - Pandas Data Structure
    - Data Selection
2. Case Study 1: Sales Product
3. Case Study 2: IMDB Movies
4. Case Study 3: Rental DVD Case
5. Case Study 4: Discount Games Listing

In [None]:
import pandas as pd

# <font color='blue'>Review
---

## Pandas Data Structure
---

### Intro to Data Wrangling

- Data Wrangling adalah sebuah proses ***cleaning, structuring, dan transforming*** raw data menjadi bentuk yang layak untuk dianalisa atau kebutuhan yang lain
- Goals dari Data Wrangling adalah membuat data kita menjadi ***accurate dan reliable***
- Data Wrangling merupakan salah satu bagian **Transform** dari ETL Pipeline
- Task yang umum dilakukan pada proses Data Wrangling:
  - **Understand Data**
  - **Cleaning Data**
  - **Data Filtering**
  - **Data Mapping**
  - **Transforming Data**
  - **Data Aggregation**
  - **Joining Data**

### Read Data

- Untuk melakukan proses read data atau proses data wrangling, kita membutuhkan library `pandas`

**Syntax**

```python
import pandas as pd
```

- Tetapi juga ada kemungkinan data yang akan ditemui pada Industri nanti bisa berbentuk
    - **Database**
    - **JSON**
    - **API**

- Karena data yang ingin dilakukan proses Data Wrangling bisa dalam bentuk berbagai format file, oleh karena itu harus diubah menjadi bentuk yang bisa dimengerti oleh `pandas`.

- Struktur data yang dimengerti oleh `pandas` adalah:
    - **Series**
    - **Dataframe**

- Selain itu, pada pandas kita bisa membaca data dengan format:
    - **File**
    - **API / JSON**
    - **Database**

### Select Data

- Pada proses data wrangling, biasanya kita tidak membutuhkan semua kolom untuk dianalisa

- Pada pandas kita bisa:
    - **Memilih spesifik kolom**
    - **Memilih beberapa kolom**

- Untuk memilih spesifik kolom pada pandas, kita bisa menggunakan **dua metode**:
    - Mengembalikan dalam bentuk `Series` dengan menggunakan **one squared bracket** `[nama_kolom]`
    - Mengembalikan dalam bentuk `DataFrame` dengan menggunakan **two squared bracket** `[[nama_kolom]]`

### Filter Data

- Pada pandas, kita bisa melakukan proses filter untuk mengambil data yang **memiliki nilai spesifik** atau **berdasarkan kondisi yang ditentukan**

- Untuk melakukan filter data pada pandas, kita menggunakan konsep **comparison operators** pada Python

- Pada pandas juga bisa melakukan filter dengan beberapa kondisi secara sekaligus, cukup menggunakan konsep boolean logic seperti **and (`&`)** dan **or (`|`)**

- Untuk melakukan filter data dengan nilai spesifik di pandas kita cukup menggunakan syntax berikut

**Syntax**

```python
# read data
data = pd.read_csv(filename)

# filter nilai spesifik
filter_data = data[data[nama_kolom] == value]

# filter beberapa kondisi secara sekaligus
filter_data = data[(data[nama_kolom_1] == value_1) & (data[nama_kolom_2] == value_2)]
```

- Untuk melakukan filter data berdasarkan kondisi yang ditentukan, kita cukup menggunakan syntax berikut

**Syntax**

```python
# read data
data = pd.read_csv(filename)

# filter berdasarkan kondisi yang ditentukan
filtered_data = data[data[nama_kolom] > value]

# filter beberapa kondisi secara sekaligus
filtered_data = data[(data[nama_kolom_1] != value_1) & (data[nama_kolom_2] >= value_2)]
```

- Setelah filtering data, kita juga bisa melakukan proses select data untuk mengambil beberapa kolom saja yang dibutuhkan

**Syntax**

```python
# read data
data = pd.read_csv(filename)

# filter data
data[data[filter_process]][[selected_cols_1, selected_cols_2, selected_cols_n]]
```



## Data Selection

### Data Slicing

- Untuk melakukan Data Slicing, kita bisa menerapakan konsep **indexing dan slicing** yang ada di Python `[start_index:end_index]`
- Untuk melakukan slicing ini, kita bisa mengambil data berdasarkan **index rows ataupun column**
- Untuk mengakses data menggunakan index, ada dua cara yang disediakan oleh pandas:
    - `.iloc[]` = mengakses berdasarkan **urutan posisi index**
    - `.loc[]` = mengakses berdasarkan **label** (nama columns atau nama index) yang ada di rows / columns


### Casting Data

- Ada beberapa tipe data yang biasa kita temui:
    - `object`
    - `float`
    - `int`
    - `datetime`
- Tetapi, kadang kita harus mengubah tipe data pada kolom tertentu untuk kebutuhan analisa atau untuk membetulkan suatu kolom menjadi tipe data yang benar
- Semisal, ingin mengubah suatu data `integer` menjadi `float`, mengubah `object` menjadi `integer`
- Proses tersebut dinamakan **casting data type**
- Untuk melakukannya cukup menggunakan function `astype()`

**Syntax**

```python
# casting column
data[cols] = data[cols].astype(data_type)

# say we want to convert to float
data[cols] = data[cols].astype("float")
```

### Export Data

- Setelah mengolah data kita seperti slicing dan filter data, kita bisa **menyimpan hasilnya** ke dalam sebuah file atau database baru
- Pandas menyediakan beberapa function:
    - `to_csv()` = mengubah DataFrame / Series ke dalam bentuk `csv`
    - `to_sql()` = memasukkan DataFrame / Series ke dalam database  
    
    - `to_excel()` = mengubah DataFrame / Series ke dalam bentuk `xlsx`
    - dsb
- Proses ini umumnya disebut sebagai **export data**

# <font color='blue'>1. Study Case 1: Sales Product
---

## **1**
---

Read `sales_data_2019.csv` dataset menggunakan pandas

In [None]:
import pandas as pd

In [None]:
# your answer here
df = pd.read_csv('./data/sales_data_2019.csv')
df

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data = pd.read_csv("sales_data_2019.csv")

sales_data
```

</details>

---

## **2**
---

### **2a**
---

- Hilangkan kolom `Order ID` dari data sales tersebut
- Atur ulang urutan dari kolom tersebut menjadi berikut:
    - `Order Date`
    - `Product`
    - `Quantity Ordered`
    - `Price Each`
    - `Purchase Address`

In [None]:
# your answer here
select_column = ['Order Date', 'Product', 'Quantity Ordered', 'Price Each', 'Order ID', 'Purchase Address']
df = df[select_column]
df

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
ORDERED_COLS = ["Order Date", "Product", "Quantity Ordered",
                "Price Each", "Purchase Address"]

sales_data = sales_data[ORDERED_COLS]

sales_data
```

</details>

---

### **2b**
---

- Lakukan proses slicing data dimulai dari index `150` sampai dengan `4213`

In [None]:
# your answer here
df[150:4214]

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data = sales_data[150:4214]

sales_data
```

</details>

---

## **3**
---

- Lalu, lakukan proses filtering data sesuai dengan ketentuan berikut:
    - Jumlah dari barang yang di order lebih dari `2` atau
    - Harga dari masing - masing barang adalah lebih dari sama dengan `125`

In [None]:
# your answer here
df_filter1 = df[(df['Quantity Ordered'] > 2) | (df['Price Each'] >= 125)]

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data = sales_data[(sales_data["Quantity Ordered"] > 2) | \
                        (sales_data["Price Each"] >= 125)]

sales_data
```

</details>

---

## **4**
---

- Export data menjadi bentuk file csv dengan nama `new_sales_data.csv`
- Lalu, ketika export data jangan simpan index dari data sebelumnya

In [None]:
# your answer here save to csv
df_filter1.to_csv('./data/sales_data_2019_filtered.csv', index=False)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
sales_data.to_csv("new_sales_data.csv", index = False)
```

</details>

---

- Baca data baru `new_sales_data.csv`

In [None]:
# your answer here
df_read_filter = pd.read_csv('./data/sales_data_2019_filtered.csv')
df_read_filter

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
data = pd.read_csv("new_sales_data.csv")

data
```

</details>

---

# <font color='blue'>2. Study Case 2: IMDB Movies
---

## **1**
---

- Read `IMDB_Movies.csv` dataset
- Data tersebut berisi tentang informasi mengenai film - film yang ada di website [IMDB](https://www.imdb.com/)

In [None]:
# your answer here
df_imdb = pd.read_csv('./data/IMDB_Movies.csv')
df_imdb

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
imdb_data = pd.read_csv("IMDB_Movies.csv")

imdb_data.head()
```

</details>

---

Cek shape dari data yang dimiliki

In [None]:
# your answer here
df_imdb.shape

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
data_shape = imdb_data.shape

print(f"IMDB data memiliki shape: {data_shape}")
```

</details>

---

## **2**
---

### **2a**
---

- Pilihlah kolom - kolom berikut:
    - `movie_title`
    - `title_year`
    - `genres`
    - `duration`
    - `director_name`
    - `imdb_score`

In [None]:
# your answer here
select_column = ['movie_title', 'title_year', 'genres', 'duration', 'imdb_score']
df_imdb = df_imdb[select_column]

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
SELECTED_COLS = ["movie_title", "title_year", "genres",
                 "duration", "director_name", "imdb_score"]

imdb_data = imdb_data[SELECTED_COLS]

imdb_data
```

</details>

---

### **2b**
---

- Setelah itu, lakukan proses filter data yang dimana memiliki skor IMDB lebih dari sama dengan `6.5`

In [None]:
# your answer here
df_imdb_filter = df_imdb[(df_imdb['imdb_score'] >= 6.5)]
df_imdb_filter

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
imdb_data = imdb_data[imdb_data["imdb_score"] >= 6.5]

imdb_data
```

</details>

---

## **3**
---

- Lakukan proses untuk menghitung tiap Director sudah membuat berapa film berdasarkan data terakhir

In [None]:
# your answer here
df_imdb['director_name'].value_counts()

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
imdb_data["director_name"].value_counts()
```

</details>

---

# <font color='blue'>3. Study Case 3: Rental DVD Case
---

Source Data: https://mysqlcode.com/load-sample-database-postgresql/

## **1**
---

- Diberikan file `pagila.tar`, restore file tersebut ke database bernama `pagila`

## **2**
---

### **2a**
---

- Buatlah koneksi untuk menghubungkan database `pagila` menggunakan pandas

In [None]:
from sqlalchemy import create_engine

In [None]:
# your answer here
conn = create_engine('postgresql://postgres:aku@localhost:5432/db_panglia')

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# create connection with postgres
conn = create_engine("postgresql://postgres:cobapassword@localhost/pagila")
```

</details>

---

### **2b**
---

- Query seluruh data yang ada di table `film`
- Setelah itu, masukkan ke dalam DataFrame

In [None]:
# your answer here
query = "SELECT * FROM film"
df_film = pd.read_sql(query, conn)
df_film

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
query = "SELECT * FROM film"

rental_data = pd.read_sql(sql = query, con = conn)

rental_data
```

</details>

---

## **3**
---

- Langkah selanjutnya adalah select kolom - kolom berikut:
    - `film_id`
    - `title`
    - `release_year`
    - `rental_rate`
    - `length`
    - `rating`
    - `last_update`

In [None]:
# your answer here
select_column = ['film_id', 'title', 'description', 'release_year', 'rental_rate', 'length', 'rating', 'last_update']
df_film = df_film[select_column]
df_film

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
SELECTED_COLS = ["film_id", "title", "release_year", "rental_rate",
                 "length", "rating", "last_update"]

rental_data = rental_data[SELECTED_COLS]

rental_data
```

</details>

---

## **4**
---

### **4a**
---

- Sebelum melakukan filter data, coba cek bagaimana value yang ada di kolom `rating`

In [None]:
# your answer here
df_film['rating'].value_counts()

# distinct value
df_film['rating'].unique()

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
rental_data["rating"].value_counts()
```

</details>

---

### **4b**
---

- Berdasarkan data tersebut, lakukanlah filter data yang dimana rating memiliki value `PG` dan memiliki durasi yang lebih dari sama dengan `90`

In [None]:
# your answer here
df_film[(df_film['rating'] == 'PG') & (df_film['length'] >= 90)]

# filter contains PG
df_film[df_film['rating'].str.contains('PG')]

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
rental_data = rental_data[(rental_data["rating"] == "PG") & \
                          (rental_data["length"] >= 90)]

rental_data
```

</details>

---

## **5**
---

- Simpan data terbaru tersebut ke file baru dengan nama `new_rental_data.csv` tanpa menggunakan index dari data sebelumnya

In [None]:
# your answer here
df_film.to_csv('./data/film_filtered.csv', index=False)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
rental_data.to_csv("new_rental_data.csv", index = False)
```

</details>

---

- Read data terbaru tersebut untuk mengecek apakah sudah berhasil tersimpan atau tidak

In [None]:
# your answer here
df_output = pd.read_csv('./data/film_filtered.csv')
df_output

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
new_data = pd.read_csv("new_rental_data.csv")

new_data
```

</details>

---

# <font color='blue'>4. Study Case 4: Discount Games Listing
---

## **1**
---

### **1a**
---

- Diberikan sebuah data API yang berisikan tentang list game apa saja yang sedang diskon saat ini `https://www.cheapshark.com/api/1.0/deals?upperPrice=30&pageSize=1000`
- Cek status code dari API tersebut

In [None]:
import requests
import pandas as pd

In [None]:
resp = requests.get("https://www.cheapshark.com/api/1.0/deals?upperPrice=30&pageSize=1000")

resp.status_code

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
resp = requests.get("https://www.cheapshark.com/api/1.0/deals?upperPrice=30&pageSize=1000")

resp.status_code
```

</details>

---

### **1b**
---

- Ubah data API tersebut menjadi bentuk **JSON**

In [None]:
# your answer here
resp = resp.json()
resp

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
raw_data = resp.json()

raw_data
```

</details>

---

### **1c**
---

- Ubah data JSON tersebut menjadi bentuk DataFrame dengan menggunakan `pandas`
- Setelah itu tampilkan data yang sudah diconvert menjadi DataFrame

In [None]:
# your answer here
game = pd.DataFrame(resp)
game

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data = pd.DataFrame(raw_data)

game_data.head()
```

</details>

---

### **1d**
---

- Cek summary data dan cek shape dari data yang dimiliki

In [None]:
# your answer here
game.info()

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data.info()
```

</details>

---

In [None]:
# your answer here
game.shape

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
data_shape = game_data.shape

print(f"Data Game Listing yang dimiliki memiliki shape {data_shape}")
```

</details>

---

## **2**
---

### **2a**
---

- Lakukan proses select data dengan kolom berikut:
    - `title`
    - `storeID`
    - `gameID`
    - `salePrice`
    - `normalPrice`
    - `steamRatingText`
    - `steamRatingCount`
    - `releaseDate`
    - `lastChange`

- Simpan ke dalam variable baru

In [None]:
# your answer here
SELECTED_COLS = ["title", "storeID", "gameID", "salePrice", "normalPrice",
                 "steamRatingText", "steamRatingCount", "releaseDate", "lastChange"]

game_data = game[SELECTED_COLS]

game_data

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
SELECTED_COLS = ["title", "storeID", "gameID", "salePrice", "normalPrice",
                 "steamRatingText", "steamRatingCount", "releaseDate", "lastChange"]

game_data = game_data[SELECTED_COLS]

game_data
```

</details>

---

### **2b**
---

- Lakukan process slicing data yang dimulai dari index `1` sampai index ke `40`
- Setelah itu simpan ke dalam variable baru

In [None]:
# your answer here
game_data[1:41]

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data = game_data[1:41]

game_data
```

</details>

---

### **2c**
---

- Lakukan proses rename column seperti berikut:
    - `storeID`: `store_id`
    - `gameID`: `game_id`
    - `salePrice`: `sale_price`
    - `normalPrice`: `normal_price`
    - `steamRatingText`: `steam_rating_text`
    - `steamRatingCount`: `steam_rating_count`
    - `releaseDate`: `release_date`
    - `lastChange`: `last_change`

In [None]:
# your answer here
RENAME_COLUMNS = {
    "storeID": "store_id",
    "gameID": "game_id",
    "salePrice": "sale_price",
    "normalPrice": "normal_price",
    "steamRatingText": "steam_rating_text",
    "steamRatingCount": "steam_rating_count",
    "releaseDate": "release_date",
    "lastChange": "last_change"
}

game_data = game_data.rename(columns = RENAME_COLUMNS)

game_data

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
RENAME_COLUMNS = {
    "storeID": "store_id",
    "gameID": "game_id",
    "salePrice": "sale_price",
    "normalPrice": "normal_price",
    "steamRatingText": "steam_rating_text",
    "steamRatingCount": "steam_rating_count",
    "releaseDate": "release_date",
    "lastChange": "last_change"
}

game_data = game_data.rename(columns = RENAME_COLUMNS)

game_data
```

</details>

---

### **2d**
---

- Terdapat datetime data pada kolom `release_date` dan `last_change`
- Jika dilihat, data tersebut dalam format **Unix Epoch** atau **Unix Time**

<center>

<img src="https://www.researchgate.net/profile/Youssef-Iraqi-2/publication/348760440/figure/fig5/AS:984164266438656@1611654454716/Unix-Epoch-Time-format-and-corresponding-time-and-date.png" width=300px;>

[img source](https://www.researchgate.net/profile/Youssef-Iraqi-2/publication/348760440/figure/fig5/AS:984164266438656@1611654454716/Unix-Epoch-Time-format-and-corresponding-time-and-date.png)

</center>

- Ubahlah data tersebut menjadi bentuk timestamp
- Untuk mengubahnya kita membutuhkan function **`pd.to_datetime()`**, untuk detail nya bisa langsung mengecek [dokumentasi pandas](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)

In [None]:
# your answer here
game_data["release_date"] = pd.to_datetime(game_data["release_date"], unit='s')

game_data["release_date"]

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data["release_date"] = pd.to_datetime(game_data["release_date"], unit='s')

game_data["release_date"]
```

</details>

---

In [None]:
# your answer here
game_data["last_change"] = pd.to_datetime(game_data["last_change"], unit='s')

game_data["last_change"]

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data["last_change"] = pd.to_datetime(game_data["last_change"], unit='s')

game_data["last_change"]
```

</details>

---

In [65]:
# your answer here
game_data[["release_date", "last_change"]].head()

Unnamed: 0,release_date,last_change
0,2022-12-02,2024-11-20 17:57:28
1,2016-11-09,2024-11-21 17:01:45
2,1970-01-01,2024-11-24 16:51:12
3,1970-01-01,2024-11-22 14:44:37
4,2024-06-06,2024-11-19 16:42:13


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data[["release_date", "last_change"]]
```

</details>

---

### **2e**
---

- Casting data type `sale_price` dan `normal_price` dari `object` menjadi `float`

In [66]:
# check data type
game_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   title               60 non-null     object        
 1   store_id            60 non-null     object        
 2   game_id             60 non-null     object        
 3   sale_price          60 non-null     object        
 4   normal_price        60 non-null     object        
 5   steam_rating_text   7 non-null      object        
 6   steam_rating_count  60 non-null     object        
 7   release_date        60 non-null     datetime64[ns]
 8   last_change         60 non-null     datetime64[ns]
dtypes: datetime64[ns](2), object(7)
memory usage: 4.3+ KB


In [68]:
# your answer here
CASTING_COLUMNS = {
    "sale_price": "float",
    "normal_price": "float"
}

game_data = game_data.astype(CASTING_COLUMNS)

game_data.head()

Unnamed: 0,title,store_id,game_id,sale_price,normal_price,steam_rating_text,steam_rating_count,release_date,last_change
0,Need for Speed Unbound,8,251767,4.89,69.99,Mixed,31574,2022-12-02,2024-11-20 17:57:28
1,Beholder,25,158740,0.0,13.99,Very Positive,19151,2016-11-09,2024-11-21 17:01:45
2,Sid Meiers Civilization VI: Platinum Edition,21,206126,6.99,79.99,,0,1970-01-01,2024-11-24 16:51:12
3,Strange Brigade - Deluxe Edition,3,186386,6.0,79.99,,0,1970-01-01,2024-11-22 14:44:37
4,GRID Legends: Deluxe Edition,25,238027,15.99,79.99,,0,2024-06-06,2024-11-19 16:42:13


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
CASTING_COLUMNS = {
    "sale_price": "float",
    "normal_price": "float"
}

game_data = game_data.astype(CASTING_COLUMNS)

game_data
```

</details>

---

In [69]:
game_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 9 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   title               60 non-null     object        
 1   store_id            60 non-null     object        
 2   game_id             60 non-null     object        
 3   sale_price          60 non-null     float64       
 4   normal_price        60 non-null     float64       
 5   steam_rating_text   7 non-null      object        
 6   steam_rating_count  60 non-null     object        
 7   release_date        60 non-null     datetime64[ns]
 8   last_change         60 non-null     datetime64[ns]
dtypes: datetime64[ns](2), float64(2), object(5)
memory usage: 4.3+ KB


### **3**
---

- Lakukan proses filter yang game memiliki rating `Mostly Positive` dan memiliki harga diskon kurang dari sama dengan `25.5`

In [70]:
# your answer here
game_data = game_data[(game_data["steam_rating_text"] == "Mostly Positive") & \
                      (game_data["sale_price"] <= 25.5)]

game_data

Unnamed: 0,title,store_id,game_id,sale_price,normal_price,steam_rating_text,steam_rating_count,release_date,last_change
11,The Incredible Adventures of Van Helsing Antho...,27,165849,6.42,74.99,Mostly Positive,12343,1970-01-01,2024-11-21 01:25:53
12,The Incredible Adventures of Van Helsing Antho...,24,165849,7.5,74.99,Mostly Positive,12343,1970-01-01,2024-11-22 20:59:54
21,The Incredible Adventures of Van Helsing Antho...,21,165849,7.49,74.99,Mostly Positive,12343,1970-01-01,2024-11-21 01:23:09
23,The Incredible Adventures of Van Helsing Antho...,23,165849,7.5,74.99,Mostly Positive,12343,1970-01-01,2024-11-21 00:51:44
24,The Incredible Adventures of Van Helsing Antho...,33,165849,7.5,74.99,Mostly Positive,12343,1970-01-01,2024-11-21 02:08:13


<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data = game_data[(game_data["steam_rating_text"] == "Mostly Positive") & \
                      (game_data["sale_price"] <= 25.5)]

game_data
```

</details>

---

### **4**
---

- Buatlah table PostgreSQL baru dengan nama `games_listing` dengan schema berikut

```sql
CREATE TABLE public.games_listing (
	title varchar NULL,
	store_id int NULL,
	game_id int NULL,
	sale_price numeric NULL,
	normal_price numeric NULL,
	steam_rating_text varchar NULL,
	steam_rating_count int NULL,
	release_date timestamp NULL,
	last_change timestamp NULL
);
```

### **4a**
---

- Buatlah koneksi untuk menyambungkan database dengan pandas

In [71]:
from sqlalchemy import create_engine

In [None]:
# your answer here
conn = create_engine("postgresql://postgres:cobapassword@localhost/data-wrangling")

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
# create connection with postgres
conn = create_engine("postgresql://postgres:cobapassword@localhost/data-wrangling")
```

</details>

---

- Masukkan data terakhir ke dalam table `games_listing`

In [None]:
# your answer here
game_data.to_sql(name = "games_listing", con = conn,
                 if_exists = "append", index = False)

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
game_data.to_sql(name = "games_listing", con = conn,
                 if_exists = "append", index = False)
```

</details>

---

- Sekarang cek apakah data sudah masuk ke dalam database dengan menggunakan pandas

In [None]:
# your answer here
query = "SELECT * FROM games_listing"

new_data = pd.read_sql(sql = query, con = conn)

new_data

<details>
    <summary><b>Klik untuk melihat kunci jawaban</b></summary>

```python
query = "SELECT * FROM games_listing"

new_data = pd.read_sql(sql = query, con = conn)

new_data
```

</details>

---