# Hand-on Project: Xử lý dữ liệu với Python



In [43]:
import json
from datetime import date, timedelta, datetime
import pandas as pd
import requests

## 1. Lấy dữ liệu tỷ giá 

source: https://www.vietcombank.com.vn/vi-VN/KHCN/Cong-cu-Tien-ich/Ty-gia

url: https://www.vietcombank.com.vn/api/exchangerates?date=2023-12-31

In [25]:
url = 'https://www.vietcombank.com.vn/api/exchangerates?date=2023-12-31'

In [26]:
# Get dữ liệu từ url chứa dữ liệu tỷ giá
raw = requests.get(url)

In [27]:
# Lấy dữ liệu được trả về và lưu vào raw_string
raw_string = raw.text

In [65]:
# Dữ liệu là dạng string, transform dữ liệu sang dạng dict để tạo DataFrame
raw_dict = json.loads(raw_string)

In [30]:
# Extract dữ liệu tỷ giá từ raw_dict
raw_exchange_data = raw_dict['Data']

In [None]:
# list của dict trong đó mỗi dict gồm currencyName, currencyCode, cash, transfer, sell
raw_exchange_data

In [59]:
# Tạo DataFrame từ dữ liệu thô
raw_df = pd.DataFrame(raw_exchange_data)

In [64]:
raw_df.head()

Unnamed: 0,currencyName,currencyCode,cash,transfer,sell,icon
0,US DOLLAR,USD,24050.0,24080.0,24420.0,/-/media/Default-Website/Default-Images/Icons/...
1,EURO,EUR,26106.45,26370.15,27539.95,/-/media/Default-Website/Default-Images/Icons/...
2,POUND STERLING,GBP,30014.5,30317.68,31292.63,/-/media/Default-Website/Default-Images/Icons/...
3,YEN,JPY,166.1,167.78,175.83,/-/media/Default-Website/Default-Images/Icons/...
4,AUSTRALIAN DOLLAR,AUD,16074.05,16236.41,16758.54,/-/media/Default-Website/Default-Images/Icons/...


### 2. Xử lý dữ liệu thô 
- B1: drop cột icon
- B2: rename toàn bộ các cột
- B3: format lại kiểu dữ liệu của 3 cột cash, transfer, sell và thêm cột date vào cuối dataframe

In [75]:
df = raw_df.copy()
df.drop(columns=['icon'], inplace=True)

In [76]:
df

Unnamed: 0,currencyName,currencyCode,cash,transfer,sell
0,US DOLLAR,USD,24050.0,24080.0,24420.0
1,EURO,EUR,26106.45,26370.15,27539.95
2,POUND STERLING,GBP,30014.5,30317.68,31292.63
3,YEN,JPY,166.1,167.78,175.83
4,AUSTRALIAN DOLLAR,AUD,16074.05,16236.41,16758.54
5,SINGAPORE DOLLAR,SGD,17899.87,18080.68,18662.12
6,THAILAND BAHT,THB,623.62,692.91,719.5
7,CANADIAN DOLLAR,CAD,17836.38,18016.54,18595.92
8,SWISS FRANC,CHF,28141.46,28425.72,29339.84
9,HONGKONG DOLLAR,HKD,3025.75,3056.31,3154.59


In [77]:
df.columns = ['Currency Name', 'Currency Code', 'Cash', 'Transfer', 'Sell']

In [78]:
df['Cash'] = df['Cash'].astype(float)
df['Transfer'] = df['Transfer'].astype(float)
df['Sell'] = df['Sell'].astype(float)

In [82]:
datetime_object = datetime.strptime(raw_dict['Date'], '%Y-%m-%dT%H:%M:%S')
formatted_date = datetime_object.strftime('%d-%m-%Y')

In [None]:
df.insert(5, "Date", formatted_date)

In [81]:
df

Unnamed: 0,Currency Name,Currency Code,Cash,Transfer,Sell,Date
0,US DOLLAR,USD,24050.0,24080.0,24420.0,31-12-2023
1,EURO,EUR,26106.45,26370.15,27539.95,31-12-2023
2,POUND STERLING,GBP,30014.5,30317.68,31292.63,31-12-2023
3,YEN,JPY,166.1,167.78,175.83,31-12-2023
4,AUSTRALIAN DOLLAR,AUD,16074.05,16236.41,16758.54,31-12-2023
5,SINGAPORE DOLLAR,SGD,17899.87,18080.68,18662.12,31-12-2023
6,THAILAND BAHT,THB,623.62,692.91,719.5,31-12-2023
7,CANADIAN DOLLAR,CAD,17836.38,18016.54,18595.92,31-12-2023
8,SWISS FRANC,CHF,28141.46,28425.72,29339.84,31-12-2023
9,HONGKONG DOLLAR,HKD,3025.75,3056.31,3154.59,31-12-2023


## 3. Hàm lấy tỷ giá

In [97]:
def get_exchange_data(ngaycanlay):
    """Hàm lấy tỷ giá từ Vietcombank.
    
    Args:
    ----
        ngaycanlay (str): ngày cần lấy dữ liệu tỷ giá, format: YYYY-MM-DD.
    
    Returns:
    ----
        pd.DataFrame chứa dữ liệu tỷ giá của ngày cần lấy.
    """
    url = f'https://www.vietcombank.com.vn/api/exchangerates?date={ngaycanlay}'
    raw = requests.get(url)
    raw_string = raw.text
    raw_dict = json.loads(raw_string)
    raw_exchange_data = raw_dict['Data']
    raw_df = pd.DataFrame(raw_exchange_data)

    df = raw_df.copy()
    df.drop(columns=['icon'], inplace=True)
    df.columns = ['Currency Name', 'Currency Code', 'Cash', 'Transfer', 'Sell']
    df['Cash'] = df['Cash'].astype(float)
    df['Transfer'] = df['Transfer'].astype(float)
    df['Sell'] = df['Sell'].astype(float)
    datetime_object = datetime.strptime(raw_dict['Date'], '%Y-%m-%dT%H:%M:%S')
    formatted_date = datetime_object.strftime('%d-%m-%Y')
    df.insert(5, "Date", formatted_date)
    
    return df

In [99]:
get_exchange_data('2024-1-25')

Unnamed: 0,Currency Name,Currency Code,Cash,Transfer,Sell,Date
0,US DOLLAR,USD,24400.0,24430.0,24770.0,25-01-2024
1,EURO,EUR,26064.09,26327.37,27494.63,25-01-2024
2,POUND STERLING,GBP,30457.65,30765.3,31753.9,25-01-2024
3,YEN,JPY,161.55,163.18,170.99,25-01-2024
4,AUSTRALIAN DOLLAR,AUD,15752.55,15911.67,16422.97,25-01-2024
5,SINGAPORE DOLLAR,SGD,17894.15,18074.9,18655.71,25-01-2024
6,THAILAND BAHT,THB,608.03,675.58,701.49,25-01-2024
7,CANADIAN DOLLAR,CAD,17722.19,17901.2,18476.44,25-01-2024
8,SWISS FRANC,CHF,27741.94,28022.16,28922.61,25-01-2024
9,HONGKONG DOLLAR,HKD,3066.55,3097.52,3197.06,25-01-2024
