Machine learning tutorial

In [3]:
from alpha_vantage.foreignexchange import ForeignExchange
import pandas as pd

api_key = 'W5MP9E5W5I1ZD9E4'
fx = ForeignExchange(key=api_key)

# Lấy dữ liệu lịch sử
data, _ = fx.get_currency_exchange_intraday(from_symbol='EUR', to_symbol='USD', interval='60min', outputsize='full')

# Chuyển đổi dữ liệu thành DataFrame
df = pd.DataFrame.from_dict(data, orient='index')
df.index = pd.to_datetime(df.index)
df = df.astype(float)
print(df.head())

ValueError: Thank you for using Alpha Vantage! This is a premium endpoint. You may subscribe to any of the premium plans at https://www.alphavantage.co/premium/ to instantly unlock all premium endpoints

In [3]:
import pandas as pd

# Đọc dữ liệu từ tệp CSV
file_path = './download/EU/DAT_MT_EURUSD_M1_202401.csv'
data = pd.read_csv(file_path)

# Hiển thị các cột của dữ liệu để kiểm tra
data.columns
# Đặt tên lại các cột
data.columns = ['date', 'time', 'open', 'high', 'low', 'close', 'volume']

# Kết hợp cột ngày và giờ thành cột datetime
data['datetime'] = pd.to_datetime(data['date'] + ' ' + data['time'], format='%Y.%m.%d %H:%M')

# Đặt cột datetime làm chỉ số
data.set_index('datetime', inplace=True)

# Chọn các cột cần thiết và chuyển đổi thành dạng số
data = data[['open', 'high', 'low', 'close', 'volume']].apply(pd.to_numeric)

# Resample dữ liệu thành dạng OHLC theo phút
ohlc_data = data.resample('T').agg({'open': 'first', 'high': 'max', 'low': 'min', 'close': 'last', 'volume': 'sum'})

# Hiển thị dữ liệu OHLC
print(ohlc_data.head())

# Lưu dữ liệu OHLC vào tệp CSV mới
output_file_path = './download/EU/ohlc_data.csv'
ohlc_data.to_csv(output_file_path)

print(f"Dữ liệu OHLC đã được lưu vào {output_file_path}")



                        open     high      low    close  volume
datetime                                                       
2024-01-01 17:00:00  1.10427  1.10429  1.10425  1.10429       0
2024-01-01 17:01:00  1.10429  1.10429  1.10429  1.10429       0
2024-01-01 17:02:00  1.10429  1.10429  1.10429  1.10429       0
2024-01-01 17:03:00  1.10429  1.10429  1.10426  1.10426       0
2024-01-01 17:04:00  1.10426  1.10431  1.10424  1.10425       0
Dữ liệu OHLC đã được lưu vào ./download/EU/ohlc_data.csv


In [20]:
import pandas as pd
import ta

# Đọc dữ liệu từ tệp CSV
file_path = './download/EU/cleaned_ohlc_data.csv'
data = pd.read_csv(file_path)

# Đặt tên lại các cột
data.columns = ['datetime', 'open', 'high', 'low', 'close', 'volume']

# Kết hợp cột ngày và giờ thành cột datetime
data['datetime'] = pd.to_datetime(data['datetime'] , format='%Y-%m-%d %H:%M:%S')

# Đặt cột datetime làm chỉ số
data.set_index('datetime', inplace=True)

# Chọn các cột cần thiết và chuyển đổi thành dạng số
data = data[['open', 'high', 'low', 'close', 'volume']].apply(pd.to_numeric)

# Loại bỏ các hàng có giá trị bị thiếu
data.dropna(inplace=True)

# Resample dữ liệu thành dạng OHLC theo phút
ohlc_data = data.resample('T').agg({'open': 'first', 'high': 'max', 'low': 'min', 'close': 'last', 'volume': 'sum'})

# Loại bỏ các hàng có giá trị bị thiếu sau khi resample
ohlc_data.dropna(inplace=True)

# Tính toán RSI
ohlc_data['rsi'] = ta.momentum.RSIIndicator(close=ohlc_data['close'], window=14).rsi()

# Tính toán Stochastic Oscillator
stoch = ta.momentum.StochasticOscillator(
    high=ohlc_data['high'], low=ohlc_data['low'], close=ohlc_data['close'], window=14, smooth_window=3)
ohlc_data['stoch_k'] = stoch.stoch()
ohlc_data['stoch_d'] = stoch.stoch_signal()

# Tính toán ADX và +DI
adx = ta.trend.ADXIndicator(
    high=ohlc_data['high'], low=ohlc_data['low'], close=ohlc_data['close'], window=14)
ohlc_data['adx'] = adx.adx()
ohlc_data['+di'] = adx.adx_pos()
ohlc_data['-di'] = adx.adx_neg()

# Xác định nến Doji
def is_doji(row, threshold=0.1):
    body = abs(row['close'] - row['open'])
    range = row['high'] - row['low']
    return body <= threshold * range

ohlc_data['doji'] = ohlc_data.apply(is_doji, axis=1)

# Hiển thị dữ liệu với các chỉ báo
print(ohlc_data.head())

# Lưu dữ liệu với các chỉ báo vào tệp CSV mới
output_file_with_indicators = './download/EU/output-after-calculate.csv'
ohlc_data.to_csv(output_file_with_indicators)

print(f'Dữ liệu đã được làm sạch và lưu vào tệp {output_file_with_indicators}')


                        open     high      low    close  volume  rsi  stoch_k  \
datetime                                                                        
2024-01-01 17:00:00  1.10427  1.10429  1.10425  1.10429       0  NaN      NaN   
2024-01-01 17:01:00  1.10429  1.10429  1.10429  1.10429       0  NaN      NaN   
2024-01-01 17:02:00  1.10429  1.10429  1.10429  1.10429       0  NaN      NaN   
2024-01-01 17:03:00  1.10429  1.10429  1.10426  1.10426       0  NaN      NaN   
2024-01-01 17:04:00  1.10426  1.10431  1.10424  1.10425       0  NaN      NaN   

                     stoch_d  adx  +di  -di   doji  
datetime                                            
2024-01-01 17:00:00      NaN  0.0  0.0  0.0  False  
2024-01-01 17:01:00      NaN  0.0  0.0  0.0   True  
2024-01-01 17:02:00      NaN  0.0  0.0  0.0   True  
2024-01-01 17:03:00      NaN  0.0  0.0  0.0  False  
2024-01-01 17:04:00      NaN  0.0  0.0  0.0  False  
Dữ liệu đã được làm sạch và lưu vào tệp ./download/EU/output-

In [19]:
pd.to_datetime('2024-01-01 17:00:00' , format='%Y-%m-%d %H:%M:%S')

Timestamp('2024-01-01 17:00:00')

In [8]:
# clean data and save to new file
import pandas as pd
import ta

# Đọc dữ liệu từ tệp CSV
file_path = './download/EU/DAT_MT_EURUSD_M1_202401.csv'
data = pd.read_csv(file_path)

# Đặt tên lại các cột
data.columns = ['date', 'time', 'open', 'high', 'low', 'close', 'volume']

# Kết hợp cột ngày và giờ thành cột datetime
data['datetime'] = pd.to_datetime(data['date'] + ' ' + data['time'], format='%Y.%m.%d %H:%M')

# Đặt cột datetime làm chỉ số
data.set_index('datetime', inplace=True)

# Chọn các cột cần thiết và chuyển đổi thành dạng số
data = data[['open', 'high', 'low', 'close', 'volume']].apply(pd.to_numeric)

# Loại bỏ các hàng có giá trị bị thiếu
data.dropna(inplace=True)

# Resample dữ liệu thành dạng OHLC theo phút
ohlc_data = data.resample('T').agg({'open': 'first', 'high': 'max', 'low': 'min', 'close': 'last', 'volume': 'sum'})

# Loại bỏ các hàng có giá trị bị thiếu sau khi resample
ohlc_data.dropna(inplace=True)

# Lưu dữ liệu OHLC sạch vào tệp CSV mới
cleaned_ohlc_file_path = './download/EU/cleaned_ohlc_data.csv'
ohlc_data.to_csv(cleaned_ohlc_file_path)

cleaned_ohlc_file_path


'./download/EU/cleaned_ohlc_data.csv'