In [1]:
import pandas as pd
from tools.news_scraping import * # import all functions from news_scraping.py

In [2]:
stock_names = [
    "ASTOR",
    "ENJSA",
    "TCELL",
    "TTKOM",
    "OYAKC",
    "KONYA",
    "YBTAS",
    "EREGL",
    "KRDMD",
    "TOASO",
    "FROTO",
    "BIMAS",
    "SOKM",
    "ARCLK",
    "VESTL",
    "THYAO",
    "PGSUS"
] # list of stock names

In [3]:
news = pd.read_csv("news.csv") # read news.csv file

In [4]:
stock_prices = pd.read_csv("stock_market_prices_all.csv") # read stock_market_prices_all.csv file

In [5]:
dates = stock_prices["Date"].unique() # get unique dates from stock_prices dataframe

## Adding Labels as List and Converting Date as Appropriate Form

In [6]:
for i in dates:
    df_d = pd.read_csv(f"daily_changes/{i}.csv")
    df_d["text"] = df_d["Stock_Code"] + " : " + df_d["Change_Status"].astype(str)
    text = list(df_d["text"].values)
    text = str(text)
    dt = convdate2datetime(i)
    for j in news["date"].values:
        if dt == convlist2datetime(j.split(",")[0].split(" ")[:3]):
            news.loc[news["date"] == j, "label"] = text

In [7]:
news["date"] = news["date"].apply(lambda x: convlist2datetime(x.split(' '))) # convert date column to datetime format

## Splitting List for All Stock Codes

In [8]:
labels = news["label"].str.split(",", expand=True) # split label column by comma 
labels.columns = stock_names # set column names as stock names

labels["PGSUS"] = labels["PGSUS"].str[-4:-2].str.replace(" ", "").astype(int) + 1 # convert PGSUS column to integer 

stock_names2 = [
    "ASTOR",
    "ENJSA",
    "TCELL",
    "TTKOM",
    "OYAKC",
    "KONYA",
    "YBTAS",
    "EREGL",
    "KRDMD",
    "TOASO",
    "FROTO",
    "BIMAS",
    "SOKM",
    "ARCLK",
    "VESTL",
    "THYAO"
]

for column in stock_names2:
    labels[column] = labels[column].str[-3:-1].str.replace(" ", "").astype(int) + 1     # convert other columns to integer 

In [9]:
data = pd.concat([news, labels], axis=1) # concatenate news and labels dataframes 
data = data.drop("label", axis=1) # drop label column 

In [10]:
data 

Unnamed: 0,title,link,text,date,ASTOR,ENJSA,TCELL,TTKOM,OYAKC,KONYA,...,EREGL,KRDMD,TOASO,FROTO,BIMAS,SOKM,ARCLK,VESTL,THYAO,PGSUS
0,Reeskont faizlerinde değişiklik,/reeskont-faizlerinde-degisiklik-2337536,Türkiye Cumhuriyet Merkez Bankası reeskont işl...,2023-09-01,0,2,2,2,0,2,...,2,2,2,2,2,1,1,0,2,2
1,Doğalgazda Eylül tarifesinde değişikliğe gidil...,/dogalgazda-eylul-tarifesinde-degisiklige-gidi...,BOTAŞ'ın internet sitesinde yayımlanan tarife ...,2023-09-01,0,2,2,2,0,2,...,2,2,2,2,2,1,1,0,2,2
2,Ekonomi ve siyaset gündemi - 1 Eylül 2023,/ekonomi-ve-siyaset-gundemi-1-eylul-2023-2337538,1- Yeni adli yıl başlıyor - Yargıtay Başkanı M...,2023-09-01,0,2,2,2,0,2,...,2,2,2,2,2,1,1,0,2,2
3,Asya borsaları Çin'den gelen haberlerle yükseldi,/asya-borsalari-cin-den-gelen-haberlerle-yukse...,"Asya-Pasifik piyasaları, Çin'in ağustos ayında...",2023-09-01,0,2,2,2,0,2,...,2,2,2,2,2,1,1,0,2,2
4,Çin Merkez Bankası'ndan zorunlu karşılık hamlesi,/cin-merkez-bankasi-ndan-zorunlu-karsilik-haml...,Dünyanın en büyük ikinci ekonomisinde sorunlu ...,2023-09-01,0,2,2,2,0,2,...,2,2,2,2,2,1,1,0,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
791,ABD’de Cumhuriyetçilerin bütçe tasarısı Temsil...,/abdde-cumhuriyetcilerin-gecici-butce-tasarisi...,Temsilciler Meclisi Başkanı Cumhuriyetçi McCar...,2023-09-29,1,1,2,2,2,2,...,1,1,2,2,2,0,2,2,1,1
792,S&P’den Türkiye kararı,/s-pden-turkiye-karari-2339324,Fitch’in ardından S&P de Türkiye’nin not görün...,2023-09-29,1,1,2,2,2,2,...,1,1,2,2,2,0,2,2,1,1
793,7 başlıkla geçen hafta,/7-baslikla-gecen-hafta-2339326,Küresel piyasaların ABD'den gelen gelişmeler d...,2023-09-30,1,1,2,2,2,2,...,1,1,2,2,2,0,2,2,1,1
794,Mevduat faizi ticari kredi faizini geçti,/mevduat-faizi-ticari-kredi-faizini-gecti-2339327,Mevduat faizlerinde tarihi yüksek seviyeler ka...,2023-09-30,1,1,2,2,2,2,...,1,1,2,2,2,0,2,2,1,1


## Translating Texts with Google API

In [13]:
from googletrans import Translator 
import googletrans

googletrans.__version__

4.0.0-rc.1


In [2]:
translator = Translator(service_urls=[
      'translate.google.com',
      'translate.google.co.kr',
    ]) # create translator object

In [3]:
def translate_text(x): # translate text to english
    try:
        return translator.translate(x, dest="en").text
    except:
        return None

In [None]:
data["text_en"] = data["text"].apply(translate_text) # apply translate_text function to text column 

In [None]:
data.to_csv("news_labels_en.csv") # save dataframe as csv file