In [1]:
import pandas as pd
import re

file_path = 'all_crypto_news.csv'
df = pd.read_csv(file_path)

def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)  #
    return text.lower()  


df['Başlık'] = df['Başlık'].apply(clean_text)
df['İçerik'] = df['İçerik'].apply(clean_text)

output_path = 'all_crypto_news_cleaned.csv'
df.to_csv(output_path, index=False)

print(f"Temizlenmiş dosya kaydedildi: {output_path}")

Temizlenmiş dosya kaydedildi: all_crypto_news_cleaned.csv


In [5]:
import pandas as pd
import re

file_path = 'all_crypto_news_cleaned.csv'
df = pd.read_csv(file_path)

duplicate_count = df.duplicated(subset=['Başlık', 'İçerik']).sum()
empty_rows_count = df[(df['Başlık'].str.strip() == '') | (df['İçerik'].str.strip() == '')].shape[0]

df = df.drop_duplicates(subset=['Başlık', 'İçerik'])

df = df[(df['Başlık'].str.strip() != '') & (df['İçerik'].str.strip() != '')]

df = df.drop(columns=['Tarih'], errors='ignore')

output_path_cleaned = 'all_crypto_news_filtered.csv'
df.to_csv(output_path_cleaned, index=False)

print(f"Kopya kayıt sayısı: {duplicate_count}")
print(f"Boş kayıt sayısı: {empty_rows_count}")
print(f"Temizlenmiş dosya kaydedildi: {output_path_cleaned}")


Kopya kayıt sayısı: 1189
Boş kayıt sayısı: 0
Temizlenmiş dosya kaydedildi: all_crypto_news_filtered.csv


In [25]:
import pandas as pd
import re

file_path = 'all_crypto_news_filtered.csv'
df = pd.read_csv(file_path)

keywords = r'bitcoin|bitcoins|btc'
df_bitcoin = df[
    df['Başlık'].str.contains(keywords, case=False, na=False) |
    df['İçerik'].str.contains(keywords, case=False, na=False)
]

remaining_count = df_bitcoin.shape[0]
removed_count = df.shape[0] - remaining_count

output_path_bitcoin = 'all_crypto_news_bitcoin_only_improved.csv'
df_bitcoin.to_csv(output_path_bitcoin, index=False)

{
    "Kalan haber sayısı": remaining_count,
    "Çıkarılan haber sayısı": removed_count,
    "Filtrelenmiş dosya": output_path_bitcoin
}


{'Kalan haber sayısı': 5081,
 'Çıkarılan haber sayısı': 3755,
 'Filtrelenmiş dosya': 'all_crypto_news_bitcoin_only_improved.csv'}

In [3]:
import pandas as pd
from googletrans import Translator

file_path = 'all_crypto_news_bitcoin_only_improved.csv'
df_bitcoin = pd.read_csv(file_path)

translator = Translator()

def translate_to_english(text, row_index=None):
    try:
        translated_text = translator.translate(text, src='tr', dest='en').text
        if row_index is not None:
            print(f"Satır {row_index + 1} çevirildi.")
        return translated_text
    except Exception as e:
        print(f"Satır {row_index + 1} çevirilemedi: {e}")
        return text 

for index, row in df_bitcoin.iterrows():
    df_bitcoin.at[index, 'Başlık'] = translate_to_english(row['Başlık'], row_index=index)
    df_bitcoin.at[index, 'İçerik'] = translate_to_english(row['İçerik'], row_index=index)

output_path_translated = 'all_crypto_news_bitcoin_translated.csv'
df_bitcoin.to_csv(output_path_translated, index=False)

print(f"Çeviri tamamlandı. Kaydedilen dosya: {output_path_translated}")


Satır 1 çevirildi.
Satır 1 çevirildi.
Satır 2 çevirildi.
Satır 2 çevirildi.
Satır 3 çevirildi.
Satır 3 çevirildi.
Satır 4 çevirildi.
Satır 4 çevirildi.
Satır 5 çevirildi.
Satır 5 çevirildi.
Satır 6 çevirildi.
Satır 6 çevirildi.
Satır 7 çevirildi.
Satır 7 çevirildi.
Satır 8 çevirildi.
Satır 8 çevirildi.
Satır 9 çevirildi.
Satır 9 çevirildi.
Satır 10 çevirildi.
Satır 10 çevirildi.
Satır 11 çevirildi.
Satır 11 çevirildi.
Satır 12 çevirildi.
Satır 12 çevirildi.
Satır 13 çevirildi.
Satır 13 çevirildi.
Satır 14 çevirildi.
Satır 14 çevirildi.
Satır 15 çevirildi.
Satır 15 çevirildi.
Satır 16 çevirildi.
Satır 16 çevirildi.
Satır 17 çevirildi.
Satır 17 çevirildi.
Satır 18 çevirildi.
Satır 18 çevirildi.
Satır 19 çevirildi.
Satır 19 çevirildi.
Satır 20 çevirildi.
Satır 20 çevirildi.
Satır 21 çevirildi.
Satır 21 çevirildi.
Satır 22 çevirildi.
Satır 22 çevirildi.
Satır 23 çevirildi.
Satır 23 çevirildi.
Satır 24 çevirildi.
Satır 24 çevirildi.
Satır 25 çevirildi.
Satır 25 çevirildi.
Satır 26 çevirildi