In [2]:
import pandas as pd
import re

In [16]:
columnist_name = 'hilalkaplan'

# Load the CSV file
df = pd.read_csv(f'../columnist_data/full_articles/{columnist_name}_full_articles.csv')

# Function to clean article content and handle word splits
def clean_article_content(text):
    # 1. Remove the quotation marks at the very beginning and at the end
    # text = text.strip('"')
    
    # 2. Handle cases where sentence-ending punctuation is on a new line
    # Move punctuation on its own line to the end of the previous sentence
    text = re.sub(r'\n([.!?])', r'\1', text)  # Moves punctuation to the end of the previous line
    
    # 3. Handle word splits (e.g., Erdoğan'\nın or Erdoğan\n'ın)
    text = re.sub(r'(\S+)\n([\'‘’])(\S+)', r'\1\2\3', text)  # Handles Erdoğan\n'ın
    text = re.sub(r'(\S+)([\'‘’])\n(\S+)', r'\1\2\3', text)  # Handles Erdoğan'\nın
    
    # 4. Preserve newlines after sentence-ending punctuation
    # Ensure that periods, question marks, and exclamations are followed by a newline
    text = re.sub(r'([.!?])\s+', r'\1\n', text)  # Keep newlines after sentence-ending punctuation

    # 5. Remove unnecessary newlines that break sentences but keep newlines after sentence-ending punctuation
    # First, temporarily mark proper newlines (after sentence-ending punctuation)
    text = re.sub(r'([.!?])\n', r'\1<SENT_END>', text)  # Temporarily replace newline after punctuation with a marker
    
    # Now, remove all other newlines
    text = re.sub(r'\n+', ' ', text)
    
    # Restore the newlines after punctuation (replace the marker with a newline)
    text = text.replace('<SENT_END>', '\n')
    
    # 6. Fix extra quotation marks in quoted sentences (""quotation"") -> "quotation"
    # text = re.sub(r'"\s*"\s*(.*?)\s*"\s*"', r'"\1"', text)  # Handles extra quotes around the quoted text
    
    # Ensure the content is clean and trimmed
    text = text.strip()
    
    return text

# Clean each article in the DataFrame
df['Article Content'] = df['Article Content'].apply(clean_article_content)

# Save the cleaned data to a new CSV or JSONL file
df.to_csv(f'../columnist_data/cleaned_articles/{columnist_name}_cleaned_articles.csv', index=False)

In [15]:
df["Article Content"][0]

'Son haftalarda şahit olduğumuz üzücü olayların ruhumuzu kararttığı, bizi hüzne ve endişeye sevk ettiği ortada.\nMaruz kaldığımız haberlerdeki\nşiddet\nve istismarın\nbüyüklüğü\nkarşısında ebeveynlerin kendilerinden önce çocukları için korktuğunu söylemek için kâhin olmaya gerek yok.\nBu olaylara bir de\nDiscord\nadlı uygulamada yaşanan rezillikler eklenince yapılan operasyonlarla paralel olarak siteye erişim engeli geldi.\nDiscord\ntemel olarak oyun oynayanlar için planlanmış bir anlık mesajlaşma ve dijital dağıtım platformu.\nYapılan son araştırmalara göre tüm dünyada internet üzerinden siyasi gündemi aktaran platformlar arasında ikinci sırada.\nTürkiye\n\'de ebeveynlerin çoğunlukla,\n"Bizim çocuk oynadığı bilgisayar\noyunu hakkında bilgi ediniyor.\nBiraz da içine kapanık olduğu için\norada yaşıtları ile sohbet ediyor"\ndüşüncesiyle olumsuz görüşlere sahip olmadığı bir platformdu.\nEn azından son rezillikler tamamen ortaya çıkmadan önce.\nAslında daha önce Discord benzeri oluşumların