### Import packages

In [1]:
import pandas as pd
import numpy as np
import warnings
import re 

warnings.filterwarnings('ignore')

### Import pickle file

In [5]:
df_all = pd.read_pickle('C:/Users/molna/Desktop/Szakdolgozat/adatok/all_fake_merged.pkl')
len(df_all)

54867

#### Drop duplicated rows 
(Generated during the web scraping)

In [6]:
df_all = df_all.drop_duplicates()
len(df_all)

13316

### Basic Data Cleanings

#### 1. Remove double qoutes from column names

In [7]:
df_all.columns

Index(['"link"', '"title"', '"date"', '"text"', 'source'], dtype='object')

In [8]:
df_all.columns = df_all.columns.str.replace('"', '')

In [9]:
df_all.columns

Index(['link', 'title', 'date', 'text', 'source'], dtype='object')

In [10]:
df_all.head()

Unnamed: 0,link,title,date,text,source
"""1""","""https://avilagtitkai.com/articles/view/ezt-te...","""<U+200B>Ezt tedd, ha nem jött meg a vakcinaig...","""2021. május 17.""","""Fontos! Szombattól a védettségi kártyával ren...",avilagtitkai.com
"""2""","""https://avilagtitkai.com/articles/view/korona...","""Koronavírus: nem mindenki fertőzőképes, akine...","""2021. április 27.""","""Az orvosok fontos információt tettek közzé. K...",avilagtitkai.com
"""3""","""https://avilagtitkai.com/articles/view/figyel...","""Figyelem: ezekben a városokban emelkedik a ko...","""2020. december 22.""","""Fontos, tudjon róla mindenki! A 51. heti adat...",avilagtitkai.com
"""4""","""https://avilagtitkai.com/articles/view/megint...","""Megint megugrott a beazonosított koronavírus-...","""2021. február 24.""","""Újra 100 felett a halottak száma! 2855 újabb ...",avilagtitkai.com
"""5""","""https://avilagtitkai.com/articles/view/megjot...","""<U+200B>Megjöttek a legfrissebb adatok: az el...","""2020. december 14.""","""Tovább nőtt a fertőzöttek és elhunytak száma ...",avilagtitkai.com


#### 2. Remove double qoutes from some column values

In [11]:
df_all['link'] = df_all['link'].apply(lambda x: re.sub(r'^"|"$', '', str(x), flags=re.DOTALL))

In [12]:
df_all['title'] = df_all['title'].apply(lambda x: re.sub(r'^"|"$', '', str(x), flags=re.DOTALL))

In [13]:
df_all['date'] = df_all['date'].apply(lambda x: re.sub(r'^"|"$', '', str(x), flags=re.DOTALL))

In [14]:
df_all['text'] = df_all['text'].apply(lambda x: re.sub(r'^"|"$', '', str(x), flags=re.DOTALL))

In [15]:
df_all.head()

Unnamed: 0,link,title,date,text,source
"""1""",https://avilagtitkai.com/articles/view/ezt-ted...,"<U+200B>Ezt tedd, ha nem jött meg a vakcinaiga...",2021. május 17.,Fontos! Szombattól a védettségi kártyával rend...,avilagtitkai.com
"""2""",https://avilagtitkai.com/articles/view/koronav...,"Koronavírus: nem mindenki fertőzőképes, akinek...",2021. április 27.,Az orvosok fontos információt tettek közzé. Ki...,avilagtitkai.com
"""3""",https://avilagtitkai.com/articles/view/figyele...,Figyelem: ezekben a városokban emelkedik a kor...,2020. december 22.,"Fontos, tudjon róla mindenki! A 51. heti adato...",avilagtitkai.com
"""4""",https://avilagtitkai.com/articles/view/megint-...,Megint megugrott a beazonosított koronavírus-f...,2021. február 24.,Újra 100 felett a halottak száma! 2855 újabb m...,avilagtitkai.com
"""5""",https://avilagtitkai.com/articles/view/megjott...,<U+200B>Megjöttek a legfrissebb adatok: az elm...,2020. december 14.,Tovább nőtt a fertőzöttek és elhunytak száma M...,avilagtitkai.com


#### 3. Remove unwanted elements from text and title

In [16]:
def title_cleaner(df: pd.DataFrame) -> pd.DataFrame:
    df['title'] = df['title'].str.replace('<U\+200B>', '')
    
    return df

In [17]:
def text_cleaner(df: pd.DataFrame) -> pd.DataFrame:
    df['text'] = df['text'].str.replace("\xa0", ' ')
    df['text']= df['text'].str.replace("OSZD MEG másokkal is!", '')
    
    df['text'] = df['text'].str.replace('<U\+FE0F>', '')
    
    
    return df
    

In [18]:
df_all = title_cleaner(df_all)

In [19]:
df_all = text_cleaner(df_all)

In [20]:
df_all.head()

Unnamed: 0,link,title,date,text,source
"""1""",https://avilagtitkai.com/articles/view/ezt-ted...,"Ezt tedd, ha nem jött meg a vakcinaigazolvány",2021. május 17.,Fontos! Szombattól a védettségi kártyával rend...,avilagtitkai.com
"""2""",https://avilagtitkai.com/articles/view/koronav...,"Koronavírus: nem mindenki fertőzőképes, akinek...",2021. április 27.,Az orvosok fontos információt tettek közzé. Ki...,avilagtitkai.com
"""3""",https://avilagtitkai.com/articles/view/figyele...,Figyelem: ezekben a városokban emelkedik a kor...,2020. december 22.,"Fontos, tudjon róla mindenki! A 51. heti adato...",avilagtitkai.com
"""4""",https://avilagtitkai.com/articles/view/megint-...,Megint megugrott a beazonosított koronavírus-f...,2021. február 24.,Újra 100 felett a halottak száma! 2855 újabb m...,avilagtitkai.com
"""5""",https://avilagtitkai.com/articles/view/megjott...,Megjöttek a legfrissebb adatok: az elmúlt idős...,2020. december 14.,Tovább nőtt a fertőzöttek és elhunytak száma M...,avilagtitkai.com


### Export cleaned dataframe

In [21]:
df_all.to_pickle('C:/Users/molna/Desktop/Szakdolgozat/adatok/all_fake_merged_cleaned.pkl')

In [2]:
df_all_fake = pd.read_pickle('C:/Users/molna/Desktop/Szakdolgozat/adatok/all_fake_merged_cleaned.pkl')

In [3]:
df_all_fake.head()

Unnamed: 0,link,title,date,text,source
"""1""",https://avilagtitkai.com/articles/view/ezt-ted...,"Ezt tedd, ha nem jött meg a vakcinaigazolvány",2021. május 17.,Fontos! Szombattól a védettségi kártyával rend...,avilagtitkai.com
"""2""",https://avilagtitkai.com/articles/view/koronav...,"Koronavírus: nem mindenki fertőzőképes, akinek...",2021. április 27.,Az orvosok fontos információt tettek közzé. Ki...,avilagtitkai.com
"""3""",https://avilagtitkai.com/articles/view/figyele...,Figyelem: ezekben a városokban emelkedik a kor...,2020. december 22.,"Fontos, tudjon róla mindenki! A 51. heti adato...",avilagtitkai.com
"""4""",https://avilagtitkai.com/articles/view/megint-...,Megint megugrott a beazonosított koronavírus-f...,2021. február 24.,Újra 100 felett a halottak száma! 2855 újabb m...,avilagtitkai.com
"""5""",https://avilagtitkai.com/articles/view/megjott...,Megjöttek a legfrissebb adatok: az elmúlt idős...,2020. december 14.,Tovább nőtt a fertőzöttek és elhunytak száma M...,avilagtitkai.com


In [5]:
df_all_fake = df_all_fake[["title", "date", "text", "source"]]

In [6]:
df_all_fake["dezinf"] = 1

In [7]:
df_all_fake.head()

Unnamed: 0,title,date,text,source,dezinf
"""1""","Ezt tedd, ha nem jött meg a vakcinaigazolvány",2021. május 17.,Fontos! Szombattól a védettségi kártyával rend...,avilagtitkai.com,1
"""2""","Koronavírus: nem mindenki fertőzőképes, akinek...",2021. április 27.,Az orvosok fontos információt tettek közzé. Ki...,avilagtitkai.com,1
"""3""",Figyelem: ezekben a városokban emelkedik a kor...,2020. december 22.,"Fontos, tudjon róla mindenki! A 51. heti adato...",avilagtitkai.com,1
"""4""",Megint megugrott a beazonosított koronavírus-f...,2021. február 24.,Újra 100 felett a halottak száma! 2855 újabb m...,avilagtitkai.com,1
"""5""",Megjöttek a legfrissebb adatok: az elmúlt idős...,2020. december 14.,Tovább nőtt a fertőzöttek és elhunytak száma M...,avilagtitkai.com,1


In [10]:
df_all_fake.to_pickle('C:/Users/molna/Desktop/Szakdolgozat/adatok/all_fake_merged_cleaned.pkl')