# NEWS Catcher - Clean articles

### Import Packages and Raw_data

In [17]:
import pandas as pd

raw_file_name = "NC_DE_70000_raw"
cleaned_file_name = "NC_articles_clean" 

df_name = "NC_articles" 

init_df = pd.read_csv(f"../../data/raw/{raw_file_name}.csv")
init_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   title                     70000 non-null  object 
 1   author                    55957 non-null  object 
 2   published_date            70000 non-null  object 
 3   published_date_precision  70000 non-null  object 
 4   link                      70000 non-null  object 
 5   clean_url                 70000 non-null  object 
 6   excerpt                   69674 non-null  object 
 7   summary                   68979 non-null  object 
 8   rights                    69637 non-null  object 
 9   rank                      70000 non-null  int64  
 10  topic                     70000 non-null  object 
 11  country                   70000 non-null  object 
 12  language                  66840 non-null  object 
 13  authors                   70000 non-null  object 
 14  media 

### Logging

In [18]:
from functools import wraps
import datetime as dt

def log_step(func):
    @wraps(func)
    def wrapper(*args, **kwargs):
        tic = dt.datetime.now()
        result = func(*args, **kwargs)
        time_taken = str(dt.datetime.now() - tic)
        print(f"{func.__name__}:\n shape={result.shape} took {time_taken}s\n")
        return result

    return wrapper

## Pipeline - Functions

### Start Pipeline

In [19]:
@log_step
def start_pipeline(df):
    return df.copy()

### Rename Columns

In [20]:
init_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   title                     70000 non-null  object 
 1   author                    55957 non-null  object 
 2   published_date            70000 non-null  object 
 3   published_date_precision  70000 non-null  object 
 4   link                      70000 non-null  object 
 5   clean_url                 70000 non-null  object 
 6   excerpt                   69674 non-null  object 
 7   summary                   68979 non-null  object 
 8   rights                    69637 non-null  object 
 9   rank                      70000 non-null  int64  
 10  topic                     70000 non-null  object 
 11  country                   70000 non-null  object 
 12  language                  66840 non-null  object 
 13  authors                   70000 non-null  object 
 14  media 

In [21]:
def rename_columns(df):
    return (df
        .rename(columns={
            }
        )
    )

### Remove duplicates

In [22]:
@log_step
def remove_duplicates(df):
        return df.drop_duplicates()

### Missing Values

In [23]:
@log_step
def missing_values(df):
    
    return df

### Adjust data types

In [24]:
@log_step
def adjust_data_types(df):
   return df

### Drop Columns

In [25]:
@log_step
def drop_columns(df, cols):
    
    return df.drop(columns=cols)


### Add columns

In [26]:
@log_step
def add_columns(df):
    
    return df

### CSV

In [27]:
@log_step
def create_csv(df):
    df.to_csv(f"../../data/clean/{cleaned_file_name}.csv", index = False, header=True)
    return df

## Run Cleaning

In [28]:
articles = (
init_df
    .pipe(start_pipeline)       # copy df
    .pipe(rename_columns)       # naming conventions
    .pipe(remove_duplicates)    # duplicated rows
    .pipe(add_columns)          
    .pipe(drop_columns, cols=[])
    .pipe(adjust_data_types)    # webPublicationDate DATETIME
    .pipe(create_csv)           # save clean data as .csv 
)


start_pipeline:
 shape=(70000, 19) took 0:00:00.010535s

remove_duplicates:
 shape=(66115, 19) took 0:00:00.272990s

add_columns:
 shape=(66115, 19) took 0:00:00.000007s

drop_columns:
 shape=(66115, 19) took 0:00:00.010121s

adjust_data_types:
 shape=(66115, 19) took 0:00:00.000008s

create_csv:
 shape=(66115, 19) took 0:00:02.928209s



In [29]:
articles.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 66115 entries, 0 to 69999
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   title                     66115 non-null  object 
 1   author                    52660 non-null  object 
 2   published_date            66115 non-null  object 
 3   published_date_precision  66115 non-null  object 
 4   link                      66115 non-null  object 
 5   clean_url                 66115 non-null  object 
 6   excerpt                   65799 non-null  object 
 7   summary                   65136 non-null  object 
 8   rights                    65761 non-null  object 
 9   rank                      66115 non-null  int64  
 10  topic                     66115 non-null  object 
 11  country                   66115 non-null  object 
 12  language                  63106 non-null  object 
 13  authors                   66115 non-null  object 
 14  media 

In [30]:
articles.sample(20)

Unnamed: 0,title,author,published_date,published_date_precision,link,clean_url,excerpt,summary,rights,rank,topic,country,language,authors,media,is_opinion,twitter_account,_score,_id
36500,Klarer Dreier statt schwere Beine: Die Stuttga...,,2022-05-26 08:40:38,full,https://www.kicker.de/klarer-dreier-statt-schw...,kicker.de,Bei zwei Nachholspielen am Mittwoch konnten di...,Bei zwei Nachholspielen am Mittwoch konnten di...,2022 Olympia Verlag GmbH,9200,news,DE,de,[],https://derivates.kicker.de/image/upload/c_cro...,False,,1.861743,b566b06d379186ea63e2235b5ef597c8
23341,Nabu entdeckt streng geschützte Fledermausarte...,Frank Bachner,2022-05-25 17:00:00,timezone unknown,https://www.tagesspiegel.de/berlin/tiere-bezog...,tagesspiegel.de,Ungewöhnliche Entdeckung in Pankow: Streng ges...,Der Naturschutzbund Berlin (Nabu) hat eine ung...,tagesspiegel.de,2172,news,DE,de,['Frank Bachner'],https://www.tagesspiegel.de/images/wasserflede...,False,@tagesspiegel,1.963518,ef12c96b18d6ab577d48d8e65f377a4b
31475,Galopper Best Ligthning gewinnt Badener Meile ...,Frankfurter Allgemeine Zeitung Gmbh,2022-05-26 15:33:00,full,https://www.faz.net/agenturmeldungen/dpa/galop...,faz.net,Best Lightning unter Jockey Martin Seidl hat z...,Best Lightning unter Jockey Martin Seidl hat z...,faz.net,1343,news,DE,de,"['Frankfurter Allgemeine Zeitung Gmbh', 'Fried...",https://www.faz.net/img/faznet_logo_facebook_s...,False,@faznet,1.977138,1c89f20a63ad17c8b9922d51759c6a4d
11588,München: Was Kinder als Heimat empfinden,Kathrin Aldenhoff,2022-05-24 16:54:49,full,https://www.sueddeutsche.de/muenchen/interview...,sueddeutsche.de,Stephanie Heyl vom Bayerischen Landesverein fü...,"24. Mai 2022, 18:54 UhrLesezeit: 2 minStephani...",sueddeutsche.de,1200,news,DE,de,['Kathrin Aldenhoff'],https://www.sueddeutsche.de/image/sz.1.5591189...,False,@SZ,1.9795,3ec7e8cf8ba12652450716bc0ddd2c60
35955,Anstieg der Corona-Zahlen in Südafrika,,2022-05-26 12:47:00,full,https://www.finanznachrichten.de/nachrichten-2...,finanznachrichten.de,ADDIS ABEBA (dpa-AFX) - Überproportionaler Ans...,ADDIS ABEBA (dpa-AFX) - Überproportionaler Ans...,finanznachrichten.de,8207,news,DE,de,[],https://fns1.de/g/fb.png,False,,1.875,816c685772de7568ff38568bab25400b
68727,Meßkirch: Gedenkstein für getöteten KZ-Häftling,Julia Lutz,2022-05-29 16:30:00,full,https://www.suedkurier.de/region/linzgau/messk...,suedkurier.de,Vor 77 Jahren wurde Ukrainer erschlagen. Gymna...,Menü,suedkurier.de,18112,news,DE,,"['Julia Lutz', 'Südkurier Medienhaus']",https://www.suedkurier.de/storage/image/4/4/9/...,False,@Suedkurier_News,1.760263,24d823fecbd0d291f7c1e3e682245137
31551,Nationalmannschaft: Neuer sieht Überlastungsge...,,2022-05-26 03:46:30,full,https://www.t-online.de/sport/fussball/id_9225...,t-online.de,Marbella (dpa) - Turnier-Veteran Manuel Neuer ...,Aktualisiert am 26.05.2022 - 07:23 UhrLesedaue...,t-online.de,1344,sport,DE,de,[],https://images.t-online.de/2022/05/92257618v2/...,False,@tonline,1.977061,e1175b190014c586ecdca6954f3d300b
47905,Neues Lokal in Köln: Krua-Thai-Gründerin biete...,\nMaria Gambino\n,2022-05-27 07:58:26,full,https://www.ksta.de/freizeit/restaurants/neues...,ksta.de,Die Betreiberin Monsa Oldenburg kochte jahrela...,Köchin Monsa Oldenburg hält für Kenner der tha...,ksta.de,7771,news,DE,de,"['\n', 'M', 'a', 'r', 'i', 'a', ' ', 'G', 'a',...",https://www.ksta.de/image/39702416/2x1/940/470...,False,@KSTA,1.880524,8b39557ccf38304c5da15e632a088012
15548,Fast 1.000 Lehrkräfte fehlen in Berlin: Kampf ...,Anna Klöpper,2022-05-24 12:00:00,full,https://taz.de/Fast-1000-Lehrkraefte-fehlen-in...,taz.de,"Im kommenden Schuljahr fehlen 920 Lehrkräfte, ...","Im kommenden Schuljahr fehlen 920 Lehrkräfte, ...",TAZ Verlags- und Vertriebs GmbH,3484,news,DE,de,['Anna Klöpper'],https://taz.de/picture/5580127/948/106003129-1...,False,@tazgezwitscher,1.942655,592cdf86bb80984cb1d70328a6b8d69c
61875,Bond-Fan Boris Rhein: Er soll neuer Ministerpr...,Stefan Schlagenhaufer,2022-05-29 15:05:50,full,https://www.bild.de/politik/inland/politik-inl...,bild.de,Hessen bekommt einen neuen Ministerpräsidenten...,Hessen bekommt einen neuen Ministerpräsidenten...,bild.de,1505,news,DE,de,"['Stefan Schlagenhaufer', 'Sönke Schulenburg U...",https://bilder.bild.de/fotos/bond-fan-boris-rh...,False,@Bild,1.974449,b2f06686097386aed4bdbb333e5f2fcf


In [31]:
articles.webPublicationDate.describe()

AttributeError: 'DataFrame' object has no attribute 'webPublicationDate'