In [1]:
import pandas as pd
import numpy as np
from module_folder.classes import WebScraper
from module_folder.key_words import key_words, key_person
import module_folder.functions as mf

# 1. Web Scraping

In [2]:
web = WebScraper('https://www.novinky.cz/')
web.web_reader()
web.article_find()
df = web.articles_to_df()

In [3]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date
0,"KVÍZ: Rekordy dřevostaveb – znáte ty nejvyšší,...",https://www.novinky.cz/clanek/bydleni-kviz-rek...,2025-02-23
1,"ON-LINE: Německo volí, čeká se vítězství konze...",https://www.novinky.cz/clanek/volby-nemecko-20...,2025-02-23
2,"Válka neválka, ruský řetězec s levným zbožím v...",https://www.novinky.cz/clanek/ekonomika-valka-...,2025-02-23
3,Situace na Slovensku je vážná. Opozice by měla...,https://www.novinky.cz/clanek/podcasty-polital...,2025-02-23
4,Legendární Nokii 3310 předělal nadšenec pro po...,https://www.novinky.cz/clanek/internet-a-pc-mo...,2025-02-23


# 2. DataFrame transformation

## 2.1 Keywords and Persons

In [4]:
# Keys from Dict to the list
key_words_keys_list = list(key_words.keys())
key_words_keys_list

['Volby', 'ANO', 'Piráti', 'Spolu', 'Stačilo', 'SPD', 'STAN', 'Motoristé']

In [5]:
# List with keywords as new columns in the DF
df[key_words_keys_list] = np.nan

In [6]:
# Person as a new columns in the DF
df['Person'] = np.nan

In [7]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Person
0,"KVÍZ: Rekordy dřevostaveb – znáte ty nejvyšší,...",https://www.novinky.cz/clanek/bydleni-kviz-rek...,2025-02-23,,,,,,,,,
1,"ON-LINE: Německo volí, čeká se vítězství konze...",https://www.novinky.cz/clanek/volby-nemecko-20...,2025-02-23,,,,,,,,,
2,"Válka neválka, ruský řetězec s levným zbožím v...",https://www.novinky.cz/clanek/ekonomika-valka-...,2025-02-23,,,,,,,,,
3,Situace na Slovensku je vážná. Opozice by měla...,https://www.novinky.cz/clanek/podcasty-polital...,2025-02-23,,,,,,,,,
4,Legendární Nokii 3310 předělal nadšenec pro po...,https://www.novinky.cz/clanek/internet-a-pc-mo...,2025-02-23,,,,,,,,,


## 2.2 Data Transformation 

### 2.2.1 Columns Dtypes

In [8]:
df.dtypes

Title             object
Link              object
Download_Date     object
Volby            float64
ANO              float64
Piráti           float64
Spolu            float64
Stačilo          float64
SPD              float64
STAN             float64
Motoristé        float64
Person           float64
dtype: object

In [9]:
#Object Cols
object_cols_list = mf.object_cols(df)
object_cols_list

['Title', 'Link', 'Download_Date']

In [10]:
#Float Cols
float_cols_list = mf.float_cols(df)
float_cols_list

['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé',
 'Person']

In [11]:
#Int cols
int_cols_list = mf.int_cols(df)
int_cols_list


[]

In [12]:
#Bools cols
bool_cols_list = mf.bool_cols(df)
bool_cols_list

[]

In [13]:
#Datetime cols
datetime_cols_list = mf.datetime_cols(df)
datetime_cols_list

[]

In [14]:
#Change to string
mf.cols_to_string(df,['Title','Link','Person'])

In [15]:
#Change to bool
mf.cols_to_bool(df,['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé'])

In [16]:
#Change to datetime
mf.cols_to_datetime(df,['Download_Date'])

In [17]:
df.dtypes

Title            string[python]
Link             string[python]
Download_Date    datetime64[ns]
Volby                   boolean
ANO                     boolean
Piráti                  boolean
Spolu                   boolean
Stačilo                 boolean
SPD                     boolean
STAN                    boolean
Motoristé               boolean
Person           string[python]
dtype: object

In [18]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Person
0,"KVÍZ: Rekordy dřevostaveb – znáte ty nejvyšší,...",https://www.novinky.cz/clanek/bydleni-kviz-rek...,2025-02-23,,,,,,,,,
1,"ON-LINE: Německo volí, čeká se vítězství konze...",https://www.novinky.cz/clanek/volby-nemecko-20...,2025-02-23,,,,,,,,,
2,"Válka neválka, ruský řetězec s levným zbožím v...",https://www.novinky.cz/clanek/ekonomika-valka-...,2025-02-23,,,,,,,,,
3,Situace na Slovensku je vážná. Opozice by měla...,https://www.novinky.cz/clanek/podcasty-polital...,2025-02-23,,,,,,,,,
4,Legendární Nokii 3310 předělal nadšenec pro po...,https://www.novinky.cz/clanek/internet-a-pc-mo...,2025-02-23,,,,,,,,,


### 2.2.2 True/False Keywords and Persons



In [19]:
key_words_cols_check = ['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé']

In [None]:
# function for keywords check
def check_keyword(title, keywords):
    for word in keywords:
        if word in title:
            return True
    return False


In [None]:
# keyford check function application
for col in df[key_words_cols_check]:
    df[col] = df['Title'].apply(lambda x : check_keyword(x,key_words[col]))

In [None]:
# function for person check
def check_person(title, persons):
    person_list = []
    for person in persons:
        if person in title:
            person_list.append(person)
    if person_list:
        return ", ".join(person_list)
    else:
        return np.nan
    


In [None]:
# fucntion person check application
df['Person'] = df['Title'].apply(lambda x: check_person(x,key_person))

In [32]:
df.loc[(df[key_words_cols_check].any(axis = 1)) | (df.Person.notna()),:]

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Person
27,"Rusko jako nebezpečí nevnímám, řekla Konečná",https://www.novinky.cz/clanek/domaci-rusko-jak...,2025-02-23,False,False,False,False,False,False,False,False,Konečná
36,Neadorujeme Trumpa. Konferenci bych po hajlová...,https://www.novinky.cz/clanek/domaci-neadoruje...,2025-02-23,False,False,False,False,False,False,False,False,Havlíček
53,"Volby by vyhrálo ANO, Piráti před Stačilo!",https://www.novinky.cz/clanek/volby-do-poslane...,2025-02-23,True,True,True,False,True,False,False,False,


# 3. Load to the SQL