In [36]:
import pandas as pd
import numpy as np
import re
from module_folder.classes import WebScraper, SqlManager
from module_folder.key_words import key_words, key_person
import module_folder.functions as mf


# 1. Web Scraping

In [37]:
web = WebScraper('https://www.novinky.cz/')
web.web_reader()
web.article_find()
df = web.articles_to_df()

In [38]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date
0,Pes v rodině. Co je potřeba zvážit před jeho p...,https://www.novinky.cz/clanek/lifestyle-pes-v-...,2025-03-13
1,"Ti, kteří měli přijít, nepřišli. Fialu naštval...",https://www.novinky.cz/clanek/volby-do-poslane...,2025-03-13
2,"Trump stopnul peníze na ochranu přírody, v ohr...",https://www.novinky.cz/clanek/veda-skoly-trump...,2025-03-13
3,HOKEJ ONLINE: Videomomenty. Na jihu se prodluž...,https://www.sport.cz/clanek/hokej-extraliga-vi...,2025-03-13
4,Trumpův bývalý duchovní poradce byl obžalován ...,https://www.novinky.cz/clanek/zahranicni-ameri...,2025-03-13


# 2. DataFrame transformation

## 2.1 Keywords and Persons

In [39]:
# Keys from Dict to the list
key_words_keys_list = list(key_words.keys())
key_words_keys_list

['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé',
 'Válka_na_Ukrajině']

In [40]:
# List with keywords as new columns in the DF
df[key_words_keys_list] = np.nan

In [41]:
# Person as a new columns in the DF
df['Person'] = np.nan

In [42]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person
0,Pes v rodině. Co je potřeba zvážit před jeho p...,https://www.novinky.cz/clanek/lifestyle-pes-v-...,2025-03-13,,,,,,,,,,
1,"Ti, kteří měli přijít, nepřišli. Fialu naštval...",https://www.novinky.cz/clanek/volby-do-poslane...,2025-03-13,,,,,,,,,,
2,"Trump stopnul peníze na ochranu přírody, v ohr...",https://www.novinky.cz/clanek/veda-skoly-trump...,2025-03-13,,,,,,,,,,
3,HOKEJ ONLINE: Videomomenty. Na jihu se prodluž...,https://www.sport.cz/clanek/hokej-extraliga-vi...,2025-03-13,,,,,,,,,,
4,Trumpův bývalý duchovní poradce byl obžalován ...,https://www.novinky.cz/clanek/zahranicni-ameri...,2025-03-13,,,,,,,,,,


## 2.2 Data Transformation 

### 2.2.1 Columns Dtypes

In [43]:
df.dtypes

Title                 object
Link                  object
Download_Date         object
Volby                float64
ANO                  float64
Piráti               float64
Spolu                float64
Stačilo              float64
SPD                  float64
STAN                 float64
Motoristé            float64
Válka_na_Ukrajině    float64
Person               float64
dtype: object

In [44]:
#Object Cols
object_cols_list = mf.object_cols(df)
object_cols_list

['Title', 'Link', 'Download_Date']

In [45]:
#Float Cols
float_cols_list = mf.float_cols(df)
float_cols_list

['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé',
 'Válka_na_Ukrajině',
 'Person']

In [46]:
#Int cols
int_cols_list = mf.int_cols(df)
int_cols_list


[]

In [47]:
#Bools cols
bool_cols_list = mf.bool_cols(df)
bool_cols_list

[]

In [48]:
#Datetime cols
datetime_cols_list = mf.datetime_cols(df)
datetime_cols_list

[]

In [49]:
#Change to string
mf.cols_to_string(df,['Title','Link','Person'])

In [50]:
#Change to bool
mf.cols_to_bool(df,['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé',
 'Válka_na_Ukrajině'])

In [51]:
#Change to datetime
mf.cols_to_datetime(df,['Download_Date'])

In [52]:
df.dtypes

Title                string[python]
Link                 string[python]
Download_Date        datetime64[ns]
Volby                          bool
ANO                            bool
Piráti                         bool
Spolu                          bool
Stačilo                        bool
SPD                            bool
STAN                           bool
Motoristé                      bool
Válka_na_Ukrajině              bool
Person               string[python]
dtype: object

In [53]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person
0,Pes v rodině. Co je potřeba zvážit před jeho p...,https://www.novinky.cz/clanek/lifestyle-pes-v-...,2025-03-13,True,True,True,True,True,True,True,True,True,
1,"Ti, kteří měli přijít, nepřišli. Fialu naštval...",https://www.novinky.cz/clanek/volby-do-poslane...,2025-03-13,True,True,True,True,True,True,True,True,True,
2,"Trump stopnul peníze na ochranu přírody, v ohr...",https://www.novinky.cz/clanek/veda-skoly-trump...,2025-03-13,True,True,True,True,True,True,True,True,True,
3,HOKEJ ONLINE: Videomomenty. Na jihu se prodluž...,https://www.sport.cz/clanek/hokej-extraliga-vi...,2025-03-13,True,True,True,True,True,True,True,True,True,
4,Trumpův bývalý duchovní poradce byl obžalován ...,https://www.novinky.cz/clanek/zahranicni-ameri...,2025-03-13,True,True,True,True,True,True,True,True,True,


### 2.2.2 True/False Keywords and Persons



In [54]:
key_words_cols_check = list(df.loc[:,df.dtypes == bool].columns)


In [55]:
# function for keywords check
def check_keyword(title, keywords):
    title_lower = title.lower()

    for word in keywords:
        word_lower = word.lower()
        regex = rf'\b{re.escape(word_lower)}\b'
        if re.search(regex,title_lower):
            return True
    return False


In [56]:
# keyford check function application
for col in df[key_words_cols_check]:
    df[col] = df['Title'].apply(lambda x : check_keyword(x,key_words[col]))

In [57]:
# function for person check
def check_person(title, persons):
    person_list = []
    for person in persons:
        if person in title:
            person_list.append(person)
    if person_list:
        return ", ".join(person_list)
    else:
        return np.nan
    


In [58]:
# fucntion person check application
df['Person'] = df['Title'].apply(lambda x: check_person(x,key_person))

In [59]:
df.loc[(df[key_words_cols_check].any(axis = 1)) | (df.Person.notna()),:]

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person
2,"Trump stopnul peníze na ochranu přírody, v ohr...",https://www.novinky.cz/clanek/veda-skoly-trump...,2025-03-13,False,False,False,False,False,False,False,False,False,Trump
4,Trumpův bývalý duchovní poradce byl obžalován ...,https://www.novinky.cz/clanek/zahranicni-ameri...,2025-03-13,False,False,False,False,False,False,False,False,False,Trump
6,Takže těch 30 dní bude využito jak? Putin klad...,https://www.novinky.cz/clanek/valka-na-ukrajin...,2025-03-13,False,False,False,False,False,False,False,False,False,Putin
34,V budově pražského úřadu našli mrtvého radního...,https://www.novinky.cz/clanek/krimi-v-budove-p...,2025-03-13,False,False,False,True,False,False,False,False,False,
43,"Slibné, ale nekompletní. Trump okomentoval Put...",https://www.novinky.cz/clanek/valka-na-ukrajin...,2025-03-13,False,False,False,False,False,False,False,False,False,"Putin, Trump"
44,"Trump se pochlubil, že v USA zlevnil vejce. Ne...",https://www.novinky.cz/clanek/ekonomika-trump-...,2025-03-13,False,False,False,False,False,False,False,False,False,Trump
48,Babiš pokračuje v korespondenci s Fialou,https://www.novinky.cz/clanek/domaci-babis-pok...,2025-03-13,False,False,False,False,False,False,False,False,False,Babiš
49,"Piráti bojují o přežití: Hřib v záchodě, pojíd...",https://www.novinky.cz/clanek/volby-do-poslane...,2025-03-13,False,False,False,False,False,False,False,False,False,Hřib
54,"Myslím, že k anexi Grónska dojde, řekl Trump a...",https://www.novinky.cz/clanek/zahranicni-ameri...,2025-03-13,False,False,False,False,False,False,False,False,False,Trump


# 3. Load to the SQL

## 3.1 Connect to SQL Server

In [60]:
sql_manager = SqlManager(server='DELL_ONDRA\\SQLEXPRESS',odbc_driver='ODBC Driver 17 for SQL Server', database= 'WebScraping')

In [61]:
engine = sql_manager.connect()

Successfully connected


In [62]:
sql_manager.create_table(table_name= 'WebScraping_history', database='WebScraping',data_frame=df)

Table already exists, please select another method (Append, Overwrite, Truncate)


## 3.3 New DF vs Saved Articles

In [63]:
new_df = df.loc[(df[key_words_cols_check].any(axis = 1)) | (df.Person.notna()),:]

In [64]:
already_saved_articles = sql_manager.execute_query_to_df('DISTINCT(Title) FROM [WebScraping].[dbo].[WebScraping_history] ')

In [65]:
new_df_title_set = set(new_df.Title)

In [66]:
already_saved_article_set = set(already_saved_articles.Title)

In [67]:
final_articles =  list(new_df_title_set - already_saved_article_set)

In [68]:
df_result = df.loc[df.Title.apply(lambda x: x in final_articles),:]
df_result

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person


## 3.3 Insert Data to SQL

In [69]:
if df_result.shape[0] == 0:
    pass
else:
    sql_manager.append_existing_table(table_name = 'WebScraping_history', database='WebScraping', data_frame= df_result)

In [70]:
sql_manager.disconnect()

Connection closed
