In [75]:
import pandas as pd
import numpy as np
import re
from module_folder.classes import WebScraper, SqlManager
from module_folder.key_words import key_words, key_person
import module_folder.functions as mf


# 1. Web Scraping

In [76]:
web = WebScraper('https://www.novinky.cz/')
web.web_reader()
web.article_find()
df = web.articles_to_df()

In [77]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date
0,Konference NASA prezentovala i český podíl na ...,https://www.novinky.cz/clanek/veda-skoly-konfe...,2025-02-26
1,Nejčernější scénář pro Dynamo. Nejlepší střele...,https://www.sport.cz/clanek/hokej-extraliga-ne...,2025-02-26
2,„Rasista. Mysleli jste Trump?“ Apple slíbil ná...,https://www.novinky.cz/clanek/internet-a-pc-so...,2025-02-26
3,Delší doba vykázání násilníka. Horní komorou p...,https://www.novinky.cz/clanek/domaci-senat-sch...,2025-02-26
4,"Dětská bezcitnost, která bere dech. Na sítích ...",https://www.novinky.cz/clanek/krimi-detska-bez...,2025-02-26


# 2. DataFrame transformation

## 2.1 Keywords and Persons

In [78]:
# Keys from Dict to the list
key_words_keys_list = list(key_words.keys())
key_words_keys_list

['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé',
 'Válka_na_Ukrajině']

In [79]:
# List with keywords as new columns in the DF
df[key_words_keys_list] = np.nan

In [80]:
# Person as a new columns in the DF
df['Person'] = np.nan

In [81]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person
0,Konference NASA prezentovala i český podíl na ...,https://www.novinky.cz/clanek/veda-skoly-konfe...,2025-02-26,,,,,,,,,,
1,Nejčernější scénář pro Dynamo. Nejlepší střele...,https://www.sport.cz/clanek/hokej-extraliga-ne...,2025-02-26,,,,,,,,,,
2,„Rasista. Mysleli jste Trump?“ Apple slíbil ná...,https://www.novinky.cz/clanek/internet-a-pc-so...,2025-02-26,,,,,,,,,,
3,Delší doba vykázání násilníka. Horní komorou p...,https://www.novinky.cz/clanek/domaci-senat-sch...,2025-02-26,,,,,,,,,,
4,"Dětská bezcitnost, která bere dech. Na sítích ...",https://www.novinky.cz/clanek/krimi-detska-bez...,2025-02-26,,,,,,,,,,


## 2.2 Data Transformation 

### 2.2.1 Columns Dtypes

In [82]:
df.dtypes

Title                 object
Link                  object
Download_Date         object
Volby                float64
ANO                  float64
Piráti               float64
Spolu                float64
Stačilo              float64
SPD                  float64
STAN                 float64
Motoristé            float64
Válka_na_Ukrajině    float64
Person               float64
dtype: object

In [83]:
#Object Cols
object_cols_list = mf.object_cols(df)
object_cols_list

['Title', 'Link', 'Download_Date']

In [84]:
#Float Cols
float_cols_list = mf.float_cols(df)
float_cols_list

['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé',
 'Válka_na_Ukrajině',
 'Person']

In [85]:
#Int cols
int_cols_list = mf.int_cols(df)
int_cols_list


[]

In [86]:
#Bools cols
bool_cols_list = mf.bool_cols(df)
bool_cols_list

[]

In [87]:
#Datetime cols
datetime_cols_list = mf.datetime_cols(df)
datetime_cols_list

[]

In [88]:
#Change to string
mf.cols_to_string(df,['Title','Link','Person'])

In [89]:
#Change to bool
mf.cols_to_bool(df,['Volby',
 'ANO',
 'Piráti',
 'Spolu',
 'Stačilo',
 'SPD',
 'STAN',
 'Motoristé',
 'Válka_na_Ukrajině'])

In [90]:
#Change to datetime
mf.cols_to_datetime(df,['Download_Date'])

In [91]:
df.dtypes

Title                string[python]
Link                 string[python]
Download_Date        datetime64[ns]
Volby                          bool
ANO                            bool
Piráti                         bool
Spolu                          bool
Stačilo                        bool
SPD                            bool
STAN                           bool
Motoristé                      bool
Válka_na_Ukrajině              bool
Person               string[python]
dtype: object

In [92]:
df.head(5)

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person
0,Konference NASA prezentovala i český podíl na ...,https://www.novinky.cz/clanek/veda-skoly-konfe...,2025-02-26,True,True,True,True,True,True,True,True,True,
1,Nejčernější scénář pro Dynamo. Nejlepší střele...,https://www.sport.cz/clanek/hokej-extraliga-ne...,2025-02-26,True,True,True,True,True,True,True,True,True,
2,„Rasista. Mysleli jste Trump?“ Apple slíbil ná...,https://www.novinky.cz/clanek/internet-a-pc-so...,2025-02-26,True,True,True,True,True,True,True,True,True,
3,Delší doba vykázání násilníka. Horní komorou p...,https://www.novinky.cz/clanek/domaci-senat-sch...,2025-02-26,True,True,True,True,True,True,True,True,True,
4,"Dětská bezcitnost, která bere dech. Na sítích ...",https://www.novinky.cz/clanek/krimi-detska-bez...,2025-02-26,True,True,True,True,True,True,True,True,True,


### 2.2.2 True/False Keywords and Persons



In [93]:
key_words_cols_check = list(df.loc[:,df.dtypes == bool].columns)


In [94]:
test = 'I am Ondrej'
test_2 = test.lower().split()
test_2

['i', 'am', 'ondrej']

In [95]:
# function for keywords check
def check_keyword(title, keywords):
    title_lower = title.lower()

    for word in keywords:
        word_lower = word.lower()
        regex = rf'\b{re.escape(word_lower)}\b'
        if re.search(regex,title_lower):
            return True
    return False


In [96]:
# keyford check function application
for col in df[key_words_cols_check]:
    df[col] = df['Title'].apply(lambda x : check_keyword(x,key_words[col]))

In [97]:
# function for person check
def check_person(title, persons):
    person_list = []
    for person in persons:
        if person in title:
            person_list.append(person)
    if person_list:
        return ", ".join(person_list)
    else:
        return np.nan
    


In [98]:
# fucntion person check application
df['Person'] = df['Title'].apply(lambda x: check_person(x,key_person))

In [99]:
df.loc[(df[key_words_cols_check].any(axis = 1)) | (df.Person.notna()),:]

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person
2,„Rasista. Mysleli jste Trump?“ Apple slíbil ná...,https://www.novinky.cz/clanek/internet-a-pc-so...,2025-02-26,False,False,False,False,False,False,False,False,False,Trump
8,Pavla překvapily otázky školáků. Nejvíc je zaj...,https://www.novinky.cz/clanek/domaci-zpravy-ji...,2025-02-26,False,False,False,False,False,False,False,False,False,Putin
10,"Očima Saši Mitrofanova: Ukrajina, test na lids...",https://www.novinky.cz/clanek/komentare-ocima-...,2025-02-26,False,False,False,False,False,False,False,False,True,
26,"Potvrzeno, Zelenskyj přijede v pátek, ohlásil ...",https://www.novinky.cz/clanek/zahranicni-ameri...,2025-02-26,False,False,False,False,False,False,False,False,False,"Trump, Zelenskyj"
31,KOMENTÁŘ: Trump 2.0 a stín Stalinových čistek ...,https://www.novinky.cz/clanek/komentare-koment...,2025-02-26,False,False,False,False,False,False,False,False,False,Trump


# 3. Load to the SQL

## 3.1 Connect to SQL Server

In [100]:
sql_manager = SqlManager(server='DELL_ONDRA\\SQLEXPRESS',odbc_driver='ODBC Driver 17 for SQL Server', database= 'WebScraping')

In [101]:
engine = sql_manager.connect()

Successfully connected


In [102]:
sql_manager.create_table(table_name= 'WebScraping_history', database='WebScraping',data_frame=df)

Table already exists, please select another method (Append, Overwrite, Truncate)


## 3.3 New DF vs Saved Articles

In [103]:
new_df = df.loc[(df[key_words_cols_check].any(axis = 1)) | (df.Person.notna()),:]

In [104]:
already_saved_articles = sql_manager.execute_query_to_df('DISTINCT(Title) FROM [WebScraping].[dbo].[WebScraping_history] ')

In [105]:
new_df_title_set = set(new_df.Title)

In [106]:
already_saved_article_set = set(already_saved_articles.Title)

In [107]:
final_articles =  list(new_df_title_set - already_saved_article_set)

In [108]:
df_result = df.loc[df.Title.apply(lambda x: x in final_articles),:]
df_result

Unnamed: 0,Title,Link,Download_Date,Volby,ANO,Piráti,Spolu,Stačilo,SPD,STAN,Motoristé,Válka_na_Ukrajině,Person
26,"Potvrzeno, Zelenskyj přijede v pátek, ohlásil ...",https://www.novinky.cz/clanek/zahranicni-ameri...,2025-02-26,False,False,False,False,False,False,False,False,False,"Trump, Zelenskyj"


## 3.3 Insert Data to SQL

In [109]:
if df_result.shape[0] == 0:
    pass
else:
    sql_manager.append_existing_table(table_name = 'WebScraping_history', database='WebScraping', data_frame= df_result)

Data will be inserted in a moment
Data successfully appended


In [110]:
sql_manager.disconnect()

Connection closed
