# Machine Learning Pipeline for Topic Modelling (without split in train and test data)

The dataset that is provided here was scraped from different rss-feeds in between 06-2022 and 09-2023 as base for a Data Science and Machine Learning project. The project focusses on performing exploratory data analysis, gaining insights from the data, performing topic modelling and learning basic techniques.

The dataset is stored in csv-textfiles as well as in a PostgreSQL-database. 
It consists of the following columns:
- id:
- date:
- title:
- description:
- author:
- category:
- copyright:
- url:
- text:
- source:


This pipeline is designed for loading the data from a postgresql database, performing feature engineering and building a ML model for clustering the news into different topics (unsupervised learning) and compare them with the labeled categories.

## Imports

In [1]:
# data manipulation and plotting
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# loading data from postgresql database 
import sqlalchemy as sql

from datetime import datetime

# saving the pipeline
import joblib

# from scikit-learn
from sklearn.pipeline import Pipeline

# from feature-engine
from feature_engine.imputation import CategoricalImputer, AddMissingIndicator, DropMissingData
from feature_engine.encoding import RareLabelEncoder
from feature_engine.selection import DropFeatures

# from preprocessors
from preprocessors import preprocessors as pp

## Load the data from database

The entries of the dataset are recorded up from June 2022. 
The modell will be trained and tested with data from 01.06.2022 to 30.09.2023. Data up from 01.10.2023 will be treated as new data and just used for prediction.

In [2]:
# connect to db
engine = sql.create_engine('postgresql+psycopg2://news:news@localhost:5432/news')
con = engine.connect()

start_date = datetime(2022, 6, 1, 0, 0, 0)
end_date = datetime(2023, 9, 30, 23, 59, 59)

with con:
    
    # query data for model training and testing
    query = sql.text("""
        SELECT *
        FROM headlines
        WHERE (date >= :start_date
        AND date <= :end_date)
        ORDER BY date ASC
        """)
    result = con.execute(query, start_date=start_date, end_date=end_date)
    train = pd.DataFrame(result.fetchall(), columns=result.keys())

    # query data for prediction
    query = sql.text("""
        SELECT *
        FROM headlines
        WHERE (date > :end_date)
        ORDER BY date ASC
        """)
    result = con.execute(query, end_date=end_date)
    pred = pd.DataFrame(result.fetchall(), columns=result.keys())


In [3]:
train.head()

Unnamed: 0,id,date,title,description,author,category,copyright,url,text,source
0,71650,2022-06-01 00:13:42,Preise: Grüne halten Senkung der Spritsteuer f...,Heute tritt die Steuersenkung auf Kraftstoffe ...,,"Steuersenkung, Bundestag, Katharina Dröge, Spr...",,https://www.stern.de/politik/deutschland/preis...,,stern
1,71649,2022-06-01 01:55:03,Biden warnt Putin: USA liefern moderne Raketen...,Die USA rüsten die Ukraine mit fortschrittlich...,,"Ukraine, USA, Joe Biden, Russland, Raketensyst...",,https://www.stern.de/politik/ausland/biden-war...,,stern
2,71648,2022-06-01 02:04:08,Soziale Medien: FDP-Politiker Kuhle: Internet-...,Eine «ZDF Magazin Royale»-Recherche beschäftig...,,"Konstantin Kuhle, FDP, Straftat, Berlin, ZDF, ...",,https://www.stern.de/politik/deutschland/sozia...,,stern
3,71675,2022-06-01 02:26:58,Liveblog: ++ Zwei von drei ukrainischen Kinder...,Rund zwei von drei Mädchen und Jungen in der U...,,,,https://www.tagesschau.de/newsticker/liveblog-...,,Tagesschau
4,71647,2022-06-01 02:31:43,Finanzen: Dänemark stimmt über EU-Verteidigung...,Vorbehalt verteidigen oder Verteidigung ohne V...,,"Dänemark, EU, Volksabstimmung, Finanzen, Ukrai...",,https://www.stern.de/politik/ausland/finanzen-...,,stern


In [4]:
print(train.shape)

(75461, 10)


In [5]:
pred.head()

Unnamed: 0,id,date,title,description,author,category,copyright,url,text,source
0,85639,2023-10-01 09:03:00,Frauen für den Frieden,Jolina und Louisa setzen sich in Nordirland fü...,,37 Grad Leben,,https://www.zdf.de/dokumentation/37-grad-leben...,,ZDF heute
1,85434,2023-10-01 09:18:18,PKK hatte sich bekannt - Türkei greift nach An...,Die türkische Hauptstadt Ankara ist am Sonntag...,,Ausland,,https://www.focus.de/politik/ausland/tuerkisch...,,Focus
2,85435,2023-10-01 11:25:35,Gastbeitrag von Gabor Steingart - Unbequeme Pu...,Für 2023 erwartet Russland ein Wirtschaftswach...,,Ausland,,https://www.focus.de/politik/ausland/gastbeitr...,,Focus
3,85601,2023-10-01 12:06:00,Was ist dran an Söders Berlin-Bashing?,"""Wir sind solidarisch, aber nicht naiv"", sagt ...",,Politik,,https://www.zdf.de/nachrichten/politik/laender...,,ZDF heute
4,85651,2023-10-01 14:11:00,Trübe Wirtschaftslage - Lotto-Boom in China,Chinas Wirtschaft kämpft mit einem geringeren ...,,Hohe Jugendarbeitslosigkeit,,https://www.zdf.de/nachrichten/wirtschaft/chin...,,ZDF heute


In [6]:
print(pred.shape)

(706, 10)


## Save raw data for train and pred to csv

In [7]:
train.to_csv('../data/00_train_no_split_raw.csv')
pred.to_csv('../data/00_pred_raw.csv')

## Configuration

In [8]:
# variables with duplicates
VARS_WITH_DUPLICATES = ['title', 'description']

# features to drop
DROP_FEATURES = ['id', 'copyright', 'author', 'url']

# variables with NA in train set that will be filled with 'Missing' value
VARS_WITH_NA_MISSING = ['source', 'category']

# variables with frequent values in train set
VARS_WITH_FREQUENT = ['category']

# variables to be combined 
VARS_TO_COMBINE = ('title_description_text', ['title', 'description', 'text'])

# features that are used for topic modelling (for each feature a modell will be trained)
FEATURES = ['title', 'title_description_text']

## Feature Engineering on train_test

### Drop duplicates from train_test

In [9]:
print(len(train.index))

75461


In [10]:
# Count the number of duplicate rows based on the specified subset of columns
duplicate_count = train.duplicated(subset=VARS_WITH_DUPLICATES).sum()
print("Number of duplicate rows:", duplicate_count)

Number of duplicate rows: 7947


In [11]:
train = pp.drop_duplicates(train, VARS_WITH_DUPLICATES)

In [12]:
print(train.duplicated(subset=VARS_WITH_DUPLICATES).sum())
print(len(train.index))

0
67514


### Pipeline

#### Set up and train the Pipeline

In [13]:
# set up the Pipeline
topic_pipe = Pipeline([
    
    # ===== IMPUTATION =====
    # impute 'title' with values from description and text
    ('missing_title_imputation', pp.MultiReferenceImputer(col='title', ref_col_list=['description', 'text'])),
    
    # impute text variables with string missing
    ('missing_imputation',  CategoricalImputer(imputation_method='missing', variables=VARS_WITH_NA_MISSING)),
    
    # ===== DROPPING observations with NA ===== 
    ('drop_missing_title', DropMissingData(variables=['title'])),
    
    # ===== DROPPING features
    ('drop_features', DropFeatures(features_to_drop=DROP_FEATURES)),
    
    # ===== ENCODING =====
    # encode rare labels
    ('rare_label_encoder', RareLabelEncoder(
        tol=0.01, n_categories=1, variables=VARS_WITH_FREQUENT, replace_with='Other')),
    
    # ===== CREATION OF NEW FEATURES =====
    ('concat_features_encoder', pp.ConcatStringFeatureEncoder(
        new_col='title_description_text', ref_col_list=['title', 'description', 'text']))
    
])

In [14]:
# train the pipeline
topic_pipe.fit(train)

In [15]:
train = topic_pipe.transform(train)

#### Evaluate the training set

In [16]:
train.head()

Unnamed: 0,date,title,description,category,text,source,title_description_text
0,2022-06-01 00:13:42,Preise: Grüne halten Senkung der Spritsteuer f...,Heute tritt die Steuersenkung auf Kraftstoffe ...,Other,,stern,Preise: Grüne halten Senkung der Spritsteuer f...
1,2022-06-01 01:55:03,Biden warnt Putin: USA liefern moderne Raketen...,Die USA rüsten die Ukraine mit fortschrittlich...,Other,,stern,Biden warnt Putin: USA liefern moderne Raketen...
2,2022-06-01 02:04:08,Soziale Medien: FDP-Politiker Kuhle: Internet-...,Eine «ZDF Magazin Royale»-Recherche beschäftig...,Other,,stern,Soziale Medien: FDP-Politiker Kuhle: Internet-...
3,2022-06-01 02:26:58,Liveblog: ++ Zwei von drei ukrainischen Kinder...,Rund zwei von drei Mädchen und Jungen in der U...,Missing,,Tagesschau,Liveblog: ++ Zwei von drei ukrainischen Kinder...
4,2022-06-01 02:31:43,Finanzen: Dänemark stimmt über EU-Verteidigung...,Vorbehalt verteidigen oder Verteidigung ohne V...,Other,,stern,Finanzen: Dänemark stimmt über EU-Verteidigung...


In [17]:
train[train['title'].isnull()]

Unnamed: 0,date,title,description,category,text,source,title_description_text


In [18]:
train.isnull().sum()

date                          0
title                         0
description                3834
category                      0
text                      67513
source                        0
title_description_text        0
dtype: int64

In [19]:
train['category'].value_counts()

category
Other            27545
Missing          25696
News              4023
Ausland           3727
Deutschland       3342
Ukraine-Krise     1244
Wirtschaft        1122
Politik            814
Name: count, dtype: int64

## Feature Engineering on new data (pred set)

In [20]:
pred.head()

Unnamed: 0,id,date,title,description,author,category,copyright,url,text,source
0,85639,2023-10-01 09:03:00,Frauen für den Frieden,Jolina und Louisa setzen sich in Nordirland fü...,,37 Grad Leben,,https://www.zdf.de/dokumentation/37-grad-leben...,,ZDF heute
1,85434,2023-10-01 09:18:18,PKK hatte sich bekannt - Türkei greift nach An...,Die türkische Hauptstadt Ankara ist am Sonntag...,,Ausland,,https://www.focus.de/politik/ausland/tuerkisch...,,Focus
2,85435,2023-10-01 11:25:35,Gastbeitrag von Gabor Steingart - Unbequeme Pu...,Für 2023 erwartet Russland ein Wirtschaftswach...,,Ausland,,https://www.focus.de/politik/ausland/gastbeitr...,,Focus
3,85601,2023-10-01 12:06:00,Was ist dran an Söders Berlin-Bashing?,"""Wir sind solidarisch, aber nicht naiv"", sagt ...",,Politik,,https://www.zdf.de/nachrichten/politik/laender...,,ZDF heute
4,85651,2023-10-01 14:11:00,Trübe Wirtschaftslage - Lotto-Boom in China,Chinas Wirtschaft kämpft mit einem geringeren ...,,Hohe Jugendarbeitslosigkeit,,https://www.zdf.de/nachrichten/wirtschaft/chin...,,ZDF heute


In [21]:
pred = topic_pipe.transform(pred)

In [22]:
pred.head()

Unnamed: 0,date,title,description,category,text,source,title_description_text
0,2023-10-01 09:03:00,Frauen für den Frieden,Jolina und Louisa setzen sich in Nordirland fü...,Other,,ZDF heute,Frauen für den Frieden - Jolina und Louisa set...
1,2023-10-01 09:18:18,PKK hatte sich bekannt - Türkei greift nach An...,Die türkische Hauptstadt Ankara ist am Sonntag...,Ausland,,Focus,PKK hatte sich bekannt - Türkei greift nach An...
2,2023-10-01 11:25:35,Gastbeitrag von Gabor Steingart - Unbequeme Pu...,Für 2023 erwartet Russland ein Wirtschaftswach...,Ausland,,Focus,Gastbeitrag von Gabor Steingart - Unbequeme Pu...
3,2023-10-01 12:06:00,Was ist dran an Söders Berlin-Bashing?,"""Wir sind solidarisch, aber nicht naiv"", sagt ...",Politik,,ZDF heute,"Was ist dran an Söders Berlin-Bashing? - ""Wir ..."
4,2023-10-01 14:11:00,Trübe Wirtschaftslage - Lotto-Boom in China,Chinas Wirtschaft kämpft mit einem geringeren ...,Other,,ZDF heute,Trübe Wirtschaftslage - Lotto-Boom in China - ...


In [23]:
pred[pred['title'].isnull()]

Unnamed: 0,date,title,description,category,text,source,title_description_text


In [24]:
pred.isnull().sum()

date                        0
title                       0
description                26
category                    0
text                      706
source                      0
title_description_text      0
dtype: int64

In [25]:
pred['category'].value_counts()

category
Other            283
Missing          254
Ukraine-Krise     43
Ausland           42
Deutschland       31
News              27
Politik           18
Wirtschaft         8
Name: count, dtype: int64

## Save preprocessed data for train and pred to csv

In [26]:
train.to_csv('../data/01_train_nosplit_preprocessed.csv', index=False)
pred.to_csv('../data/01_pred_preprocessed.csv', index=False)

## Save Pipeline

In [27]:
## Save Pipeline
joblib.dump(topic_pipe, 'topic_pipe_nosplit.joblib') 

['topic_pipe_nosplit.joblib']