In [2]:
################################################################################
# MASTERARBEIT - SKRIPT 01:
# EXPERIMENT - Datenprofilierung (EDA)
################################################################################
# ZWECK DIESES SKRIPTS
#
# Dieses Skript dient der initialen Analyse des fehlerbehafteten Rohdatensatzes
# (rfd_main.csv). Es stellt den ersten Schritt im Datenbereinigungsprozess dar
# und entspricht der klassischen Explorativen Datenanalyse (EDA).
#
# Hauptziele dieses Skripts sind:
#
# 1. Ein grundlegendes Verständnis der Metadaten des Datensatzes (Schema,
#    Datentypen, Wertemuster) zu erlangen.
# 2. Die intrinsischen Eigenschaften der Daten aufzudecken, indem statistische
#    Kennzahlen, Wertverteilungen und Kardinalitäten analysiert werden.
#
# Diese Analyse bildet die Grundlage für die in dieser Arbeit untersuchten
# Bereinigungsaufgaben:
#
# * Für die Ausreißererkennung (Forschungsfrage 1): Die statistische Analyse
#   definiert, was als „normales“ Verhalten in den Daten gelten kann, um
#   potenzielle Ausreißer zu identifizieren.
# * Für die Inkonsistenzerkennung (Forschungsfrage 2): Das Profiling unterstützt
#   die Entdeckung impliziter Integritätsregeln und semantischer Zusammenhänge.
################################################################################

import pandas as pd
import numpy as np

# SCHRITT 1: Laden des "schmutzigen" Datensatzes
# Die in Abschnitt 3.2 definierte "schmutzige" Datei wird geladen.

dateipfad = 'rfd_main.csv' 
df_schmutzig = pd.read_csv(dateipfad)

print(f"Datensatz geladen: {dateipfad}")
print(f"Dimensionen (Zeilen, Spalten): {df_schmutzig.shape}")
print("=" * 70)

Datensatz geladen: rfd_main.csv
Dimensionen (Zeilen, Spalten): (1326, 15)


In [3]:
# SCHRITT 2: Datentypen und Struktur prüfen
print("\n--- 2. Datentypen und Struktur (.info()) ---")
# Die .info()-Ausgabe ist zentral, um zu belegen, welche Spalten als 'object'
# (Text) und welche als 'int64'/'float64' (numerisch) vorliegen.
# Dies zeigt u. a., dass Methoden wie IQR sowie klassische ML-Methoden
# (LOF, Isolation Forest) auf 'price' und 'saving' ohne eine Vorverarbeitung
# (Forschungsfrage 2) nicht direkt anwendbar sind.
df_schmutzig.info()
print("=" * 70)


--- 2. Datentypen und Struktur (.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1326 entries, 0 to 1325
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   Unnamed: 0       1326 non-null   int64 
 1   author           1326 non-null   object
 2   creation_date    1326 non-null   object
 3   expiry           370 non-null    object
 4   last_reply       1326 non-null   object
 5   parent_category  825 non-null    object
 6   price            898 non-null    object
 7   replies          1326 non-null   int64 
 8   saving           524 non-null    object
 9   source           987 non-null    object
 10  thread_category  1325 non-null   object
 11  title            1326 non-null   object
 12  url              1044 non-null   object
 13  views            1326 non-null   int64 
 14  votes            1326 non-null   int64 
dtypes: int64(4), object(11)
memory usage: 155.5+ KB


In [4]:
# SCHRITT 3: Erste 30 Zeilen ansehen (.head(30)) 
print("\n--- 3. Erste 30 Zeilen (.head(30)) ---") 
# Dies veranschaulicht die Probleme in den 'object'-Spalten (z. B. 'price', 'saving').
df_schmutzig.head(30) 


--- 3. Erste 30 Zeilen (.head(30)) ---


Unnamed: 0.1,Unnamed: 0,author,creation_date,expiry,last_reply,parent_category,price,replies,saving,source,thread_category,title,url,views,votes
0,0,flora0222,"Jul 16th, 2020 8:29 am",,"Jul 17th, 2020 9:20 am",,6.99,89,,Staples,Home & Garden,"One Step Hand Sanitizer, Fragrance-Free, 473mL...",https://staplescanada.4u8mqw.net/c/341376/7554...,15445,132
1,1,yellowmp5,"Jul 13th, 2020 1:29 pm",,"Jul 17th, 2020 9:18 am",,,441,,Home Depot,Home & Garden,RYOBI 20% coupon barcode,,59219,159
2,2,riseagainstthemachine,"Jul 2nd, 2020 10:03 am",,"Jul 17th, 2020 9:17 am",,free,92,,,Apparel,Kits.com Free Pair Prescription Glasses,https://www.kits.com/freeglasses.html,25242,54
3,3,Googliya,"Jul 17th, 2020 7:23 am",,"Jul 17th, 2020 9:15 am",,469.99,13,,Costco,Sports & Fitness,"Northrock xc00, fat Tire bike, $469.99",https://www.costco.ca/northrock-xc00-fat-tire-...,1769,2
4,4,Presents,"Jul 16th, 2020 1:36 pm","July 29, 2020","Jul 17th, 2020 9:15 am",,,24,,Canadian Tire,Automotive,60x total CT Money when you pay with your Tria...,,2981,9
5,5,User452441,"Apr 7th, 2020 6:05 pm",,"Jul 17th, 2020 9:15 am",,$39.99,261,,Costco,Beauty & Wellness,Wahl deluxe haircutting kit $39.99 YMMV,,112880,27
6,6,OriginalG,"Jun 30th, 2020 4:48 pm",,"Jul 17th, 2020 9:14 am",Apparel,27.50,280,50% +4%CB,,Men's Shoes,Oakley Men’s Super Coil Sandal 2.0 Sandals $27...,http://go.redirectingat.com?id=2927x594702&amp...,50708,118
7,7,SoulTracer,"Jun 30th, 2020 5:28 pm",,"Jul 17th, 2020 9:14 am",,278.40,157,$119.60,Home Depot,Home & Garden,40v 20” Ryobi Push Mower $278+HST (w/ 20% coupon),https://the-home-depot-ca.pxf.io/c/341376/5836...,20936,27
8,8,Kafer,"Jul 15th, 2020 11:02 am",,"Jul 17th, 2020 9:13 am",Home & Garden,$99.99,71,,PetSmart,Pets,Fluval Flex 9 gallon aquarium- $99.99,https://www.petsmart.ca/fish/tanks-aquariums-a...,9571,29
9,9,samguan,"Jul 17th, 2020 8:06 am",,"Jul 17th, 2020 9:13 am",,$327.99,5,,Amazon.ca,Computers & Electronics,LU28R550UQNXZA Samsung 28” 4K IPS Monitor $327.99,http://www.amazon.ca/gp/redirect.html?ie=UTF8&...,862,0


In [5]:
# SCHRITT 4: Statistische Zusammenfassung (.describe())
print("\n--- 4. Statistische Zusammenfassung (.describe(include='all')) ---")
df_schmutzig.describe(include='all')
# Dies bestätigt die statistischen Ausreißer in numerischen Spalten (z.B. 'replies', 'views', 'votes')
# (siehe Unterschied min/max/mean) und die Probleme in den Textspalten (z.B. 'price' hat 'unique'/'top').


--- 4. Statistische Zusammenfassung (.describe(include='all')) ---


Unnamed: 0.1,Unnamed: 0,author,creation_date,expiry,last_reply,parent_category,price,replies,saving,source,thread_category,title,url,views,votes
count,1326.0,1326,1326,370,1326,825,898,1326.0,524,987,1325,1326,1044,1326.0,1326.0
unique,,946,1283,73,1253,12,610,,286,148,55,1309,1019,,
top,,immad01,"Jul 13th, 2020 12:24 pm","July 2, 2020","Jul 17th, 2020 8:31 am",Computers & Electronics,Free,,50%,Amazon.ca,Computers & Electronics,Vitamix Venturist - Refurb ($429.95),https://www.wellwise.ca/en-ca/products/soclean...,,
freq,,34,3,30,4,339,13,,31,213,176,2,2,,
mean,14.428356,,,,,,,52.892911,,,,,,13734.675716,12.815988
std,8.671214,,,,,,,144.362648,,,,,,33812.256561,28.023994
min,0.0,,,,,,,-1.0,,,,,,127.0,-73.0
25%,7.0,,,,,,,5.0,,,,,,2191.75,1.0
50%,14.0,,,,,,,15.0,,,,,,4208.0,5.0
75%,22.0,,,,,,,45.0,,,,,,11146.25,14.0
