In [125]:
import pandas as pd 
import csv
import spacy

In [126]:
#Daten laden Datensatz_A
data_path_a = r'daten/amazon_data1.xlsx'
data_db_a = pd.read_excel(data_path_a)

In [127]:
#Daten laden Datensatz_B
data_path_b = r'daten/otto_data1.xlsx'
data_db_b = pd.read_excel(data_path_b)

In [128]:

def prepare_data(df, columns):
    """
    Bereitet den Datensatz für die Analyse vor, indem nicht benötigte Spalten entfernt und Textdaten normalisiert werden.

    :param df: Pandas DataFrame, der Datensatz.
    :param columns_to_remove: Liste von Spaltennamen, die entfernt werden sollen.
    :param columns: Liste von Textspalten, die normalisiert werden sollen.
    :return: Bereinigter und normalisierter DataFrame.
    """
    # Entfernen von Spalten mit vielen fehlenden Werten
    # df = df.drop(columns=columns_to_remove)
    df = df[columns]

    # Normalisierung und Bereinigung von Textdaten und Entfernung von Leerzeichen
    for col in columns:
        # df[col] = df[col].str.replace(r'[\|\-]', ' ', regex=True)
        df.loc[:, col] = df[col].str.replace(r'[\|\-]', ' ', regex=True)
        # mehrere aufeinanderer folgen der Leerzeichen wegbekomme 
        df.loc[:, col] = df[col].str.replace(r'\s+', ' ', regex=True)
        # df[col] = df[col].str.lower().str.replace(r"[^a-z0-9äöüß\s]", "", regex=True)
        df.loc[:, col] = df[col].str.lower().str.replace(r"[^a-z0-9äöüß%\s]", "", regex=True)

    return df

In [129]:
def remove_duplicate_data(df, duplicate_file):
    """
    Entfernt die Daten die doppelt in eine Datensatz vorkommen
    
    :param df: Data frame, der Datensatz.
    :param duplicate_file: eine Liste von Duplikaten, die in dem Datensatz mehrfach vorkommen.
    """
    
    duplicate_rows = df[df.duplicated(keep='first')]
    data = df.drop_duplicates(keep='first')
    duplicate_rows.to_excel(duplicate_file)
    return data


In [130]:
import nltk
from nltk.corpus import stopwords

nltk.download('stopwords')

def remove_stopwords(df, columns):
    stop_words = set(stopwords.words('german'))
    for column in columns:
        if column in df.columns:
            df[column + '_clean'] = df[column].apply(lambda x: ' '.join([word for word in x.split() if word.lower() 
                                                                         not in stop_words]) if isinstance(x, str) else x)
    return df


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/mohammadrezaghassemzadeh/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [131]:
# Duplicate löschen
path_duplicate_data = r"/Users/mohammadrezaghassemzadeh/Desktop/p-matching/product-matching/daten/amazon_duplicate.xlsx"
data_db_a = remove_duplicate_data(data_db_a, path_duplicate_data)

In [132]:
# Für Datensatz A
# Anzuwendende Spalten für Entfernung und Normalisierung
# Diese Code Cell sollte an der Anwendung und Daten angepasst werden

# Spalten die nicht fuer den Framework relevant sind, sollte hier angegeben werden
# columns_to_remove = ['promotion_s', 'title_t', 'colour_technical_txt', 'brand_s', 
#                      'customer_rating_s', 'stars_s', 'energyEfficiency_s', 
#                      'category_name_detail_s', 'EAN_s', 'price_s', 'price_old_s']

# Heirbei handelt es sich um Spalten, die für die Analyse relevant sind
text_columns = ['NAME','DESCRIPTION']

data_db_a = prepare_data(data_db_a, text_columns)

# data_db_a = remove_stopwords(data_db_a, text_columns)

# data_db_a.head(30)

In [133]:
# Für Datensatz A
# Anzuwendende Spalten für Entfernung und Normalisierung
# Diese Code Cell sollte an der Anwendung und Daten angepasst werden

# Spalten die nicht fuer den Framework relevant sind, sollte hier angegeben werden
# columns_to_remove = ['promotion_s', 'title_t', 'colour_technical_txt', 'brand_s', 
#                      'customer_rating_s', 'stars_s', 'energyEfficiency_s', 
#                      'category_name_detail_s', 'EAN_s', 'price_s', 'price_old_s']

# Heirbei handelt es sich um Spalten, die für die Analyse relevant sind
text_columns = ['NAME','DESCRIPTION']

data_db_b = prepare_data(data_db_b, text_columns)

# data_db_b = remove_stopwords(data_db_b, text_columns)

# data_db_b.head(30)

In [134]:
data_db_a.to_excel('daten/amazon_datenbereinigt.xlsx')

In [135]:
data_db_b.to_excel('daten/otto_datenbereinigt.xlsx')