# Data Quality Report

### Einlesen der benötigten Pakete

In [1]:
import pandas as pd
import numpy as np

### Einlesen der CSV-Dateien

In [2]:
# Funktion zum Einlesen
def csv_to_df(csv):
    df = pd.read_csv(csv, header=0, sep=';', quotechar='"', decimal=',', low_memory=False)
    return df

# Produkte
product = csv_to_df("../data/origin/PRODUCT.csv")

# Hersteller
company = csv_to_df("../data/origin/COMPANY.csv")

# Hersteller-Adresse
company_adress = csv_to_df("../data/origin/COMPANYADDRESS.csv")

# Schnittstelle Hersteller u. Produkt
product_company = csv_to_df("../data/origin/PRODUCT_COMPANY.csv")

# Interaktionen
interaction = csv_to_df("../data/origin/INTERACTION.CSV")

# Interaktions-Klasse
interaction_class = csv_to_df("../data/origin/INTERACTION_CLASS.csv")

# Schnittstelle zw. Produkte u. Interaktionen
product_interaction_class = csv_to_df("../data/origin/PRODUCT_INTERACTION_CLASS.csv")

### Bereinigung der Dataframes auf die relevanten Spalten

In [3]:
# Produkte (hier reicht die ID, der Name und als zusätzl. Info das Markteintrittsdatum)
product = product[['ID','NAME','ONMARKETDATE']]

# Hersteller (ID, Name)
company = company[['ID','NAME']]

# Hersteller-Adresse (ID, COMPANYID, ZIP, STREET, STREETNUMBER)
company_adress = company_adress[['ID', 'COMPANYID', 'ZIP', 'CITY', 'STREET', 'STREETNUMBER']]

# Schnittstelle zw. Produkte und Hersteller
product_company = product_company[['PRODUCTID', 'COMPANYID']]

# Interaktionen (ID, Interaktionsklasse1, Interaktionsklasse2, Severity, Likelihood)
interaction = interaction[['INTERACTIONCLASSID1', 'INTERACTIONCLASSID2', 'SEVERITY', 'LIKELIHOOD']]

## Produkte

In [107]:
product.head()

Unnamed: 0,ID,NAME,ONMARKETDATE
0,14,"Trental® 400 mg, Retardtabletten",01.09.1977
1,21,BETOPTIMA® 5 mg/ml Augentropfen,01.09.1985
2,30,Cyclopentolat Alcon® 1% Augentropfen,01.04.1998
3,32,DEXA-SINE® 1 mg/ml Augentropfen,01.12.1998
4,33,"DEXA-SINE® SE 1,315 mg/ml Augentropfen",01.12.1989


In [110]:
# Ausgabe der auffindbaren leeren Zeilen pro Spalte
print('Leere Zeilen pro Spalte: ' + '\n'+ str(product.isnull().sum()) + 
      '\n' + '----------------------------------------------') #Brake zur besseren Übersicht

#Dublettenprüfung
product_double = product[product.duplicated()]
 
print("Dubletten basierend auf allen Spalten:")
print(product_double)

# Dublettenprüfung nur auf Basis des Produktnamens
check_doubles_column = product[product.duplicated(['NAME'])]
print("Dubletten basierend auf der Spalte 'NAME':", check_doubles_column, sep='\n')

Leere Zeilen pro Spalte: 
ID              0
NAME            0
ONMARKETDATE    0
dtype: int64
----------------------------------------------
Dubletten basierend auf allen Spalten:
Empty DataFrame
Columns: [ID, NAME, ONMARKETDATE]
Index: []
Dubletten basierend auf der Spalte 'NAME':
             ID                                               NAME  \
16617    368875                 BD Micro-Fine+ U100 Ins.Spr.12,7mm   
39612    498847                    Arelix® ACE 5 mg/6 mg Tabletten   
40418    501260          Soventol® Hydrocort 0,25%, 2,5 mg/g Creme   
43838    511817  Cefuroxim Hikma 1500 mg Pulver zur Herstellung...   
44590    515756                        ben-u-ron® 500 mg Tabletten   
...         ...                                                ...   
545107  1190130                             PÜTTER Binde 10 cmx5 m   
545108  1190131                AQUACEL Foam adhäsiv 8x8 cm Verband   
545121  1190146                                   Mega Acidophilus   
545131  1190158   

Offensichtlich existieren 6.354 Zeilen, in denen der Name des Produkts doppelt ist. Die Tupel unterscheidet sich lediglich in der ID. Es muss überprüft werden, ob diese entfernt werden können, weil sie in zusammenhängenden Tabellen nicht genutzt werden:

In [111]:
# Zuerst müssen die entsprechenden IDs in Form einer Liste vorliegen
doubles_list = check_doubles_column.ID.to_list()

# Abgleich von Liste und entsprechenden Fremdschlüsseltabellen
# Produkt-Hersteller
print('Produkt-Hersteller:')
print(product_company.PRODUCTID.isin(doubles_list).value_counts())

# Produkt-Interaktionsklasse
print('Produkt-Interaktionsklasse:')
print(product_interaction_class.PRODUCTID.isin(doubles_list).value_counts())

Produkt-Hersteller:
False    539053
True       6354
Name: PRODUCTID, dtype: int64
Produkt-Interaktionsklasse:
False    142567
True        178
Name: PRODUCTID, dtype: int64


## Hersteller

In [48]:
company.head()

Unnamed: 0,ID,NAME
0,1,AbbVie Deutschland GmbH & Co. KG
1,3,3M Medica Zweigniederlassung 3M Deutschland GmbH
2,5,aar Pharma GmbH u. Co. KG
3,10,AktivPharma GmbH & Co. KG
4,12,Alcon Pharma GmbH


In [104]:
# Ausgabe der auffindbaren leeren Zeilen pro Spalte
print('Leere Zeilen pro Spalte: ' + '\n'+ str(company.isnull().sum()) + 
      '\n' + '----------------------------------------------') #Brake zur besseren Übersicht

# Dublettenprüfung
company_double = company[company.duplicated()]
 
print("Dubletten basierend auf allen Spalten:")
print(company_double)

# Dublettenprüfung nur auf Basis der Hersteller-ID
check_doubles_column = company[company.duplicated(['NAME'])]
print("Dubletten basierend auf der Spalte 'NAME':", check_doubles_column, sep='\n')

Leere Zeilen pro Spalte: 
ID      0
NAME    0
dtype: int64
----------------------------------------------
Dubletten basierend auf allen Spalten:
Empty DataFrame
Columns: [ID, NAME]
Index: []
Dubletten basierend auf der Spalte 'NAME':
Empty DataFrame
Columns: [ID, NAME]
Index: []


## Hersteller-Adresse

In [54]:
company_adress.head()

Unnamed: 0,ID,COMPANYID,ZIP,CITY,STREET,STREETNUMBER
0,1,1,65189,Wiesbaden,Mainzer Str.,81
1,3,3,41453,Neuss,Hammfelddamm,11
2,5,5,42853,Remscheid,Alleestr.,11
3,10,10,69412,Eberbach,Klausenweg,12
4,12,12,79108,Freiburg,Blankreutestr.,1


In [103]:
# Ausgabe der auffindbaren leeren Zeilen pro Spalte
print('Leere Zeilen pro Spalte: ' + '\n'+ str(company_adress.isnull().sum()) + 
      '\n' + '----------------------------------------------') #Brake zur besseren Übersicht

# Dublettenprüfung
company_adress_double = company_adress[company_adress.duplicated()]
 
print("Dubletten basierend auf allen Spalten:")
print(company_adress_double)

# Dublettenprüfung nur auf Basis der Hersteller-ID
check_doubles_column = company_adress[company_adress.duplicated(['COMPANYID'])]
print("Dubletten basierend auf der Spalte 'COMPANYID':", check_doubles_column, sep='\n')

Leere Zeilen pro Spalte: 
ID                0
COMPANYID         0
ZIP              49
CITY             17
STREET           20
STREETNUMBER    215
dtype: int64
----------------------------------------------
Dubletten basierend auf allen Spalten:
Empty DataFrame
Columns: [ID, COMPANYID, ZIP, CITY, STREET, STREETNUMBER]
Index: []
Dubletten basierend auf der Spalte 'COMPANYID':
Empty DataFrame
Columns: [ID, COMPANYID, ZIP, CITY, STREET, STREETNUMBER]
Index: []


In [70]:
# Überprüfen der fehlenden Werte
company_adress[pd.to_numeric(company_adress['ZIP'], errors='coerce').isnull()].head()

Unnamed: 0,ID,COMPANYID,ZIP,CITY,STREET,STREETNUMBER
19,70,70,,,,
135,483,483,,,,
401,13541,13556,,,,
446,13701,13718,,,,
561,15854,15887,D09 ND91,Dublin,Suite 17 Northw. House Northw. Aven. Santry,


## Produkt-Hersteller

In [72]:
product_company.head()

Unnamed: 0,PRODUCTID,COMPANYID
0,14,15777
1,21,946
2,30,12
3,32,946
4,33,946


In [73]:
# Ausgabe der auffindbaren leeren Zeilen pro Spalte
print('Leere Zeilen pro Spalte: ' + '\n'+ str(product_company.isnull().sum()) + 
      '\n' + '----------------------------------------------') #Brake zur besseren Übersicht

# Dublettenprüfung
product_company_double = product_company[product_company.duplicated()]
 
print("Dubletten basierend auf allen Spalten:")
print(product_company_double)

Leere Zeilen pro Spalte: 
PRODUCTID    0
COMPANYID    0
dtype: int64
----------------------------------------------
Dubletten basierend auf allen Spalten:
Empty DataFrame
Columns: [PRODUCTID, COMPANYID]
Index: []


## Interaktionen

In [75]:
interaction.head()

Unnamed: 0,INTERACTIONCLASSID1,INTERACTIONCLASSID2,SEVERITY,LIKELIHOOD
0,1,12317,mittelschwer,Begrenzt untersucht.
1,4,450,mittelschwer,Begrenzt untersucht.
2,4,10205,geringfügig,Nicht erwiesen
3,5,148,Vorsicht,Begrenzt untersucht.
4,5,190,Vorsicht,Begrenzt untersucht.


In [115]:
# Ausgabe der auffindbaren leeren Zeilen pro Spalte
print('Leere Zeilen pro Spalte: ' + '\n'+ str(interaction.isnull().sum()) + 
      '\n' + '----------------------------------------------') #Brake zur besseren Übersicht

# Dublettenprüfung
interaction_double = interaction[interaction.duplicated()]
 
print("Dubletten basierend auf allen Spalten:")
print(interaction_double)

# Dublettenprüfung nur auf Basis der Interaktionsklassen-IDs (=Interaktionen)
check_doubles_column = interaction[interaction.duplicated(['INTERACTIONCLASSID1', 'INTERACTIONCLASSID2'])]
print("Dubletten basierend auf den Spalten 'INTERACTIONCLASSID1/2':", check_doubles_column, sep='\n')

Leere Zeilen pro Spalte: 
INTERACTIONCLASSID1    0
INTERACTIONCLASSID2    0
SEVERITY               0
LIKELIHOOD             0
dtype: int64
----------------------------------------------
Dubletten basierend auf allen Spalten:
Empty DataFrame
Columns: [INTERACTIONCLASSID1, INTERACTIONCLASSID2, SEVERITY, LIKELIHOOD]
Index: []
Dubletten basierend auf den Spalten 'INTERACTIONCLASSID1/2':
Empty DataFrame
Columns: [INTERACTIONCLASSID1, INTERACTIONCLASSID2, SEVERITY, LIKELIHOOD]
Index: []


## Interaktionsklassen

In [101]:
interaction_class.tail()

Unnamed: 0,INTERACTIONCLASSID,NAME
1716,1001399,Darunavir
1717,1001406,Silodosin
1718,1001409,"Arzneimittel, Bradykinin und Angioödem"
1719,1001411,"Arzneimittel, Bradykinin und Angioödem"
1720,1001412,Methotrexat (oral)


In [86]:
# Ausgabe der auffindbaren leeren Zeilen pro Spalte
print('Leere Zeilen pro Spalte: ' + '\n'+ str(interaction_class.isnull().sum()) + 
      '\n' + '----------------------------------------------') #Brake zur besseren Übersicht

# Dublettenprüfung
interaction_class_double = interaction_class[interaction_class.duplicated()]
 
print("Dubletten basierend auf allen Spalten:")
print(interaction_class_double)

# Dublettenprüfung auf Basis des Namens
check_doubles_column = interaction_class[interaction_class.duplicated(['NAME'])]
print("Dubletten basierend auf der Spalte 'NAME':", check_doubles_column, sep='\n')

Leere Zeilen pro Spalte: 
INTERACTIONCLASSID    0
NAME                  0
dtype: int64
----------------------------------------------
Dubletten basierend auf allen Spalten:
Empty DataFrame
Columns: [INTERACTIONCLASSID, NAME]
Index: []
Dubletten basierend auf der Spalte 'NAME':
      INTERACTIONCLASSID                                    NAME
693                12146                            Epoprostenol
1137               12706                              Pentamidin
1308               30008                            Levomethadon
1317             1000022                             Deferoxamin
1321             1000031                       Dextropropoxyphen
...                  ...                                     ...
1705             1001360                              Mirabegron
1712             1001385                                Etoposid
1716             1001399                               Darunavir
1717             1001406                               Silodosin
1719   

Offensichtlich gibt es eine Reihe von Interaktionsklassen (219 Stück), die doppelt gepflegt sind. Zur Überprüfung, ob diese entfernt werden können, weil sie in Tabellen, in denen die Interaktionsklassen-ID als Fremdnschlüssel hinterlegt ist, nicht gebraucht werden, erfolgt ein Abgleich mit diesen Tabellen.

In [99]:
# Zuerst müssen die entsprechenden IDs in Form einer Liste vorliegen
doubles_list = check_doubles_column.INTERACTIONCLASSID.to_list()

# Abgleich von Liste und entsprechenden Fremdschlüsseltabellen
# Interaktionen
print('Interaktionen:')
print(interaction.INTERACTIONCLASSID1.isin(doubles_list).value_counts())

# Produkt-Interaktionsklasse
print('Produkt-Interaktionsklasse:')
print(product_interaction_class.INTERACTIONCLASSID.isin(doubles_list).value_counts())

Interaktionen:
False    6902
True      717
Name: INTERACTIONCLASSID1, dtype: int64
Produkt-Interaktionsklasse:
False    131358
True      11387
Name: INTERACTIONCLASSID, dtype: int64


<b>Ergebnis:</b><br>
Sowohl in der Tabelle Interaktionen als auch in Produkt-Interaktionen sind die Dubletten in Verwendung. Die Funktion der App wird durch die Dubletten nicht beeinträchtet. Ein Ersetzen der "alten" IDs ist nicht zwangsläufig notwendig.

## Produkt-Interaktion

In [116]:
product_interaction_class.head()

Unnamed: 0,INTERACTIONCLASSID,PRODUCTID
0,1,3439
1,1,4553
2,1,7978
3,1,11975
4,1,13502


In [81]:
# Ausgabe der auffindbaren leeren Zeilen pro Spalte
print('Leere Zeilen pro Spalte: ' + '\n'+ str(product_interaction_class.isnull().sum()) + 
      '\n' + '----------------------------------------------') #Brake zur besseren Übersicht

# Dublettenprüfung
product_interaction_class_double = product_interaction_class[product_interaction_class.duplicated()]
 
print("Dubletten basierend auf allen Spalten:")
print(product_interaction_class_double)

Leere Zeilen pro Spalte: 
INTERACTIONCLASSID    0
PRODUCTID             0
dtype: int64
----------------------------------------------
Dubletten basierend auf allen Spalten:
Empty DataFrame
Columns: [INTERACTIONCLASSID, PRODUCTID]
Index: []
