# Data Understanding und Data Preparation - 1: Einführung

## Anforderungen an Projektumsetzung: NumPy und pandas

Falls die Anforderungen auf den eigenen Projektdatensatz nicht anwendbar sind, gibt es folgende Möglichkeiten:
- Datensatz um passende Daten erweitern entweder manuell, per Anspielen aus weiterer Datenquelle oder zur Not per zufälliger Datengenerierung/-simulation
- Datensatz außerhalb des Projekts wählen und Anforderungen daran umsetzen

Anforderungen:
- Erstellen Sie NumPy-Arrays mit (Teil-)Daten aus Ihrem Projekt - es sollten verschiedene Datentypen (Ganzzahl, Kommazahl, String, Boolean, etc.) vorhanden sein
- Filtern Sie ein NumPy-Array basierend auf mindestens 2 Bedingungen auf mindestens 2 Arrays/Spalten
- Berechnen Sie mind. 2 Statistiken auf mind. 2 Arrays
- Laden Sie eine Datei von der Festplatte oder einer URL als pandas-DataFrame
- Fügen Sie mindestens eine neue Spalte hinzu, die aus mindestens einer anderen Spalte berechnet wurde
- Ändern Sie Reihenfolge und Benennung der Spalten
- Löschen Sie mindestens eine Spalte
- Verwenden Sie mindestens eine Funktion aus dem `str`-Accessor
- Speichern Sie Ihr pandas DataFrame in eine Datei

#### Laden der Bibliotheken & des Datensatzes

In [1]:
# Import der benötigten Bibliotheken

import importlib
import init_notebook

import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
importlib.reload(init_notebook)

dataset = init_notebook.get_initial_dataset()

#### Erstellen Sie NumPy-Arrays mit (Teil-)Daten aus Ihrem Projekt - es sollten verschiedene Datentypen (Ganzzahl, Kommazahl, String, Boolean, etc.) vorhanden sein

In [10]:
# Ausgabe des Datasets als NumPy Arrays und zusätzlichen Informationen zu diesem:

dataset_nparray = np.array(dataset)

print("NumPy Array: ")
print(dataset_nparray)

print("--------------------------")
print("Type: ")
print(type(dataset_nparray))

print("--------------------------")
print("Größe: ")
print(dataset_nparray.shape)

print("--------------------------")
print("Anzahl Werte: ")
print(dataset_nparray.size)

NumPy Array: 
[['Male' 35 170 ... 40.0 1.0 'Y']
 ['Male' 30 180 ... 27.0 3.0 'N']
 ['Male' 40 165 ... 68.0 1.0 'N']
 ...
 ['Female' 40 155 ... 17.0 3.0 'Y']
 ['Male' 25 175 ... 17.0 1.0 'N']
 ['Male' 50 160 ... 36.0 3.0 'Y']]
--------------------------
Type: 
<class 'numpy.ndarray'>
--------------------------
Größe: 
(991346, 24)
--------------------------
Anzahl Werte: 
23792304


Unser Datensatz besteht aus 24 Spalten mit je 991.346 Zeilen. Dies bedeutet eine gesamte Anzahl an Datenpunkten von 23.792.304.

#### Filtern Sie ein NumPy-Array basierend auf mindestens 2 Bedingungen auf mindestens 2 Arrays/Spalten

In [16]:
# Anwendung zweier Filterbedingungen:

# 1. Bedingung: Geschlecht = 'male'
# 2. Bedingung: Trinker = 'Y'

# Ausgabe aller männlichen Trinker:

print("-------------------------------------")
print("Männliche Trinker: ")
filter_args = (dataset_nparray[:,0] == 'Male') & (dataset_nparray[:,23] == 'Y')
filtered_data = dataset_nparray[filter_args]
print(filtered_data)

print("------------")
print("Größe: ")
print(filtered_data.shape)



# 1. Bedingung: Geschlecht = 'female'
# 2. Bedingung: Trinker = 'Y'

# Ausgabe aller weiblicher Trinker:

print("-------------------------------------")
print("Weibliche Trinker: ")
filter_args = (dataset_nparray[:,0] == 'Female') & (dataset_nparray[:,23] == 'Y')
filtered_data = dataset_nparray[filter_args]
print(filtered_data)

print("------------")
print("Größe: ")
print(filtered_data.shape)

-------------------------------------
Männliche Trinker: 
[['Male' 35 170 ... 40.0 1.0 'Y']
 ['Male' 50 165 ... 37.0 3.0 'Y']
 ['Male' 35 175 ... 35.0 3.0 'Y']
 ...
 ['Male' 20 175 ... 50.0 2.0 'Y']
 ['Male' 70 165 ... 32.0 1.0 'Y']
 ['Male' 50 160 ... 36.0 3.0 'Y']]
------------
Größe: 
(354317, 24)
-------------------------------------
Weibliche Trinker: 
[['Female' 25 160 ... 9.0 1.0 'Y']
 ['Female' 35 170 ... 18.0 1.0 'Y']
 ['Female' 20 160 ... 15.0 1.0 'Y']
 ...
 ['Female' 35 155 ... 13.0 1.0 'Y']
 ['Female' 60 150 ... 20.0 2.0 'Y']
 ['Female' 40 155 ... 17.0 3.0 'Y']]
------------
Größe: 
(141171, 24)


Während es im Datensatz 352.317 männliche Trinker gibt, enthält dieser lediglich 141.171 weibliche Trinker. 

Dies könnte eventuell an einer ungleichen Verteilung von Männern und Frauen liegen.

In [17]:
# Ausgabe aller männlichen Probanden:

print("-------------------------------------")
print("Männliche Probanden: ")
filter_args = (dataset_nparray[:,0] == 'Male')
filtered_data = dataset_nparray[filter_args]
print(filtered_data)

print("------------")
print("Größe: ")
print(filtered_data.shape)


# Ausgabe aller weiblicher Probandinnen:

print("-------------------------------------")
print("Weibliche Probandinnen: ")
filter_args = (dataset_nparray[:,0] == 'Female')
filtered_data = dataset_nparray[filter_args]
print(filtered_data)

print("------------")
print("Größe: ")
print(filtered_data.shape)

-------------------------------------
Männliche Probanden: 
[['Male' 35 170 ... 40.0 1.0 'Y']
 ['Male' 30 180 ... 27.0 3.0 'N']
 ['Male' 40 165 ... 68.0 1.0 'N']
 ...
 ['Male' 35 170 ... 15.0 1.0 'N']
 ['Male' 25 175 ... 17.0 1.0 'N']
 ['Male' 50 160 ... 36.0 3.0 'Y']]
------------
Größe: 
(526415, 24)
-------------------------------------
Weibliche Probandinnen: 
[['Female' 45 150 ... 12.0 1.0 'N']
 ['Female' 55 150 ... 31.0 1.0 'N']
 ['Female' 30 160 ... 58.0 1.0 'N']
 ...
 ['Female' 35 165 ... 12.0 1.0 'N']
 ['Female' 50 150 ... 29.0 1.0 'N']
 ['Female' 40 155 ... 17.0 3.0 'Y']]
------------
Größe: 
(464931, 24)


Die Auswertung zeigt, dass die Verteilung von Männern und Frauen im Datensatz die Abweichung der Anzahl an Trinkern nicht rechtfertigt.

#### Berechnen Sie mind. 2 Statistiken auf mind. 2 Arrays

In [24]:
# Berechnung zweier Statistiken basierend auf zwei Arrays:

    # 1. Anzahl der männlichen & weiblichen Trinker gesamt:

filter_args_male_drinker = (dataset_nparray[:,0] == 'Male') & (dataset_nparray[:,23] == 'Y')
filtered_data_male_drinker = dataset_nparray[filter_args_male_drinker]
male_drinker = filtered_data_male_drinker.shape[0]

filter_args_female_drinker = (dataset_nparray[:,0] == 'Female') & (dataset_nparray[:,23] == 'Y')
filtered_data_female_drinker = dataset_nparray[filter_args_female_drinker]
female_drinker = filtered_data_female_drinker.shape[0]

print('Anzahl der männlichen Trinker: ' + str(male_drinker))
print('Anzahl der weiblichen Trinker: ' + str(female_drinker))

    # 2. Anteil der Trinker je Geschlecht:

filter_args_male = (dataset_nparray[:,0] == 'Male')
filtered_data_male = dataset_nparray[filter_args_male]
male = filtered_data_male.shape[0]

filter_args_female = (dataset_nparray[:,0] == 'Female')
filtered_data_female = dataset_nparray[filter_args_female]
female = filtered_data_female.shape[0]

print('Anteil der Trinker unter den Männern: ' + str(np.round(male_drinker / male, 3)))
print('Anteil der Trinker unter den Frauen: ' + str(np.round(female_drinker / female, 3)))

    
    # 2. Durchschnittsalter aller Personen (gerundet auf 2 Dezimalstellen):

age = dataset_nparray[:,1]
average_age = np.average(age)
average_age_clean = np.round(average_age, 2)
print('Durchschnittsalter aller Personen: ' + str(average_age_clean))

    
    # 3. Mediangewicht aller Personen über 50:

weight = dataset_nparray[:,3]
filter_args = weight.astype(np.float64) > 50
filtered_data = weight[filter_args]
median_weight = np.median(filtered_data)
print('Mediangewicht der Personen über 50: ' + str(median_weight))

Anzahl der männlichen Trinker: 354317
Anzahl der weiblichen Trinker: 141171
Anteil der Trinker unter den Männern: 0.673
Anteil der Trinker unter den Frauen: 0.304
Durchschnittsalter aller Personen: 47.61
Mediangewicht der Personen über 50: 65.0


Diese Auswertung bestätigt, dass unter den Männern rund 67,3 % Trinker sind, während bei den Frauen lediglich 30,4 % Alkohol trinken.

#### Laden Sie eine Datei von der Festplatte oder einer URL als pandas-DataFrame

In [26]:
# Dataset laden und die ersten 5 Zeilen als pandas Dataframe ausgeben:

path = str(os.getcwd()).replace("\Anforderungen", "\Daten")

dataset = pd.read_csv(path + '\smoking_driking_dataset_Ver01.csv')

dataset.head()

  path = str(os.getcwd()).replace("\Anforderungen", "\Daten")
  path = str(os.getcwd()).replace("\Anforderungen", "\Daten")
  dataset = pd.read_csv(path + '\smoking_driking_dataset_Ver01.csv')


Unnamed: 0,sex,age,height,weight,waistline,sight_left,sight_right,hear_left,hear_right,SBP,...,LDL_chole,triglyceride,hemoglobin,urine_protein,serum_creatinine,SGOT_AST,SGOT_ALT,gamma_GTP,SMK_stat_type_cd,DRK_YN
0,Male,35,170,75,90.0,1.0,1.0,1.0,1.0,120.0,...,126.0,92.0,17.1,1.0,1.0,21.0,35.0,40.0,1.0,Y
1,Male,30,180,80,89.0,0.9,1.2,1.0,1.0,130.0,...,148.0,121.0,15.8,1.0,0.9,20.0,36.0,27.0,3.0,N
2,Male,40,165,75,91.0,1.2,1.5,1.0,1.0,120.0,...,74.0,104.0,15.8,1.0,0.9,47.0,32.0,68.0,1.0,N
3,Male,50,175,80,91.0,1.5,1.2,1.0,1.0,145.0,...,104.0,106.0,17.6,1.0,1.1,29.0,34.0,18.0,1.0,N
4,Male,50,165,60,80.0,1.0,1.2,1.0,1.0,138.0,...,117.0,104.0,13.8,1.0,0.8,19.0,12.0,25.0,1.0,N


In [27]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 991346 entries, 0 to 991345
Data columns (total 24 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   sex               991346 non-null  object 
 1   age               991346 non-null  int64  
 2   height            991346 non-null  int64  
 3   weight            991346 non-null  int64  
 4   waistline         991346 non-null  float64
 5   sight_left        991346 non-null  float64
 6   sight_right       991346 non-null  float64
 7   hear_left         991346 non-null  float64
 8   hear_right        991346 non-null  float64
 9   SBP               991346 non-null  float64
 10  DBP               991346 non-null  float64
 11  BLDS              991346 non-null  float64
 12  tot_chole         991346 non-null  float64
 13  HDL_chole         991346 non-null  float64
 14  LDL_chole         991346 non-null  float64
 15  triglyceride      991346 non-null  float64
 16  hemoglobin        99

#### Fügen Sie mindestens eine neue Spalte hinzu, die aus mindestens einer anderen Spalte berechnet wurde

In [31]:
# Neue berechnete Spalte hinzufügen:

    # Hinzufügen des Body-Mass-Index: Gewicht / (Größe)^2

body_mass_index = dataset["weight"].astype(np.float64) / ((dataset["height"].astype(np.float64) / 100) * (dataset["height"].astype(np.float64) / 100))

dataset["BMI"] = body_mass_index.round(2)

dataset.head()

Unnamed: 0,sex,age,height,weight,waistline,sight_left,sight_right,hear_left,hear_right,SBP,...,triglyceride,hemoglobin,urine_protein,serum_creatinine,SGOT_AST,SGOT_ALT,gamma_GTP,SMK_stat_type_cd,DRK_YN,BMI
0,Male,35,170,75,90.0,1.0,1.0,1.0,1.0,120.0,...,92.0,17.1,1.0,1.0,21.0,35.0,40.0,1.0,Y,25.95
1,Male,30,180,80,89.0,0.9,1.2,1.0,1.0,130.0,...,121.0,15.8,1.0,0.9,20.0,36.0,27.0,3.0,N,24.69
2,Male,40,165,75,91.0,1.2,1.5,1.0,1.0,120.0,...,104.0,15.8,1.0,0.9,47.0,32.0,68.0,1.0,N,27.55
3,Male,50,175,80,91.0,1.5,1.2,1.0,1.0,145.0,...,106.0,17.6,1.0,1.1,29.0,34.0,18.0,1.0,N,26.12
4,Male,50,165,60,80.0,1.0,1.2,1.0,1.0,138.0,...,104.0,13.8,1.0,0.8,19.0,12.0,25.0,1.0,N,22.04


Der Body-Mass-Index ergibt sich aus dem Gewicht in Kilogramm geteilt durch die Größe in Metern zum Quadrat.

#### Ändern Sie Reihenfolge und Benennung der Spalten

In [34]:
# Ändern der Reihenfolge und Benennung der Spalten:

dataset = dataset.rename(columns={'sex': 'Geschlecht', 'age': 'Alter', 'height': 'Größe', 'weight': 'Gewicht', 'waistline': 'Taille', 'sight_left': 'Sehkraft_links', 'sight_right': 'Sehkraft_rechts', 'hear_left': 'Hörkraft_links', 'hear_right': 'Hörkraft_rechts', 'SBP': 'Systolischer Blutdruck', 'DBP': 'Diastolischer Blutdrock', 'BLDS': 'Nüchterner Blutzucker', 'tot_chole': 'Totale Cholesterin', 'HDL_chole': 'HDL_Cholesterin', 'LDL_chole': 'LDL_Cholesterin', 'triglyceride': 'Triglycerid', 'hemoglobin': 'Hämoglobin', 'urine_protein': 'Urin_Proteine', 'serum_creatinine': 'Serum_Kreatinin', 'SGOT_AST': 'SGOT_AST', 'SGOT_ALT': 'SGOT_ALT', 'gamma_GTP': 'gamma_GTP', 'SMK_stat_type_cd': 'Raucher_Status', 'DRK_YN': 'Trinker', 'BMI': 'Body-Mass-Index'})
column_names = dataset.columns.values.tolist()
print(column_names)

dataset = dataset.sort_values(by=['Alter'], ascending=True)
print(dataset)

['Geschlecht', 'Alter', 'Größe', 'Gewicht', 'Taille', 'Sehkraft_links', 'Sehkraft_rechts', 'Hörkraft_links', 'Hörkraft_rechts', 'Systolischer Blutdruck', 'Diastolischer Blutdrock', 'Nüchterner Blutzucker', 'Totale Cholesterin', 'HDL_Cholesterin', 'LDL_Cholesterin', 'Triglycerid', 'Hämoglobin', 'Urin_Proteine', 'Serum_Kreatinin', 'SGOT_AST', 'SGOT_ALT', 'gamma_GTP', 'Raucher_Status', 'Trinker', 'Body-Mass-Index']
       Geschlecht  Alter  Größe  Gewicht  Taille  Sehkraft_links  \
611351       Male     20    180       65    72.0             1.5   
513844       Male     20    175       65    75.0             0.8   
356547       Male     20    170       65    77.0             0.9   
665411     Female     20    155       45    69.0             0.9   
845242       Male     20    170       65    78.0             0.9   
...           ...    ...    ...      ...     ...             ...   
401810     Female     85    150       40    79.0             0.5   
265604     Female     85    155       55

Die Spalten wurden auf Deutsch übersetzt und umbenannt.

Zudem wurde das Dataset nach dem Alter der Probanden aufsteigend sortiert. 

#### Löschen Sie mindestens eine Spalte

In [35]:
# Spalte löschen:

    # Löschen der Spalte "Body-Mass-Index":

dataset.drop('Body-Mass-Index', axis=1, inplace=True)

dataset.head()

Unnamed: 0,Geschlecht,Alter,Größe,Gewicht,Taille,Sehkraft_links,Sehkraft_rechts,Hörkraft_links,Hörkraft_rechts,Systolischer Blutdruck,...,LDL_Cholesterin,Triglycerid,Hämoglobin,Urin_Proteine,Serum_Kreatinin,SGOT_AST,SGOT_ALT,gamma_GTP,Raucher_Status,Trinker
611351,Male,20,180,65,72.0,1.5,1.5,1.0,1.0,110.0,...,80.0,60.0,13.9,1.0,1.1,22.0,19.0,14.0,1.0,Y
513844,Male,20,175,65,75.0,0.8,0.8,1.0,1.0,153.0,...,93.0,2527.0,18.3,3.0,0.9,16.0,13.0,37.0,1.0,Y
356547,Male,20,170,65,77.0,0.9,0.9,1.0,1.0,129.0,...,71.0,59.0,15.0,1.0,0.9,19.0,12.0,11.0,1.0,N
665411,Female,20,155,45,69.0,0.9,1.0,1.0,1.0,111.0,...,70.0,35.0,13.9,1.0,0.7,17.0,6.0,14.0,1.0,N
845242,Male,20,170,65,78.0,0.9,1.5,1.0,1.0,108.0,...,130.0,37.0,16.2,1.0,1.0,21.0,16.0,17.0,1.0,N


#### Verwenden Sie mindestens eine Funktion aus dem `str`-Accessor

In [36]:
# Funktion aus dem str-Accessor (Harmonisierung der Trinker-Spalte):

dataset["Trinker"] = dataset["Trinker"].str.replace('Y', '1').str.replace('N', '0')

In der Spalte Trinker wurden die ursprünglichen Ausprägungen "Y" und "N" zu "1" und "0" umgewandelt.

#### Speichern Sie Ihr pandas DataFrame in eine Datei

In [37]:
# Dataset in CSV speichern:

# dataset.to_csv("smoking_driking_dataset_Ver02.csv")