# 6. Klassifikation
## Anforderungen an Projektumsetzung: Klassifikation

---
**AUFGABE:**

- Definieren Sie für Ihren Datensatz ein oder mehrere Ziele, die Sie mit Hilfe von Dimensionsreduktion der Daten erreichen wollen.
- Führen Sie mit dem Algorithmus Ihrer Wahl eine Dimensionsreduktion auf Ihren Daten durch.
- Setzen Sie ggf. die Parameter des Algorithmus zur Dimensionsreduktion mit Hilfe einer Pipeline.
- Beschreiben Sie Ihre Ergebnisse. Haben Sie Ihr(e) Ziel(e) erreicht?

----
**Ziele**
1. Verstehen, was die wichtigen Features in unserem Datensatz sind und eine intuitivere Darstellung der Daten ermöglichen. 
2. Aufgrund der vielen Datensätze entstehen hohe Rechenkapazitäten. Daher sollen die Trainings- und Testzeiten verkürzt werden, unter der Verwendung von weniger (aber gleichermaßen aussagekräftige) Features.

**Diese Ziele sollen mit Hilfe von dem PCA-Algorithmus erreicht werden**
-  je höher die Varianz desto aussagekräftiger das Feature

In [1]:
# Imports
from sklearn import datasets, svm, metrics
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import VarianceThreshold
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from sklearn.preprocessing import LabelEncoder
from sklearn.naive_bayes import GaussianNB

import pandas as pd

In [2]:
apps = pd.read_csv("Daten/Google-Playstore_Edit2.csv")

In [3]:
# alle Kategorien löschen, die für uns als Unternehmen irrelevant und für eine Entwicklung ausgeschlossen sind
less_apps = apps[apps['Category'] == 'Action'] + apps[apps['Category'] == 'Arcade'] + apps[apps['Category'] == 'Beauty'] + apps[apps['Category'] == 'Casino'] + apps[apps['Category'] == 'Comics'] + apps[apps['Category'] == 'Dating'] + apps[apps['Category'] == 'Educational'] + apps[apps['Category'] == 'Puzzle'] + apps[apps['Category'] == 'Racing'] + apps[apps['Category'] == 'Role Playing'] + apps[apps['Category'] == 'Shopping'] + apps[apps['Category'] == 'Trivia'] + apps[apps['Category'] == 'Video Players & Editors'] 
            
apps.drop(less_apps.index, axis=0, inplace=True)            

In [22]:
apps.groupby('Category')['Category'].count()

Category
Adventure             23196
Art & Design          18538
Auto & Vehicles       18278
Board                 10588
Books & Reference    116726
Business             143761
Card                   8179
Casual                50797
Communication         48159
Education            241075
Entertainment        138268
Events                12839
Finance               65456
Food & Drink          73920
Health & Fitness      83501
House & Home          14369
Libraries & Demo       5196
Lifestyle            118324
Maps & Navigation     26722
Medical               32063
Music                  4202
Music & Audio        154898
News & Magazines      42804
Parenting              3810
Personalization       89210
Photography           35552
Productivity          79686
Simulation            23276
Social                44729
Sports                47478
Strategy               8525
Tools                143976
Travel & Local        67282
Weather                7245
Word                   8630
Name: Categ

In [5]:
# Datensatz random auf die Hälfte reduzieren und neues DataFrame erstellen
half_apps = apps.sample(frac = 0.5)

In [6]:
# Alle Spalten mit Unique-Werten werden gedropped - zu viel Rechenkapa notwendig
half_apps.drop(columns=['App Name', 'App Id', 'Developer Id', 'Developer Website','Minimum Android', 'Developer Email', 'Privacy Policy', 'Released', 'Scraped Time', 'Last Updated'], inplace=True)

In [7]:
half_apps['Free']             = half_apps['Free'].astype(float)
half_apps['Ad Supported']     = half_apps['Ad Supported'].astype(float)
half_apps['Editors Choice']   = half_apps['Editors Choice'].astype(float)
half_apps['In App Purchases'] = half_apps['In App Purchases'].astype(float)
half_apps['Maximum Installs'] = half_apps['Maximum Installs'].astype(float)

In [8]:
# Daten aufbereiten und in Test- und Trainingsdaten aufteilen
half_apps = half_apps.dropna()
half_apps.select_dtypes(include=['object'])

Unnamed: 0,Category,Installs,Currency,Content Rating
1828629,Business,50+,USD,Everyone
556384,Personalization,"1,000+",USD,Everyone
1906645,Food & Drink,500+,USD,Everyone
2256821,Education,"1,000+",USD,Everyone
636650,Education,"10,000+",USD,Everyone
...,...,...,...,...
1293925,Health & Fitness,500+,USD,Everyone
1710084,Entertainment,5+,USD,Everyone
1557269,Education,10+,USD,Everyone
646618,Books & Reference,"1,000,000+",USD,Everyone


In [9]:
numerical_cols = list(half_apps.select_dtypes(include="float").columns)
categorical_cols = list(half_apps.select_dtypes(include="object").columns)

In [10]:
categorical_cols.remove("Category")
categorical_cols

['Installs', 'Currency', 'Content Rating']

In [11]:
X_dumm = pd.get_dummies(half_apps[categorical_cols])

In [12]:
X = pd.concat([half_apps[numerical_cols], X_dumm], axis = 1)

In [13]:
X.describe()

Unnamed: 0,Rating,Rating Count,Minimum Installs,Maximum Installs,Free,Price,Size,Ad Supported,In App Purchases,Editors Choice,...,Currency_TRY,Currency_USD,Currency_XXX,Currency_ZAR,Content Rating_Adults only 18+,Content Rating_Everyone,Content Rating_Everyone 10+,Content Rating_Mature 17+,Content Rating_Teen,Content Rating_Unrated
count,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,...,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0,975062.0
mean,2.176171,2098.112,152428.9,261249.7,0.980104,0.106926,17.84293,0.49151,0.072356,0.00026,...,1e-06,0.999493,0.000497,1e-06,6.1e-05,0.880758,0.012212,0.023617,0.083287,6.6e-05
std,2.109138,130422.4,12688820.0,19751910.0,0.139644,2.499025,23.431934,0.499928,0.259077,0.016138,...,0.001013,0.022503,0.022297,0.001013,0.007779,0.324073,0.109829,0.151853,0.276316,0.008101
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,50.0,88.0,1.0,0.0,4.5,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
50%,2.8,6.0,500.0,706.0,1.0,0.0,9.2,0.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
75%,4.3,39.0,5000.0,7097.0,1.0,0.0,22.0,1.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
max,5.0,78563230.0,5000000000.0,9034405000.0,1.0,399.99,1020.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


In [14]:
y = half_apps['Category'] #.copy()
print(f"X und y haben gleiche Anzahl: {X.shape[0] == y.shape[0]}")

# Wenn die Daten noch (weiter) aufgeteilt werden müssen, geht das am besten mit der 
# Methode sklearn.model_selection.train_test_split
# Sie liefert Features und Zielklassen für test und train zurück und lässt sich umfassend parametrisieren.

# Wir können also noch Entwicklungsdaten erzeugen, die 20% (test_size=0.2) der Trainingsdaten umfassen und alle vier Zielklassen 
# gleichermaßen berücksichtigen (stratifizieren, stratify=target_train):

# X_train, X_test, y_train, y_test = train_test_split(X_concat, target_dataset, test_size=0.2, random_state=42, stratify=target_dataset)

X und y haben gleiche Anzahl: True


In [15]:
label_encoder = LabelEncoder()

In [16]:
y = label_encoder.fit_transform(y) # macht alles zu 0, 1, 2,3 ...

In [17]:
X_train, X_test1, y_train, y_test1 = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Testdaten in Entwicklung und echten Test aufteilen (50-50, stratifiziert)
X_dev, X_test, y_dev, y_test = train_test_split(X_test1, y_test1, test_size=0.5, stratify=y_test1, random_state=42)

In [18]:
# Klassifizierer vorbereiten: Support Vector Machine 
svm_classifier = svm.SVC()

# Auf den Trainingsdaten lernen
svm_classifier.fit(X_train[:5000], y_train[:5000])

# Vorhersagen für die Testdaten machen und berichten
predicted = svm_classifier.predict(X_dev)

print(f"Classification report for classifier {svm_classifier}:\n"
      f"{metrics.classification_report(y_dev, predicted)}\n")

Classification report for classifier SVC():
              precision    recall  f1-score   support

           0       0.00      0.00      0.00      1142
           1       0.00      0.00      0.00       924
           2       0.00      0.00      0.00       856
           3       0.00      0.00      0.00       514
           4       0.00      0.00      0.00      5775
           5       0.00      0.00      0.00      6836
           6       0.00      0.00      0.00       398
           7       0.07      0.02      0.03      2439
           8       0.00      0.00      0.00      2297
           9       0.12      1.00      0.22     11821
          10       0.00      0.00      0.00      6761
          11       0.00      0.00      0.00       623
          12       0.00      0.00      0.00      3107
          13       0.00      0.00      0.00      3532
          14       0.01      0.00      0.00      4039
          15       0.00      0.00      0.00       688
          16       0.00      0.00    

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [19]:
# Klassifizierer vorbereiten: Gaussian Naive Bayes 
g_classifier = GaussianNB()

# Auf den Trainingsdaten lernen
g_classifier.fit(X_train[:5000], y_train[:5000])

# Vorhersagen für die Testdaten machen und berichten
predicted = g_classifier.predict(X_dev)

print(f"Classification report for classifier {g_classifier}:\n"
      f"{metrics.classification_report(y_dev, predicted)}\n")

Classification report for classifier GaussianNB():
              precision    recall  f1-score   support

           0       0.00      0.00      0.00      1142
           1       0.00      0.00      0.00       924
           2       0.00      0.00      0.00       856
           3       0.00      0.00      0.00       514
           4       0.09      0.00      0.00      5775
           5       0.02      0.02      0.02      6836
           6       0.00      0.00      0.00       398
           7       0.04      0.00      0.00      2439
           8       0.00      0.00      0.00      2297
           9       0.10      0.03      0.04     11821
          10       0.09      0.00      0.00      6761
          11       0.01      0.94      0.02       623
          12       0.00      0.00      0.00      3107
          13       0.00      0.00      0.00      3532
          14       0.03      0.00      0.00      4039
          15       0.00      0.00      0.00       688
          16       0.00      0

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


In [20]:
# PCA initialisieren; die Lösung soll mindestens 90% der Varianz in den Daten bewahren
dim_reduction = PCA(n_components=0.90)

# Klassifizierer wählen
svm_classifier = svm.SVC()

# Pipeline erstellen

pipeline = Pipeline([('dim_reduction', dim_reduction), ('classifier', svm_classifier)])

pipeline.fit(X_train[:5000], y_train[:5000])
# 2000 --> [0.96524248]
# 500 --> [0.98506484]

# Ausgeben, wie viel Varianz die einzelnen Hauptkomponenten erklären.
print(dim_reduction.explained_variance_ratio_)

[0.97686339]


----
- aus 46 Feautures haben wir eine Hauptkomponente mit einer Varianz von 0.97
- d.h. wir sparen 45 (46-1) Dimensionen ein und mit bereits einer Huaptkomponente wird die gewünschte Mindestvarianz erreicht
    - Die Dimensionalität eines Datensatzes ist durch die Anzahl der vorliegenden Features gegeben.
----

In [21]:
# Vorhersagen für die Testdaten machen und berichten
predicted = pipeline.predict(X_dev)

print(f"Classification report for VarianceThreshold dimensionality reduction:\n"
      f"{metrics.classification_report(y_dev, predicted)}\n")

Classification report for VarianceThreshold dimensionality reduction:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00      1142
           1       0.00      0.00      0.00       924
           2       0.00      0.00      0.00       856
           3       0.00      0.00      0.00       514
           4       0.00      0.00      0.00      5775
           5       0.00      0.00      0.00      6836
           6       0.00      0.00      0.00       398
           7       0.07      0.02      0.04      2439
           8       0.00      0.00      0.00      2297
           9       0.12      1.00      0.22     11821
          10       0.00      0.00      0.00      6761
          11       0.00      0.00      0.00       623
          12       0.00      0.00      0.00      3107
          13       0.00      0.00      0.00      3532
          14       0.01      0.00      0.00      4039
          15       0.00      0.00      0.00       688
          1

  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


----
- Beschreiben Sie Ihre Ergebnisse. Haben Sie Ihr(e) Ziel(e) erreicht?

**Recap Ziele**
1. Verstehen, was die wichtigen Features in unserem Datensatz sind und eine intuitivere Darstellung der Daten ermöglichen. 
2. Aufgrund der vielen Datensätze entstehen hohe Rechenkapazitäten. Daher sollen die Trainings- und Testzeiten verkürzt werden, unter der Verwendung von weniger (aber gleichermaßen aussagekräftige) Features.
-----
1. Nein, da es bei eine Hauptkomponente keinen wirklichen Aufschluss darüber gibt, wie die Varianz der Daten verteilt ist und welche Features gemeinsam variieren. Des Weiteren werden bei einer Datentransformation mit PCA nicht mehr unsere Ursprungsfeatures verwendet, sodass wir nicht die Eigenschaft des Feautres bzw. Hauptkomponente kennen/wissen. 
2. Durch die Dimensionalitätsreduktion wurde tatsächlich die Trainings- und Testzeiten verkürzt im Vergleich zur 'normalen/einfachen' Klassifikation (Feature-Selektion und SVC)
--> Dennoch fällt die Vorhersage auf diese Testdaten schlechter aus, als auf die Vorhersage auf der Testdaten bei der einfachen Klassifikation

***Bei dieser Übung sind 19 Daten weniger ausgewertet worden, als bei der KLassifikation? (Bereits schon vor der Dimensionalitätsreduktion)***